본문 바로가기

카테고리 없음

[삼성 SDS Brightics] # 14 브라이틱스로 캐글대회 나가기 (feat. Market Basket Analysis)

 

 

 

안녕하세요!

오늘은 첫 브라이틱스 개인 프로젝트를 시작해보려 합니다.

지난번에 설명했듯이

저는 Instacart라는 배달 회사의 Market Basket Analysis을 할 거예요.

저는 먼저 데이터에 대한 이해를 하기 위해

EDA를 진행했어요 ~0~

아직 개인 프로젝트 주제에 대해 모르신다면

아래 링크를 클릭해 주세요!

https://blog.naver.com/hasong0131/222490716622

 

EDA #1 - 데이터 구분하기

우선 이건 여태까지 한 Workflow입니다

 

 

늘 느끼는 거지만 Function 옆에 제목도 같이 적어주는 게

나중에 진짜 큰 도움이 되는 것 같아요

특히 이번 프로젝트는 사용할 데이터가 6개나 있어서

제목 입력 안 하면 Load 함수만 6개 있을 뻔 ㄷㄷ..

 

일단 제공된 6개 파일 중 3개는 데이터 모델링에 직접적으로 필요한 것

나머지 3개는 나중에 이해를 돕기 위한 데이터에요.

 

맨 위에 있는 세 개의 데이터 Orders Prior, Orders, Orders Train는

Order_id, Product_id, Order_number 등

고객 행동과 관련된 데이터에요.

 

밑에 있는 세 개의 데이터 Aisle, Products Name, Department는

상품 이름과 속한 통로 와 department에 관한 정보가 들어있어요.

 

모델링에 필요 없는 데이터

 

일단 Aisle, Products Name, Department 데이터는 지금 당장 필요 없을 거 같아서

Join 함수로 합쳐둔 상태에요.

 

우선 Products Name 데이터를 보자면

Product_id, product_name, aisle_id, department_id가 있고

 

 

Aisle 데이터를 보자면

aisle_id와 aisle이 있어요

 

그리고 Department 데이터는

department_id 와 department가 있습니다.

 

Products Name 과 Aisle 데이터의

공통점은 aisle_id가 겹친다는 점

그리고 Products Name과 Departments 데이터의

공통점은 department_id가 겹칩니다.

 

그래서 저는 브라이틱스의 'Join'함수로 세 개의 파일을 하나로 합쳐주었습니다.

 

우선 Products Name 과 Aisle 을 합쳤고,

Join Type 은 'inner join',

left 와 right keys는 겹치는 칼럼을 셀렉해줬습니다.

 

그다음은 방금 합친 Aisle & Products Name 파일과 Department를

또 합쳐주었고,

똑같이 'Join' 함수를 사용하였습니다.

 

 

그다음은 'Select Column'으로 중복되는 칼럼을 지워줬어요.

 

아 그리고 'Select Column'에서는

칼럼의 순서를 바꿀 수 있어요!!

저는 제가 보기 편한 순서대로 바꿔주었습니다.

마지막으로 'Statistic Summary' 함수를 이용해

어떤 종류의 상품이 가장 많이 진열되어 있는지 알아보았습니다.

 

aisle은 100번, department는 11번이 가장 많이 있네요

 

근데 aisle의 100번은 missing 카테고리라고 뜨는데 ^_^

이건 그냥 others 카테고리라고 보면 될 것 같아요

 

근데 진짜 상품 이름 보니까

이것저것 잡다한 상품들은 다 missing에 들어가 있네요

 

상품들 궁금해서 찾아보니까

이런 것들이네요

 

product id 2968 Honey That's Nuts (요거트)

 

product id 2375 (Three Pizza Cheese Pocket)

 

갑자기 생각나는 게

맨 왼쪽에 있는 요거트 미국에서 자주 먹었던 건데,,

근데 비요뜨가 더 맛있는듯,,

 

Department 중 가장 많은 것은 11번

 

와중에 페퍼민트 컨디셔너 뭐지..

 

Department 는 Personal Care, Aisle 은 Hair Care 라 뜨는데

상품이름 보니까 Shampoo, Conditioner, 등등 맞네용

 

'Statistics Summary'를 통해

헤어제품과 정체불명의 군것질거리가

Instacart에 있는 상품의 가장 많은 종류라고 알 수 있었습니다!

 

이렇게 모델링에 필요 없는 데이터는 일단 끝났네요

모델링에 필요한 데이터는 따로 쓸게요!

블로그가 긴 것보다 짧은 게 읽기 편할 것 같아서,,

 

여기 클릭하면 볼 수 있습니당!

 


 

 

 

[본 포스팅은 Brightics 서포터즈로서 직접 체험하고 작성한 리뷰입니다.]