안녕하세요!
오늘은 첫 브라이틱스 개인 프로젝트를 시작해보려 합니다.
지난번에 설명했듯이
저는 Instacart라는 배달 회사의 Market Basket Analysis을 할 거예요.
저는 먼저 데이터에 대한 이해를 하기 위해
EDA를 진행했어요 ~0~
아직 개인 프로젝트 주제에 대해 모르신다면
아래 링크를 클릭해 주세요!
https://blog.naver.com/hasong0131/222490716622
EDA #1 - 데이터 구분하기
우선 이건 여태까지 한 Workflow입니다
늘 느끼는 거지만 Function 옆에 제목도 같이 적어주는 게
나중에 진짜 큰 도움이 되는 것 같아요
특히 이번 프로젝트는 사용할 데이터가 6개나 있어서
제목 입력 안 하면 Load 함수만 6개 있을 뻔 ㄷㄷ..
일단 제공된 6개 파일 중 3개는 데이터 모델링에 직접적으로 필요한 것
나머지 3개는 나중에 이해를 돕기 위한 데이터에요.
맨 위에 있는 세 개의 데이터 Orders Prior, Orders, Orders Train는
Order_id, Product_id, Order_number 등
고객 행동과 관련된 데이터에요.
밑에 있는 세 개의 데이터 Aisle, Products Name, Department는
상품 이름과 속한 통로 와 department에 관한 정보가 들어있어요.
모델링에 필요 없는 데이터
일단 Aisle, Products Name, Department 데이터는 지금 당장 필요 없을 거 같아서
Join 함수로 합쳐둔 상태에요.
우선 Products Name 데이터를 보자면
Product_id, product_name, aisle_id, department_id가 있고
Aisle 데이터를 보자면
aisle_id와 aisle이 있어요
그리고 Department 데이터는
department_id 와 department가 있습니다.
Products Name 과 Aisle 데이터의
공통점은 aisle_id가 겹친다는 점
그리고 Products Name과 Departments 데이터의
공통점은 department_id가 겹칩니다.
그래서 저는 브라이틱스의 'Join'함수로 세 개의 파일을 하나로 합쳐주었습니다.
우선 Products Name 과 Aisle 을 합쳤고,
Join Type 은 'inner join',
left 와 right keys는 겹치는 칼럼을 셀렉해줬습니다.
그다음은 방금 합친 Aisle & Products Name 파일과 Department를
또 합쳐주었고,
똑같이 'Join' 함수를 사용하였습니다.
그다음은 'Select Column'으로 중복되는 칼럼을 지워줬어요.
아 그리고 'Select Column'에서는
칼럼의 순서를 바꿀 수 있어요!!
저는 제가 보기 편한 순서대로 바꿔주었습니다.
마지막으로 'Statistic Summary' 함수를 이용해
어떤 종류의 상품이 가장 많이 진열되어 있는지 알아보았습니다.
aisle은 100번, department는 11번이 가장 많이 있네요
근데 aisle의 100번은 missing 카테고리라고 뜨는데 ^_^
이건 그냥 others 카테고리라고 보면 될 것 같아요
근데 진짜 상품 이름 보니까
이것저것 잡다한 상품들은 다 missing에 들어가 있네요
상품들 궁금해서 찾아보니까
이런 것들이네요
갑자기 생각나는 게
맨 왼쪽에 있는 요거트 미국에서 자주 먹었던 건데,,
근데 비요뜨가 더 맛있는듯,,