분류 전체보기 (27) 썸네일형 리스트형 [삼성 SDS Brightics] # 14-2 브라이틱스로 캐글경진대회 나가기 (feat. Market Basket Analysis) https://blog.naver.com/hasong0131/222498616172 14-1 에 이어서 긴말없이 바로 이어나가도록 하겠습니당! 모델링에 지금 당장 필요한 데이터 모델링하면서 가장 필요한 데이터 세개 먼저 Orders Prior 데이터입니다. add_to_cart_order는 고객이 몇번째로 담은 상품인지 알려주는 칼럼입니다. 예를들어 add_to_cart_order가 7이면 7번째로 담은 상품입니다. reordered는 상품 재구매 여부를 알려주는 칼럼입니다. 예를들어 reordered 가 0이면 처음사는 상품, 1이면 전에 한번 샀던 상품이 됩니당 그다음은 Orders 데이터입니다. order_dow: day of week 줄인말 (1이면 월요일) order_hour_of_day: 몇시.. [삼성 SDS Brightics] # 14 브라이틱스로 캐글대회 나가기 (feat. Market Basket Analysis) 안녕하세요! 오늘은 첫 브라이틱스 개인 프로젝트를 시작해보려 합니다. 지난번에 설명했듯이 저는 Instacart라는 배달 회사의 Market Basket Analysis을 할 거예요. 저는 먼저 데이터에 대한 이해를 하기 위해 EDA를 진행했어요 ~0~ 아직 개인 프로젝트 주제에 대해 모르신다면 아래 링크를 클릭해 주세요! https://blog.naver.com/hasong0131/222490716622 EDA #1 - 데이터 구분하기 우선 이건 여태까지 한 Workflow입니다 늘 느끼는 거지만 Function 옆에 제목도 같이 적어주는 게 나중에 진짜 큰 도움이 되는 것 같아요 특히 이번 프로젝트는 사용할 데이터가 6개나 있어서 제목 입력 안 하면 Load 함수만 6개 있을 뻔 ㄷㄷ.. 일단 제공된.. [삼성 SDS Brightics] #13 개인 분석 프로젝트 안녕하세요! 어느덧 팀 분석프로젝트도 끝나고 이번주부터 개인 프로젝트를 시작하게 되었네요 ㅎㅎ 시간 정말 빨리 가는 것 같아요 발대식 하던 때가 엊그제 같은데 ㅠㅠ 이번 개인 분석 프로젝트는 주제선정부터 모델과 리포트까지 혼자하는 프로젝트입니다. 좀 힘들수도 있겠지만 그래도 약 두달간 진행하는 프로젝트라 잘 할 수 있겠죠..? ㅎㅎ 아무튼 제가 선정한 주제는 "Instacart Market Basket Analysis" 이고, Kaggle에 공개된 데이터셋입니다. 개요 Instacart는 식료품 주문 및 배달 어플이며, 고객은 자신과 가까이 있는 식료품점에서 제품을 구매할 수 있습니다. 유사한 국내 어플은 배달의민족 B마트와 쿠팡이츠가 있습니다. 목적 Instacart의 공개된 데이터를 사용해 Mar.. [삼성 SDS Brightics] #12 브라이틱스 스튜디오로 팀플하기 (json 파일) 안녕하세요~ 오늘은 브라이틱스 스튜디오로 쉽게 팀프로젝트 하는방법을 알려드리겠습니다 일단 스튜디오는 공동작업을 할 수 없어요. 하지만 공동작업만큼 빠르게 같이 프로젝트하는 방법이 있는데요, 바로 json 파일로 추출하기입니다. ProDs 자격증 수업듣기전까지 저는 브라이틱스가 json 파일로 내보낼수있는거 몰랐어요 ㅎㅎ..ㅠ 오늘 블로그는 짧게 json 파일로 export/ import하는법 알려드릴게요. 우선 Red Hat Project 를 들어가면 두개의 모델이 있는데요, 오른쪽 red hat 는 저만 작업한 파일이고 왼쪽 EDA_Partial 은 팀원이 같이 작업한 파일입니다. EDA_Partial 모델은 다른팀원이 보내준걸 제가 제 스튜디오 import 한거고, 그 팀원입장에서는 모델을 expor.. [삼성 SDS Brightics] #12 브라이틱스로 Kaggle 데이터 분석하기 - 팀분석프로젝트편 마지막 안녕하세요~ 이번주는 팀프로젝트 마지막주입니다! 저희가 제출해야할것은: 1. 팀프로젝트 모델 (json file) 2. 프로젝트 보고서 PPT 3. 튜토리얼 영상 입니다. 오늘 블로그는 모델의 각 단계별로 어떻게 브라이틱스를 썼는지 알려드리려고 합니다~ 우선 시작하기 앞서, 브라이틱스 스튜디오로 팀 프로젝트 하는방법을 알고싶다면 아래 블로그를 참고해주세요! 1. Data Load 사용된 함수: Load 이건 저희 workflow이고 총 5파트로 구성이됩니다. 우선 Data Load 부분은 Load 함수를 써줬습니다. 캐글에 있던 데이터를 바로 안올리고 python 으로 작업을 한 파일을 csv로 import했어요. 저희가 총 세가지 파일이있는데 1. train 2. test 3. people peop.. [삼성 SDS Brightics #11 브라이틱스로 Kaggle 데이터 분석하기 - 팀분석프로젝트편 2탄] 안녕하세요~ 지난주에 소개한 팀 분석 프로젝트에 이어 오늘은 조금 더 자세한 분석 과정에 대해 소개해 드리려고 합니다~ 2탄을 안 보고 오신 분들은 아래 링크 클릭해주세용! https://blog.naver.com/hasong0131/222464767578 이번 주는 모델링에 필요한 값/변수로 추려보고자 EDA를 해보았습니다. 우선 지난주와 달라진 점은 train.csv와 people.csv를 'Join' 함수를 이용해 합쳤다는 점입니다. 한 개의 파일로 합쳐서 그 뒤에 함수를 넣으면 각 파일별로 함수를 따로 써야 하는 번거로움을 덜 수가 있습니다. 이렇게 두 데이터를 Join 함수에 연결시키면 아래와 같은 화면이 뜹니다. 이렇게 join 을 한다음, 오른쪽에 뜨는 출력부의 그래프를 이용하여 EDA를 진.. [삼성 SDS Brightics #9-1 브라이틱스로 Kaggle 데이터 분석하기 - 팀분석프로젝트편 2탄] 안녕하세요~ 지난주에 소개한 팀 분석 프로젝트에 이어 오늘은 조금 더 자세한 분석 과정에 대해 소개해 드리려고 합니다. 우선 저희 팀의 최종 목적은 다양한 알고리즘을 사용해보고 AUC 점수가 가장 좋은 모델을 고를 예정입니다. 분석하면서 가장 어려웠던 부분은 데이터 자체에 대한 이해, 그리고 데이터 전처리 방법이었어요. 아직 분석이 완성되진 않았지만 저희 팀은 마지막 모델 단계까지 미리 프레임워크를 만들어서 계속 모델을 테스트해보면서 점수를 높일 수 있는 가장 적합한 전처리 방법을 알아보고 있는 단계입니다 ^-^ 오늘 블로그는 분석하는 과정, 브라이틱스에 대해 새로 알게 된 점과 프로젝트 향후계획 에 대해서 적어보려고 해요 1) 시작이 반이다 - 데이터 로드 우선 저희가 사용하는 세 개의 데이.. [삼성 SDS Brightics #9-1 브라이틱스로 Kaggle 데이터 분석하기 - 팀분석프로젝트편] 안녕하세요~ 9주차 미션은 대망의 팀 분석 프로젝트입니다! kaggle 에 있는 데이터셋을 활용하여 brightics로 분석하는게 미션인데요, 저희는 이 아래 링크에 있는 데이터셋으로 진행하기로 했답니다. https://www.kaggle.com/c/predicting-red-hat-business-value 프로젝트 목적 레드햇은 기업용 / 엔터프라이즈 오픈소스 기술을 개발하는 기업이고 대표 제품으로는 Red Hat Enterprise Linux, RHEL이 있습니다. 여기서 기업용 오픈소스란, 이미 공개된 오픈소스 기술에 추가 기능을 더한 것을 말합니다. 공개된 기술이 있음에도 불구하고 기업용 오픈소스를 사용하는 이유는 더 편하고 안전하게 기술을 가져다 쓰고 싶기 때문입니다. 아무도 오픈소스로 돈을 .. 이전 1 2 3 4 다음