[삼성 SDS Brightics #9-1 브라이틱스로 Kaggle 데이터 분석하기 - 팀분석프로젝트편]

안녕하세요~
9주차 미션은 대망의 팀 분석 프로젝트입니다!
kaggle 에 있는 데이터셋을 활용하여 brightics로 분석하는게 미션인데요,
저희는 이 아래 링크에 있는 데이터셋으로 진행하기로 했답니다.
https://www.kaggle.com/c/predicting-red-hat-business-value


프로젝트 목적
레드햇은 기업용 / 엔터프라이즈
오픈소스 기술을 개발하는 기업이고
대표 제품으로는
Red Hat Enterprise Linux, RHEL이 있습니다.
여기서 기업용 오픈소스란,
이미 공개된 오픈소스 기술에
추가 기능을 더한 것을 말합니다.
공개된 기술이 있음에도 불구하고
기업용 오픈소스를 사용하는 이유는
더 편하고 안전하게
기술을 가져다 쓰고 싶기 때문입니다.
아무도 오픈소스로 돈을 벌지 못할거라고
생각하던 때!
기업용 오픈소스를 만들면서
레드햇은 가장큰 오픈소스 플랫폼 비즈니스중 하나가 되었습니다.
하지만 레드햇은 다른 기업에 비해
수입이 적다고 하는데요,
이때문에 기업을 스케일링 시키는데 어려움이 있었다고 해요.
이런것 때문에 캐글 대회를 열지 않았나 싶네요,,
아무튼...
저희가 선정한 이 프로젝트는
5년전 상금이 걸린 대회였는데요
(5년전에할걸..ㅋㅋㅋㅋ)
레드햇은 이 대회를 통해
고객의 행동에 대한 정보를 참가자에게 제공하고
참가자는 이를 통해 레드햇의
어떤 고객이 잠재적 사업 가치가 있는지
파악할 수 있는 분류 알고리즘을 만드는것입니다.
이 예측 모델을 통해 레드햇은
효율적인 비즈니스 시스템을 구축하고
고객에게 더 나은 서비스를 제공할 수 있습니다.

프로젝트 개요
주제:
고객 행동 데이터를 바탕으로
레드햇 사용자의 비즈니스 가치 예측하기입니다.
분석 기법:
Brightics의 Classification 알고리즘을 바탕으로
Business Value 가 있는 고객 (1), 없는 고객(0)으로 분류하고
AUC를 측정하여 모델을 평가할 예정입니다.
평가 방법 : 저희는 Decision Tree, Logistic Regression, Random Forest 등
다양한 알고리즘을 사용해보고 점수가 가장 높은 모델의
AUC 점수를 비교해서 가장 좋은 모델을 고를 예정입니다.

이미 5년전에 끝난 대회이긴 하지만
제출해서 점수를 받을 수 있기에
저희도 그렇게 해볼 예정입니다 ㅎㅎ

프로젝트 일정 / 영상촬영
분석 프로젝트긴 하지만,
분석하는 모습도 영상으로 찍어야합니다!
일단 저희는 분석을 먼저 끝내는걸
목적으로 하고
틈틈히 각자 집에서 분석하는모습을 찍어둔뒤
마지막에 편집을 할 계획입니다 ㅎㅎ

사진 삭제
사진 설명을 입력하세요.
아직까지는 데이터셋을 이해하느라
분석을 많이 못했는데
다음주에는 분석하는 모습도 가져와볼게요!
Brightics 로 Kaggle 대회 참여한
블로그가 보고싶다면
아래 링크를 클릭해주세요!
https://blog.naver.com/hasong0131/222413008965

[본 포스팅은 Brightics 서포터즈로서 직접 체험하고 작성한 리뷰입니다.]