목차
웃기지만 슬픈 현실 속 사례들입니다.
현업에서에 쉽게 자주 접할 수 있는 데이터 분석 현실의 상황에 대해 다루어보도록 하겠습니다.
데이터 분석 과제의 단게는 아래처럼
질문이 주어지면, 문제를 정의한 뒤 데이터를 수집하고 그 데이터를 전처리하고 정리하고 분석한뒤, 결과 리포트를 작성하는 수순입니다.
요구사항 질문 예시
"아이폰 고객은 왜 갤럭시 고객보다 충성도가 높은지 분석해봐~"
"AI를 활용해서 생산공정의 이상을 조기 탐지하고 비용을 줄여봐~"
"타겟 마케팅을 하기위해 누구한테 프로모션을 해야하는지 알려줘봐~"
...라고 질문을 다 듣기도/이해하기도/생각하기도 전에 프로젝트가 시작됩니다... ㅠㅠ
문제정의
> 무엇을 분석할지 각자 생각이 모두 다르다(솔직히 아무도 모른다)
> 무엇을 분석할지 모르지만 일단 도구(R? Python? 플랫폼? 아마존? 외주?)부터 마련한다
> 무엇을 분석할지 모르지만 완료일정과 계획이 준비가 되어있다
> 어쨌건 있다고 생각하고 시작한다
> (데이터분석 프로젝트는 이미 착수했다고 보고가 되었다)
데이터수집
> 데이터 PC에 있는줄 알았는데 A4용지에 있어서 누구 시켜서 파일로 바꾼다
> 데이터를 구했는데 빅데이터는 아니고 그냥 엑셀 파일 몇개다
> 데이터 파일을 열었더니 다 빈칸이고 딱봐도 오타 투성이다
> 근데 이 데이터로 충분한지 아무도 모르지만 어쨌건 (있는줄/충분한줄 알았는데) 시작한다
> (빅데이터를 기반으로 한 데이터 수집이 완료가 되었다고 보고가 되었다)
데이터전처리
> 무엇을 분석할지 모르고 데이터는 없지만 전처리에 돌입한다
> 일단 이상해 보이는 데이터를 다 지워본다 (남는게 없다..)
> 임의로 데이터를 채워본다 (어짜피 아무도 모르니까..)
> 할게 많을 줄 알았는데 별로 할게 없음을 깨닿는다
> (데이터가 무결점으로 잘 준비되어 있다고 보고가 되었다)
데이터정리
> (대부분 개인PC로 충분하겠지만) 일단 서버/플랫폼에 데이터를 올린다
> (뭔가 중요한걸 해야할것 같은데..) 서버/플랫폼 사양정도 체크해보며 있는다
> (데이터 플랫폼에 데이터가 이관되고 곧 분석에 착수할거라고 보고가 되었다)
데이터분석
> 무엇을 분석하고 무슨 데이터를 사용해야 되는지 모르지만 분석을 시작한다
> 기초통계는 사람수?클릭수? 등 "횟수(count)"면 충분하다
> 도구(R? Python? 플랫폼? 아마존? 외주?) 활용/쪼아서 제일 최신 알고리즘을 적용해보려 살펴본다
> (뭔가 안되면..) 우선 1차 회귀분석? 상관관계? 어디서 들어본걸 해서 그림부터 그려본다
> (뭔가 중요한 단계인것 같은데..) 더이상 할수 있는게 없음을 깨닿는다
> (분석이 완료되어 인싸이트가 곧 쏟아질 것이라고 보고가 되었다)
결과정리
> 무엇을 분석하고 무슨 데이터를 사용하고 무슨 결과가 있는진 모르겠지만 결과를 정리한다
> (완료일정이 내일이라 퇴사/퇴학이 필요한게 아닌지 잠이 오지 않는다)
> (신기한건 모든 단계는 작동/구현되었고 각 단계 개발자들은 성과를 보고한다)
> (Kaggle과 데이터분석은 다름을 알게된다)
패스트 캠퍼스 김경원 강사님의 강의를 참고하여 정리한 노트입니다.