데싸 Data Science/데이터분석(DataAnalysis)

데이터 분석 준비 (1) 현실적인 데이터분석 단계별 목적

혀니쌤1 2023. 12. 23. 15:29

데이터 분석 단계별 목적 이해 하기

우리가 **데이터 분석 준비 하기**에서 제일 먼저 알아야하는 것은 데이터 분석을 할 때 필요한 것이 무엇인지 아는 것부터다. 하나 하나 꼼꼼하게. 왜냐면, 잘 모르고 시작하면, 데이터 분석에 필요한 것들은 굉장히 많고, 도대체 어느것을 얼마나 어디까지 배워야하는지 몰라 이것 저것 하나 하나 다 배우려 하다 끝이 안날 수도 있기 때문이다.

 

그렇기 때문에 이번 글에서는 아래 3가지에 대해서 다루겠다.

  • 분석 사이클에 대하여
  • 각 단계마다 어떠한 용어들이 쓰이는지?
  • 그리고 결과를 어떻게 해석해야하는지?

데이터 분석 사이클 5단계 (이상적인)

미리 말하지만 아래는 아주 이상적인 데이터 분석 과제 흐름이다.

  1. 데이터수집: 소스별 데이터 추출 및 저장(Loading)
  2. 데이터전처리: 기초통계(Descriptive Statistics) + 붙이기(Curation) + 없애기(Remove) + 채우기(Fill) + 필터(Filter) + 변경하기(Transform)
  3. 데이터정리: 데이터한곳에담기(Data Warehouse) + 바꾸기및정리(Data Mart) + 분리(Data Split)
  4. 데이터분석: 기초통계(Descriptive Statistics) + 모델링(Algorithm) + 검증(Evaluation) + 에러분석(Error Analysis)
  5. 결과정리: 시각화(Visualization/Dashboard) + 의사결정(Decision Support) + 지식화(Knowledge) + 공유(Reporting)

 

하지만 이것은 이상적인 사이클일 뿐이다.... 쥬륵 😅

현실적으로 저런식으로 5단계로 착착착착착 예쁘게 데이터가 흘러가지 않는다. 
데이터 부터가 잘 저장되어있지도 않기 때문이다.

절.대.로.

특정한 도구로 인해서 정리가 금방 되고. 만능 알고리즘에 의해서 클러스터링이 금세 되고 규명이 되고. 예쁜 툴을 사용하여 근사하게 UI로 보여지고 하는게 아니다.


데이터 분석의 현실

현실에선 아니다.

마치 뱀과사다리 말판 게임에서 뱀을 타고 내려가듯이. 자꾸만 뒷 단계로 돌아갈 수 있다.

데이터가 저기 인턴들에 인해서 이제야 막 쌓이고 있을 수도 있고.  아예 없을 수도 있다.

문제(목적)도 정의되어있지 않는 것이 현실이다.

 

현실은 대충 이러하다.

데이터 전처리 과정에서, 컬럼이 부족해 다시 빠꾸
전처리 하고 알고리즘을 돌리려고 봤더니, 데이터랑 잘 안맞아 다시 빠꾸

컴퓨테이션 메모리가 모자르거나, 클라우드에 올릴 수 없거나 해서 다시 빠꾸
법적인 이슈로 기껏 준비한 데이터를 입출력 할 수 없어서 빠꾸
회사에서는 이렇게 이 사이클을 한 번 도는게 성공하는 케이스의 경우가 약 10개 중 2-3개 정도다.
(학교 과제에서나 1주일내 도는 수준).

 

데이터 분석 3단계 (현실적인)

"데이터분석 설계(1단계)"는 "모델링(2단계)"보다 훨씬 중요합니다.
그리고 "분석종료(3단계)"는 또다른 새로운 시작입니다"

 

위에 보이는 그림은 데이터 분석을 좀 더 현실적으로 나타낸 3 단계이다.

1단계 : 문제 정의

퇴사할 사람을 찾아라. 라고 인사팀이 과제를 주었다고 하자.
이때 우리는 컴퓨터를 열고 바로 딥러닝을 돌리는게 아니다. 문제가 뭔지도 모르게 때문이다.
현실적인 관점에서 어떻게 문제(질문)을 풀어나갈지 부터가 고민해봐야 하며, 이 때 많은 커뮤니케이션과 기획 평가가 동반되어야 한다.

 

퇴사할 사람은 왜찾죠? 퇴사할 사람의 정의가 뭐죠? 퇴사할 뻔한 사람은요?
만약 질문이 너무 난해하다면, 퇴사할 사람을 찾는 것보단 회사에 불만이 있는 사람으로 문제를 살짝 바꿔볼 수 도 있다.

현실에선 질문을 구체화하고 재정의하는데만 수 개월이 걸릴 수 있다.

1단계가 매우 중요한게, 나중가서 문제가 바뀌면 쓰여야하는 데이터/알고리즘을 다 바꿔야 한다.

예: 퇴사할 사람은 됐구, 입사할 사람 찾아봐.

2단계 : 생각

그렇게 질문을 회사에 불만이 있는 사람으로 재정의 했다면 2단계로 넘어간다.

회사에 불만이 있는 사람의 패턴을 알아내보는 것이다.

회사 욕을 많이 하기.  지각하기.  화장실 너무 자주가며 자리 비우기 등등. 여러 시그널을 보며 x로써 어떤 데이터를 쓸 지 알아내보자.
이 때도 여러 가지를 고민해 봐야 한다. 회사의 불만 정도를 0,1 binary로 구분할 것인지. 만약, 0~100까지로 나눈다면, 몇 점을 불만이 있다는 기준으로 판단할 것인지? 각 경우에 따라 쓰이는 알고리즘이 달라진다.


그렇게 해서 사람들을 분석해서 각 직원들마다 불만의 정도가 나왔다고 하자.

이제야 겨우 2단계를 끝내놓은 것이다. 데이터 분석이 완료된 것이 아니다. 우리는 3단계가 남아있다.

사실 2단계만 끝내놓은 것은 데이터 분석이 아니다. 막말로 그냥 예제 (캐글문제) 하나를 푼 것이다.

(사실 2단계는 전체 3단계중에 80%의 비중을 차지할 만큼 시간 소요가 많다.)

3단계 : 검증과 평가 그리고 업데이트

따라서 단순히 회사에 있는 데이터를 다 가져다가 문자는 문자대로 숫자는 숫자대로 막 정리한 후에 가장 그럴듯해 보이는 알고리즘을 던져서 Y가 나오면 야 끝났다... 라고 하는 것은 현실에서는 불가능하다.

2단계를 아무리 잘 해놓더라도, 3단계가 없다면 우리의 분석 결과는 쓰이지 못한다.

 

 

 

현실세계에서의 데이터분석 질문 예시

요구사항 질문 예시 "아이폰 고객은 왜 갤럭시 고객보다 충성도가 높은지 분석해봐~" 라고 질문을 다 듣기도/이해하기도/생각하기도 전에 프로젝트가 시작됩니다 "AI를 활용해서 생산공정의 이

mylittlenotepad.tistory.com

 

패스트 캠퍼스 김경원 강사님의 강의를 참고하여 정리한 노트입니다.