본문 바로가기

데싸 Data Science/데이터분석(DataAnalysis)8

현실세계에서의 데이터분석 질문 예시 웃기지만 슬픈 현실 속 사례들입니다. 현업에서에 쉽게 자주 접할 수 있는 데이터 분석 현실의 상황에 대해 다루어보도록 하겠습니다. 데이터 분석 과제의 단게는 아래처럼 질문이 주어지면, 문제를 정의한 뒤 데이터를 수집하고 그 데이터를 전처리하고 정리하고 분석한뒤, 결과 리포트를 작성하는 수순입니다. 요구사항 질문 예시 "아이폰 고객은 왜 갤럭시 고객보다 충성도가 높은지 분석해봐~" "AI를 활용해서 생산공정의 이상을 조기 탐지하고 비용을 줄여봐~" "타겟 마케팅을 하기위해 누구한테 프로모션을 해야하는지 알려줘봐~" ...라고 질문을 다 듣기도/이해하기도/생각하기도 전에 프로젝트가 시작됩니다... ㅠㅠ 문제정의 > 무엇을 분석할지 각자 생각이 모두 다르다(솔직히 아무도 모른다) > 무엇을 분석할지 모르지만 .. 2024. 1. 7.
올바른 가설 설정 조건 3가지 (양치기 소년 예시) 분석 과제를 진행할 때, 1단계 문제 정의는 즉 가설을 어떻게 설정하느냐다. 이 1단계가 매우 중요한게, 문제 정의를 어떻게 하느냐에 따라서 필요 데이터나 x, y, f()가 바뀔 수도 있다. (캐글 예제 풀기에서나 1단계가 명확하지, 현실에서는 1단계를 구체화 하는 것도 어려울 수 있다.) 문제 정의가 제대로 되어 있지 않다면 2단계 3단계는 제대로 이행 될 수 없다. 양치기 소년을 예로 들겠다. 초기에 주어진 문제는 다음과 같다. 대립 가설 : 나의 주장(B): 양치기들은 거짓말쟁이다! 귀무 가설 : 대중 주장(A): 양치기들은 거짓말쟁이가 아니다! 위와 같이 애매모호한 가설로는 이후 데이터/통계 분석이 진행되기 힘들다. 보다 제대로 된 문제 정의를 위하여, 올바른 가설 설정을 위한 3가지를 설명하겠.. 2023. 12. 27.
기초 통계 용어 설명 Part 2 (유의확률, 유의수준, p-value, 가설 검정 채택 등) 시계열 분석 알고리즘을 공부하다보니, 가설 검정 및 기초 통계 지식이 탄탄해야하는 것을 느꼈다. 그래서 jargon free language로 공부 내용을 정리하고자 한다. 지난 글에서는 모집단, 표본, 샘플, 중심극한정리를 다루었다. 이번 글에서는 유의확률 및 유의수준 및 가설 검정을 어떻게 결론 짓는지에 대해 다루겠다. 양치기 소년 이야기를 예로 들겠다. 나의주장(B): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다! 대중주장(A): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다! 대립 가설 vs 귀무 가설 가설(Hypothesis)이란 아직 검증되지 않은 것에 대한 답을 찾기 위한 예측 방법, 제한된 증거에 기반한 아이디어 또는 제안을 말한다. 그래서 이미.. 2023. 12. 26.
기초 통계 용어 설명 Part 1 (모집단, 표본, 샘플, 중심극한정리 등) 데이터분석을 배우려면 기초 통계 지식이 아주아주 탄탄해야한다. 평균이란 단어는 누구에게나 익숙하지만 그외 통계 용어는 생소할 수도 있다. 그래서 jargon free language로 공부 내용을 정리하고자 한다. 모집단, 표본, 샘플, 중심극한 정리 부터. 차근 차근 알아가보자. 다음글에서는 유의확률 및 유의수준 및 가설 검정을 어떻게 결론 짓는지에 대해 다루겠다. 양치기 소년 이야기를 예로 들겠다. 나의주장(B): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다! 대중주장(A): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다! 모집단 VS 표본 전체 일부 대상 모집단 표본 특성 모수 통계량 조사 전수조사 표본조사 모집단(Population): 연구(관심) 대상.. 2023. 12. 25.
데이터 분석 준비 (4) 문제 정의, 가설 검정 과정 패스트 캠퍼스 김경원 강사님의 강의를 주로 참고하여 정리한 노트입니다. 복습: 이전 글(현실적인 데이터분석 단계별 목적) 에서 데이터 분석을 위와 같이 3단계로 나누었었다. 1단계: 문제정의 2단계: 해당 문제 풀기 3단계: 평가 및 검증. 실제 많은 데이터 분석 강의에서 진행하는 실습은 대부분 2단계만 다룬다. 이미 명확히 정의된 문제가 주어지며, 무엇을 풀어나가야 할지 지시가 내려진다. (예: 대학과제, 캐글) 하지만 현실세계에서는 1단계 및 3단계가 만만치 않으며, 이것이 제대로 이행이 되어야 2단계의 성과가 날 수 있다는 사실을 잊지 말자. 문제 정의 및 의사 결정을 위한 실험 설정 실험 설정이 왜 필요한가? 대부분의 분석은 "비교(A/B Test)"를 기반으로 하며 (가설 검정도 A/B 테스트를.. 2023. 12. 25.
데이터 분석 준비 (3) 통계적 언어 이해, 데이터의 기초 통계량 (중심/변동/형태/관계 ) 예전글: 데이터 분석 준비 (1) 현실적인 데이터분석 단계별 목적 데이터 분석 단계별 목적 이해 하기 우리가 **데이터 분석 준비 하기**에서 제일 먼저 알아야하는 것은 데이터 분석을 할 때 필요한 것이 무엇인지 아는 것부터다. 하나 하나 꼼꼼하게. 왜냐면, mylittlenotepad.tistory.com 데이터 분석 준비 (2) - 데이터 변수 용어 이해. 데이터의 분류 (횡단면, 시계열, 패널, 질적, 양적 예전 글: 데이터 분석 준비 (1) 현실적인 데이터분석 단계별 목적 데이터 분석 단계별 목적 이해 하기 우리가 **데이터 분석 준비 하기**에서 제일 먼저 알아야하는 것은 데이터 분석을 할 때 필요 mylittlenotepad.tistory.com 데이터의 기초 통계량 (Descriptive S.. 2023. 12. 23.
데이터 분석 준비 (2) 데이터 변수 용어 이해, 데이터의 분류 (횡단면, 시계열, 패널, 질적, 양적 등) 예전 글: 데이터 분석 준비 (1) 현실적인 데이터분석 단계별 목적 데이터 분석 단계별 목적 이해 하기 우리가 **데이터 분석 준비 하기**에서 제일 먼저 알아야하는 것은 데이터 분석을 할 때 필요한 것이 무엇인지 아는 것부터다. 하나 하나 꼼꼼하게. 왜냐면, mylittlenotepad.tistory.com 데이터 의사 결정을 위한 수학/통계적 언어 이해, 데이터의 분류 (횡단면, 시계열, 패널, 질적, 양적 등 데이터 변수 용어) 이해하기. 데이터 관점에 따른 분류 횡단면 데이터 Cross Sectional 시계열 데이터 Time Series 시계열 횡단면 Pooled Cross Sectional 패널 데이터 Panel 정의 특정 시점 + 다수 독립변수 다수 시점 + 특정 독립 변수 다수 시점 + 다.. 2023. 12. 23.
데이터 분석 준비 (1) 현실적인 데이터분석 단계별 목적 데이터 분석 단계별 목적 이해 하기 우리가 **데이터 분석 준비 하기**에서 제일 먼저 알아야하는 것은 데이터 분석을 할 때 필요한 것이 무엇인지 아는 것부터다. 하나 하나 꼼꼼하게. 왜냐면, 잘 모르고 시작하면, 데이터 분석에 필요한 것들은 굉장히 많고, 도대체 어느것을 얼마나 어디까지 배워야하는지 몰라 이것 저것 하나 하나 다 배우려 하다 끝이 안날 수도 있기 때문이다. 그렇기 때문에 이번 글에서는 아래 3가지에 대해서 다루겠다. 분석 사이클에 대하여 각 단계마다 어떠한 용어들이 쓰이는지? 그리고 결과를 어떻게 해석해야하는지? 데이터 분석 사이클 5단계 (이상적인) 미리 말하지만 아래는 아주 이상적인 데이터 분석 과제 흐름이다. 데이터수집: 소스별 데이터 추출 및 저장(Loading) 데이터전처리: .. 2023. 12. 23.