목차
패스트 캠퍼스 김경원 강사님의 강의를 주로 참고하여 정리한 노트입니다.
복습: 이전 글(현실적인 데이터분석 단계별 목적) 에서 데이터 분석을 위와 같이 3단계로 나누었었다.
1단계: 문제정의
2단계: 해당 문제 풀기
3단계: 평가 및 검증.
실제 많은 데이터 분석 강의에서 진행하는 실습은 대부분 2단계만 다룬다.
이미 명확히 정의된 문제가 주어지며, 무엇을 풀어나가야 할지 지시가 내려진다. (예: 대학과제, 캐글)
하지만 현실세계에서는 1단계 및 3단계가 만만치 않으며, 이것이 제대로 이행이 되어야 2단계의 성과가 날 수 있다는 사실을 잊지 말자.
문제 정의 및 의사 결정을 위한 실험 설정
실험 설정이 왜 필요한가?
대부분의 분석은 "비교(A/B Test)"를 기반으로 하며 (가설 검정도 A/B 테스트를 두고 함), 일상생활부터 연구논문까지 다양하다.
무언가를 좋다라고 말할 때 가장 쉽게 설득할 수 있는 기법은 비교이다. 그래서 우리는 대부분의 문제를 정의할 때, A/B 테스트를 기반으로한다.
설명력과 모델은 반비례하는 경향이 있으며, 설명력이 수반되는 모델은 가설검정 해석이 필수
대부분의 전통적인 통계 수학을 기반으로 하는 방법론들은 분석의 구현이나 결과에 있어서 왜 이러한 결과가 나왔는지 해석을 포함하고 있다. 하지만, 요즘 새롭게 나오는 딥러닝 성능이 좋은 것은 맞지만, 설명력이 부족하다. (그래서 알고리즘을 무작정 믿을 수 밖에 없는 상황이다)
가설 검정이란? 가설 검정 용어 설명:
가설이란 어떤 가설이 옳은가의 여부를 통계적 방법으로 판정하는 일. 통계적 가설검정은 모집단의 특성에 대한 가설을 설정한 뒤에 표본관찰을 통하여 그 가설의 채택여부를 결정하는 통계적 분석방법이다.
만약 모집단, 표본, 가설 채택, 유의 확률 등 기초 통계 용어가 생소하다면 아래 글을 먼저 읽어 보자. 보다 jargon free language로 정리하였다.
기초 통계 용어 설명 Part 1 (모집단, 표본, 샘플, 중심극한정리 등)
시계열 분석 알고리즘을 공부하다보니, 가설 검정 및 기초 통계 지식이 탄탄해야하는 것을 느꼈다. 그래서 jargon free language로 공부 내용을 정리하고자 한다. 모집단, 표본, 샘플, 중심극한 정리
mylittlenotepad.tistory.com
가설 검정 절차 3단계: 양치기 소년
양치기들은 거짓말쟁이다!
....... 를 분석해야 하는 상황이 주어졌다고 가정해보자.
- 나의주장(B): 양치기들은 거짓말쟁이다!
- 대중주장(A): 양치기들은 거짓말쟁이가 아니다!
[1] 가설 세우기
하지만 주어진 가설은 매우 애매모호하다. 그래서 다시 명확히 정의해야하며, 올바른 가설 설정 조건 3가지 (상호배반적, 증명가능성, 구체적)에 따라 아래와 같이 재정의 하였다.
- 대립가설(=대중주장): 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
- 귀무가설(=나의주장): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!
올바른 가설 설정 조건 3가지 (양치기 소년 예시)
분석 과제를 진행할 때, 1단계 문제 정의는 매우 중요하다. 문제 정의가 제대로 되어 있지 않다면 2단계 3단계는 제대로 이행 될 수 없다. 양치기 소년을 예로 들겠다. 초기에 주어진 문제는 다음
mylittlenotepad.tistory.com
이렇게 되면 데이터 분석 3단계 중 1단계 문제 정의가 끝이났다.
이제 우리는 어떠한 데이터를 모아야 하는지 가늠이 잡혔다
아무래도 우리가 모아야 하는 x에는 현재, 대한민국, 횟수, 거짓말 이란 키워드가 들어갈 것이다.
[2] 검정통계량 및 유의확률 추정
드디어 데이터 분석 2단계가 시작되었다. 그런데 굳이 일반인 거짓말 데이터도 보고 양치기 거짓말 데이터도 보고 데이터를 두 번 분석하기 보다는, 일반인 vs 양치기 차이 데이터를 하나의 숫자로 표현해서 보는게 낫다. 이를 검정 통계량이라 한다.
검정통계량 : 대립가설과 귀무가설 비교를 위한 검증 지표값, 일명 "점추정"
※ 검정통계량 로직:
- 두 표본평균의 분포를 보려고 하면 분석이 어렵기 때문에, "두 표본의 차"만을 분석하면 간단해짐
- X와 Y를 각각 추정하는 것보다 X-Y만 추정하면 훨씬 단순한 모형
- 정규분포에서 정규분포를 빼도 정규분포
- 대립가설이 틀릴 때: 양치기와 일반인의 거짓말 빈도가 차이가 없다면 이상적인 검정통계량은 0
- 대립가설이 옳을 때: 검정통계량이 0에서 많이 벗어날수록(큰 양수) 나의 주장 옳은 것
※ 신뢰구간(Confidence Interval): 검정통계량이 발생가능한 구간, 일명 "구간추정"
예: 검정통계량 결과 횟수 차이는 1.2회고 분산은 4가 나온다 했을 때, 신뢰구간은 4
[3] 기각/채택 의사결정
분석 결과가 나왔다면, 이제 나의 주장이 채택될 수 있는지 없는지에 대해 결정해보자.
채택 여부 판단내리려면 유의 수준과 유의 확률이 무엇인지 알아야한다.
※ 유의수준(Significant Level): 귀무가설이 참인데 잘못된 데이터 또는 실험으로 귀무가설을 기각(Reject)할 허용오류
유의수준 5%의 의미: 치기와 일반인의 거짓말 차이가 없다는 전제 하에, 100번 중 95번은 귀무가설이 관찰되고(양치기와 일반인의 거짓말 차이가 없음), 100번 중 5번은 대립가설이 관찰된다(양치기와 일반인의 거짓말 차이가 있음)
※ 유의확률(p-value) : 분석 데이터가 문제가 있어서 귀무가설을 함부로 기각하고 대립가설이 참이라 주장할 확률
유의확률 10%의 의미: 나의 데이터는, 100번 중 90번은 대립가설이 관찰되고(양치기와 일반인의 거짓말 차이가 있음)
100번 중 10번은 귀무가설이 관찰된다(양치기와 일반인의 거짓말 차이가 없음)
>> - 귀무가설이 참인 일반적인 경우가 가장 높은 빈도이므로,
>> - 양치기와 일반인의 거짓말 차이가 없다!