목차
데이터분석을 배우려면 기초 통계 지식이 아주아주 탄탄해야한다.
평균이란 단어는 누구에게나 익숙하지만 그외 통계 용어는 생소할 수도 있다.
그래서 jargon free language로 공부 내용을 정리하고자 한다.
모집단, 표본, 샘플, 중심극한 정리 부터. 차근 차근 알아가보자.
다음글에서는 유의확률 및 유의수준 및 가설 검정을 어떻게 결론 짓는지에 대해 다루겠다.
양치기 소년 이야기를 예로 들겠다.
- 나의주장(B): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
- 대중주장(A): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!
모집단 VS 표본
전체 | 일부 | |
대상 | 모집단 | 표본 |
특성 | 모수 | 통계량 |
조사 | 전수조사 | 표본조사 |
모집단(Population): 연구(관심) 대상이 되는 전체 집단.
사실 웬만한 분석 과제에서, 전체 조사라는 것이 가능이나 할까? 구글이나 삼성같이 대기업에서 모으는 데이터라고 하더라도 모집단이 아니라 표본일 확률이 높다. 사실 모집단은 신만이 안다는 표현이 있다.
예: 양치기 전체
표본(Sample): 모집단에서 선택된 일부 집단.
예: 한국에 지금 살고 있는 일부 양치기 (표본을 뽑을 때는 *한국에 지금*과 같이 구체적이어야 한다)
요즘은 내가 보유한 데이터를 표본, 보유하지 못한 현실 세계 전체 데이터나 미래 데이터를 모집단으로 보기도 한다.
모수(Parameter): 통계량을 통해 알게 된 모집단의 특성
통계량(Statistic): 표본의 특성을 나타내는 수치
헷갈리지 말기. 표본평균은 표본의 평균이다. 모평균은 표본평균으로 추정된 모집단의 특성이다.
- 틀린 쉬운 말 1: 모평균은 모집단을 전수조사해서 나온 평균 (땡! 표본평균으로 추정한 게 모평균)
- 틀린 쉬운 말 2: 표본평균이 모평균을 그대로 나타냄. (땡! 표본평균으로 모평균을 추정할 뿐이다)
전수조사(Population Scale Test): 모집단 모두를 조사하는 방식 (ex.인구주택 총조사)
시간과 비용이 가장 비효율적이다.
표본조사(Sample Scale Test): 표본집단을 조사하는 방식 (ex.출구조사, 여론조사)
시간과 비용을 크게 줄일 수 있으나, 조사 방법을 잘못했다간 편향성 문제가 생긴다.
- Sample을 편향(biased)되게 만드는 방법
- Sampling 과정에서 생기는 Bias 제거하는 방법
표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 한다.
예를 들어 남자들이 좋아하는 스포츠를 조사하는데, 샘플링을 잠실 야구장가서 하면 안되겠다.
추론통계(Statistical Inference):
모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것.
예: 양치기를 모두 조사할 수 없으니, 대한민국 현재 양치기들의 일부를 가지고 분석을 하지만 (표본), 이 것으로 전세계 양치기(모집단)들을 해석하려 하는 것이다.
나의주장(B): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
대중주장(A): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!
다시 양치기 예를 떠올려보자. 이 경우, 샘플링은 다음과 같이 되겠다
- 모집단: 현재 전 세계 사람
- 표본: 현재 대한민국 사람
- 표본1: 현재 대한민국 양치기들
- 표본2: 현재 대한민국 일반인들
문제를 고려했을 때, 이 과제에서 우리가 보고자 하는 것은 양치기와 일반인들의 거짓말 횟수이며, 이 횟수를 사용한 무언가가 통계량으로 나올 것이다.
표본오차(Sampling Error):
표본평균으로 모평균을 알아내는 것이 추론통계의 목적이기 때문에 "모평균-표본평균"으로 계산
모평균은 모집단에서 표본추출을 통해 얻어진 표본평균으로 추정된 모집단의 특성이며, 절대 표본평균이 모평균을 그대로 나타내는 것은 아님!
표본분포 (Sample Distribution):
표본의 기초통계(Descriptive Statistics)를 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)
중심극한정리(CLT, Central Limit Theorem):
결론 부터 말하겠다. 샘플의 특성이 모집단의 특성으로 수렴할 것이다.
전체 모집단에서 여러 번 Sample을 추출해라. 그리고 Sample마다 평균을 구해라.이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다.
- 모집단이 어떤 분포든 "Sample 평균"의 분포는 정규분포다. (샘플 분포가 아니다. 샘플 평균의 분포다)
- "Sample 크기"가 클수록 "Sample 평균"의 분산은 낮아진다.
- "Sample 분산"은 대체로 원집단 분산에 매우 근접한다.
- Sample 평균과 분산만으로 모집단의 평균과 분산을 추론할 수 있다.
- CLT를 통한 추론으로 모집단의 분포 형태까지 추론하지는 못한다. (모집단과 표본집단 비교 대신 표본 집단간 비교 수렴에도 성립한다)
예:
샘플링 1회차 : 양치기와 일반인들 사이 거짓말 횟수 차이가, {1,7,2,3,1 ...} 평균이 3번
샘플링 2회차 : 양치기와 일반인들 사이 거짓말 횟수 차이의 {1,0,1,1,0,0...} 평균이 0.3번
샘플링 2회차 : 양치기와 일반인들 사이 거짓말 횟수 차이의 {-2,2,-3,3 ...} 평균이 0번으로 없음
....
반복 샘플링을 하다보면 저 3번 0번 0.3번들이 모이다보면, 정규분포가 나온다.
샘플링 1회차 때의 샘플 분포가 푸아송이고, 샘플링 2회차때 샘플 분포가 Beronouloli 할 지라도 그 샘플링의 각 평균을 모아보면 정규 분포가 나온다.
그.리.고. 이 정규분포는 모집단의 특성을 반영한다. (주의. 모집단이 정규분포란 것은 아니다)
이렇게 정규분포가 나오면 좋은게. 정규분포를 기반으로 한다면 공식 적용도 바로 바로 가능하고 통계적 분석이 쉬워지기 때문이다. (통계 공식은 대부분 정규 분포를 기반으로 많이 나와있다)