목차
예전글:
데이터 분석 준비 (1) 현실적인 데이터분석 단계별 목적
데이터 분석 단계별 목적 이해 하기 우리가 **데이터 분석 준비 하기**에서 제일 먼저 알아야하는 것은 데이터 분석을 할 때 필요한 것이 무엇인지 아는 것부터다. 하나 하나 꼼꼼하게. 왜냐면,
mylittlenotepad.tistory.com
데이터 분석 준비 (2) - 데이터 변수 용어 이해. 데이터의 분류 (횡단면, 시계열, 패널, 질적, 양적
예전 글: 데이터 분석 준비 (1) 현실적인 데이터분석 단계별 목적 데이터 분석 단계별 목적 이해 하기 우리가 **데이터 분석 준비 하기**에서 제일 먼저 알아야하는 것은 데이터 분석을 할 때 필요
mylittlenotepad.tistory.com
데이터의 기초 통계량 (Descriptive Statistics)
중심 통계량 : 데이터의 중심 경향을 나타냄
- 평균 Mean ; 표본데이터의 중심무게 (산술평균, 기하평균, 조화평균, 가중평균)
- 중앙값 Median : 순서를 가진 표본데이터의 가운데(50%)에 위치한 값
- 최빈값 Mode : 표본데이터 중 가장 빈번한 값
변동 통계량 : 데이터의 변동성을 나타냄
- 범위 Range 최대값과 최소값의 차이
- 편차 Deviation 관측값과 평균의 차이
- 변동 Variation 편차 제곱의 합
- 분산 Variance 편차 제곱의 합을 데이터의 수로 나눈 값
- 표준편차 Standard Deviation : 분산을 sqrt한 것
형태 통계량 : 데이터의 분포/왜곡을 나타냄
중앙통계량, 변동통계량만 봐도 퍼진 정도를 어느정도 알 수 있지만 좀 더 알고 싶은 것이 있는 것이다.
- 왜도 Skewness: 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도
- 첨도 Kurtosis 뾰족함 정도
- 이상치 Outlier 오류로 판단하는 값이지만 기준이 불명확
# 헤비테일을 보는 아마존
데이터 분석자들이 첨도를 볼 때는 뾰족한 부분이 아닌 꼬리 부분을 더 집중해서 본다고 한다. 꼬리가 두터운 아이들을 헤비테일이라고 부르는데, 극단적인 케이스를 분석할 경우 이런한 분포의 데이터가 필요하다.
예를 들어 아마존의 경우 A-Z까지의 모든 비지니스를 체계화하겠다는 목적을 가지고 있기에 꼬리를 두껍게 가지고 가는 사업을 펼친다. 아마존 북을 보자. 베스트셀러만 사는 고객만 관리하는 것이 아니라, 잘 안팔리는 마이너한 책을 사는 고객 또한 계속 관리 하면서 수익을 높여가는 꼬리를 두껍게 만드는 정책. 다른 회사들이 뾰족한 분포에 있는 고객들만 고려 할 때, 아마존은 소외된 양사이드 고객을 다 먹겠다는 것이다.
아웃라이어를 정의하는 방법은 명확하지 않다. 특정한 답이 없다.
굳이 특정 분포를 벗어난 데이터로만 정의할 순 없고 어떻게 아웃라이어의 기준을 정하는지도 꽤 중요한 퀘스천중 하나다.
관계 통계량 : 데이터간의 관계를 나타냄
- 상관관계 Correlation A변수의 변화와 B변수의 변화방향의 (선형적)유사성으로 표준화된 공분산이라고도 함
- 인과관계 Casuality A변수와 B변수중 하나는 원인이 되고 다른 하나는 결과가 되는 관계성
사실 우리는 인과 관계를 알고 싶다. y = ax+b 라는 식이 있을 때, x는 y의 원인이 되어야 한다.
하지만 저 식은 사실 인과관계가 아니라 상관관계식이다. 우린 인과관계를 잘 알지 못하기 때문에 상관관계를 사용할 뿐이다.
인과 관계의 함정
아이스크림 판매랑 vs 익사자의 수
여름에 아이스크림이 많이 팔리고. 익사자 수도 많이 나왔다고 한다.
하지만 아이스크림 판매량과 익사자 수는 서로 인과관계가 없다.
언제가 여름인가?
7,8월? 6,7,8월? 25도가 넘었을 때?
우리가 가진 것은 여름에 대한 명확한 정의가 아니라 아이스크림이 팔린 것과 사람이 물에 빠져 죽은 사고 횟수 데이터가 남아있을 뿐이다.
따라서 우리는 상관관계만 추정을하고 이러한 상관관계가 인과관계로 해석되지 않도록 주의를 해야한다.
기타 통계 용어 정리 글:
기초 통계 용어 설명 Part 1 (모집단, 표본, 샘플, 중심극한정리 등)
시계열 분석 알고리즘을 공부하다보니, 가설 검정 및 기초 통계 지식이 탄탄해야하는 것을 느꼈다. 그래서 jargon free language로 공부 내용을 정리하고자 한다. 모집단, 표본, 샘플, 중심극한 정리
mylittlenotepad.tistory.com