본문 바로가기
데싸 Data Science/데이터분석(DataAnalysis)

올바른 가설 설정 조건 3가지 (양치기 소년 예시)

by 혀니쌤1 2023. 12. 27.

목차

     

     

    분석 과제를 진행할 때, 1단계 문제 정의는 즉 가설을 어떻게 설정하느냐다. 이 1단계가 매우 중요한게, 문제 정의를 어떻게 하느냐에 따라서 필요 데이터나 x, y, f()가 바뀔 수도 있다. (캐글 예제 풀기에서나 1단계가 명확하지, 현실에서는 1단계를 구체화 하는 것도 어려울 수 있다.)

    문제 정의가 제대로 되어 있지 않다면 2단계 3단계는 제대로 이행 될 수 없다.

     

     

    양치기 소년을 예로 들겠다. 초기에 주어진 문제는 다음과 같다.

    • 대립 가설 : 나의 주장(B): 양치기들은 거짓말쟁이다! 
    • 귀무 가설 : 대중 주장(A): 양치기들은 거짓말쟁이가 아니다!  

    위와 같이 애매모호한 가설로는 이후 데이터/통계 분석이 진행되기 힘들다.

    보다 제대로 된 문제 정의를 위하여, 올바른 가설 설정을 위한 3가지를 설명하겠다.

     

     

    1. 상호배반적(Mutually Exclusive):

    양치기가 누구? 거짓말쟁이가 누구? 거짓말을 한 번 도 안 한 사람을 없을 테고, 10번 한 사람? 1주일에 한 번 하는 사람?

    그래서 아래 처럼 다시 문제를 재 정의 하였다.

    • 나의 주장(B): 양치기들은 다~ 거짓말쟁이다! 
    • 대중 주장(A): 양치기들이 다~ 거짓말쟁이가 아니다!  

    ※ 상호배반적 : 나의주장과 대중주장은 모호함 없이 독립적이어야 하며 두 집합을 합했을 때, 다른 주장은 없어야 한다.

     

     

    나의 주장이 틀렸다면,

    • 양치기들과 일반인들의 거짓말 빈도가 전혀 차이가 없어야 한다.
    • 모든 양치기들을 조사하지 않더라도 표본으로 추출한 양치기의 거짓말 횟수 평균은 일반인의 거짓말 횟수 평균에 수렴해야 한다.
    • 양치기의 거짓말 횟수 평균이 일반인의 거짓말 횟수 평균보다 같거나 적어야 한다.

     

    2. 증명가능성(Demostrable)

    그렇다면 지구상의 모든 양치기를 다 검사해서 내 주장을 증명할 수 있을까? 불가능하다.

    이 양치기들을 확인하기도 어렵고 일부 양치기들 중에는 거짓말쟁이가 아닌 양치기도 있을 수 있고...

    또한 현재 살아있는 양치기를 조사 했을 때 거짓말쟁이가 없다 하더라도 과거에는 그들은 거짓말을 했을 수 있다.

    성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 한다.

    그래서 아래 처럼 질문을 또 재정의 했다.

    • 나의주장(B): 현재 대한민국에 있는 양치기들은 일반적으로 거짓말하는 경향이 있다!
    • 대중주장(A): 그들이라고 일반적으로 더 거짓말을 하는 경향이 있지는 않다! 

     

    3. 구체적(Specific):

    그런데 경향이 뭐지? 거짓말을 하는 경향이 무엇이지?

    문제는 충분히 구별되고 실현 가능한 표현으로 정의되어야 한다

    • 나의주장(B): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
    • 대중주장(A): 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!  

    그래서 처음에 애매모호했던 질문이

    현재, 대한민국, 횟수비교 라는 기준이 세워지면서 X 데이터로 무엇을 얻어야 할지 더 뚜렷하게 알게 된다.