CAFE

못다 쓴 통계해례

데이터 수가 많으면 정규분포가 되기 힘들다 [정규성 검정]

작성자hrwoo|작성시간15.12.14|조회수1,149 목록 댓글 1

중심극한정리에 대한 오해때문에

데이터 수가 많으면 정규분포를 따르게 된다는 믿음을 가진 분들이 많습니다.

심지어 몇몇 박사선생님들도 오타가 아니냐고 문의하였습니다.^^


흔히 오해하는 중심극한정리를 배제하더라도

데이터 수와 정규성의 관계는 실제로는 반대라고 봐야합니다.


시중에 빅데이터 이야기들이 많습니다.

빅데이터라는 용어에는 많은 의미가 있겠지만,

단어 그대로 빅데이터가 엄청난 자료의 수를 전제한다면

정규분포를 따르기 곤란합니다.


정확히는, 정규성 검정(normality test)에서 정규성을 인정받기 힘들어진다는 의미입니다.

실제 현장에서도 몇 억건의 데이터를

히스토그램을 그리면 분명히 정규분포처럼 보이는데

정규성 검정에서는 정규성이 아니다라고 나온다는 문의를 종종 받습니다.


'정규성을 따른다'는 의미를, 통계량으로 재해석하면

왜도(skewness)와 첨도(kurtosis)가 얼마나 0에 가깝냐는 뜻입니다.

정규분포의 왜도와 첨도가 0이기 때문입니다.

이와 반대라면 왜도와 첨도가 0으로부터 많이 벗어난 수치인 경우를 말하겠지요.


통계학적인 이야기지만,

왜도와 첨도가 0으로부터 얼마나 벗어났는지에 대한 기준으로 표준오차(standard error)를 사용합니다.

그런데 왜도와 첨도의 표준오차는 완전히 데이터 수에 의존적입니다.

데이터 수가 많아지면 표준오차는 작아지게 됩니다.


표준오차가 작아지면, 동일한 왜도나 첨도의 값일지라도 

통계적으로 유의미하게(be significant) 만들며

이는 '데이터가 정규성이 아니다(왜도 또는 첨도가 0이 아니다)'라는 주장을 지지하도록 만듭니다.


[통계해례 p98, p203 참조]  

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
  • 작성자hrwoo 작성자 본인 여부 작성자 | 작성시간 15.12.16 SPSS에서는 정규성 검정 기능이 "도표" 버튼에 숨어 있어 찾기가 힘든 편입니다.

    [분석] -> [기술통계량] -> [데이터 탐색]의 메뉴에서 분석할 변수를 선택합니다.
    다음으로 <도표>에서 "검정과 함께 정규성도표(normality plots with tests)"를 체크하면
    Kolmogorov-Smirnov 방법과 Shapiro-Wilk 방법으로 검정한 결과를 제공합니다.

    p-value가 유의수준보다 크면 정규성을 따른다고 판단합니다.
    댓글 첨부 이미지 이미지 확대
댓글 전체보기
맨위로

카페 검색

카페 검색어 입력폼