데이터 수가 많으면 정규분포가 되기 힘들다 [정규성 검정]

작성자hrwoo|작성시간15.12.14|조회수1,149 목록 댓글 1

중심극한정리에 대한 오해때문에

데이터 수가 많으면 정규분포를 따르게 된다는 믿음을 가진 분들이 많습니다.

심지어 몇몇 박사선생님들도 오타가 아니냐고 문의하였습니다.^^

흔히 오해하는 중심극한정리를 배제하더라도

데이터 수와 정규성의 관계는 실제로는 반대라고 봐야합니다.

시중에 빅데이터 이야기들이 많습니다.

빅데이터라는 용어에는 많은 의미가 있겠지만,

단어 그대로 빅데이터가 엄청난 자료의 수를 전제한다면

정규분포를 따르기 곤란합니다.

정확히는, 정규성 검정(normality test)에서 정규성을 인정받기 힘들어진다는 의미입니다.

실제 현장에서도 몇 억건의 데이터를

히스토그램을 그리면 분명히 정규분포처럼 보이는데

정규성 검정에서는 정규성이 아니다라고 나온다는 문의를 종종 받습니다.

'정규성을 따른다'는 의미를, 통계량으로 재해석하면

왜도(skewness)와 첨도(kurtosis)가 얼마나 0에 가깝냐는 뜻입니다.

정규분포의 왜도와 첨도가 0이기 때문입니다.

이와 반대라면 왜도와 첨도가 0으로부터 많이 벗어난 수치인 경우를 말하겠지요.

통계학적인 이야기지만,

왜도와 첨도가 0으로부터 얼마나 벗어났는지에 대한 기준으로 표준오차(standard error)를 사용합니다.

그런데 왜도와 첨도의 표준오차는 완전히 데이터 수에 의존적입니다.

데이터 수가 많아지면 표준오차는 작아지게 됩니다.

표준오차가 작아지면, 동일한 왜도나 첨도의 값일지라도

통계적으로 유의미하게(be significant) 만들며

이는 '데이터가 정규성이 아니다(왜도 또는 첨도가 0이 아니다)'라는 주장을 지지하도록 만듭니다.

[통계해례 p98, p203 참조]

다음검색

댓글 리스트

댓글 전체보기

CAFE