n이 30이상이면 t-분포대신 정규분포를 이용하여 검정하라는 말이 있습니다.
이 말은 통계책 맨뒤에 나오는 t-분포표에 지면 관계상 자유도가 30이상이 없어서 어쩔 수 없이 정규분포표를 이용하는 경우에나 해당하는 구석기새대적 발상으로 컴퓨터가 발달된 요즘에는 무시해도 됩니다.
검정통계량이 정규분포를 따른다면 type I error(귀무가설이 사실일때 귀무가설을 기각하는 잘못된 결정을 내릴 확률)은 0.05입니다.
Pr( |Z| > 1.96) = 0.05
검정통계량이 t-분포를 따르는데 정규분포를 이용하여 귀무가설을 기각한다고 하죠. 즉, 표준화 시킨 t*이 1.96보다 크거나 -1.96보다 작으면 귀무가설을 기각한다고 합시다. 이때 type I error는 다음과 같이 정의됩니다.
Pr( |t| > 1.96)
R에서 계산해보도록 하겠습니다. 자유도(df)에 1:40을 넣어 1부터 40까지 자유도에 따른 type I error를 계산하였습니다.
> 2*(1-pt(1.96, df=1:40))
[1] 0.30034289 0.18905731 0.14485221 0.12155464 0.10728795 0.09769515
[7] 0.09081970 0.08565805 0.08164441 0.07843624 0.07581443 0.07363243
[13] 0.07178859 0.07021027 0.06884417 0.06765031 0.06659816 0.06566396
[19] 0.06482898 0.06407825 0.06339967 0.06278332 0.06222104 0.06170602
[25] 0.06123257 0.06079584 0.06039173 0.06001673 0.05966780 0.05934231
[31] 0.05903799 0.05875284 0.05848511 0.05823324 0.05799587 0.05777178
[37] 0.05755989 0.05735924 0.05716894 0.05698822
df=30인 경우 type I error는 0.05934231이고, df=40인 경우 type I error는 0.05698822입니다. 즉 자유도가 커질수록 t-분포의 type I error는 정규분포의 type I error인 0.05에 점점 가까와 지지만 여전히 0.05보다 커서 잘못된 의사결정을 내릴 확률이 증가합니다.
댓글
댓글 리스트-
작성자백철 작성시간 11.09.23 일을하다보면 심심치않게 "대표본"의 기준이나 "신뢰수준"의 기준에 대해 명쾌한(!) 설명을 요청받는 경우가 많습니다.
특히 통계학을 잘 모르시는 '윗분'들인 경우나 규정같은데 반영을 해야하는 경우는 난감하죠..
실제로 '대표본'의 정의를 계량적으로 만들라해서 억지로 만든적이 있습니다. 그에 한 건이라도 모자라면 절대로 인정 안되는...ㅡㅡ;
그 기준을 보고 관계된 통계학박사님이 말도 안되는 기준이라고 누가 이런걸 만들었냐고 핀잔을 줬다는 후문을 들었습니다.
그러나, 임금노동자로서 그렇게라도 만들어주지 않으면 안되는 고충이 있었으니.... 그걸 담당자의 통계적 무지라고 생각하는 외부사람들의 오해가 억울했어요ㅠ -
작성자백철 작성시간 11.09.23 "신뢰수준"도 왜 95%냐고 물어보시는 분들이 많어요...신뢰수준은 허용할수있는 오차의 너그러움의 정도다..라하면 얼렁뚱땅 얼버무린다고 오해하는 사람들이 많아요.
적용하는 신뢰수준도 뭔가 딱딱 계산되서 나오는 값이라고 생각들하시다보니 어려움이 많네요.
이런 소통을 잘 하는것도 능력인데...아직 능력의 한계를 절감하고 있습니다.
숫자가 지저분하게 나오길래 1.96대신 2를 써서 곱해서 손계산을 했는데, 통계학책은 한번쯤은 보신 윗분이 그걸보고 막 뭐라하신 적이 있습니다. 1.96을 곱해야 "정확한"검증결과가 나오지 대~충 2곱해서 일을 대~충하는거 아니냐는...ㅡㅡ -
작성자너나들이 작성시간 11.09.23 대답하기 어려운 문제내요. 저도 보통 그냥 습관적으로 표본이 30을 기준으로 대표본 소표본으로 나눈다고 말했었는데.. 어찌됐건 통계하는 사람 입장으로선 표본이 많을 수록 좋은 것 같습니다.
-
작성자Au revoir 작성시간 11.09.27 실제로 샘플수가 적어도 100개 이상은 되야지 t-분포가 표준정규분포와 비슷해지는 걸 보면 30은 무리지 않나 싶습니다. 하지만, 모집단이 정규분포를 따르지 않을때에는 n > 30이 유용한 기준으로 쓰일수 있기때문에 요즘 시대라도 반드시 무시해야 할 말이라고 까지는 하기 힘들지 않을까 생각됩니다^^
-
답댓글 작성자안재형 작성자 본인 여부 작성자 작성시간 11.09.28 30이 넘는데 정규분포를 따르지 않으면 비모수를 써야할지, 그냥 CLT으로 정규분포에 근사해서 해야하는지 그게 좀 애매하더라구.