가설 검정시에 항상 나오는것이 유의수준(level of significance)입니다.
유의수준은 가설검정시
귀무가설이 맞을때 그것을 기각하는 오류를 얼마나 허용할지를 말해줍니다.
이러한 오류를 1종오류라고도 합니다.
보통 1종오류를 일정수준으로 고정시킨후 가설검정을 합니다.
가장 많이 쓰는 값은 물론 0.05이지요.
예를 들어보면,
나뭇잎 하나를 발견했다고하죠.
그런데 그 나뭇잎이 A라는 나무의 잎하고 닮았습니다.
그래서 그 잎의 길이를 측정해서, A나무의 잎인지 아닌지 결정을 내리기로했습니다.
측정했더니 12.5cm였습니다.
A라는 나무의 잎의 길이는 10cm이고 표준편차가 1인 정규분포를 따른다고 하지요.
A나무의 잎은 평균보다 훨씬 큰 14cm일수도 있고 훨씬 작은 6cm일수도 있습니다. 그러나 평균에서 멀어질수록 가능성은 적어지죠.
여기서 유의수준을 0.05로 한다는것은 좀 극단적으로 표현하면
A나무의 잎이라도 평균에 가까운 100*(1-0.05)=95%만을 정상으로 생각하고
평균과 멀리 떨어진 나머지 5%는 비정상으로 생각한다는겁니다.
A나뭇잎 길이의 95% 신뢰구간을 구해보면,
(10-1.96*1, 10+1.96*1) = (8.04, 11.96)입니다.
A나뭇잎이 이 구간안에 있을 확률은 95%인데
미지의 나뭇잎은 12.5여서 비정상으로 분류된 5%에 속하므로
A나뭇잎이 아니라는 결론을 내립니다.
다른 말로, 8.04와 11.96이 기각력이 되고 측정된 검정통계량 12.5는 기각력에 속하므로
A나무의 잎이 아니라는 결론을 내립니다.
이 경우 p-value를 계산해보면
Pr(X >12.5 | mu=10) = Pr{(X-10)/1 > (12.5-10)/1} = Pr( Z > 2.5 ) = 0.0062인데
양측검정이므로 2배인 0.0124입니다.
다음검색
댓글
댓글 리스트-
작성자시나브로 작성시간 11.05.18 A라는 나뭇잎이 N(10,1^2)을 따른다고 가정한다면, 이는 아마도 식물학에 의거하여 충분한 Data로 확보한 Parameter
일 것입니다. 이에, 가설 수립을 H0: 하나 발견한 나뭇잎은 A 나뭇잎일 것이다. H1: 하나 발견한 나뭇잎은 A 나뭇잎이
아닐 것이다. 정량적으로 표현한다면 H0: μ=10cm H1: μ≠10cm 일 것입니다. 물론 양측검정 시입니다.
여기서 표본수가 1개로 12.5의 관측치를 얻어냈습니다. 물론 이해 시키기기위한 예이긴 하겠지만, 실무에 있어 오류를
범하는 경우가 비일비재합니다. 식물학적으로 A라는 나뭇잎의 표준편차가 1cm라는게 매우 충분히 작은 값이라면 개개 Data로 검정한는데 무리가 없겠지만, -
작성자시나브로 작성시간 11.05.18 그렇치 않다면 충분한 시료수를 설계하여 표본평균으로 접근해야 합니다. 가령, 몸의 체온에 대한 검정일 경우, 개개인의 체온은 정상적인 건강상태를 유지할때 편차가 극히 적습니다. 몸에 감기기운이 생길 경우 체온은 급격히 차이가 납니다. 이러한 경우는 개개 Data로 분석하는 경우가 있으나 실무에서는 극히 찾아보기 힘듭니다. 어떤 확률변수의 특성을 생각하지 않고(편차가 큼에도 불구하고) 1,2개 표본으로 모수를 일반화 시키려는 행위가 생각보다 의외로 많다는 것입니다.
또한, N(10,1^2)는 Parameter인데 Parameter로 계산한 범위를 Confidence Interval이라고 지칭한 것은 오류 아닌지 여쭈고 싶습니다. -
작성자시나브로 작성시간 11.05.18 "95% Confidence Interval"이란 정의로 참 얘기도 많았지만(공부하는 자들과), 어떤 확률변수는 N(μ,σ^2)을 따르는 정규분포일때, 적절 표본(그 분야의 기술적 전문가와 협의하에)을 채취하여 얻은 통계량으로 Confidence Interval을 구하고, 표본을 측정했을 때와 차이나지 않는조건(변수통제)하에 이런한 Test 표본채취를 100번할 경우 95번은 구한 Confidence Interval에 포함할 것이다.입니다. 좋은 조언 부탁드립니다.
-
작성자안재형 작성자 본인 여부 작성자 작성시간 11.05.18 명시는 안했지만 여기서 신뢰구간은 "귀무가설이 사실"일때 신뢰구간입니다. 보통 통계패키지에서 보여주는 CI입니다. 주어진 데이터를 가지고 구하려면 bootstrap등 여러가지가 있겠죠.
-
작성자riveruns_thru_it 작성시간 11.11.26 유의수준과 p value에 대해 정확히 이해하는 것은 학교를 나와도 그저 그러했는데 오늘 잘 봤습니다.
시나브로님 얘기도 잘 들었습니다. 모수(parameter)로 계산한 범위와..... 표본 채취 100번 했을때 95번이 포함되는 범위를
CI로 하는지...... 일반적으로는 모수로 간단히 하지 않나요? 그리고 그 CI의 실제 의미가 100번 반복시 95번이 포함된다라고
하지 않는지요 ? ^^