생태학 또는 기타 과학 논문들을 보면 잘 나오는 통계도구 중의 하나가 분산분석이다. 박사과정 중에 수강한 과목중의 하나가 <분산분석>이었기도 하다. 이 분산분석의 가장 기본이 되는 것은 분산분석의 가설이다. 보통 두 집단의 평균을 비교하는 것은 t-검정법을 이용하는데 (mu1 = mu2) 이 분산분석의 가설은 여러 집단의 평균을 자료의 퍼짐 (분산)을 이용하여 비교하는 것이다. 즉 여러 집단의 평균끼리의 분산 (among groups) 보다 각 집단내의 (within groups) 자료의 분산이 더 큰 지 작은 지 비교하는 것이다.
mu1 = mu2 = mu3 ....
따라서 여러 평균 중의 한 평균만 다른 평균들과 다르더라도 분산분석의 전체 결과 (F값의 확률)은 유의하게 (p < 0.05) 나올 것이다. 이렇게 유의하게 나오는 경우 어떤 평균값이 다른지 각 평균값끼리의 조합에 대해 평균값의 비교를 하게 되는데 이 때 여러 평균값의 비교를 동시에 하기 때문에 다중비교 (multiple comparison)을 하게 된다.
mu1 = mu2, mu2 = mu3, mu3 = mu1 ...
이 다중 비교도 논문을 쓸 때 상당히 중요한 점인데 여러개의 가설을 동시에 검정하는 경우, 우연히 20번 중의 한번의 확률 (5%=0.05)로 귀무가설이 맞는데도 (두 집단의 평균이 같은데도) 다르다로 판단할 수 있다고 한다면 다섯개의 가설을 동시에 검정하는 경우 이러한 오류가 발생할 확률은 20번 중의 5번 (25%)로 증가하게 된다. 따라서 각각의 가설들에 대한 type 1 오류를 대략 1/5정도로 낮추어 주어야지 전체 비교에서 전반적인 type1 오류를 0.05로 유지할 수 있다. 이러한 개별 알파값의 조정을 Bonferroni's correction이라고 한다. 좁은 의미의 Bonferroni 방법은 보정된 알파값을 알파/비교가설수로 해주는 것이고 Dunn-Sidak법이라는 다른 보정법이 있다.
따라서 여러 가설을 동시에 검정하는 경우 이러한 본페로니 보정법을 항상 염두에 두어야 한다.
한편 분산분석 표를 해석하는 데 있어서 유의해야 할 점 중의 하나는 이러한 평균끼리의 비교와 이에 대한 유의성 (F값의 확률)도 의미가 있지만 분산값 자체를 잘 살펴보아야 한다는 것이다. 1way 건 2 way 분산분석이건 이러한 평균값끼리의 분산 예를 들어 2 way 분산분석에서 두 변수 A, B가 있다면 분산값의 합 (SS)는 A, B. A x B, error (각 집단 내의 개별값의 분산)에 대해서 얻어지는데, A와 B 변수가 각각 F 값이 유의하다 할 지라도 error의 분산값이 전체 분산의 대부분을 차지한다면 A와 B 변수의 중요성은 떨어진다고 할 수 있다. 따라서 각 변수의 상대적인 중요성은 전체 분산값의 합 (Total SS)에 대한 개별 변수의 분산값합 (SS)이 차지하는 정도라고 할 수 있다. 논문에 따라서 이러한 값을 설명된 분산 (Variance Explained)이라 하여 백분율로 표시하고 있다.
----------------------------------------------------------------------
Variable SS F p Variance Explained(%)
----------------------------------------------------------------------
A 10 5.2 0.04 10
B 20 8.3 0.01 20
error 70
Total 100 100
-----------------------------------------------------------------------
출처 : http://daphnia.egloos.com/477400