CAFE

필기/실기 TIP

사분위수에 대하여.

작성자사경환|작성시간03.12.06|조회수2,708 목록 댓글 3
사분위수

안녕하세요 사경환입니다. 많은분들이 사분위에 대해 궁금해 하시고, 자세하게 정리되어 있는 자료가 없어 제 나름대로 정리해 보았습니다.

맨 아래는 제 개인적인 의견이므로 오류가 발생할 수 있으며, 무단으로 인용하시면 법적 제재를 받으실수 있으나, 개인의 학습으로 사용하실 경우에는 무료로 사용하셔도 무방합니다.

1) 사분위간 범위(interquartile range)

 

범위의 단점을 보완한 척도로서 최대와 최소의 일정 부분을 제외한 나머지 자료로서 범위를 구하고 이를 산포의 척도로 이용한다.

 

백분위수

위치적 척도로서 p 백분위수는 전체의 자료중 p%가 그 값보다 작거나 같고 (100-p)%가 그 값보다 크거나 같게 되는 값이다.

 

50 백분위수는 중앙값과 동일하며, 사분위수란 자료를 오름차순으로 정렬후 4등분하여 각각 1사분위수(lower quartile), 2사분위수, 3사분위수(upper quartile)이라 하며 , 사분위수범위는 3사분위수 - 1사분위수로 정의되며, 이상치에 영향을 받는 범위의 단점을 보완하기 위한 산포의 척도이다.

 

사분위간 범위

 

이산형의 자료에서는 사분위수에 대한 정의가 각 통계패키지마다 틀립니다.

제 나름대로 정리해 본 결과 n이 홀수일 때와 짝수일 때가 약간 다르다고 판단하였고, 백분위수를 구하는 식

즉, 1사분위 = n × 0.25=J번째, 2사분위 = n × 0.5=Q번째, 3사분위 = n × 0.75= K번째에서 정수냐 소수냐에 따라서도

문제의 소지가 높았습니다.

백분위수를 구하기 위해서는 N이 20배수일 경우가 가장 완벽하게 구해지지만, 그외 일 경우에는 매우 복잡합니다.

가장 전제 조건은 적어도 4로 나누어서 몫이 1이상이 나와야 할 것 같습니다.

즉, n이 3이하일 경우는 제가 많은 책을 뒤져보았지만, 예가 없어서... 아마 못구할 것 같습니다.

 

제 나름대로 규정을 해보았는데요.

당연하겠지만, 제가 살펴보니까

 1사분위는 반드시 정수 아니면 소수점이 0.25, 0.5, 0.75로 되고요.

 2사분위는 정수 아니면 소수점이 0.5가 됩니다.

 마지막으로 3사분위는 정수 아니면 소수점이 0.25, 0.5, 0.75되는데

 1사분위와 3사분위를 합치면 반드시 정수가 됩니다.

 또한, 모든 값이 0.5로 끝나지 않습니다.

 

이를 바탕으로 살펴보면,

1. J, Q, K의 정수 여부를 따져야 합니다.

 만약 정수라면 [정수+(정수+1)]/2 번째 위치한 값을 기재하면 됩니다.

 즉, n= 20 라면 J=5, Q=10, K=15 가 되며,

 1사분위는 (5번째+6번째)/2의 값, 2사분위는 (10번째+11번째)/2의 값, 3사분위는 (15번째+16번째)/2 값

 을 기재하면 됩니다.

 

2. 그러나 반드시 정수가 발생하지는 않으므로, 소수점이 0.5로 나타나는 경우입니다.

 만약, J, Q, K의 값 중 소수점이 0.5로 나타나면, 0.5를 더한 위치값을 기재하면 됩니다.

 즉 n=30이라면 J= 7.5, Q=15, K=22.5가 되므로, Q는 제 1 원칙과 제 2 원칙에 따라

 1사분위는 (7.5+0.5)번째, 2사분위는 (15번째+16번째)/2 번째, 3사분위는 (22.5+0.5)번째 값을

 기재합니다.

 

※ 1과 2원칙을 정리하면 정수와 0.5일 경우에는 0.5를 더한 위치값을 구하면 됩니다.

 

3. 가장 큰 문제는 0.25와 0.75로 발생할 경우입니다.

 이런 경우에 각 통계패키지마다 푸는 방식이 다르며, 책에도 나타나있지 않아서 매우 혼란스럽고, 누구도

 명확하게 답변해 주지 못하더라구요.

 3, 4, 7, 8, 8, 9,10,11,14 라고 가정했을 때 n= 9이며 J= 2.25, Q=4.5, K= 6.75 가 나타나며,

 2사분위는 2원칙에 따라 5번째 값을 기재하면 되오나, 나머지는 상당히 난해합니다.

 ① 책에 따라서 소수점이 발생하면 올림하여 그 정수에 위치한 값을 적는방법

     2.25을 올림하면 3이 되므로 3번째 위치값 7을 적는 방법

 ② 소수점이 발생하면 반올림하여 그 위치값을 적는 방법

    즉 1사분위는 2번째 값, 2사분위는 5번째값, 3사분위는 7번째 값을 적는 방법

 ③ 소수점이 발생하면 무조건 0.5로 만들어서 그 위치한 값을 적는방법

    즉, 1사분위는  (2번째+3번째)/2 값, 2사분위는 (4번째+5번째)/2 값, 3사분위는 (6번째+7번째)/2 값

    을 적는 방법

 명확히 규정되어 있지 않아서 무엇이 옳은지는 잘 모르겠으나, 제 개인적인 생각으로는  ①번은 옳지 않다고

 생각됩니다. 0.75라면 모를까 0.25를 무조건 올림하기에는 무리가 있다고 판단됩니다.

 또한, 올림이나 0.5로 만들기도 문제가 될 경우가 많다고 사료됩니다.

 예로 1, 2, 10, 50, 100, 200, 600, 1000, 2000 같은 경우라면 문제가 심각합니다.

 변수별로 차이가 너무 크기 때문에 오차가 크게 발생할 수 있습니다.

 그래서 제가 예전에 이문제에 대해 여러번 제시를 했보았으나 별 반응이 없어서 이번에 다시 한번 제시하고자 합니다.

 물론, 정답은 아니고 제 의견만 제시하고자 합니다.

 

3. 0.25와 0.75로 발생할 경우

 버림을 실시한 정수를 가지고 [정수+(정수+1)] × 버리기전 소수 의 값을 적는 방법입니다.

 예로 1, 2, 10, 50, 100, 200, 600, 1000, 2000 같은 경우J= 2.25, Q=4.5, K= 6.75 이므로

 1사분위는 (2번째+3번째)×0.25 = (2+10)×0.25 = 3

 2사분위는 (4번째+5번째)×0.5 = (50+100)×0.5 = 75

 3사분위는 (6번째+7번재)×0.75 = (600+1,000)×0.75 = 1,200

 이 되는 겁니다.

 

 제가 나름대로 사분위수를 구하기 위해 규정해보면

n개의 순서통계량을 x(1), x(2), ....., x(n)이라고 하고,  

1사분위 = n × 0.25=K(1), 2사분위 = n × 0.5 = K(2), 3사분위 = n × 0.75= K(3) 라고 했을때

1. n>3 이어야 한다.

2. r = Trunc[K(i)] -> 소수점이하는 무조건 버림

   s = Mod[K(i),1] -> 1로 나눈 나머지.

  단, K(i) (i= 1, 2, 3)

  1) s= 0.5 라면

      i 사분위 =  x(r+1)

  2) s=0 이라면

    i 사분위 =  [x(r)) + x(r+1)]×0.5

  3) s가 1) 또는 2)가 아니라면

    i 사분위 =  [x(r)) + x(r+1)]×s

맞을까 모르겠네요. 그럼..

본 자료는 www.data-bank.co.kr의 소유이므로, 무단 인용시 법적 책임은 인용자에게 있습니다.

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
  • 작성자최성호 | 작성시간 04.01.13 감사합니다.^^
  • 작성자권혁준♡^^* | 작성시간 04.04.15 저는 잘 모르겠어여...조금 어렵게 느껴지네여^^"
  • 작성자김연희87 | 작성시간 09.02.13 흠.. 잘 모르겠어요..ㅠ''
댓글 전체보기
맨위로

카페 검색

카페 검색어 입력폼