1. 타당도
1.1. 타당도의 의미
1.2. 타당도의 종류
2. 신뢰도
2.1. 신뢰도의 의미
2.2. 신뢰도의 검사방법
2.3. 신뢰도에 영향을 주는 조건
2.4. 신뢰도를 높이는 방법
3. 객관도
3.1. 객관도의 의미
3.2. 객관도에 영향을 미치는 요인
4. 실용도
5. 참고 사례
참고문헌
평가를 하려면 평가를 하기 위한 적절한 평가 도구가 있어야 할 것이다. 평가 도구는 평가의 목적에 맞아야 하고(타당도) 믿을 만한 결과를 나타내 주어야 한다(신뢰도). 또한 평가 도구는 평가를 시행할 수 있는 현실적인 여건에 맞아야 한다(실용도). 이중 어느 하나라도 부족하거나 적절하지 않으면 평가 도구는 쓸모없는 것이 되고 만다. 따라서 평가 도구는 타당도, 신뢰도, 실용도가 높아야 한다.
여기에서는 평가의 기본 조건인 타당도의 개념과 신뢰도의 개념을 정리하고 타당도를 구성하는 내용 타당도, 구인 타당도, 예언 타당도, 공인 타당도 등을 살펴본다. 신뢰도 확보를 위한 방법으로 재검사신뢰도, 동형검사신뢰도, 내적일관도 등의 방법을 간단히 정리한다.
1. 타당도(validity)
1.1. 타당도의 의미
타당도란 어떤 평가 도구가 측정하고자 의도하는 것을 얼마나 효과적으로 측정하느냐에 관한 것이다. 타당도를 통하여 시험 문장이나 내용이 측정하려는 목적과 일치하며 측정하고자 하는 내용을 실제로 정확히 측정하고 있느냐의 여부를 알 수 있다.
① 측정하려는 대상을 측정도구가 정확히 재고 있는가의 충실도, 즉 검사점수가 검사의
사용목적에 얼마나 부합하는가의 문제로 검사의 진실성 혹은 정직성이라고도 한다.
② 타당도는 검사가 갖는 고유한 속성이라기보다 검사에서 얻는 결과를 가지고 검사의 타당성의 근거를 밝힌다.
③ 타당도는 타당도가 ‘있다’ 혹은 ‘없다’가 아니라 어느 정도, 즉 ‘낮다’, ‘적절하다’, ‘높 다’ 등으로 표현한다. 즉 타당도는 무엇에 비추어 본 타당도를 말한다.
④ 타당도는 어떤 준거(criteria)와의 관련 아래서만 그 의의가 확인된다. 어느 조건 아 래서나 타당도가 있다든가 없다든가 하는 논리는 성립되지 않는다.
타당도에는 크게 내용타당도와 준거관련 타당도(예언타당도, 공인타당도), 그리고 구인타당도가 있다. 내용타당도란 평가의 문항들이 어느 정도나 제대로 적절하게 측정하고 있느냐를 의미한다. 준거관련 타당도란 한 검사의 점수와 어떤 준거의 상관관례로 검사 도구의 타당성을 나타내는 말이다. 마지막으로 구인 타당도란 그 평가가 측정하려고 하는 어떤 특성의 개념이나 이론과 관련된다.
예) 읽기 능력에 대한 타당한 시험은 정상 시력, 선행 지식, 기타 관련성이 의심스러운 일부 변인들을 측정하는 것이 아니라 실제로 읽기 능력을 측정하는 것이다.
글쓰기 능력을 측정하기 위해 학생들에게 15분 만에 될 수 있는 대로 많은 단어를 쓰 게 한 다음에 단어들을 세어서 점수를 주는 것을 생각해 볼 수 있다. 그러한 시험은 시 행하기에 쉬울 것이고(실용도), 채점은 상당히 믿을 만하다(신뢰도). 그러나 여러 요인 중에서도, 의사소통과 생각을 조직하는 문제를 고려하지 않는다면 타당한 시험이 되기 힘들 것이다.
1.2. 타당도의 종류
1.2.1. 내용타당도(content validity, 논리적 타당도, 교과타당도)
① 측정도구가 가진 내용의 충실도, 즉 검사도구가 수업목표와 수업내용(내적준거) 을 빠짐없이 충실히 측정하고 있는 정도
② 내용타당도 추정 방법은 검사내용 전문가가 검사에서 측정하고자 하는 속성을 제 대로 측정하였는가를 전문지식에 의해 검증한다.
③ 학업성취도 검사의 내용타당도 검증은 문항 제작 전에 작성한 이원목적분류 표에 의해 확인한다.
④ 내용타당도에 영향을 주는 조건
– 선정된 문항이 교육목표나 수업목표에 일치하는가의 정도
– 문항이 교과내용을 골고루 포함하고 있는가?
– 문항난이도가 피험자의 수준에 적합한가?
– 문항 표집이 모집단을 적절하게 대표하는가?
⑤ 한계 : 내용 이외의 수험자 능력에 대한 판단이 부족하여 시험 점수가 갖는 의미 를 해석하지 못함, 양적 분석을 통해 검증되기 어려움.
테니스 실력 점검을 위해 달리기 시험을 보는 것은 내용 타당도가 없다.
1.2.2. 예언타당도(predictive validity)
① 측정도구가 가진 예언 가능성의 정도를 말한다.
② 임무 완성, 사회적 적응 등 미래의 행동이나 특성을 어느 정도 정확하게 예측하느 냐를 측정하는 타당도.
예) 고교입시문제와 국어시험, 비행사 적성검사 성적과 운행기록, 대학 수학능력시 험과 대학교성적 등
③ 일반적으로 적성검사에서 예언타당도를 중시한다.
④ 예언 타당도 추정방법
첫째, 피험자 집단에게 새로 제작한 검사를 실시한다.
둘째, 일정기간 후 검사한 내용과 관계가 있는 피험자들의 행위를 측정한다.
셋째, 검사 점수와 미래 행위의 측정치와 상관정도를 추정한다.
⑤ 활용
예언 타당도는 미래의 행위를 예언해 주기 때문에 선발, 채용, 배치 등의 목적을 위해 사용될 수 있다. (예) 약사고시, 의사고시 등
토픽에서 높은 점수를 받은 학생의 한국어 의사소통능력이 떨어져 학업을 따라가지 못한 다면 예언타당도가 낮은 것이다.
1.2.3. 共因(공인) 타당도(concurrent validity, 공유타당도)
① 한 행동특성을 잰 검사 X와 이 검사밖에 있는 동질적 행동준거 Y와의 일치도로, 검사 X를 검사 Y로 대체할 수 있을 때 공인타당도가 된다.
② 새로운 검사를 제작하였을 때 기존에 타당성을 보장받고 있는 검사와의 유사성 혹 은 연관성에 의해 타당성을 검증하는 방법이다.
③ 두 검사 사이의 공통요인의 정도를 말한다.(행동의 준거가 ‘현재’에 있다)
예) 도덕성적과 도덕적 행위, 지능검사와 적성검사, 국어고사와 윤리고사 사이의 공통성
④ 공인타당도 추정방법
첫째, 피험자 집단에게 새로 제작된 검사를 실시한다.
둘째, 동일 집단에게 동일한 시험 상황에서 기존의 공인된 검사를 실시한다.
셋째, 두 검사 점수간의 상관계수를 추정한다.
준거관련 타당도
① 예언 타당도와 공인 타당도를 준거 타당도라고도 하며, 추정 방법은 상관계수에 의한 다.
② 시험의 타당도를 확립하기 위해서는 다른 관련된 측정 도구와의 통계적인 상관도를 구하는 것이 하나의 표준적인 방법이다. 그러나 궁극적인 타당도는 관찰과 이론적인 정당화를 통해서만 성립될 수 있다. 타당도에 대한 어떠한 최종적이고, 절대적이고, 객관적인 척도도 존재하지 않는다. 시험의 특정한 목표, 기준에 맞게 시험이 수험자 를 정확하고도 충분하게 측정할 수 있는 확실한 증거가 있어야 한다. 그 증거가 있다 면 그 시험은 준거 타당도가 있다고 말할 수 있다(브라운, 2008).
③ 일반적으로 검사도구의 공인타당도가 예언 타당도보다 높게 추정된다. 이는 공인타당 도는 동시에 추정되는데 비해 예언 타당도는 얼마간의 시간이 지난 후에 행위변수와 의 관계를 추정하기 때문이다.
1.2.4. 構因(구인) 타당도(construct validity)
① 가설적으로 개념화한 특성들을 실제 검사결과와 비교하여 어느 정도 대응하는가의 정도, 구성타당도 혹은 구성개념 타당도라고도 한다.
② 검사에서 조작적으로 정의되지 않고, 과학적으로 이론이 정립되지 않은 새로운 개 념 혹은 구인-예를 들면 사회성, 동조성, 사고력, 자아개념 등-을 측정하는 검사 에 과학적 이론과 타당성을 부여하는 과정이다.
③ 한 검사 점수가 어떤 논리적 구성이나 심리적 특성을 어느 정도 측정하고 있느냐 의 정도를 의미한다.
④ 구인타당도를 검증하기 위한 일반적 절차
첫째, 측정하고자 하는 심리적 특성을 구성하는 구성요소들이 무엇인지를 이론적, 경험적 배경에 의해 밝힌다. 즉 심리적 특성에 대한 조작적 정의를 내린다.
둘째, 구인과 관련된 이론에 근거하여 구인을 측정할 수 있는 문항을 제작한다.
셋째, 구인들을 측정하는 문항들로 검사를 제작한다.
넷째, 측정대상에게 검사를 실시하여 응답자료를 얻는다.
다섯째, 응답자료를 분석하여 검사가 측정하고자 하는 구인들을 제대로 측정하였 는지를 밝힌다.
여섯째, 심리적 특성에 대한 조작적 정의에서 규명된 구인과 관계가 없는 문항을 제거한다.
⑤ 구인타당도는 이론을 종합 정리하고 새로운 가설을 설정하는 과학적 연구과정과 같다. 예를 들면 인간은 상상적 추리를 통해 구인 X가 이 검사의 원인이 되고 있 으리라는 가정을 해본다. 그리고 이에 따른 가정적 이론을 수립한다. 그리고 “만 약 어떤 조건하에서 검사 점수 X가 높은 사람은 Y라는 상황 아래서는 Z과 같은 행동을 나타낼 것이다”라는 가설을 도출한다. 이러한 가설을 검증하기 위해 실제 실험과 인과-비교를 통해 경험적 검증을 하고 이 가설의 타당성 여부를 결정한다.
⑥ 구인 타당도를 검증하는데 많이 쓰이는 통계방법이 요인분석(factor analysis)이 다. 그 밖에 상관계수법, 실험설계법 등이 사용된다.
평가의 목적, 평가 이해관계자, test-user의 요구, 평가 설계자의 언어 교육학적 哲學 등
이 바탕이 되어 언어 능력의 構成要因을 목록화한 것이 構因이다. 한국어 능력을 평가할 때 構因에 대한 論議가 중요한 것은 한국어의 특정한 능력을 이루는 構成要因을 무엇으 로 보는가의 관점이 세워져야 평가할 대상과 내용이 타당하게 결정될 수 있기 때문이 다.(지현숙, 2007)
1.2.5. 결과 타당도
(1) 검사는 교육적 목적에 의하여 제작되나 정치, 경제, 사회, 문화와 국가의 교육이념 에 둘러싸여 있으므로 시대적 배경이나 환경을 고려하여야 한다.
② 결과타당도를 고려하면 검사 제작, 수집, 분석, 해석, 활용까지 체계적으로 검사를 운영하며, 검사가 사회에 미치는 영향까지를 고려하기 때문에 양질(良質)의 검사 를 제작할 수 있다.
③ 채용 시험에서 검사 제작자가 검사 사용이 직원 채용을 위한 경비절감, 작업효율 성 증가 및 그 밖에 다른 혜택을 가져왔는가?
④ 대안적 평가 방법으로 제안되고 있는 수행평가가 학생들의 학습동기를 얼마나 유 발하고 학습의 변화를 어떻게 유도하는지 그리고 의도하지 않은 부정적 결과가 무 엇인지 확인한다.
1.2.6. 생태학적 타당도(ecological validity)
① 검사의 내용이나 절차가 검사를 실시하고자 하는 피험자들의 사회, 문화적 배경이 나 주변 상황에 타당한가의 정도, 즉 실험결과를 얻은 환경적 조건으로부터 다른 환경적 조건으로 일반화할 수 있는 정도를 말한다.
예) 지능검사의 국가간 실시, 농촌과 도시 학생, 성별, 인종별 유·불리 검토
② 실험집단이나 통제집단에 속한 연구대상들이 처치변수의 투입과 상관없이 스스로 어떠한 의미를 부여하여 종속변수의 변화를 발생시킬 수 있는데 그 효과가 실험집 단에서 나타나는 Hawthorne 효과와 통제집단에서 나타나는 Jone Henry 효과 및 연구자에 의한 효과 등이 있다.
Weir(2005)는 환경타당도(context validity)를 시험 시행 과정에서 수험자에게 주어진 시험 주제, 과업 정황, 과업 순서, 시간 제한, 내용 지식, 입력과 출력, 과업 요구사항, 시험 시행 조건 등으로 정의하였다. Kim (2006)은 시험 시행 과정에서 수험자들이 접하 게 되는 언어기능, 준비 및 응답시간, 입력조건들(문자, 음성, 비디오), 컴퓨터기술 등을 추가하였다.(김정태, 2009 재인용)
2. 신뢰도(reliability)
2.1. 신뢰도의 의미
신뢰도는 평가의 결과가 얼마나 일정하게 나오느냐에 관한 것이다. 평가 도구가 어떤 특성을 측정할 때마다 점수가 다르게 나온다면 이 평가 도구는 신뢰할 만한 도구라고 할 수 없다.
① 측정도구가 무엇을 재든 얼마나 틀림없이 정확히 재고 있느냐의 정도
② 측정하려는 것을 얼마나 안정적으로 일관성 있게 측정하고 있는가의 정도
③ 신뢰도의 개념은 스페어만(Spearman)에 의해 처음 소개되었고, 그는 신뢰도를 각기 독립적으로 얻어진 검사를 구성하는 문항 간 상관들의 평균으로 정의하였다.
(신뢰도를 위해 처음 사용된 공식은 피어슨(Pearson)의 단순적률상관계수 공식이다)
④ 신뢰도를 측정하는 접근 방법에는 변량분석, 표준오차, 상관계수 등이 있다.
2.2. 신뢰도 검사방법
2.2.1. 재검사 신뢰도(안정성 계수)
① 한 피험자 집단을 대상으로 하여 동일한 검사를 서로 다른 두 시기에 실시하여 얻 어진 상관계수를 말한다.(평가과정과 방법, 평가도구의 안정성을 의미)
② 서로 다른 두 시점에서 얻어진 점수분포가 비슷할수록 신뢰도가 높다고 할 수 있 기 때문에 일관성의 지수로 해석된다.
③ 재검사신뢰도는 처음 실시한 검사 내용이 기억될 경우에는 두 번째 검사 점수에 영향을 주기 때문에 신뢰도에 영향을 준다.
④ 두 검사 사이의 기간이 지나치게 짧으면 신뢰도가 높고, 너무 길면 신뢰도가 낮아 진다. 그러므로 적정한 기간, 즉 2~4주가 적정하다.(기억효과를 배제하기 위해 시 험기간을 6개월 혹은 1년 등으로 설정하는 경우 이 기간 동안 학습능력의 변화, 피험자의 성숙 등 인간의 행위가 변화될 수 있는 기간이므로 신뢰도에 영향을 미 친다.(인간 행동이 측정대상이라고 할 수 있으며, 시험환경과 시험요건과 같은 시 험관련 제반요인들이 신뢰도 변수가 됨)
⑤ 피어슨(Pearson)의 단순적률 상관계수 추정 공식에 의해 산출된다.
2.2.2. 동형(同型)검사 신뢰도(동형성 계수)
① 동일한 양식의 검사를 같은 응답자에게 처음에 하나의 양식을 실시한 다음 일정한 시간이 지난 후 다른 양식의 검사로 실시해서 두 검사 양식에서 얻은 점수간의 상 관계수를 말한다.
② 검사 내용이나 형식에서 동질성을 유지하는 것이 중요하다.
2.2.3. 반분(半分) 신뢰도(동질성 계수)
① 한 개의 검사를 한 피험자 집단에게 실시한 다음 그것을 적당한 방법으로 두 부분 으로 나눈 후 이 두 부분을 독립된 검사로 생각하고, 두 부분의 점수들의 상관계 수로 문항간의 내적 합치도를 알아보는 신뢰도를 말한다.
② 반분 신뢰도의 경우 단지 두 부분의 점수 사이의 상관도로 신뢰도를 계산하면 신 뢰도가 낮아진다.(문항 수가 반으로 줄기 때문) 그러므로 반드시 교정공식을 사용 해야 한다.
③ 교정공식은 Spearman-Brown 공식으로 계산한다.
2.2.4. 문항내적 합치도(문항내적 일관성/ 동질성 계수)
① 한 검사를 구성하는 문항들을 각각 독립된 검사로 간주하여 그 문항들이 동일한 측정대상을 어느 정도 일관성 있게 측정하는지를 반영하는 신뢰도. 즉 검사 속에 있는 한 문항, 한 문항을 모두가 각각 독립된 한 개의 검사로 생각해서 각 문항간 의 상관도를 내어 그것을 종합하는 방법이다.
② 측정방법은 Kuder-Richardson 20(KR-20), Kuder_Richardson 21(KR-21), Hoyt 신뢰도, Chronbach- 등이 있다.
문항내적 일관성 신뢰도
① 문항내적 일관성 신뢰도에는 반분신뢰도와 문항내적 합치도가 있다.
② 문항내적 일관성 신뢰도는 검사를 구성하는 부분 검사, 또는 문항간의 일관성의 정도 를 말하며, 검사를 구성하는 부분 검사나 문항들이 측정하고자 하는 내용을 얼마나 일 관성 있게 측정하느냐 하는 문제이다.
2.3. 신뢰도에 영향을 주는 조건
① 검사문항의 포괄성
(2) 검사조건의 균일화-장소, 시설 등
③ 피험자의 준비상태
④ 채점의 객관성
2.4. 신뢰도를 높이는 방법
① 검사의 문항들이 동질적인 것이면 문항의 수, 즉 검사의 길이가 늘어나면 신뢰도는 올라간다.
② 난이도가 50% 수준의 것을 많이 쓴다. 검사가 너무 어렵거나 쉬우면 피험자의 검사 불안과 부주의가 발생하여 일관성 있는 응답을 하지 못한다.
④ 변별도가 높은 문항을 많이 쓴다.
⑤ 집단의 능력의 범위가 넓을 때가 능력의 범위가 좁을 때보다 신뢰도는 올라간다.
⑥ 검사 시간의 제한을 엄격히 하는 것이 시간제한을 지나치게 완화하여 누구나 문제를 끝낼 수 있게 하는 것보다 신뢰도를 높일 수 있다. (그러나 시험실시 중에는 시간이 충분하게 주어져서 시간 때문에 문제를 풀지 못하는 경우가 있어서는 안된다.)
⑦ 검사도구의 측정 내용이 보다 좁은 범위의 내용일 때 검사의 신뢰도는 증가한다.
예를 들어 한국사 시험에서 검사의 내용범위가 근대사로 제한된다면 한국사 전체의 내용을 포함하는 검사보다 신뢰도가 높다.
⑧ 시험을 실시하는 상황도 적합해야 한다. 시간뿐만 아니라 부정행위가 방지되어야 하 고 부주의로 인해서 오답을 하는 경우도 없어야 한다.(객관식 검사에서는 3지 선다 형보다 4지 선다형이나 5지 선다형이 신뢰도가 높다.)
⑨ 피험자들이 검사에 대한 흥미가 높고 검사 선택 동기가 높으면 검사에 대한 응답의 일관이 유지되어 신뢰도가 증가한다.
◆ 신뢰도와 타당도의 관계
① 신뢰도는 타당도의 선행 조건으로서 타당도가 없는 검사가 신뢰도는 높을 수 있으나 신뢰도가 없는 검사가 타당도가 높을 수는 없다.
② 신뢰도는 타당도의 선행 조건이 된다.
즉 신뢰도는 타당도의 필요조건이지 충분조건은 아니다.
③ 예를 들어 지능검사로 지능을 측정하는 경우 오차가 발생한다.(오차점수)
그런데 여러 번 잰 경우에 일관된 지수가 나온다.(신뢰도 높음)
그러나 일관된 지수가 나와도 지능검사가 성격이나 적성의 일부를 포함할 수도 있다. (타당도 낮음)
④ 교육평가의 관점에서 볼 때는 측정도구가 비록 신뢰도가 낮은 한이 있어도 타당도는 높아야 한다.
3. 객관도(objectivity, 채점자의 신뢰도)
3.1. 객관도의 의미
① 채점자에 의한 채점의 일관성을 말한다.
② 한 채점자가 다른 채점자와 얼마나 유사하게 평가하는가(채점자 간 신뢰도)
한 채점자가 많은 측정 대상에 대해 계속적으로 일관되게 측정(채점자 내 신뢰도)
③ 주관식 평가의 경우 채점자에 따라서 점수가 다르게 부여될 수 있으므로 채점의 일 관성이 반드시 보장된다고 할 수 없음
④ 채점자가 경험한 시간, 환경의 변화와 채점자 사이에 존재하는 판단기준, 가치관의 차이를 통해 그 오차 요인을 구별함
채점자들이 타이핑한 쓰기자료가 자필자료보다 짧아 보여 채점 결과에 영향을 끼칠 수 있음
3.2. 객관도에 영향을 미치는 요인
① 측정도구
② 평가자의 소양
③ 다수가 공동으로 평가하는 경우
◆ 객관도, 신뢰도, 타당도의 관계
객관도가 낮은 검사는 신뢰도가 높을 수 없고, 신뢰도가 낮은데 타당도가 높을 수 없다.
4. 실용도(practicality)
작성된 평가 항목과 평가 도구가 실질적으로 운용하기에 적절한 내용으로 이루어져야 함을 뜻한다. 좋은 평가 도구라고 하더라도 실제 활용하기에 어려운 조건을 가지고 있어, 쓰일 수 없다면 의미가 없는 것이기 때문이다. 주어진 적절한 시간 내에 평가에 필요한 내용을 충분히 수행할 수 있도록 이루어질 수 있도록 평가 항목의 수준과 분량 그리고 평가 진행의 방법 등이 선택되어야 하는 것이다.
① 한 평가 도구가 얼마나 경비, 시간, 노력을 적게 들이고도 소기의 목적을 달성할 수 있느냐의 정도
(2) 구성요소 : 평가실시의 용이, 채점의 용이, 해석의 용이, 경제성
③ 경제성은 평가를 제작하거나 선택할 때는 평가의 관리와 채점에 어느 정도의 시간이 걸리는지, 또 시험지의 복사 비용, 몇 명의 시험 관리자와 채점자가 필요한지 등의 제반 비용을 고려해야 함을 말한다.
5. 참고 사례 (말하기 평가)
1) 현재 국내외에서 시행되고 있는 외국어 말하기 평가 도구의 평가 범주, 한국어 말하기평가 도구의 평가 범주 (한상미, 2009)
정승혜 외(2006): 문법적 능력, 사회언어학적 능력, 담화 구성 능력, 전략적 능력
전나영 외(2007): 언어적 능력(음운, 문법, 어휘, 담화), 화용적 능력(기능, 사회문화적 능력)
한상미(2008): 음운 능력, 어휘 능력, 문법 능력, 담화·화용 능력, 사회문화적 능력, 기능수행력
2) 초등학교 국어지식 영역의 성취도 평가 분석(송현정, 2003)
국어지식 영역에서 문맥적 의미를 파악하는 문항과 맞춤법을 확인하는 문항의 정답률이 현저하게 낮았으며 변별력 또한 0.16과 0.18로 약하였다.
문항 자체의 난이도도 고려해야 하는 복합적인 문제이기는 하지만, 초등학교 학생들의 문맥적 의미 파악과 맞춤법에 대한 국어지식이 낮다고 일차적으로 판단할 수 있다.
정답률이 매우 낮은 문항인 19번 문항은 초등학생들의 맞춤법에 대한 지식을 묻기 위한 문항인데 정답률이 39.6%, 변별도는 0.18이다.
학생들이 쉽게 틀리는 맞춤법 사례를 제시하였었기에 정답률이 낮을 것이라는 점을 예상은 했었지만, 변별도 또한 낮은 것으로 보아 학력이 높은 학생이나 낮은 학생의 차이 없이 맞춤법에 대한 의식이 부족한 것으로 판단할 수 있다.
3) 2005년 중등임용고사 시험 문제 (이이수, 2007)
다음은 A중학교 1학년 1반 30명의 사회과 기말고사 문항 중 1~4번에 대한 문항반응이다. 학생들을 성적에 따라 상하 각각 50%로 구분하고 상위집단의 비율과 하위집단의 정답비율의 차이로 문항 변별도를 구할 때, 문항변별도가 가장 높은 것은?
►문항1의 변별도는 0.33, 문항2는 -0.06, 문항3은 0.2, 문항 4는 0.6이다.
▻변별도 : (상위정답자수-하위정답자수)/정답자수
4) 영어말하기평가의 문항 분석: 의사소통 기능을 중심으로 (신동일·김종국, 2009)
<표 3> 말하기시험 문항별 상황과 목표기능(황선혜, 1999)
<표 4> 의사소통 기능과 해당 기능의 평가의도를 가진 문항 (Lazaraton(2002)에 의해 제안된 의사소통 기능군)
<표 5> 국내에서 사용되고 있는 영어말하기 시험 문항들이 평가하고자 하는 의사소통 기능
대부분의 시험이 Lazaraton(2002)의 연구에서 제안된 14개의 의사소통 기능 중에서 평균 9개 기능의 평가가 명시적으로 의도된 듯하다. 이 중에서 개인적인 사실정보 제공, 일반적인 사실정보 제공 기능은 모든 시험에서 공통적으로 평가하는 항목이었고 미래계획 말하기, 일상적인 상황에서 좋고 싫음을 표현하기, 비교하고 대조하기 등은 3회 미만으로 드물게 출제되고 있었다.
Lazaraton(2002)의 연구에서도 FCE 말하기시험의 의견 묻기 문항은 출제자의 의도와는 달리 수험자들이 보다 다양한 의사소통 기능을 활용했으며 이는 채점활동에 어려움을 제공하거나 동종의 문항개발에 불편함을 제공할 것으로 지적했다.
이와 같은 문항은 지침서 제작 과정 때부터 보다 구체적인 입력 특성으로 평가하고자 하는 구인, 예상되는 의사소통 기능을 명시할 필요가 있다. 가급적이면 예시 문항, 예상 응답자료를 시험지침서에 포함시킬 필요가 있다.
문항에 의해 의도되지 않은 의사소통 기능이 수험자들에 의해 빈번하게 유도된다면, 결국 시험의 채점 신뢰성과 문항의 구인타당성에 부정적인 영향을 끼칠 것으로 판단된다. 어떻게 문항을 만들더라도 의도된 의사소통 기능의 평가가 수험자의 발화를 통해 모두 유도될 수 없을 것이다. 그러므로 문항의 의도와 실제 응답 발화에서 나타난 의사소통 기능 간의 차이를 줄이는 노력을 평가자들은 해야 할 것이다.
평가기관 혹은 시험준비 기관은 수험자의 실제 발화를 면밀히 살펴보면서 문장이 아닌 담화에 초점을 맞춰서 시험준비 자료를 구성할 필요가 있다. 마지막으로, 말하기시험에서 도출되는 담화 자료를 기반으로 한 평가도구의 타당화 연구를 다시 한번 강조하고 싶다. 국내에서 시행되는 여러 종류의 말하기시험은 시험의 개발, 채점의 신뢰성, 시험의 타당화 연구자료를 공개하지 않고 있다.
하나의 시험을 개발하고 시행한 후 지속적인 타당화 노력을 통해서만 시험 사용의 보다 적절한 의미를 평가자와 사용자가 부여할 수 있는 것이다.
◆ 말하기평가의 타당성을 탐구하기 위한 다음과 같은 질문들은 추후 연구주제
– 평가기관의 의도된 의사소통 기능은 타당한가?
– 특정 문항을 출제할 때 수험자는 의도된 의사소통기능만을 사용해야 하는가?
– 수험자들이 의도되지 않은 의사소통 기능을 자유롭게 사용하도록 허락한다면, 채점 신뢰 성, 채점방식, 채점자교육에 어떤 변화가 요구되는가?
– 구술 능숙도 수준을 포함한 수험자 특성은 의사소통 기능의 수행능력에 어떤 변수인가?
<참고 문헌>
강승혜외(2006), 『한국어 평가론』, 태학사, pp.26~35.
김정숙 외(2007), ‘한국어 표준 말하기 시험 측정 도구를 위한 기초 연구’, 韓民族語文學(第 51輯), pp.229~258.
김정태(2009), ‘말하기 평가 시행 도구 기술과 문항 유형간의 관계성 연구’, pp.177~202.
朴仙玉(2009), ‘學問 目的 韓國語 말하기 敎材 分析을 통한 敎材 開發 방향 연구’, 語文硏究 제37권 제3호(2009년 가을), pp.381~408.
송현정(2003), ‘국어지식 영역의 성취도 평가에 관한 분석 연구’, 이중언어학, Vol.23, 二重 言語學會, pp.137~166.
신동일·김종국(2009), ‘영어말하기평가의 문항 분석: 의사소통 기능을 중심으로’, 영어교육 64권 2호 2009년 여름, pp.103~123.
이관규(2003), ‘국어 지식 교육의 평가 내용과 방법의 현황 및 문제점’, 이중언어학, Vol.23, 二重言語學會, pp.212~226.
이동은(2009), ‘한국어 말하기 숙달도 시험의 고찰을 통한 말하기 과제의 개발 방안’, 韓民 族語文學 第54輯, pp.223~248.
이이수(207), 『이이수 교육학(하)』, 도서출판 열린교육, pp.441~522.
이진영(2009), ‘한국어 말하기 성취도 평가의 단계별 유형과 기준 연구’, 한양대학교 교육대 학원 석사논문.
지현숙(2006), ‘한국어 구어 문법 능력의 과제 기반 평가 연구’, 서울대 대학원 박사학위 논 문.
池賢淑(2008), “한국어 말하기 시험에서의 ‘이야기 口述 課題’ 연구” 語文硏究 제36권 제3 호, pp.345~368.
한상미(2009), ‘학문 목적 한국어 말하기 평가 연구 -대학 입학 전 과정을 중심으로’ 한국 어교육 제20권 1호, 국제한국어교육학회.
한재영외(2005), 『한국어 교수법』, 태학사, pp.600~601.
H. Douglas Brown(2008), 권오량·김영숙 공역,『원리에 의한 교수-3판』, pp.514~538.