정답은 위임해도, 논거는 위임할 수 없다 — AI 문항 분석의 경계선 - 오디 컬럼

정답은 위임해도, 논거는 위임할 수 없다 — AI 문항 분석의 경계선

작성자상징사전|작성시간26.06.05|조회수69 목록 댓글 1

2026년 6월 모평_AI와 EBS해설의 비교보고서.xlsx

채점이 아니라 검수였다. 2026학년도 6월 학력평가·모의평가 국어 다섯 시험지, 146문항의 해설을 AI로 작성하고 EBS 정식 해설과 한 문항씩 맞대어 보았다. 결과를 읽기 전에 조건부터 갈라야 한다. 고1·고2의 90문항은 AI가 정답도 해설도 받지 않은 채 푼 것이고, 고3의 56문항은 정답만 먼저 받은 채 해설을 쓴 것이다. 정답을 받지 않고 푼 90문항에서 AI는 정답을 한 칸도 틀리지 않았다. 그러나 조건을 가리지 않고, AI가 스스로 써 낸 '논거'는 다섯 문항에서 어긋났다 — 그중 셋은 정답을 손에 쥐고도 틀린 것이었다. 이 비대칭이, AI를 문항 분석의 동료로 들이려는 우리에게 가장 정직한 거울이다.

▸ 분석 조건별 결과 한눈에 보기
분석 조건 대상 (문항) 정답 정확도 논거 오류
블라인드 — 정답·해설 미제공 고1·고2 (90문항) 90 / 90 = 100%
(진짜 정확도) 2건
정답 제공 — 해설은 미제공 고3 (56문항) —
(정답 사전 제공 → 측정 불가) 3건
정답 정확도는 블라인드 조건에서만 유효하다. 정답을 미리 받은 고3에서 검증되는 것은 '정답'이 아니라 AI가 스스로 쓴 '논거'이며, 그 논거에서 오류가 오히려 더 많이(5건 중 3건) 나왔다.

먼저 인정할 것은 인정하자. 사실을 찾고 대조하고 표로 벼리는 일에서 AI는 이미 믿을 만한 손이다. 정답도 해설도 없이 푼 90문항에서 한 칸도 틀리지 않은 것은 작은 성취가 아니다. 정답표는 작은 격자에 깨알같이 박혀 있어 사람의 눈도 자주 미끄러진다 — 실제로 이번 대조에서도 그 격자를 잘못 읽어 '불일치'로 착각한 순간이 학년마다 반복됐고, 오판을 바로잡아 준 것은 문항별 상세 해설을 끝까지 따라 읽은 끈질긴 교차 확인이었다. 흥미로운 것은 그 격자를 헛읽은 쪽이 사람만은 아니었다는 점이다. 대조를 수행한 AI 역시 한 차례 정답표를 잘못 읽어 멀쩡한 정답을 '불일치'라 보고했다가, 상세 해설을 되짚어 스스로 정정했다. 요컨대 AI의 강점은 '한 번에 옳음'이 아니라 '집요하게 되짚어 수렴함'에 있다. 사람이라면 지쳐서 건너뛸 교차 확인을, AI는 같은 밀도로 끝까지 밀어붙인다. 흩어진 결과를 학년·영역별로 묶어 백분율로 환산하고 교정 내역을 일관된 양식의 표로 찍어내는 북킹(bookkeeping) — 지식을 지키는 고된 일의 대부분은 사고가 아니라 이 북킹이고, 손이 많이 가지만 판단이 적게 드는 그 자리에서 AI는 사람의 시간을 가장 크게 벌어 준다.

그러나 틀린 다섯 문항의 '결'을 들여다보면 이야기가 달라진다. AI가 빗나간 곳은 단순한 사실이 아니라, 하나같이 해석·개념의 경계·인과가 걸린 자리였다. 다섯 건의 오독은 작품·선지 해석에서 둘, 개념·정보의 경계에서 둘, 인과관계에서 하나로 갈렸다. 고전시가에서 AI는 화자를 '남거미 나비 감듯'에 빗댄 원문이 멀쩡히 있는데도 "그 빗대기는 틀렸다"며 없는 오류를 지어냈다. 소설에서는 인물의 떨림을 '두려움'이 아니라 '분노'로 읽어 인과의 방향까지 뒤집었다. 사회 지문에서는 규제 대상인 '사업자'와 아직 규제 대상이 아닌 '정보 제공자'를, 한 문장 안의 '아직'이라는 단어 하나를 흘려보내 한데 뭉갰다. 사람이라면 멈칫했을 자리에서 AI는 멈추지 않았다. 더 뼈아픈 것은, 이 다섯 중 셋이 정답을 미리 받은 고3에서 나왔다는 사실이다. 답을 손에 쥐고도, 그 답에 이르는 길은 헛디뎠다. 답이 한 줄로 떨어지지 않고 텍스트의 함축과 맥락을 '읽어 내야' 하는 지점에서, AI는 그럴듯하지만 헛디딘 논거를 자신 있게 생성한다. 그럴듯함은 버그가 아니라 설계다. 방대한 문장을 학습한 모델은 '가장 그럴듯한 다음 말'을 잇도록 만들어졌으니, 근거가 빈 자리에서도 문장은 매끄럽게 흘러간다 — 때로는 빈 곳일수록 더 유창하게.

오류가 어디에 몰렸는지도 시사적이다. 다섯 건은 전부 긴 지문을 읽고 문학을 해석하는 무게가 가장 큰 고3·고2 시험지에 쌓였고, 규칙과 절차가 또렷한 화법과 작문·언어와 매체, 그리고 짧은 고1에서는 한 건도 없었다. 함축과 맥락이 두꺼워질수록 AI는 헛디뎠다. 역설도 있었다. 여섯 번째 불일치는 우리 쪽이 아니라 EBS 해설의 오타였고, 그 지점에서는 AI의 집요한 대조가 외려 인간 전문가의 실수를 잡아냈다. 그러니 구도는 'AI 대 인간'의 우열이 아니라 상호 검증이다. 다만 위험의 질이 다르다. 사람은 모르면 머뭇거리지만, AI는 모르는 곳에서도 매끄러운 문장을 지어낸다. 자신 있게 틀리는 능력 — 그것이 보조 도구로서 AI의 가장 큰 미덕이자 가장 깊은 함정이다.

그러므로 진짜 과제는 'AI를 쓸 것인가'가 아니라 '어디까지 위임할 것인가'의 선을 긋는 일이다. 정답의 확인은 위임할 수 있어도, 논거의 승인은 위임할 수 없다. 정답 없이 푼 90문항에서 한 칸도 틀리지 않은 AI에게 '무엇이 답인가'를 맡기는 것은 합리적이다. 그러나 정답을 쥐여 줘도 다섯 중 셋을 헛디딘 AI에게 '왜 그것이 답인가'까지 맡길 수는 없다. 실무로 옮기면 절차는 세 단계다. 첫째, AI가 정답과 해설 초안을 만들고 대조·집계까지 끝낸다. 둘째, 사람은 모든 칸이 아니라 '해석이 걸린 칸' — 작품의 함축, 개념의 경계, 인물 심리의 인과 — 만 골라 원문 지문·선지·정해를 끌어와 표적 검문한다. 셋째, 그 검문을 통과한 결과에만 사람의 서명을 붙여 내보낸다. 이 분업이 효율적인 까닭은 분명하다. 사람이 모든 해설을 처음부터 쓰는 것보다, AI의 초안에서 '해석이 걸린 칸'만 골라 검증하는 편이 훨씬 적은 품으로 같은 신뢰에 닿기 때문이다. 교재와 보고서를 출판으로 들고 가려는 이에게 이 마지막 서명은 곧 신뢰의 화폐다. 검증되지 않은 한 줌의 오독이 단 한 번이라도 독자에게 발각되는 순간, 나머지 모든 해설의 신뢰까지 함께 무너지기 때문이다.

이 결론은 교실로도 곧장 이어진다. AI가 정답을 즉시 뱉어 내는 시대에 학생에게 길러 줄 능력은 '정답을 아는 힘'이 아니라 '논거를 의심하고 검증하는 힘'이다. 매끄러운 해설을 받아 적는 복제된 사고로는, 자신 있게 틀린 AI의 문장 앞에서 무력하다. 답이 아니라 근거를 따져 묻는 추론과 비판 — 그 사고력이야말로 AI 시대의 진짜 학력이다.

표의 마지막 칸까지 채우는 일은 AI가 했다. 그러나 그 표가 '맞다'고 서명하는 칸은 끝내 비어 있었고, 그 자리는 사람이 채웠다. AI는 분석의 근면한 보조이지 판단의 주체가 아니다. '왜?'에 답하고 그 답에 책임지는 마지막 한 칸 — 그것은 여전히 인간의 자리다.

출처

핵심 수치 — 자체 검수 1차 자료: Output/분석서/202606_EBS해설검수_비교보고서.xlsx(요약·항목별분류·교정상세 3개 시트), 2026-06-05 작성. 분석 조건을 분리해 집계: 정답 정확도는 정답·해설을 제공받지 않은 '블라인드' 조건(고1·고2, 90문항)에서만 산정 → 90/90 = 100%. 고3(56문항)은 정답을 사전 제공받아 해설만 작성했으므로 정답 일치는 정확도 지표에서 제외했다. 논거 정합은 모든 조건에서 AI가 스스로 작성한 해설의 추론 품질을 측정(141/146 = 96.6%), 오류 5건 중 3건은 정답 제공(고3) 조건에서 발생.
대조 기준 해설 — EBS 『2026학년도 6월 고1·고2 전국연합학력평가』 및 『2027학년도 대학수학능력시험 6월 모의평가(고3)』 국어영역 정답 및 해설(전체 정해), 한국교육과정평가원·EBS.
교정 5건의 문항별 근거 — raw/문항/의 시험지·정해 원문과 wiki/log.md 2026-06-05 maint 항목(고3 공통 Q13·Q20·Q34, 고2 공통 Q8·Q42; 참고: 고3 언매 Q37 EBS 오타).

첨부파일첨부된 파일이 1개 있습니다.

다음검색

북마크

댓글 1
댓글쓰기
답글쓰기

댓글 리스트

작성자장안유협경박자 | 작성시간 26.06.05 AI 시대에 인간이 AI를 어떻게 활용하는 것이 좋을지 고민하는 시간이 많습니다.
AI로 문제를 만들고 귀찮아서 또는 바빠서 검수를 하지 않은 경우가 있습니다.
수업하는 학생들에게 배포하는 문제는 수업하면서 수정을 하면 되겠지만, 유료 사이트에 올리기에는 부담스러운 것도 사실입니다.
AI를 여러 개 쓰면서 교차 검증을 하는 방법도 있겠지만 비용 부담도 크고, 또 손이 많이 가기 때문에 수업을 하면서 작업을 하기에는 시간에 부담이 생깁니다.
그래도 조금만 부지런하게 움직이면 좋은 자료를 만들어 수익을 창출할 수 있다고 생각합니다.
사용자가 AI에게 적당히 추임새를 해 준다면 AI는 좋은 도구가 될 것이라 생각합니다.

댓글 전체보기

CAFE

오디 컬럼

정답은 위임해도, 논거는 위임할 수 없다 — AI 문항 분석의 경계선

댓글

카페 검색

블라인드 — 정답·해설 미제공	고1·고2 (90문항)	90 / 90 = 100% (진짜 정확도)	2건
정답 제공 — 해설은 미제공	고3 (56문항)	— (정답 사전 제공 → 측정 불가)	3건