한때 교육의 미래로 불리던 AI 디지털교과서(AIDT)가 1년 만에 뒷걸음질 쳤다. 2025년 8월 국회는 초중등교육법을 고쳐 AIDT의 지위를 '교과서'에서 '교육자료'로 내렸고, 그해 11월 관련 검정 조항은 아예 삭제됐다. 2025년 12월 발표된 2026년 교육부 업무계획에는 '디지털교과서'라는 말이 한 번도 등장하지 않는다. 도입 첫해 채택률은 1학기 약 33%에서 2학기 19%로 반토막 났고, 정작 실제 접속률은 10%에도 미치지 못했다. 화려한 구호와 텅 빈 교실 사이의 간극, 그것이 이 정책의 본질이었다.
이 후퇴를 '기술의 실패'로만 읽으면 핵심을 놓친다. 진짜 질문은 따로 있다. 국어 교육에서 AI는 교사를 대체하는 존재인가, 아니면 보완하는 도구인가. 답을 감정이 아니라 근거 위에서 찾아야 한다.
먼저 '맞춤형 학습'이라는 약속의 근거를 보자. 가장 널리 인용되는 메타분석(차은주, 이화여대 2023)은 AI 적응형 학습의 효과크기를 0.790으로 보고했다. 수치는 크지만, 분석된 22편이 모두 국외 연구이며 국내 AIDT를 검증한 것이 아니다. 더구나 'AI가 언어 교과에서 특히 효과적'이라는 식의 주장들은 출처를 따져 보면 근거가 무너진다. 약속은 풍성했으나 국내 실증은 비어 있었다.
평가 영역으로 들어가면 한계는 더 또렷하다. 최신 국내 연구(최진영 외, 2025)가 GPT 기반 모델로 논술형 답안을 채점한 결과, 인간 평가자와의 근접일치도는 95~98%로 높았지만 완전일치도는 53~68%, 즉 절반 남짓에 그쳤다. 대략 비슷하게는 맞히되, 똑같이 매기는 일은 절반밖에 못 한다는 뜻이다. 그래서 연구진은 AI를 교사를 대신하는 채점자가 아니라 교사의 판단을 거드는 '후행적 조언자(post-hoc advisor)'로 규정했다. 자동 서술형 평가가 넘어야 할 자연어 처리의 한계, 채점 신뢰도, 부정행위, 고부담 시험의 윤리라는 네 가지 장벽(이경건·하민수, 2020)도 여전히 그대로다. 같은 답안에 매번 다른 점수가 나온다는 현장 교사의 증언은 이 한계의 생생한 증거다.
국어라는 과목의 성격은 이 결론을 한층 분명하게 만든다. 국어 교육의 본령은 정답을 빠르게 맞히는 데 있지 않고, 텍스트를 깊이 읽고 자기 생각을 논리적으로 세워 표현하는 사고와 추론에 있다. AIDT를 국어과 쓰기에 적용할 가능성을 검토한 연구(장성민, 2024)조차, 자동 채점과 피드백 같은 효용을 인정하면서 동시에 대면 상호작용의 대체, 특정 담화 관습으로의 편향, 그리고 무엇보다 필자의 고차원적 사고를 정말로 촉진하는가라는 물음을 핵심 쟁점으로 남겼다. 학생의 문장 뒤에 숨은 머뭇거림을 읽어 내고, 더 나은 질문을 되던지며, 생각의 결을 함께 다듬는 일—그것은 통계적 일치도로 환산되지 않는 교육의 영역이다.
그러므로 답은 분명하다. AI는 국어 교사를 대체하지 못한다. 보완할 뿐이다. 채점의 일관성을 점검하고, 반복적 피드백의 초안을 거들고, 방대한 자료를 빠르게 추리는 일에서 AI는 유능한 조수다. 그러나 무엇을 평가할 가치가 있는지 정하고, 학생의 사고를 끝까지 책임지고 길러 내는 일은 끝내 사람의 몫이다. AIDT의 후퇴가 우리에게 남긴 교훈은 'AI가 쓸모없다'가 아니다. 도구를 교육철학 위에 올려놓을 때에만 도구가 제구실을 한다는 오래된 진실이다. 교사가 중심을 잡을 때 AI는 비로소 좋은 보완재가 된다. 순서를 뒤집는 순간, 텅 빈 교실의 실패는 언제든 되풀이된다.
출처
- 정책 후퇴·채택률·접속률: 경향신문(2025-08-04), 교육부 「2026년 교육부 업무계획」(2025-12-12)
- 메타분석 효과크기 0.790: 차은주, 이화여대 석사학위논문(2023)
- AI 자동채점 완전일치도 53~68%·'후행적 조언자': 최진영·김지수·김형성, 『교육정보미디어연구』 31(4)(2025)
- 자동 서술형 평가 4대 장벽: 이경건·하민수, 『교육공학연구』(2020)
- 국어과 쓰기 AI 적용 가능성·쟁점: 장성민, 『국어교육』 186호(2024)