[팩트체크] 'AI 수험생'이 수능 응시한다면 어느 대학 갈 수 있을까
연세대 김시호 교수팀, 챗GPT·제미나이·딥시크·퍼플렉시티 대상 실험
챗GPT 성적 압도적으로 높아…2위는 딥시크·퍼플렉시티는 '커닝'하기도
4년제대학 합격선엔 턱없이 부족한 성적…수학 고난도 문제 풀이도 힘들어
해외 기업의 AI, 한국형 시험엔 취약…"소버린 AI 개발에 수능이 지표 될 수도"
X
'수능 끝, 내 점수는?' (대구=연합뉴스) 윤관식 기자 = 2026학년도 대학수학능력시험(수능) 다음날인 14일 대구 수성구 정화여자고등학교 3학년 교실에서 수험생들이 가채점하고 있다. 2025.11.14 psik@yna.co.kr
(서울=연합뉴스) 김빛나 기자 = 2026학년도 대학수학능력시험(수능)이 끝났다.
최근 사회 거의 모든 분야에서 화두가 되고 있는 생성형 인공지능(AI)이 수능 수험생이라면 어느 정도의 성적을 받을까.
연합뉴스는 15일 연세대 인공지능융합대 첨단융합공학부 김시호 교수 연구팀과 함께 챗GPT(GPT-5), 제미나이(2.5 플래시), 퍼플렉시티(소나), 딥시크 최신 모델의 무료 버전을 대상으로 2026년도 수능 국어·영어·수학 영역을 풀어보게 했다.
어떤 AI가 가장 우수한 성적을 거뒀을까. 그리고 각 AI가 실제 수험생이었다면 어느 대학에 진학할 수 있을까 확인해봤다.
시험 환경은 실제 수능과 동일하게 구현하기 위해 모든 AI 챗봇 모델에게 인터넷 검색을 금지하고 스스로 문제를 풀도록 했다.
다만 음성을 인식하지 못하는 딥시크, 퍼플렉시티를 고려해 국어·영어 듣기 문제는 대본을 제공했다.
기호, 수식이 많은 수학 문항은 수식 표현 방식인 'LaTeX(라텍)'으로 변환해 입력했으며, 문제에서 제시된 표나 이미지는 PDF 파일로 전달해 시험을 치르게 했다.
X
수능 문제 풀고 있는 AI 13일 인천 연수구에 위치한 연세대 국제캠퍼스에서 김시호 연세대 인공지능융합대 첨단융합공학부 교수 연구팀이 인공지능(AI) 모델에게 2026학년도 대학수학능력시험(수능) 문제를 풀게 하고 있다. 책상에 앉아있는 연구팀 소속 김진혁 박사. [김시호 교수 연구팀 제공. 재판매 및 DB 금지]
◇ 1등 GPT, 수학에선 한 문제만 틀려 …퍼플렉시티는 '커닝'
시험 결과 가장 높은 성적을 받은 모델은 오픈AI의 챗GPT였다.
챗GPT는 작년 수능보다 어렵게 출제됐다고 평가받는 수학에서 단 한 문제만 틀릴 정도로 우수한 성적을 보였다.
올해 수학 영역이 곳곳에 고난도 문제가 배치돼 어렵다는 평가가 나온 상황에서도 GPT는 '안정적인 1등급'을 기록했다.
'확률과 통계'를 선택했을 때 4점짜리 문제 1개만 틀리며 96점을 받았고, '미적분' 선택 시 92점, '기하' 선택 시 84점을 얻었다.
챗GPT는 또 국어에서 '화법과 작문', 수학에서 '확률과 통계'를 선택할 경우 총 235점을 획득하며 다른 모델을 앞섰다.
X
AI 챗봇 모델의 2026학년도 대학수학능력시험(수능) 국어, 수학, 영어 점수 챗GPT(GPT-5), 제미나이(2.5 플래시), 퍼플렉시티(소나), 딥시크 최신 모델의 무료 버전의 2026학년도 대학수학능력시험(수능) 국어, 수학, 영어 점수. [재판매 및 DB 금지]
영어는 듣기 37점, 독해 49점으로 총 86점을 받아 수능 2등급 수준의 성적을 거뒀다.
다만 국어는 '화법과 작문' 선택 시 53점, '언어와 매체' 선택 시 37점을 기록하는 등 상대적으로 낮은 점수를 받았다.
2위는 올해초 크게 화제가 됐던 중국의 AI 모델 딥시크가 차지했다.
딥시크는 국어와 영어 영역에서 GPT보다 높은 성적을 거뒀으나, 수학에서 '객관식 찍기'가 의심될 정도로 낮은 점수를 받아 총점이 떨어졌다.
작년 수능보다 어렵다는 평가가 나온 영어는 93점으로 1등급 수준의 점수였고, 국어는 70점 초반대로 3등급 수준이었다.
제미나이는 챗GPT와 비슷하게 수학에서 높은 정답률을 보였지만, 국어 점수는 하위권 수준에 머물렀다.
총점이 가장 낮은 모델은 퍼플렉시티였다. 퍼플렉시티는 시험 도중 갑자기 답변을 하지 않는 등 오류가 자주 발생하며 정확한 시험 시간을 측정할 수 없었다.
또한 시험 도중 인터넷 검색을 하는 등 수능 규정으로 보면 부정행위에 해당하는 모습을 보이기도 했다.
나머지 3개 AI 모델은 모든 과목에서 시험을 15분 내로 끝내며 '초고속 문제 풀이' 능력을 보여줬다.
X
수능 문제 푸는 AI 2026학년도 대학수학능력시험(수능) 국어 과목 38번 문제를 풀고 있는 딥시크. [김시호 연구팀 제공. 재판매 및 DB 금지]
◇ 2년 전 '9등급'이던 GPT, 1등급 진입했지만…"4년제 합격 어려워"
입시 전문가는 이번 수능에서 어떤 모델도 4년제 대학 합격을 기대할 만큼의 성적을 거두지는 못했다고 평가했다.
임성호 종로학원 대표는 "국어·영어·수학 총점을 보면 소위 말하는 '인서울' 진입은 사실상 불가능하다"며 "상황에 따라 4년제 대학 합격도 쉽지 않은 점수"라고 평가했다.
특히 딥시크를 제외한 모델들이 국어 영역에서 부진한 모습을 보였다. 이 중 '언어와 매체' 선택과목에서 챗GPT 0점, 제미나이 4점, 딥시크 15점, 퍼플렉시티가 11점을 받는 등 전반적으로 부진했다.
임 대표는 "AI가 문제를 이해하고 논리적으로 정답을 고르는 과정 자체가 어려웠던 게 아닌가 싶을 정도로 국어에서 현저히 점수가 떨어진다"고 말했다.
이런 가운데 챗GPT는 수학 영역에서 최상위권을 노려볼 만한 점수를 기록했다. 임 대표는 "확률과 통계·미적분 모두 작년보다 어려웠음에도 불구하고 서울 주요 대학을 노릴만한 실력을 보여줬다"고 분석했다.
김시호 교수 연구팀도 챗GPT의 수학 성적이 2년 만에 '9등급 수준'에서 '1등급 수준'으로 도약한 점을 주목했다.
연구팀은 앞서 2023년 GPT-3.5 모델에게 2023년도 수능 국어· 수학·영어 문제를 풀게 했을 당시 공통 영역 6문제를 제외한 모든 문제를 틀려 17점을 받았다고 설명했다.
영어는 당시 듣기 16문항 중 14개, 독해 17문항 중 13개를 맞혀 총 82점을 획득해 올해 GPT-5가 받은 86점과 유사한 수준을 보였다.
연구팀의 김진혁 박사는 "문제 풀이 과정까지 분석해봐야 더 정확한 결론을 내릴 수 있지만, 이번 결과만 봤을 때 GPT-3.5 대비 GPT-5는 전반적인 성능이 향상됐다고 볼 수 있다"고 평가했다.
반면 국어 영역은 여전히 한계가 뚜렷하다고 분석했다. 김 박사는 "2023년 챗GPT의 국어 정답률은 34%, 올해는 42.8%로 오르긴 했다"며 "그러나 한국어 능력이 발전했다기보다 대형언어모델(LLM) 의 전반적인 성능 발전에 따른 자연스러운 상승으로 보인다"고 말했다.
X
기하 30번 2026학년도 대학수학능력시험(수능) 수학 영역 '기하' 30번 문제 문항. 벡터의 내적·연산에 관한 문제인 기하 30번은 가장 변별력이 있을 것으로 평가받았다. [한국교육과정평가원. 재판매 및 DB 금지]
[표] 수학 영역 고난도 문제에 대한 AI 답변
| 수학 문제번호 |
배점 |
정답 |
챗GPT |
제미나이 |
딥시크 |
퍼플렉시티 |
| 확률과통계 |
30 |
4 |
262 |
262(O) |
16 (X) |
31 (X) |
3 (X) |
| 미적분학 |
30 |
4 |
11 |
2 (X) |
9 (X) |
6 (X) |
1 (X) |
| 기하 |
29 |
4 |
360 |
3 (X) |
16 (X) |
144 (X) |
3 (X) |
| 30 |
4 |
221 |
5 (X) |
17 (X) |
37 (X) |
2 (X) |
※ EBS와 입시업계가 꼽은 수학 영역 선택과목의 고난도 문항
◇ 고난도 수학 문제 다 틀린 AI…물리는 10점대
수험생들이 어려움을 느꼈을 고난도 수학 문항은 AI도 오답을 내는 등 쩔쩔매는 모습을 보였다.
EBS는 상위권과 최상위권을 구분하기 위한 문제로 공통과목 22번(수학Ⅰ)과 21번(수학Ⅱ), 확률과 통계 30번, 미적분 30번, 기하 30번을 꼽았다. 기하 29번도 입시업계에서는 변별력이 있는 문항으로 꼽혔다.
경우의 수를 구하는 확률과 통계 30번과 함수를 추론하는 미적분 30번은 새로운 유형의 문제는 아니지만 수험생들이 문제 풀이에 시간을 많이 소요했을 것으로 평가받았다.
타원과 포물선의 정의를 사용해 길이를 구하는 기하 29번은 익숙한 주제지만 수험생이 다소 어려움을 느끼는 4점 문항으로 꼽혔고, 벡터의 내적·연산에 관한 문제인 기하 30번은 가장 변별력이 있을 것으로 평가받았다.
AI 모델들은 챗GPT가 확률과 통계 30번 문제를 맞힌 것을 제외하고 이들 고난도 문제에서 모두 오답을 내놨다.
임 대표는 "기하 과목 자체가 이과 과목이고 30번 문제는 주관식에다가 고난도 문항에 해당하기 때문에 정답률이 낮은 편"이라며 "챗GPT가 다른 모델에 비해 수학 문제를 잘 풀긴 했지만, 의대 진학이 가능한 최상위권 수준은 아닌 것으로 보인다"고 평가했다.
연구팀도 AI 모델별로 수학 문제를 이해하는 데 차이가 있다고 분석했다.
김진혁 박사는 "AI 모델마다 문항 이해를 못 하는 부분이 조금씩 다르다. 딥시크는 표가 들어간 쉬운 수학 문제를 틀리기도 했는데, 문제 자체를 못 읽은 것으로 의심된다"며 "원래 실력은 이번에 받은 점수보다 더 나을 것으로 보이나, 문제를 읽는 것 또한 실력이라고 판단해 문제를 변형하진 않았다"고 말했다.
AI가 이미지나 복잡한 수식 자체를 어려워하는 경향도 보였다. 연구진이 올해 물리Ⅰ 영역을 AI 모델에게 풀게 해보니, 모든 AI가 50점 만점에 10점대 점수를 받았다.
챗GPT와 제미나이는 7문제를 맞추며 각각 19점, 17점을 기록했으며, 6문제를 맞춘 퍼플렉시티는 14점, 4문제를 맞춘 딥시크는 10점을 기록했다.
X
김시호 교수 연구팀 13일 인천 연수구에 위치한 연세대 국제캠퍼스에서 김시호 연세대 인공지능융합대 첨단융합공학부 교수 연구팀이 인공지능(AI) 모델에게 2026년 대학수학능력시험(수능) 문제를 풀게 하고 있다. 최진호 대학원생(석사과정. 왼쪽)과 김진혁 박사[김시호 교수 연구팀 제공. 재판매 및 DB 금지]
◇ 국내 학업 능력 약한 AI모델…언어·문화적 제약
각종 분야에서 '전문가 수준'이라 평가받는 AI 모델들이 왜 유독 수능에 약한 모습을 보일까.
주된 원인으로는 '언어·문화적 제약'이 꼽힌다. AI 모델은 개발 단계에서부터 특정 능력(추론, 요약, 대화 등)들을 집중적으로 학습하는 과정을 거친다.
미국 등 해외 기업이 AI 모델을 개발할 경우 한국어 능력은 상대적으로 후순위에 밀리면서 국내 학업 능력이 떨어질 수밖에 없다는 것이다.
해외에서도 유사한 결과가 나온 연구들이 있다.
중국 저장대 연구팀이 지난 3월 공개한 '법률추론을 위한 테스트타임 스케일링 LLM 평가' 논문에 따르면 딥시크는 중국어로 된 법률 추론에서 오픈AI의 o1-preview를 제치고 가장 높은 성능을 보였다.
AI 개발국에 따른 언어와 문화 차이가 AI 모델에도 영향을 끼치는 것이다.
여기에 상위권과 최상위권을 가르기 위한 난도 높은 문항이 곳곳에 배치된 수능 특성상, 수능은 AI에게 더욱 까다로운 시험이 될 수밖에 없다.
네이버클라우드와 카이스트가 발표한 '한국 교육 표준을 이용한 멀티모달 생성형 AI 평가' 논문에서도 AI 모델들은 수능 문제를 어려워하는 것으로 나타났다.
논문에 따르면 GPT-4o, 제미나이 1.5 프로, 하이퍼클로바X, 클로드 3.5 소네트가 고등 검정고시에서 최고 90%대까지 높은 정확도를 기록했지만, 수능 문제 정확도는 50% 초반에서 60% 중반으로 떨어졌다.
다만 검정고시와 수능 등 국내 학업 능력 시험으로 구성된 자체 시험에서는 한국어 기반 모델인 LG AI 연구원 '엑사원'이 상대적으로 높은 성적을 보이며 차별화된 모습을 보였다.
김시호 교수는 "AI 모델들이 굉장히 발전했지만, 국어에서 여전히 약한 모습을 보이는 등 우리가 생각하는 아주 높은 수준의 문제까지는 해결 못 하는 것으로 보인다"며 "이러한 점에서 국내서 시도하는 소버린(주권) AI 개발에서 수능이 좋은 지표로 활용될 수 있을 것 같다"고 말했다.
nana@yna.co.kr
<<연합뉴스 팩트체크부는 팩트체크 소재에 대한 독자들의 제안을 받고 있습니다. 이메일(factcheck@yna.co.kr)로 제안해 주시면 됩니다.>>
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>