
전 세계 최신 인공지능(AI) 모델조차 풀지 못한 초고난도 벤치마크(AI 성능 비교 시험) '인류의 마지막 시험'(Humanity's Last Exam, HLE)이 29일 국제학술지 '네이처'에 공개됐다.
이는 AI 학술 시험으로 전 세계 전문가들이 모여 다양한 학문 분야 2천500문항으로 만들었다. 한국 연구자들도 문제 출제에 참여한 것으로 나타났다.
HLE는 지난해 1월 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 공개한 데 이어 약 1년만에 공식 논문으로 출시됐다.
이는 수학, 물리학, 화학, 생물학, 공학, 컴퓨터과학, 인문학 등 100여 개 세부 학문 분야 문제들로, 일부 문항은 글과 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제다.
AI가 각종 벤치마크에서 90점 이상 높은 점수를 받자 마련된 프로젝트로, 50개국 500여 기관 교수와 연구자 약 1천여명이 출제에 참여했다.
이는 최고 성능의 AI 모델들도 풀지 못한 문제들로, 분야별 전문가가 점수를 매겨 높은 점수를 얻은 문제만 최후의 문제로 남았다.
수학 문제가 41%로 가장 많다. 묘비에서 발견된 로마 비문 일부를 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지 등 분야별 전문성이 필요한 문제가 다수 출제됐다.
이같은 초고난이도 문제는 AI들도 풀지 못한다.
구글 제미나이 3 프로가 정확도 38.3점(%)으로 가장 높은 성적을 거뒀으며 오픈AI의 GPT-5.2가 29.9점, 오푸스 4.5가 25.8점, 딥시크 3.2가 21.8점을 기록했다.
정부의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델들도 낮은 점수에 그쳤다.
HLE 문제 중 텍스트만 추린 평가에서 LG AI연구원의 'K-엑사원'(EXAONE)은 13.6점을 기록했다. 업스테이지의 '솔라 오픈'은 10.5점, SK텔레콤의 '에이닷엑스 케이원'(A.X K1)은 7.6점을 받았다.
박 CTO는 "스케일AI 지인에게 소개받아 회사에서 3명이 함께 문제 출제에 참여했다"며 "이산수학 문제를 출제했는데, 복잡한 계산이 필요해 소수점이 많이 나오는 답을 가진 질문이고, 모델이 풀이는 비슷하게 하지만 답에서 숫자 차이가 나게 되는 문제"라고 설명했다.
한국경제TV 디지털뉴스부 박근아 기자
twilight1093@wowtv.co.kr관련뉴스








