'인류 마지막 시험' 점수 48.4%로 기록경신…학자들도 발견못한 오류 찾기도

(샌프란시스코=연합뉴스) 권영전 특파원 = 거대 기술기업의 인공지능(AI) 경쟁이 이어지는 가운데 구글이 주요 성능지표(벤치마크) 점수를 끌어올린 새 심층 모델을 선보였다.
구글은 과학·연구·공학 분야 난제를 풀기 위한 추론 모델 '제미나이3 딥싱크'에 대해 대규모 업그레이드를 진행했다고 12일(현지시간) 밝혔다.
지난해 11월 제미나이3의 첫 공개 이후 약 3개월만이다.
구글은 이 모델이 학술·과학 등 분야의 추론 능력을 측정하는 벤치마크에서 대부분 기존 모델의 기록을 경신했다고 소개했다.
분야별 박사급 전문가 수준의 문제를 모아 '인류의 마지막 시험'으로 불리는 HLE 점수는 도구 미사용 기준 48.4%를 기록해 경쟁 모델들인 앤트로픽의 클로드 오퍼스 4.6(40%)과 오픈AI의 GPT-5.2(34.5%)를 상당한 격차로 뛰어넘었다.
추상적 추론 능력을 평가하는 'ARC-AGI-2'에서도 84.6%를 기록해 50∼60%대에 머문 챗GPT·클로드를 압도했다.
국제물리올림피아드와 국제화학올림피아드에서도 각각 87.7%와 82.8% 점수로 금메달 수준의 결과를 보여줬다. 고급 이론물리학 숙련도를 보여주는 CMT-벤치마크에서도 50.5%의 점수를 받았다.
구글은 이 모델을 일부 과학자들에게 미리 사용해보도록 한 결과 동료 평가에서도 발견하지 못한 미묘한 논리적 오류를 찾아내는 등 성과를 보이기도 했다고 설명했다.
구글은 'AI 울트라' 요금제 구독자를 대상으로 공개하고, 일부 연구원·엔지니어·기업 등에 API를 통해 제공할 계획이다.
구글이 지난해 11월 제미나이3를 내놓자 오픈AI는 같은해 12월 GPT-5.2를 내놨고, 앤트로픽이 이달 5일 오퍼스 4.6을 선보이자 구글이 다시 제미나이3 딥싱크의 새 버전을 내놓는 등 주요 AI 기업의 모델 경쟁은 꼬리에 꼬리를 물고 계속되고 있다.
comma@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>
관련뉴스








