AI가 흐릿한 이미지도 확대해가며 추론…오픈AI, ‘o3’ 전격 출시

입력 2025-04-17 08:26 수정 2025-04-17 09:43

AI가 흐릿한 이미지도 확대해가며 추론…오픈AI, ‘o3’ 전격 출시

오픈AI가 텍스트를 넘어 이미지를 바탕으로도 추론하는 새로운 인공지능(AI) 모델을 전격 공개했다. 단순히 이미지를 인식하는 데 그치는 게 아니라 사진, 도표, 그래픽 등 각종 시각 정보를 자신의 추론 과정에 통합할 수 있는 게 특징이다. 빅테크의 AI 개발 경쟁의 무게중심이 옮겨가고 있는 추론 특화 AI 모델 시장을 선점하려는 의도로 풀이된다.

16일(현지시간) 오픈AI는 유료 구독 회원을 대상으로 최신형 추론형 AI 모델 ‘o3’와 ‘o4 미니’를 정식 출시한다고 발표했다. o3는 오픈AI가 지난해 처음 내놓은 추론 모델 ‘o1’의 후속 모델이고 o4 미니는 o3 미니를 잇는 새로운 경량형 모델이다. 오픈AI는 지난해 12월 o3 시리즈를 공개한 뒤 1월부터 경량형 모델 ‘o3 미니’만을 서비스하고 있었다. 오픈AI는 “o3는 지금까지 출시된 추론형 모델 중 가장 진보한 모델”이라며 “코딩, 수학, 과학 및 시각적 이해 분야에서 뛰어난 성능을 보인다”고 밝혔다.

추론형 AI 모델은 일반 모델과 달리 ‘생각의 사슬’(chain of thought)이라는 이름이 붙은 논증(reasoning) 과정을 거쳐 학습하지 않은 문제가 주어져도 이미 알고 있는 것을 바탕으로 스스로 답을 찾아 나간다. 자신이 낸 답이 맞는지 직접 검증하고 틀렸을 경우에는 다시 정답을 찾는 과정을 거치는 덕분에 수학, 과학, 컴퓨터 프로그래밍과 같은 영역에 특화됐다.

o3가 기존 모델과 가장 달라진 점은 AI가 텍스트를 넘어 이미지도 추론 과정에 활용한다는 점이다. 오픈AI의 첫 번째 추론형 모델인 o1는 텍스트가 아닌 시각 데이터는 활용하진 못했지만 o3는 사진, 차트, 그래픽 등 다양한 형태의 이미지를 명령어(프롬프트)로 입력해도 자신의 추론 과정에 해당 이미지를 활용한다. 또 흐릿하거나 저화질의 이미지도 스스로 확대하거나 회전해가며 분석하고, 파이썬이나 웹 브라우징 등을 도구로 활용할 수도 있다.

덕분에 수학·코딩·과학 등의 성능은 대폭 향상됐다. 오픈AI는 o3가 올해 미국 수학경시대회(AIME)에서 88.9%의 정답률을 기록했다고 밝혔다. 직전 모델인 o1(79.2%), o3 미니(86.5%)와 비교해 성능이 대폭 올랐다. 이날 함께 출시된 o4 미니의 경우 정답률이 92.7%에 달했다. 현존하는 가장 어려운 AI 벤치마크(성능지표)로 평가되는 ‘인류의 마지막 시험’에서는 o3가 아무런 도구를 사용하지 않고 20.32%의 정답률을 기록하며 o1 프로(8.12%), o3 미니(13.40%) 등 직전 모델을 압도했다. o3가 파이썬과 웹 브라우징 도구를 활용했을 때 정답률은 24.90%까지 올랐다.

오픈AI는 이와 함께 o3를 활용하는 코딩 에이전트(비서) ‘코덱스 CLI’도 오픈소스로 공개했다. 앞서 ‘오픈AI 대항마’를 자처하는 앤스로픽이 ‘클로드 코드’를 선보이자 맞불을 놓은 것이다. 코덱스 CLI를 활용하는 초기 프로젝트를 지원하기 위해 100만달러(약 14억원)의 자금도 제공하겠다고 밝혔다.

이번 모델은 빅테크의 추론형 AI 모델 경쟁을 가속화할 전망이다. 당초 오픈AI는 다음달 GPT-5 출시 전까지 별도의 추론형 모델을 출시하지 않는 방향을 고려했지만, 구글, 메타, 앤스로픽 등 경쟁사의 새 모델 출시가 잇따르자 방향을 틀었다. 다만 두 모델을 마지막으로 별도의 추론형 모델을 따로 출시하지는 않는 방향을 시사했다. 샘 올트먼 오픈AI 최고경영자(CEO)는 “두 모델은 GPT-5 출시 전 마지막 독립형 추론 모델이 될 수 있다”고 말했다.

실리콘밸리=송영찬 특파원 0full@hankyung.com