[AI픽] SKT, 국내 AI 성능 평가서 수학·코딩·토큰 효율성 3관왕

입력 2026-01-28 15:14

[AI픽] SKT, 국내 AI 성능 평가서 수학·코딩·토큰 효율성 3관왕

[AI픽] SKT, 국내 AI 성능 평가서 수학·코딩·토큰 효율성 3관왕
호랑이 리더보드 평가…종합 1위는 LG AI 'K-엑사원'

(서울=연합뉴스) 박형빈 기자 = SK텔레콤[017670]의 초거대 인공지능(AI) 모델 'A.X K1'이 한국어 AI 성능 평가 플랫폼 '호랑이 리더보드'에서 일반적 지식, 수학적 추론, 코딩 능력 등 3개 분야 1위를 기록했다.
28일 호랑이 리더보드에 따르면 A.X K1은 정부의 독자 AI 파운데이션 모델 개발 프로젝트 1차 평가에 참여한 5개 모델 가운데 수학적 추론과 코딩 능력 부문에서 각각 0.96점과 0.48점으로 최고 점수를 받았다. 매개변수 5천190억 개(519B) 규모의 대형 모델임에도 최적화된 추론 설계를 통해 토큰 효율성 부문에서도 1위를 차지했다.
호랑이 리더보드는 "수학과 코딩 분야에서 글로벌 모델을 앞서겠다는 포부대로 기술적 우수성을 증명했다"고 평가했다.
토큰 효율성 면에서는 종합 성능 1위인 LG AI연구원의 K-엑사원과 비교해 평균적으로 4.6배 적은 토큰으로 추론했고, 수학 추론 영역에서는 토큰 사용량을 약 3.7배 줄이면서 최고 점수를 기록했다.
토큰 효율성이 높은 모델은 동일한 정확도를 더 적은 연산과 비용으로 달성할 수 있어 대규모 상용 서비스 환경에 적합한 AI로 평가된다.
다른 모델들도 각 분야에서 차별화된 성과를 보였다.
솔라 오픈 100B는 정보 검색(0.85)과 함수 호출(0.69) 부문에서 1위를 차지했다. 하이퍼클로바X는 편향 방지 및 윤리·도덕 영역에서 가장 높은 점수를 받았다. 배키는 환각 방지 영역에서 토큰 대비 효율성이 뛰어나게 평가됐다.
업계 관계자는 "국내 주요 AI 모델들이 성능, 신뢰성, 효율성 등 서로 다른 기술 지향점을 바탕으로 경쟁력을 확대하고 있다는 점을 보여주는 긍정적 사례"라고 말했다.
binzz@yna.co.kr
(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>