
매스GPT는 초등학교용 수학 문제 8500개로 구성된 GSM8K 벤치마크에서도 0.782점을 받아 신기록을 경신했다. MS의 ToRA 13B(0.758점)를 멀찍이 따돌렸다. 이 두 평가는 매스GPT처럼 매개변수가 130억 개 내외인 경량급 LLM을 대상으로 이뤄졌다.
업스테이지 관계자는 “KT의 인프라와 매스프레소의 데이터, 업스테이지의 모델링 기술을 합쳐 수학 특화 모델을 구축했다”며 “모델 크기가 작아 데이터 처리 속도가 빠르다”라고 말했다.
MATH와 GSM8K 벤치마크에서 동시 1위 달성은 이례적인 일로 평가된다. 두 벤치마크의 평가 기준이 제각각이기 때문이다. MATH는 대학 수준의 고급대수와 해석학, 미적분학에 대한 해결 능력을 평가한다. 창의적이고 복잡한 접근 방식을 가질수록 높은 평가를 받는다. 반면 GSM8K는 기본적인 산수와 대수, 기하학 등을 평가한다. 문제 해결 과정이 단순할수록, 풀이 정확도가 높을수록 우수한 점수를 준다.
130억 개 매개변수를 가진 매스GPT는 뛰어난 성능과 함께 빠른 속도와 저렴한 비용이 특징이다. 지난해 업스테이지가 개발한 LLM 솔라도 매개변수는 107억 개에 불과하지만 허깅페이스의 LLM 리더보드 1위에 올랐다. 매개변수는 LLM을 평가하는 지표 중 하나다. 오픈AI의 최신 LLM인 GPT4는 매개변수가 1조7000억 개에 달한다.
AI 학습 플랫폼 콴다를 운영하는 매스프레소는 문제의 맥락과 해설 등의 데이터를 업스테이지에 제공했다. 매스프레소는 콴다를 통해 매일 1000만 건이 넘는 수학 문제와 해설에 대한 데이터를 모으고 있다. KT는 국내 최대 규모의 GPU팜을 제공해 스타트업이 좀 더 빠른 환경에서 모델 개발이 가능하도록 인프라를 지원했다.
그간 수학은 논리적 추론과 추상적인 개념 탓에 LLM이 적용되기 어려운 분야로 꼽혀왔다. 콴다도 AI가 문제를 직접 해결하는 방식이 아니라 수학 문제와 해설을 모아 데이터베이스(DB)를 구축한 뒤 비슷한 문제를 추출하고 그에 맞는 해답과 풀이를 제공하는 식이었다. 콴다 관계자는 “구글 검색 수준에 머물렀던 에듀테크산업의 AI 수준이 매스GPT의 등장으로 한 단계 성장하게 될 것”이라고 말했다.
장강호 기자 callme@hankyung.com
관련뉴스








