
서울AI허브 입주사인 AI 스타트업 비드래프트(VIDRAFT, 대표 김민식)가 인공지능(AI)의 메타인지 능력을 정량 측정하는 벤치마크 ‘FINAL Bench’를 허깅페이스(Hugging Face)와 GitHub에 공개했다.
회사 측에 따르면 공개 직후 FINAL Bench 데이터셋은 허깅페이스 인기순위 상위권에 올랐으며, 이를 기반으로 구축한 ‘FINAL Bench Leaderboard’는 허깅페이스의 ‘금주의 스페이스(Spaces of the Week)’에 선정됐다. ‘금주의 스페이스’는 매주 신규 공개되는 AI 서비스 웹앱 가운데 일부를 선정해 소개하는 프로그램이다.
메타인지는 스스로의 인지 과정을 점검하고 오류를 인식·수정하는 능력을 의미한다. 기존 AI 평가 지표인 MMLU, GPQA, HumanEval 등은 최종 정답의 정확도를 중심으로 측정하는 구조로, 자기 교정 과정 자체를 별도로 평가하지는 않는다.
FINAL Bench는 수학, 과학, 철학, 의학, 경제, 역사 등 15개 학문 분야의 100개 과제로 구성됐다. 각 과제에는 모델이 오답에 이르기 쉬운 요소를 포함하고 있으며, 모델이 오류를 인지하고 수정하는 과정을 △과정 품질 △메타인지 정확도 △오류 복구(ER) △통합 깊이 △최종 정답 등 5개 항목으로 구분해 평가한다.
비드래프트는 자기 교정 구조를 적용한 실험에서 성능 변화 양상을 분석한 결과, 오류 복구(ER) 항목의 점수 변동 폭이 상대적으로 크게 나타났다고 설명했다. 이를 통해 메타인지적 오류 수정 능력이 모델 성능 평가에서 별도의 지표로 활용될 수 있음을 제시했다.
관련 논문 ‘FINAL Bench: Measuring Functional Metacognitive Reasoning in LLMs’(Kim, Kim, Choi, Jang, 2026)는 국제 학술대회 게재를 신청한 상태다. 평가 데이터셋 100개 과제와 채점 코드, 심판 프롬프트는 허깅페이스와 GitHub에 공개돼 누구나 모델 성능을 측정할 수 있다.
김민식 대표는 “인지심리학의 메타인지 이론을 AI 평가 구조에 적용해 오류 인식과 수정 과정을 정량화하려 했다”며 “모델이 얼마나 많이 아는지뿐 아니라, 오류를 어떻게 다루는지를 평가하는 기준을 제시하는 데 의미가 있다”고 밝혔다.
한편 비드래프트는 서울AI허브 입주 기업으로, 다수의 AI 모델과 서비스를 공개해 운영 중이다. 회사는 허깅페이스 리더보드 상위권 기록, 2024년 허깅페이스 본사 선정 ‘STAR AI TOP 12’, 프랑스 국립과학연구원(CNRS) 주관 FACTS Grounding 리더보드 의료 AI LLM 부문 2위 등을 기록했다고 밝혔다. 또한 NIPA AI 컴퓨팅 자원 지원과제(H200 GPU×8)와 NH농협 오픈이노베이션 등에 선정된 바 있다.
한국경제TV 박준식 기자
parkjs@wowtv.co.kr관련뉴스








