인공지능(AI)이 한국 문화를 잘못 학습해 왜곡하는 문제는 AI가 본격화한 이후 어제오늘 일이 아니다. 정부는 이런 현상을 막기 위해 한국 AI 학습 대응에 나섰다. 선봉엔 문화체육관광부 산하 국립국어원이 섰다. 국립국어원이 쌓아놓은 대규모 한글 데이터에 영상과 음성 등을 붙인 데이터를 구축하겠다는 구상이다. 이를 한국 AI 모델에 학습시키고 이후 산업 현장의 휴머노이드 로봇 등 피지컬AI에도 적용한다는 방침이다.

말뭉치는 실제 사용하는 언어 사례를 모아 정리한 대규모 데이터다. 그간 텍스트를 중심으로 데이터를 모았다면 이제 특정 단어가 쓰일 때의 표정, 주변 사물의 위치, 목소리 톤까지 기록해 AI에 ‘현실 세계’를 통째로 가르친다. 정부가 영상과 음성이 결합된 ‘멀티모달 말뭉치’ 구축에 나선 것은 처음이다.
사업 배경엔 기존 데이터 구조의 한계가 있다. 텍스트만으로는 한국어 특유의 ‘상황 맥락’을 온전히 전달하기 어렵다. 예컨대 사람은 ‘파를 송송 썰어줘’라고 말하고 적지만 AI는 ‘송송’의 구체적 이미지를 알기 어렵다. 국립국어원 관계자는 “한국어는 같은 표현이라도 상황과 동작에 따라 의미가 달라지는 특성이 있다”고 설명했다. 국립국어원은 표준국어대사전의 정의를 기반으로 단어의 피상적 의미를 넘어 동작 속도와 힘의 강도, 손의 궤적 등 물리적 요소까지 세분화해 데이터화한다는 목표다.
글로벌 빅테크는 멀티모달 데이터 확보에 사활을 걸고 있다. 이들이 방대한 범용 데이터를 쌓는 사이 정부는 한국적 맥락에 특화한 ‘고농축 동작 데이터’로 승부수를 던졌다는 분석이 나온다. 글로벌 모델이 학습하기 어려운 한국 특유의 문화적 디테일을 데이터화해 AI 로봇산업의 틈새 경쟁력을 확보하겠다는 전략이다.
16만 건 규모로는 글로벌 기업과의 데이터 경쟁에 한계가 있다는 지적이 있지만, 고품질 표준 데이터를 먼저 확보하고 이를 기반으로 확장하는 전략이 효과적이라는 평가도 동시에 나온다. 장영재 KAIST 산업시스템공학과 교수는 “피지컬AI 시대에는 단순히 동작을 따라 하는 수준을 넘어 상황에 맞는 최적의 판단을 내리는 것이 중요하다”며 “데이터의 절대적인 양보다 언어와 동작 사이 미세한 간극을 메우는 고품질 데이터가 산업의 성패를 가를 것”이라고 말했다.
▶말뭉치와 멀티모달
사람의 말과 글을 컴퓨터가 읽을 수 있는 형태로 수집·가공한 데이터베이스가 말뭉치라면, 멀티모달 데이터는 여기에 영상, 음성, 이미지 등 다양한 정보를 결합한 것이다. 멀티모달은 인공지능(AI)이 언어뿐 아니라 표정, 동작, 상황 맥락까지 함께 이해하도록 한다. 최근 생성형 AI가 텍스트를 넘어 이미지와 행동까지 다루며 핵심 학습 데이터로 떠오르고 있다
안정훈/유지희 기자 ajh6321@hankyung.com
관련뉴스







