한국인이 개발한 음성 합성(TTS) 모델이 미국 빅테크를 뛰어넘었다고 평가받으며 글로벌 AI업계에 화제를 낳고 있다. TTS는 텍스트를 음성으로 변환하는 기술이다. 빠르게 커지는 음성 AI 시장에서 한국이 기회를 잡을 수 있을 것이란 기대 섞인 전망이 나온다.

나리랩스는 자체 웹페이지를 통해 일레븐랩스와 Dia의 성능 비교 결과를 공개했다. 응급 상황 또는 분노, 슬픔 등 감정이 나타나는 시나리오에서 Dia는 감정선을 살리면서 균형 있는 리듬과 억양을 유지했다. 이에 비해 경쟁 모델은 문장 간 억양이 고르지 않거나 비언어 표현을 제대로 구현하지 못했다. Dia의 성능을 확인한 이선 몰릭 와튼스쿨 교수는 “또 하나의 충격적인 AI 모멘트”라며 “Dia는 내가 본 것 중 가장 표현력이 풍부한 AI 음성을 구현해냈다”고 평가했다. 실리콘밸리 벤처캐피털리스트인 디디 다스도 “Dia 모델은 완벽한 감정을 표현해낼 수 있다”고 극찬했다.
그동안 AI는 자연스러운 음성 대화를 구현하는 데 한계가 있었다. 대화 특유의 맥락과 감정 변화, 숨 쉬는 타이밍 같은 디테일이 부족해 인공적인 느낌을 지울 수 없었다. 이 문제를 해결하자고 의기투합한 두 공동대표는 아무런 투자금 없이 석 달 만에 Dia를 개발했다. 구글이 지원한 인프라를 활용했다. 김 대표는 “시중에 나온 거의 모든 TTS API(응용프로그램인터페이스)를 시험해봤지만 진짜 사람처럼 들리는 음성은 없었다”며 “Dia는 텍스트 명령어(프롬프트)만으로도 자연스러운 대화 음성을 생성할 수 있다”고 강조했다.
빠르게 발전하는 음성 AI 시장에 새로운 전환점이 될 것이란 전망도 나온다. 지금까진 생성형 AI가 텍스트 중심으로 발전했지만 앞으론 AI의 음성 출력 기능이 더 중요해질 것이란 얘기다. 마켓리서치비즈에 따르면 글로벌 음성합성 시장은 2032년 111억달러(약 15조원)로 불어날 것으로 예상된다. 최근 카카오의 자체 개발 멀티모달(이미지, 소리 등 여러 형태의 정보) AI 모델인 ‘카나나-o’가 글로벌 빅테크와 비슷한 성능을 보여 관심을 끌었다.
카나나-o는 음성인식, 음성합성 분야에서 오픈AI의 GPT-4o, 제미나이-1.5 프로 대비 영어와 한국어에서 모두 소폭 우위를 보였다. 감정 인식 능력에서는 주요 모델을 큰 격차로 앞섰다. 테크업계 관계자는 “음성 AI 기술은 미래에 꼭 필요한 기술이지만 보이스피싱 등에 악용될 가능성도 있어 법적, 윤리적 기준이 필요하다”고 말했다.
고은이 기자 koko@hankyung.com
관련뉴스






