네이버 "샘플음성 4시간 있으면 특정인 목소리 만든다"

입력 2018-07-04 13:14 수정 2018-07-04 16:25

네이버 "샘플음성 4시간 있으면 특정인 목소리 만든다"

네이버 "샘플음성 4시간 있으면 특정인 목소리 만든다"
"구글도 최소 40시간 분량 필요…곧 서비스 출시"

(서울=연합뉴스) 홍지인 기자 = 네이버는 구글 등 업체보다 훨씬 짧은 샘플로도 특정인의 목소리를 기계가 흉내 낼 수 있는 음성합성 기술을 개발했다고 4일 밝혔다.
김재민 네이버 음성합성 리더는 이날 서울 강남구 역삼동 'D2 스타트업 팩토리'에서 열린 기술 포럼에서 "개인화 음성합성의 문제는 음성녹음 시간인데, 우리가 그것을 4시간으로 풀어냈다"며 "곧 서비스가 나올 것"이라고 말했다.
특정인의 목소리를 기계가 자유롭게 흉내 내려면 일종의 '샘플 음성'이 필요하다. 구글 같은 업체도 최소 40시간 분량의 음성이 필요하고, 많게는 100시간까지 들어간다는 게 네이버의 설명이다.
그러나 네이버는 자체 개발한 하이브리드 음성합성 엔진으로 필요 음성분을 기존의 10분의 1로 줄였다.
이 기술을 활용하면 인공지능(AI) 스피커 등에서 유명인 목소리를 다양하게 활용할 수 있는 것은 물론이고, 엄마 목소리로 읽어주는 동화 같은 서비스도 가능해진다고 네이버는 설명했다.

구글이 지난 5월 음성합성 기술 '듀플렉스'를 선보이며 실제 가게에 주문하는 사례를 시연한 것에 대해선 "우리도 소리는 만들 수 있다"면서도 "다른 서비스와 연계돼야 하는 문제"라고 김 리더는 말했다.
그는 또 음성합성으로 파생될 윤리적 문제에 대해서 "현재는 걱정할 만큼의 수준은 아니다"라면서도 기계가 합성한 음성에는 음악을 까는 등 조치가 준비돼 있다고 소개했다.
네이버는 자연스러운 음성인식 및 합성 기술을 위한 자연어 처리(NLU) 기술 개발과 관련, 기존 네이버 서비스의 검색 및 데이터베이스(DB)에 쌓인 자료를 적극적으로 활용하고 있다고 설명했다.
강인호 언어처리 리더는 "2천500만 건에 달하는 지식인 문서로부터 사용자의 언어 표현 행동을 습득했다"며 "워낙 좋은 DB가 있어서 기술 면에서 압도적"이라고 말했다.
또 화자(話者) 인식 기술을 곧 적용, 올해 하반기 중에는 AI 스피커가 특정인의 목소리를 구분할 수 있게 된다고 네이버는 밝혔다.
ljungberg@yna.co.kr
(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>