코스피
4,692.64
(67.85
1.47%)
코스닥
948.98
(0.83
0.09%)
버튼
가상화폐 시세 관련기사 보기
정보제공 : 빗썸 닫기

짤스튜디오, 단 15초 목소리로 내 음성 완벽 복제…AI스튜디오 'TTS' 공개

입력 2025-04-02 15:15  


음성 AI 기술이 진화를 거듭하고 있다. 이제 단 15초만 내 목소리를 녹음하면, 마치 내가 직접 말하는 듯한 자연스러운 AI 음성을 만들 수 있는 시대가 열렸다.

2일 국내 콘텐츠 플랫폼 짤스튜디오(대표 남동우)는 최근 1500시간 분량의 방대한 음성 데이터와 약 6억 개의 파라미터를 바탕으로 한 차세대 인공지능 음성 합성 모델 AI스튜디오 'TTS’를 공개했다. 이 기술은 기존 음성 합성 기술의 고질적인 한계였던 장시간 녹음, 언어 및 화자 다양성 부족 문제를 단숨에 해결한 획기적인 혁신으로 평가된다고 밝혔다.

짤스튜디오는 최신 AI 기술인 확산(Diffusion) 모델과 자체 개발한 음성 스타일 인코더를 결합하여 단 15초의 짧은 음성 샘플만으로도 발화 리듬, 억양, 감정 등 화자의 스타일 특성을 정밀하게 복원할 수 있다고 설명했다. 특히, 단일 모델 내에서 다국어·다화자 음성 합성이 동시에 가능하다는 점에서 기술적 진보가 크다고 강조했다.

일반적으로 수억 원 이상의 비용이 필요한 기술을 내부 개발비 약 500만 원 수준으로 자체 구축했다며, 고가 장비나 서버 없이도 일반 PC 환경에서 1~3분 분량의 문장을 단 5초 만에 합성할 수 있다고 밝혔다. 여기에 자체 기술로 구현한 노이즈 제거 및 음질 향상 기술을 통해, 녹음 환경이 좋지 않아도 스튜디오 수준의 결과물을 확보할 수 있다고 설명했다.

베타 서비스 런칭 후 단 6시간 만에 300개의 AI 캐릭터가 생성되었고, 천여 명 이상의 유저들이 생성한 문장 수가 2만여 개를 돌파했다며 “기술적 완성도에 대한 기대감이 높아지며, 베타 단계부터 폭발적인 사용량과 피드백이 이어지고 있다”고 밝혔다.

짤스튜디오는 이번 기술을 통해 유튜브 숏츠, 인스타그램 릴스, 틱톡 등 숏폼 콘텐츠 시장에서 게임체인저가 될 것이라고 자신했다. 단시간에 브랜드 특화 음성을 제작할 수 있는 기술력을 기반으로 마케팅, 광고, 콘텐츠 제작 시장에서 빠르게 입지를 넓히고 있다고 전했다.

또한 이 기술은 교육 콘텐츠, 오디오북, 콜센터 고객 안내, 스마트홈 기기, 내비게이션, 가상 인플루언서 등 다양한 산업 분야에서도 폭넓게 활용될 수 있으며, 향후 더 많은 언어 지원, 감정 표현 조절 기능, 고음질 스튜디오급 합성 기능 등을 순차적으로 공개할 예정이라고 밝혔다.

남동우 대표는 “우리가 구현한 음성 AI는 단순한 기술을 넘어, 목소리 하나만으로 전 세계와 자연스럽게 소통하는 시대를 여는 기반이 될 것”이라며 “아직은 베타 버전이지만, 지속적인 기술 고도화와 투자를 통해 누구나 쉽고 자유롭게 목소리를 활용하는 미래를 열겠다”고 전했다.

한경닷컴 뉴스룸 open@hankyung.com


관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!