카카오의 멀티모달 언어모델 카나나-o는 사람처럼 보고 듣고 말하면서 자연스러운 표현력을 갖췄다는 게 카카오 측 설명이다. 단순 질의응답을 넘어 요약, 감정·의도 해석, 오류 수정, 번역 등 다양한 과업을 수행할 수 있다. 카카오 관계자는 “고품질 음성 데이터와 사람의 선호도에 따라 AI 모델 가중치를 조정하는 직접 선호 최적화(DPO) 기술을 적용해 억양과 감정, 호흡 등을 정교하게 학습시켰다”고 설명했다.
벤치마크(성능 검증) 평가 결과 카나나-o는 영어 음성 성능에서 오픈AI의 GPT-4o와 비슷한 수준을 보였다. 한국어 음성 인식과 합성, 감정 인식에선 GPT-4o보다 점수가 높았다.
고은이 기자 koko@hankyung.com
관련뉴스








