코스피
4,990.07
(37.54
0.76%)
코스닥
993.93
(23.58
2.43%)
버튼
가상화폐 시세 관련기사 보기
정보제공 : 빗썸 닫기

독자 AI 모델 2차 평가, 멀티모달이 가른다

입력 2026-01-25 06:45  

독자 AI 모델 2차 평가, 멀티모달이 가른다
SKT·LG·업스테이지 정예팀, 이미지·음성 경쟁 본격화
텍스트 넘어 음성 대화까지…개발 난이도 급상승

(서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 개발 프로젝트 2차 평가부터는 멀티모달이 모델 경쟁의 승부처가 될 전망이다.

1차 평가에 통과한 SK텔레콤[017670], LG AI연구원, 업스테이지 모두 최종적으로 멀티모달 모델을 만들겠다고 밝혔기 때문이다.
25일 정보통신기술(ICT) 업계에 따르면 SK텔레콤 정예팀은 2단계 개발부터 AI 모델 A.X K1에 이미지나 음성 등 멀티모달 기능을 단계적으로 적용한다.
SKT 정예팀에서 멀티모달 연구를 진행 중인 김건희 서울대 컴퓨터공학부·첨단융합학부 교수는 지난 22일 SK텔레콤 뉴스룸에 이러한 내용의 기고문을 올렸다.
김 교수는 "초거대 언어모델은 텍스트, 사진, 동영상을 통합적으로 이해하는 멀티모달을 넘어 음성까지 이해하는 옴니모달 모델로 진화 중이다"라고 말했다.
김 교수는 특히 음성 대화를 AI 모델에서 구현하는 데는 기술적 도전 과제가 따른다고 강조했다.
그는 "기존 텍스트 기반 대화가 입력과 응답이 순차적으로 이어지는 턴(turn) 기반 단방향 소통 방식이라면, 음성 대화는 동시대적이고 양방향적인 특성을 가진다"라며 "상대방이 말하는 도중 개입하거나 짧은 백채널(피드백)을 주고받는 실시간 상호작용이 필요하다"라고 설명했다.
아울러 복잡한 표현 방식을 반영해야 하는 어려움도 지적됐다.
김 교수는 "초기에는 음성인식(STT)과 음성합성(TTS)을 결합하는 단계적 방식을 썼지만 응답 지연, 호흡, 감정 등 고유 정보 손실 문제가 있었다"라며 "강력한 사전학습된 언어모델을 핵심에 두고 음성을 포함한 다양한 데이터로 미세조정(파인튜닝)하는 방식이 옴니모달 개발의 핵심"이라고 덧붙였다.
SK텔레콤은 향후 옴니모달 모델을 에이닷 서비스에 적용해 통화 요약, 티맵, B tv 등에서 실시간 음성 대화를 지원하는 계획을 세웠다.
업스테이지는 앞서 3차 평가부터 언어와 이미지를 통합적으로 이해하는 멀티모달 기능을 확보한다고 밝힌 바 있다.
LG AI연구원은 구체적인 계획을 밝힌 바 없지만 궁극적으로 멀티모달 모델을 수립하는 것을 목표하고 있다고 전해졌다.
한편 정부가 독자 AI 프로젝트 1차 평가에서 네이버와 NC AI를 탈락시키며 1개 팀을 추가 공모하기로 발표하면서 재도전팀이 멀티모달 개발에 도전할지도 관심이 쏠리고 있다.
현재 스타트업인 모티프테크놀로지스와 트릴리온랩스가 재도전 의사를 밝혔는데 김 교수가 지적했듯이 멀티모달은 대형언어모델(LLM)에 비해 개발 난이도가 높기 때문이다.
먼저 모티프테크놀로지스는 "고성능 LLM과 대형멀티모달모델을 모두 파운데이션 모델로 개발한 경험을 갖춘 국내 유일의 스타트업"이라며 멀티모달 개발을 목표로 한다는 의사를 밝힌 바 있다.
built@yna.co.kr
(끝)


<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>

관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!