가장 직관적으로 이 멀티모달 AI를 이해할 수 있는 게 바로 최근에 오픈AI가 공개한 AI ‘소라’입니다. 챗GPT와 대화를 할 때처럼 명령어 칸에 텍스트를 입력하면, 최대 1분 길이의 고화질 영상을 신속하게 만들어내는 AI모델이죠. AI 소라는 ‘텍스트 투 비디오’ 모델 경쟁의 시작을 알렸는데요. 오픈AI는 소라가 만들어낸 일부 결과물을 명령어와 함께 공개했는데, 놀라울 정도로 생생하고 정밀해서 사회적 충격을 일으켰습니다. 예를 들어, 도쿄 거리를 걷는 여성이라는 키워드를 입력하면, 붉은색 원피스에 검은 가죽재킷을 입고 밤거리를 걷고 있는 여성의 영상이 만들어지는데, 영상에서 얼굴이 점점 클로즈업되자 잔머리나 피부 잡티, 목주름까지 생생하게 보입니다.
당장 애니메이션이나 동영상 제작 업계에 미칠 파장이 가장 클 것으로 보이는데요. 예를들어, 픽사 같은 경우, 괴물의 동작을 표현할 때 털의 움직임이나 질감을 표현하느라 수많은 애니메이터들을 고용해서 여러달 동안 작업했습니다. 하지만 AI는 동일한 작업을 순식간에 처리할 수 있죠. 문장으로 명령어를 입력하면 순식간에 할리우드 스튜디오 수준의 정교한 동영상을 만들어내는 기술이 보편화되는 상황도 시간 문제일 것 같은데요. 그렇다보니 업계에서는 사람의 일자리에 대한 위협과 동시에 부정확한 정보가 포함된 콘텐츠가 확산하는 것에 대한 우려도 나옵니다.
하지만 동시에 이런 기술을 통해서 비용혁신을 이끌어낼 수 있는 기업들이 많아질 거라는 전망이 나오는데요. 대표적으로 네이버 웹툰은 미국 증시에 6월 상장을 목표로 하고 있는데, 상장 이후 다수의 IP를 영상화해서 IP가치를 올릴 계획입니다. 이럴 때, 네이버 웹툰을 애니메이션화 할 수 있는 제작사인 스튜디오 미르의 경우, 인건비 비중이 74%에 달하는데요. AI 툴들이 적용된다면 적은 비용으로 다양한 IP 증가의 수혜를 받을 수 있게 되겠죠.
오픈AI의 소라가 공개된 뒤에 어도비의 파이어 플라이와도 비교가 많이 됐는데요. 파이어플라이도 텍스트를 입력하면 이미지를 만들어주는 기능, 콘텐츠를 확장하는 기능 등을 제공합니다. 하지만 비디오AI 차원으로 접근하면, AI를 통한 영상 편집 기능만 제공할 뿐, 소라 같은 '텍스트 투 비디오' 기능은 개발 중에 있고요.
다른 빅테크 기업들도 멀티모달AI, 그리고 동영상 생성 AI에 대한 투자에 나서고 있는데요. 구글은 지난달 동영상 생성AI인 ‘루미에르’를 공개한데 이어 오픈AI의 ‘소라’ 공개와 동시에 자체 개발한 멀티모달 AI ‘제미나이1.5 프로’를 공개했습니다. 사람처럼 많은 양의 영상과 음성, 텍스트를 이해하고 추론하는 능력을 지녔으며, 심지어 1시간짜리 영화도 단숨에 분석할 수 있다고 밝혔습니다. 아마존은 2022년 애니메이션 생성 AI 도구인 ‘크리에이트 위드 알렉사’를 출시하는가 하면, 메타는 같은해에 ‘메이크 어 비디오’를 출시했고, 작년에는 ‘에뮤’라는 AI도구를 출시하기도 했습니다.
이렇게 사람처럼 다양한 양식의 정보를 해석해내는 기술이 발전하기 시작하면서, 기존의 AI 모델들이 인간을 흉내내는 AI, 즉 ‘좁은 인공지능;이라는 의미의 ANI였다면, 점차 인간처럼 스스로 생각하는 AI인 ‘인공일반지능’ AGI로 진화하는데 멀티모달AI가 핵심적인 기술이 될 거라는 평가를 받고 있는데요. 지난해 멀티모달AI의 시장 규모는 10억 달러 정도로 파악되고 있는데, 마켓워치는 이 규모가 2030년에는 84억 달러까지 급속도로 성장할 것으로 보고 있습니다. 생성형 AI 서비스가 도입된 지 2년도 지나지 않아서 실제와 구분이 어려운 동영상까지 만들어낼 정도로 AI 기술은 빠른 속도로 발전하고 있는데요.
동영상 생성에 필요한 데이터 크기와 처리속도는 텍스트의 수천 배 이상인 만큼, 하드웨어 측면에서도 더 높은 성능의 그래픽처리장치와 메모리 반도체가 필요하다는 지적이 나옵니다. 2년 전 AI 열풍을 일으켰던 챗GPT의 GPT3.5의 경우 학습과 추론을 위해서 1만 여 개의 GPU가 필요했는데요. 영상이나 음성까지 함께 생성할 수 있는 모델을 만들기 위해서는 적어도 5만개 이상의 GPU가 필요하다는 게 업계의 분석입니다. 상황이 이렇다보니 엔비디아도 대응에 나섰는데요. 기존의 주력 제품인 H100 칩보다 2배 빠른 H200을 공개한데 이어, 차세대 AI 칩을 준비하고 있습니다.
또, 짧은 시간동안 막대한 데이터를 처리해야 하는 만큼 메모리 반도체의 수준도 높아져야 할 텐데요. HBM이나 DDR5 같은 D램 수요가 폭발적으로 늘고 있습니다. D램 점유율의 70% 이상을 차지하고 있는 삼성전자나 SK하이닉스에 기회가 찾아왔다고 볼 수도 있겠는데요. 시장조사업체인 옴디아에 따르면, D램 시장에서 DDR5 점유율이 2027년 이후에는 절반을 넘어설 것으로 전망했고요. 지난해 466억 달러로 바닥을 찍었던 D램 매출도 올해 88% 성장해서 874억 달러 규모에 이를 것으로 전망했습니다.
오늘 월렛에서는 이렇게 동영상 생성AI를 포함한 멀티모달 AI 시장 전반에 대해 살펴봤는데요. 아직까지 개발 초기 단계에 있는 시장인 만큼, 그 과정에서 윤리적 문제와 규제 문제 등에 부딪칠 수도 있겠죠. 그럼에도 앞으로 멀티모달 AI 경쟁은 점점 더 치열해질 것으로 보이는데요. 또 어떤 새로운 기술들이 세상을 놀라게 할지 기대가 됩니다. 지금까지 월가의 돈이 되는 트렌드, 월렛이었습니다.
조윤지 외신캐스터
관련뉴스