김인중이 전하는 딥러닝의 세계<5> 초거대 AI는 범용지능으로 발전할까?

입력 2021-12-02 07:00 수정 2021-12-03 11:24

김인중이 전하는 딥러닝의 세계<5> 초거대 AI는 범용지능으로 발전할까?

GPT-3가 시작한 초거대 AI라는 트렌드는 아직도 진행 중이다. 얼마 전 마이크로소프트와 NVIDIA는 GPT-3보다 3배나 큰 규모의 언어모델 MT-NLG를 발표했다. MT-NLG는 두 회사의 자연어 처리 AI모델 튜링-NLG와 메가트론-LM을 기반으로 공동개발되었으며 5300억 개의 파라미터를 가지고 있다. 현재 연구되고 있는 AI모델들의 규모는 더욱 커서 구글은 1조6000억 파라미터 규모의 모델을, BAAI(베이징인공지능연구원)은 1조7500억 파라미터 규모의 모델을 학습한다고 알려져 있다. 초거대 AI들이 다양한 작업에서 가능성을 보여주자 이러한 추세로 발전하면 범용인공지능(AGI)에 이를 수 있을지에 대한 궁금증도 커지고 있다. 과연 초거대 AI들은 AGI로 발전할 수 있을까?

강한 인공지능, 약한 인공지능, 그리고 AGI

AI의 원래 목표는 인간과 유사한 지능(강한 인공지능)을 구현하는 것이지만 이는 매우 요원한 목표이다. 인간의 지능은 업무수행을 위한 사고능력 외에도 의식, 지각, 자기인식, 감정, 양심 등 다양한 요소를 가지고 있는데 이들이 어떻게 발현되는지 모르는 것은 물론, 각 요소들을 구현할 수 있을 만큼 구체적으로 정의하기도 어렵다. 지금까지 개발된 모든 AI는 약한 인공지능, 즉 사고능력을 가지고 있지는 않으나 각자의 방법으로 특정한 작업을 수행할 수 있는 제한된 지능이다. 이들은 특정 작업만을 수행할 수 있으며 성능 역시 한계를 갖는다. 학습에 많은 데이터와 계산을 요구하고, 과거 학습에서 배운 지식과 경험을 새로운 작업의 학습에 충분히 활용하지 못하며, 학습 데이터와 이질적인 입력에 대해 잘 적응하지 못한다. 이러한 한계를 극복하기 위해 많은 연구자들이 노력하고 있으나 현재와 같은 방식으로 근본적인 한계를 돌파할 수 있을지는 불투명하다.

반면, 인간은 살아오면서 축적한 지식을 기반으로 학습하기 때문에 적은 수의 예제만으로도 새로운 개념을 빠르게 배울 수 있다. 이는 인간의 지능이 특정 작업에 국한되지 않는 일반적 지능이며, 다양한 작업에 활용 가능한 일반적인 지식을 학습하거나 한 작업을 위해 습득한 지식을 다른 작업에도 응용할 수 있는 능력을 가졌기 때문이다. 이와 유사한 일반적인 지능을 가진 AI를 범용인공지능(AGI)라고 한다. AGI를 만들 수 있다면 앞에서 언급한 현 AI의 한계도 극복할 수 있으리라 기대할 수 있다. 개념적으로 AGI는 반드시 인간과 같은 사고능력을 가져야만 하는 것은 아니라는 점에서 약한 인공지능에 속한다. 그러나, 인간의 지능이 가진 중요 특징 중 하나가 일반성이며, 사고능력 없이 일반적 지능을 구현하기는 어렵기 때문에 강한 인공지능과 같은 의미로 통용되기도 한다. 그런데, 초거대 AI들은 다양한 작업에 대하여 제법 준수한 성능을 보인다. 이들과 AGI의 차이는 무엇인가?

GPT-3가 보여준 혁신은 규모 자체가 아니다

많은 사람들이 GPT-3의 규모에 주목하고 있다. 그러나 중요한 것은 그와 같은 초거대 모델의 동기가 된 발상과 실험결과를 통해 보여준 가능성이다. 딥러닝은 우수한 성능에도 불구하고 여러 한계를 지적받아왔다. 이러한 한계를 극복하기 위한 방법 중 하나는 앞 글에서 설명한 전이학습, 즉 대용량 데이터로부터 학습한 지식을 목표 작업에 전용해 학습 효과를 개선하는 기술이다. 전이학습을 이용해 다양한 작업을 학습하기 위해서는 다양한 작업에 공통적으로 사용할 수 있는 심층신경망 모델과 여러 작업에 유용한 지식을 함께 학습하고 공유할 수 있는 통합적 작업 표현 방법이 요구된다. 자연어처리 분야에서 이러한 요소 기술은 GPT-1, GPT-2와 함께 개발되었다.

이러한 기술적 기반 위에서 GPT-3가 도전한 목표는 ‘사전학습을 매우 강력하게 수행할 경우 미세적응없이도 다양한 목표 작업을 수행할 수 있지 않을까?’라는 가설을 검증하는 것이었다. 전이학습은 사전학습을 통해 대용량 데이터로부터 지식을 학습하는 단계와 그러한 지식을 이용해 목표 작업을 빠르게 학습하는 미세적응단계로 이루어진다. 사전학습은 목표 작업과 독립적으로 수행되는 반면, 미세적응은 목표작업 별로 수행된다. 사전학습을 강화함으로써 미세적응 단계를 생략할 수 있다면 사전학습만으로 여러 작업을 수행할 수 있는 다목적 AI를 만들 수 있으며 목표작업 별 학습 데이터가 필요없어진다. 이러한 아이디어는 기존 전이학습의 개념을 진일보시킨 발상이었다. 이를 검증하기 위해서는 많은 노력과 비용이 요구되었으나 OpenAI는 이를 마다하지 않았고 결과는 성공적이었다. 결론적으로 GPT-3의 혁신은 규모 자체가 아니라 목표 작업 별 데이터 없이 공통 데이터에 대한 사전학습만으로 여러 작업에 대하여 어느 정도의 성능을 얻을 수 있음을 실험으로 보인 것이다.

현재의 방식으로 AGI를 개발할 수 있을까?

GPT-3 방식의 초거대 AI들은 추가적인 학습 없이 다양한 작업을 수행할 수 있는 다중작업 AI가 가능함을 보였다. 현재까지 AI모델과 학습데이터 규모를 증가할수록 성능도 함께 증가하는 경향성을 보이고 있는데, 자연어처리 분야에서는 이러한 경향성의 한계가 아직 실험적으로 관찰되지 않았다. 그러나 영상처리분야에서는 그 한계가 발견되기 시작했으며, 동작원리를 생각하면 자연어처리 분야에서도 규모의 확장에 의한 성능 개선은 언젠가 한계를 드러낼 것이 자명하다.

예를 들어, 현재의 AI들은 입력 문장과 출력 문장 간의 상관관계를 학습함으로써 번역을 수행하는데 이러한 방식은 내용에 대한 정확한 이해를 기반으로 하지 않는 피상적 매핑에 불과하다. 과연 의미에 대한 정확한 이해 없이 입출력 문장 간의 대응관계를 학습하는 것만으로 완벽한 번역 성능을 얻을 수 있을까? 이는 ‘개념의 이해 없이 기출문제를 암기하는 방식으로 모든 시험 문제를 풀 수 있을까?’ 라는 질문과 유사하다. 기출문제로부터 일반적인 지식을 얻기 위해서는 암기뿐 아니라 기출문제들이 요구하는 개념 및 원리에 대한 이해가 요구된다. 그러나 현재 초거대 AI들의 학습 방식은 엄청난 기억능력을 가진 AI를 만들어 가능한 한 많은 기출문제를 암기하는 것과 같다. 학습 방식의 비효율성을 막대한 양의 데이터와 강력한 컴퓨팅 인프라로 해결하고 있는 것이다. 이러한 방식으로 기존 AI보다 우수한 성능을 얻을 수는 있으나 AGI에 도달하기는 어렵다.

GPT-3 방식의 초거대 AI는 AGI와 비교되거나 완벽한 성능을 기대할 수 있는 수준이 결코 아니다. 현재의 기술로는 주어진 질문에 대한 정확한 답을 보장하거나 편견 또는 부적절한 표현을 학습하지 않도록 예방하는 것조차 쉽지 않다. 학습과 운영에 요구되는 막대한 비용을 고려하면 초거대 AI가 확실한 성과를 보이지 못할 경우 좀 더 효율적인 기술의 출현에 의해 위기를 맞이할 가능성도 있다. 초거대 AI는 AI 분야의 허블망원경이 될 잠재력이 있는 반면 항공모함 앞에 무력했던 '거함거포주의' 말기의 거대전함이 될 가능성도 있다. 그러나, 현재가 AI의 거함거포주의 시대라면 거대전함을 건조해 본 경험은 이후 항공모함의 시대에도 도움이 될 수 있다.

한동대 교수