학습은 데이터기반 AI의 가장 중요한 요소다. 미디어에는 AI가 데이터로부터 스스로 지식을 학습하고 이를 이용해 지능적 작업을 수행한 성과들이 종종 보도된다. 그런데 AI의 학습이 정확히 무엇을 의미하는지 구체적인 설명은 생략되는 경우가 많다. AI가 지식을 데이터로부터 학습하는 이유는 무엇이고, AI는 데이터로부터 어떠한 지식을 어떻게 학습할까?데이터가 아닌 지식을 직접 입력받아 목표 작업을 수행하는 AI를 지식기반 AI라고 하는데 이러한 방식은 AI 역사의 초기부터 많이 시도돼왔다. 그런데 지식기반 AI역시 여러가지 한계를 가지고 있다. 데이터기반 AI의 성능이 데이터의 양과 질에 좌우하는 것처럼 지식기반 AI의 성능은 AI가 보유한 지식의 양과 정확도에 좌우한다. 그런데 목표 작업이 복잡할 경우 이를 수행하기에 충분할만큼 완전하고 무결한 지식베이스를 구축하는 것은 매우 어렵다. 또한 지식의 완전성과 무결성을 유지하기 위해서는 기술 발전에 의해 지식이 확장될 때마다 새롭게 밝혀진 지식을 AI에 반영해야 한다. 예를 들어 지식기반 의료 AI의 성능을 유지, 개선하기 위해서는 새롭게 밝혀진 의학적 사실들을 지속적으로 AI 지식베이스에 추가해야 한다. 모호성이 있는 작업이나 불확실성 속에서의 판단이 요구되는 작업을 수행하기에 효과적이지 않다는 점 역시 지식기반 AI의 단점이다.
데이터기반 AI의 여러 한계에도 불구하고 대부분의 AI전문가들은 지식기반 AI로 회귀하는 것보다는 데이터기반 AI 기술을 발전시킴으로써 한계를 극복하는 것이 올바른 방향이라고 말한다. 지식기반 AI의 한계들을 극복하는 것이 더 어렵기 때문이다. 예를 들어 인간의 지적 활동 중에는 자전거가 넘어지지 않도록 운전하는 것이나 지인의 얼굴을 인식하는 것 등 그 방법을 정확히 설명하기 어려운 활동들이 많은데, 이러한 활동에 사용되는 지식은 말로 기술할 수 없는 암묵적 지식(tacit knowledge)이다. 암묵적 지식에 의해 수행되는 작업은 지식기반 AI로는 구현하기 어려워 향후 AI가 발전해도 인간과 같은 지능에 도달할 수 없으리라는 회의론의 근거로 언급되어왔다. 그러나 데이터기반 AI는 명시적 지식을 요구하지 않고 데이터로부터 지식을 스스로 습득하기 때문에 이러한 한계를 갖지 않는다.
영상, 텍스트, 음성 등을 합성하는 AI들은 입력 정보가 주어지지 않거나 매우 적은 정보만을 입력받더라도 다양하고 복잡한 결과물을 출력한다. 이 경우 입력받는 정보가 없거나 부족하기 때문에 입출력 정보간 매핑만으로는 다양하고 품질이 우수한 결과물을 합성하기 어렵다. 이러한 문제를 해결하는 방법은 학습데이터의 분포를 학습하는 것이다. 예를 들어 강아지 영상을 합성하는 AI는 학습데이터로부터 강아지 영상의 분포를 학습하는데, 이 분포에서 강아지처럼 보이는 영상은 높은 확률을, 그렇지 않은 영상은 낮은 확률을 갖는다. 이는 강아지 영상의 특성들이 확률분포에 반영되기 때문이다. 모델이 학습데이터의 분포를 충분히 학습한 후 학습된 분포로부터 높은 확률을 갖는 데이터를 샘플링하면 학습데이터와 유사한 특성을 가진 강아지 영상을 얻을 수 있다. 합성된 영상의 품질과 다양성은 학습데이터의 품질과 AI모델이 학습한 확률분포의 정확도에 좌우한다.
이와 같이 AI가 다양한 작업을 학습하는 원리는 복잡하지 않다. 그러나 실제로 영상, 텍스트, 음성과 같이 복잡한 데이터들의 매핑이나 확률 분포를 정확히 학습하는 것은 기술적으로 매우 어렵다. 최근 십 여년 간 딥러닝의 강력한 학습 능력에 힘입어 복잡한 데이터에 대한 분석 및 합성 기술이 많이 발전했음에도 불구하고 아직도 많은 응용분야에서 한계를 노출하고 있다. 그러나, AI 기술은 매우 빠르게 발전하고 있다. 매 학술대회마다 수 많은 연구성과가 발표되고 있는데 이들 중 다수는 현 AI기술의 한계에 대한 분석결과나 극복하기 위한 방법들을 제시하고 있다. 따라서 AI기술의 빠른 발전 속도는 당분간 유지되거나 오히려 가속되리라 전망되며 현 AI기술의 한계 역시 조금씩 극복되리라 기대한다.
한동대 교수
관련뉴스








