딥러닝은 최근 십여 년 동안 AI기술의 급속한 발전을 가능하게 한 원동력이다. 딥러닝의 핵심은 심층신경망을 이용해 데이터로부터 높은 수준의 추상적 지식을 학습함으로써 복잡하고 어려운 작업까지도 효과적으로 수행하는 데 있다. 그런데, 딥러닝은 또한 기존 기술들과 결합하며 그 시너지에 의해 다양한 혁신을 일으켰다. 그 중 하나는 AI모델들 간 지식의 전이를 통해 더욱 강력한 AI를 쉽게 만들 수 있게 된 것이다.그런데, 새로운 작업을 학습하기 위해서는 대량의 데이터가 반드시 필요할까? 인간은 소수의 예제나 적은 경험만으로도 새로운 지식을 비교적 빠르게 습득하는데 이는 인간이 과거에 배운 지식을 기반으로 새로운 지식을 습득하기 때문이다. 예를 들면 국문법에서 배운 개념을 활용해 영문법을 쉽게 배울 수 있고 수학에서 배운 개념을 활용해 과학적 개념을 쉽게 이해할 수 있다. 이러한 원리는 딥러닝 분야에서 심층신경망의 학습 효율을 개선하는 데에도 널리 활용할 수 있다.
전이학습은 한 작업을 위해 학습한 지식을 활용해 다른 작업을 효율적으로 학습하는 기술이다. 목표작업의 데이터만을 이용해 심층신경망을 처음부터 학습할 경우 데이터가 충분하지 않으면 우수한 성능을 얻기 어렵다. 또한, 데이터가 제한될 경우 사용할 수 있는 신경망의 규모 역시 제한되는데 이는 신경망의 규모가 클수록 더 많은 학습 데이터를 요구하기 때문이다. 그러나 데이터가 풍부한 유사 작업에 대하여 심층신경망을 학습한 후 그 지식을 전이해 사용하면 적은 데이터로도 우수한 성능을 얻을 수 있다. 이전 작업을 위해 학습한 지식이 새로운 작업에도 유용하기 때문이다. 특히 매우 많은 데이터로 학습된 대규모 심층신경망은 다양하고 풍부한 지식을 갖는데, 전이학습은 이러한 지식을 새로운 목표 작업에 재활용할 수 있게 한다.
최상위 계층들은 현재의 목표 작업에 직접 관련된 지식을 주로 학습하는데, 이러한 지식은 다른 작업에 활용하기 어렵다. 그러나, 중하위 계층이 학습하는 추상적 정보의 추출 및 표현을 위한 지식은 다른 작업에도 유용하다. 뿐만 아니라, 이러한 지식은 심층신경망의 중하위 계층들을 분리해 새로운 작업을 위한 최상위 계층들과 연결함으로써 쉽게 전이할 수 있다. 결국 심층신경망 간에 전이되는 지식은 입력 데이터로부터 추상적 정보를 추출하여 후속 작업에 용이한 형태로 표현하기 위한 지식이다. 따라서, 전이학습의 효과는 기존 작업과 새로운 작업 간 공통점이 많을 수록, 그리고, 기존 작업을 위한 데이터가 풍부할수록 증가한다.
또한, 전이학습은 심층신경망의 학습 방법 및 목표에 대한 새로운 수요를 창출하였다. 과거 딥러닝 모델들이 특정 목표 작업을 위한 지식을 학습한 반면, 전이학습이 보편화된 이후에는 다양한 후속작업에 유용한 지식을 학습하기 위한 연구가 활발히 진행되고 있다. 이러한 기술을 연구하는 분야로는 비지도 사전 학습에 의한 표현학습, 메타학습, 척도학습 등이 있는데 이들의 목표는 후속 작업에 전용할 수 있는 풍부하고 활용성 높은 지식을 학습하는 것이다.
<한동대 교수>
관련뉴스








