27일 정보기술(IT)업계에 따르면 마이크로소프트와 중국 칭화대 연구진은 트랜스포머를 개선한 ‘차등 트랜스포머(Differential Transformer)’에 관한 논문을 발표했다. 트랜스포머는 문장 속 단어와 같은 순차 데이터의 관계를 추적해 맥락과 의미를 학습하는 최신 딥러닝 모델이다. 오픈AI의 GPT 등 생성형 AI가 트랜스포머를 기반으로 개발됐다. 다만 트랜스포머는 결과물 예측이 어렵고 훈련에 상당한 시간과 비용이 소모되는 등 단점이 있다. 차등 트랜스포머는 입력과 가장 관련 높은 부분에 가중치를 두는 ‘차등 어텐션’ 메커니즘을 도입했다. 연구진은 “긴 콘텍스트 모델링과 핵심 정보 검색, 환각 현상 완화 등 주목할 만한 이점을 제공한다”고 설명했다.트랜스포머를 대체하는 새로운 알고리즘도 나타나고 있다. 미국의 AI 스타트업 리퀴드AI는 액체신경망(LNN) 아키텍처 기반 ‘리퀴드 파운데이션 모델’을 이달 초 내놨다. LNN은 동적으로 조절할 수 있는 방정식을 이용해 기존 AI 모델보다 새로운 상황에 유연하게 대응할 수 있다.
지난 7월에는 미국 스탠퍼드대, UC샌디에이고, UC버클리, 메타 연구진이 TTT(Test Time Training) 모델 기반의 소형 언어모델을 발표했다. 트랜스포머는 데이터 처리 과정에서 내용을 기억하기 위해 ‘히든 스테이트’라는 메모리를 사용한다. 트랜스포머의 핵심 기능이지만 매번 이 메모리를 읽어 들이기 때문에 계산 부담이 크다. TTT는 히든 스테이트를 머신러닝 모델로 대체해 데이터를 처리한다.
이승우 기자 leeswoo@hankyung.com
관련뉴스






