기존 버전은 3점차 핸디캡…연산능력 줄이고 알고리즘 효율화 초점
허사비스 "강화학습으로 강력해져…알파고는 범용 인공지능의 시작"
(우전<중국 저장성>=연합뉴스) 정주호 특파원 = 구글의 인공지능(AI) 바둑프로그램 알파고가 1년 사이 자신을 스승으로 삼아 스스로 학습하는 과정을 통해 종전의 버전과 3점 접바둑을 둘 정도로 강력해진 것으로 나타났다.
알파고 개발사인 구글 딥마인드의 데미스 허사비스 최고경영자(CEO)는 24일 중국 저장(浙江)성 우전(烏鎭) 인터넷 국제컨벤션센터에서 열린 '인공지능의 미래 포럼'에 참석, 알파고의 강화 과정을 이 같이 설명했다.
허사비스 CEO는 "3년전 알파고 개발에 나설 때 바둑을 두는 전략게임으로 설계했지만 궁극적으로는 알파고를 통해 인공지능을 범용할 가능성을 염두에 뒀다"며 이에 따라 스스로 학습을 할 수 있는 시스템을 만드는 것에 그 초점이 맞춰졌다고 설명했다.
전날 알파고와 커제(柯潔) 9단의 첫 대국에서 알파고가 압도적인 기량을 선보인 데 대해 알파고가 인간의 기보를 참고한 '지도 학습'보다는 스스로 바둑을 두며 최적의 전략을 깨달아가는 '강화학습'에 집중한 것을 그 배경으로 봤다.
작년 3월 이세돌 9단과 겨뤘던 인공지능은 '알파고 이세돌', 올초 프로기사들과 60연승을 거두고 커제 9단과 맞서고 있는 인공지능은 '알파고 마스터' 버전으로 명명됐다.
데이빗 실버 딥마인드 리서치 사이언티스트 겸 선임프로그래머는 알파고의 훈련 과정을 구체적으로 설명하며 알파고 마스터 버전은 알파고 이세돌 버전에 3점의 핸디캡을 줘도 될 정도로 강력하게 진화했다고 전했다.
이세돌 버전은 판후이(樊麾) 6단과 겨뤄 5대 0 승리를 거뒀던 판후이 버전과 3점의 격차가 나고, 판후이 버전은 다시 아마 6단의 실력을 가진 온라인 바둑게임 크레이지 스톤과 4점의 핸디캡을 받아야 한다는 것이다.
바둑에서 3점 차는 골프에서 프로선수와 보기 플레이어의 실력 차이와 비교할 수 있을 정도의 압도적인 기량 차이라고 김성용 9단은 부연했다.
구글의 설명에 따르면 알파고는 바둑의 엄청난 복잡성을 해결하기 위해 '지도학습'과 '강화학습'을 결합한 새로운 기계학습 기법을 채택했다.
지도학습 과정에서는 바둑판에 돌이 놓인 각 위치를 '질문'으로 만들고 특정 수를 가지고 '해답'을 제시하게 된다. 강화학습은 '셀프 대국'을 통해 예측을 정확성을 높이면서 수를 선택하는 결정을 하게 된다.
새로운 버전으로 업그레이드된 알파고는 셀프대국으로 스스로 대결을 하고 이를 다음 대국을 위한 훈련 데이터로 활용하는 과정을 반복하면 기력을 '바둑의 신' 경지에 올릴 정도로 키웠다.
이런 훈련은 딥마인드가 설계한 '정책망'과 '가치망'의 선택에 의해 이뤄진다.
정책망은 바둑판의 형세를 추출한 데이터를 활용, 여러 가지 가능한 경우의 수를 대상으로 개연성을 분석하는 것이고 가치망은 셀프 대국에서 특정 위치에 놓인 돌을 보고 승리 확률을 예측해 -1(상대편의 승리 확실)부터 1(알파고의 승리 확실)까지의 점수를 매기는 것이다.
정책망과 가치망으로 구성된 알고리즘인 '몬테카를로 게임 트리' 탐색기법을 통해 알파고는 최적의 수를 결정하게 된다. 구글은 "인간의 수준에 가까운 알파고 신경망의 직관과 컴퓨터 시스템의 계산 능력을 통합해 강력한 판단력, 예측력, 정확성을 갖게 됐다"고 설명했다.
실버 프로그래머는 알파고 이세돌 버전은 12개 계층을 두고 매개변수에 따라 최적의 수를 선택토록 하면서 바둑의 개념을 이해시키고 스스로 학습을 시도하는 것에 목표를 뒀다고 전했다.
반면 알파고 마스터 버전은 스스로 학습을 본격화하면서 계층이 40개로 늘어났다.
두 알파고 버전은 50 AI용 칩 텐서프로세서유닛(TPU)을 갖추고 있다. 이는 50개의 수를 앞서 예측하며 초당 10만개의 착점을 연산하는 능력이다. 다만 이세돌 버전은 1천920개의 중앙처리장치(CPU)를 갖춘 반면 마스터 버전은 200개의 CPU로 전체적인 컴퓨팅 파워를 작년보다 10분의 1 수준으로 줄였다.연산능력을 줄이며 에너지 소모량을 절감하는 대신 효율적인 알고리즘과 강화학습 훈련을 통해 알파고의 성능은 배가됐다는 것이 구글측의 설명이다.
구글은 인공지능의 첫 단계로 바둑을 택한 이유도 설명했다. 실버 프로그래머는 바둑은 인류 역사상 가장 오래되고 연구가 깊숙하게 이뤄진 게임으로 인공지능 개발의 최적의 테스트베드라고 판단했다고 전했다.
허사비스 CEO도 바둑을 '객관적인 예술'로 평가하면서 계산성, 파괴적 개념이 강한 체스와 직관성과 건설성이 특징인 바둑의 차이가 게임에 임하는 플레이어의 차이를 가져오고 온다고 말했다.
그는 "바둑은 착점의 작은 변화, 즉 단 한수로 인해 바둑판의 전체 형세를 바꿀 수 있다"며 "바둑엔 '신의 한 수'가 있지만 체스엔 이런 개념이 없다"고 설명했다.
그러면서 알파고가 지난해 3월 이세돌 9단과 둔 대국에서 2번기 37번째수와 4번기 78번째수가 가장 아름다운 수였다고 평가하기도 했다. 알파고가 훈련을 통한 지식의 합성으로 창의적인 지식을 내놓는 수준에 이르렀다고 덧붙였다.
허사비스 CEO는 "이세돌 9단이 '알파고로부터 많은 영감을 받고 새로운 방식으로 바둑을 두게 됐다'고 한 발언에 등골이 오싹해지는 느낌을 받았다"고 전했다.
jooho@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스








