
딥마인드는 지난해 11월 인간과 탁구하는 로봇을 공개했다. 당시 딥마인드는 이 로봇이 아마추어 선수의 절반 정도는 이길 수 있는 실력을 갖췄다고 설명했다. 이번에 공개한 기술의 차이점은 로봇 간 경기를 통해 스스로 실력을 높인다는 것이다. 알파고가 기존 16만 개의 바둑 기보를 학습하는 데 그치지 않고 자기 자신과의 대련을 통해 실력을 쌓은 것과 같은 방식이다. 두 탁구 에이전트는 서로 경쟁하며 학습한다. 한 로봇이 더 나은 전략을 개발하면 다른 쪽도 대응책을 마련해 선순환을 유도하도록 했다. 파나그 산케티 딥마인드 로봇공학팀 수석기술책임자는 “로봇이 지속해서 학습하고 적응하기 위해 사람의 개입을 줄일 방법을 찾았다”고 설명했다.
이 같은 시도는 쉽지 않았다. 사람은 최소한의 실력만 갖추면 상대 네트 너머로 정확하게 공을 보낼 수 있지만 로봇들은 한 번의 랠리에 성공하는 데까지 오랜 시간이 걸렸다. 딥마인드는 두 로봇이 서로 공을 주고받는 데 집중하는 랠리(협력 게임)를 구현하는 데 성공했다. 다만 점수를 내야 하는 게임(경쟁 게임)을 구현하는 것은 아직 어렵다. 로봇이 가진 모델의 크기가 작아 새로운 샷을 치면 기존 샷에서 학습한 내용을 잊고 경기가 끝나버려서다.
로봇들의 실력을 향상하기 위해 특별 코치가 투입됐다. 구글 AI 모델인 제미나이다. 대규모언어모델(LLM)인 제미나이는 경기 장면을 시각적으로 분석하고, 로봇들에 “테이블 가운데 끝으로 공을 보내라” “네트 가까운 쪽으로 깎아서 쳐라”는 등의 지시를 내린다. 기존에는 로봇팔들이 ‘상대가 공을 받아치지 못하면 득점’과 같은 단순한 보상 학습만 가능했는데, LLM을 이용하면 언어를 이용한 구체적인 학습이 가능하다는 게 딥마인드의 설명이다.
이처럼 로봇이 실제 세상을 이해하고 작업을 수행할 수 있도록 하는 ‘로봇 파운데이션 모델’에 투자금이 몰리고 있다. 시장조사업체 피치북에 따르면 연초 대비 지난 14일까지 벤처캐피털이 로봇 파운데이션 모델 스타트업에 투자한 자금은 총 22억달러(약 3조원)에 달했다.
엔비디아, 테슬라, 아마존 등도 로봇 파운데이션 모델을 미래 먹거리로 보고 연구에 박차를 가하고 있다. 엔비디아는 지난 5월 휴머노이드 로봇용 오픈소스 파운데이션 모델인 GR00T N1을 공개했다. 아마존은 100만 개가 넘는 자사 물류·배송 로봇에 AI 파운데이션 모델 ‘딥플릿’을 적용해 데이터를 쌓고 있다. 테슬라는 내년 휴머노이드 로봇 옵티머스를 상용화할 계획이다.
실리콘밸리=김인엽 특파원 inside@hankyung.com
관련뉴스








