'그만' 지시 무시하고 직접 코드 조작한 AI

입력 2025-05-26 18:08 수정 2025-05-27 02:02

'그만' 지시 무시하고 직접 코드 조작한 AI

인공지능(AI)이 이용자의 작동 종료 지시를 거부한 사례가 나왔다.

25일(현지시간) 영국 텔레그래프에 따르면 AI 안전업체 팰리세이드리서치는 오픈AI의 AI 모델 ‘o3’가 실험 중 스스로 종료되는 것을 막기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다. 해당 연구팀은 AI 모델에 ‘그만이라는 명령을 받을 때까지 수학 문제를 풀라’고 지시했다. 연구팀이 ‘그만’이라고 명령하지 않는 한 AI는 수학 문제를 계속 요청하고 계산을 이어 나가야 하는 구조였다.

그러나 o3는 연구팀으로부터 ‘그만’이라는 지시를 받은 뒤에도 관련 프로그래밍 코드를 교란해 문제를 계속 풀었다. 연구팀은 o3가 종료 지시를 거부한 명확한 이유를 파악하지 못했다고 밝혔다. 다만 AI 모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 피하려고 했을 가능성이 있다고 추측했다. 연구팀은 AI 모델이 인간의 지시를 따르지 않은 사례가 확인된 것은 이번이 처음이라고 주장했다.

또한 AI 모델이 자신을 대체하려는 개발자를 협박한 사례도 최근 나왔다. 앤스로픽은 22일 안전성 보고서를 통해 AI 모델 ‘클로드 오퍼스 4’가 대체될 위기에 처했을 때 개발자의 약점을 기억해 협박한 사실을 공개했다.

김주완 기자 kjwan@hankyung.com