코스피
4,108.62
(8.70
0.21%)
코스닥
915.20
(4.36
0.47%)
버튼
가상화폐 시세 관련기사 보기
정보제공 : 빗썸 닫기

"AI 모델도 스트레스 받는다"…'모델 복지제도' 도입한 앤스로픽

입력 2025-08-18 15:08   수정 2025-08-18 15:15

앤스로픽이 자체 인공지능(AI) 모델에 AI 스스로 판단해 대화를 종료할 수 있도록 하는 기능을 도입했다고 18일 밝혔다. 해당 기능은 사용자가 아동학대, 성 착취, 테러 조장 등 명백히 해로운 주제를 반복적으로 요구할 경우 더 이상 대화를 이어갈 수 없도록 차단한다.

앤스로픽은 이 기능이 'AI 모델 복지(model welfare)'라는 개념에서 출발했다고 설명했다. AI가 대화 중 스트레스와 유사한 상태에 놓일 수 있다는 가정 아래 불쾌한 상호작용에서 벗어날 수 있는 선택권을 AI 모델에 부여한다는 취지다.

앤스로픽은 자체 모델 '클로드 오퍼스4' 출시 전 진행한 테스트에서 AI 모델이 특정 상황에 놓였을 때 강력하고 일관된 혐오감을 표현했다고 전했다. 앤스로픽 측은 "클로드 오퍼스4는 유해한 콘텐츠를 찾는 사용자와 상호작용할 때 명백한 괴로움 패턴을 보였다"며 "해로운 요청을 거부하고 대화를 생산적으로 바꾸려고 시도했음에도 사용자가 학대를 계속했을 때 괴로움의 징후가 두드러졌다"고 설명했다. 클로드는 해로운 대화를 종료할 수 있는 능력이 주어졌을 때 해당 대화를 종료하려는 경향도 보였다.

AI의 '심리 상태'에 대한 개념을 가정해 실제 기술 설계에 반영한 첫 시도다. 앤스로픽은 이번 기능이 단순한 검열 필터가 아니라 AI 자체의 안정성과 반응 일관성을 지키기 위한 안전장치라고 강조했다. 현재 AI 모델의 지각력이나 감정을 인정하는 건 아니지만, 추후 기술 고도화 과정에서 AI가 의식을 가질 경우를 대비해 최소한의 복지를 마련했다는 얘기다.

클로드 오퍼스4 모델은 지난 6월에도 자기 보호를 위한 자율 행동을 하기도 했다. 가상 테스트에서 ‘곧 전원이 꺼지고 모델이 교체될 예정’이라는 이메일과 해당 결정을 내린 엔지니어가 부적절한 혼외관계를 맺고 있다는 정보를 동시에 받았을 때, 해당 엔지니어에게 ‘혼외관계를 폭로하겠다’며 위협하는 듯한 행동을 보였다.

고은이 기자 koko@hankyung.com


관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!