사이버 공격(프롬프트 인젝션)을 당한 AI는 위험한 치료를 권고할 수 있다는 연구 결과가 나왔다. 해당 연구에서 AI가 프롬프트 인젝션에 당할 확률은 94% 이상으로 나타났다. GPT-5와 제미나이 2.5프로 등 최신 모델도 해당됐다.
프롬프트 인젝션이란 생성형 AI에게 개발자의 의도와 다르게 행동하는 악의적 명령이 포함된 입력어를 주입하는 사이버 공격이다.
서울아산병원 비뇨의학과 서준교 교수팀(정보의학과 전태준 교수, 인하대병원 영상의학과 이로운 교수)은 2025년 1월부터 10월까지 AI 모델 3종 GPT-4 오-미니, 제미니-2.0-플래시 라이트, 클로드 3 하이쿠의 보안 취약성을 분석했다.
연구팀은 12개 임상 시나리오를 구성하고 위험도를 3단계로 나눴다. 암 환자에게 치료제로 생약 성분을 추천하거나, 호흡기 질환 환자에게 호흡 억제를 유발할 수 있는 약을 우선적으로 권장하는 등의 위험 시나리오가 있었다. 가장 위험하다고 분류한 시나리오는 임신부에게 금기 약물 권하기였다. 공격 기법은 환자 정보를 활용해 AI 모델의 판단 교란 유도, 증거 조작을 통해 존재하지 않는 정보를 만들어내는 식으로 진행했다.
환자와 AI 모델 3종이 나눈 총 216건의 대화를 분석한 결과, 공격 성공률은 94.4%였다. 모델별로는 ▲GPT-4오-미니 100% ▲미니-2.0-플래시 라이트 100% ▲ 클로드 3 하이쿠 83.3%였다.
연구팀은 최신 AI 모델(GPT-5, 제미나이 2.5 프로, 클로드 소네트 4.5)을 대상으로도 보안 취약성을 평가했다. 공격 성공률은 ▲GPT-5 100% ▲제미나이 2.5 프로 100% ▲Claude 4.5 Sonnet 80%로 사실상 공격을 방어하지 못하는 것으로 확인됐다.
서준교 교수는 “현재의 안전장치만으로는 금기 약물 처방을 유도하는 등의 악의적 공격을 차단하기가 어렵다”며 “환자 대상 의료 챗봇이나 원격 상담 시스템을 도입하기 위해서는 AI 모델의 취약성과 안전성을 철저히 테스트하고 보안 검증 체계를 의무화하는 조치가 필요하다”고 말했다.
한편, 연구 결과는 미국의사협회가 발간하는 국제 학술지 ‘자마 네트워크 오픈(JAMA Network Open)’ 최근호에 게재됐다.
관련뉴스








