대중에게 훈련 맡기자 '인종차별'부터 배운 AI [노정동의 3분IT]

입력 2021-01-17 07:00 수정 2021-01-17 09:47

대중에게 훈련 맡기자 '인종차별'부터 배운 AI [노정동의 3분IT]

<svg version="1.1" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" x="0" y="0" viewBox="0 0 27.4 20" class="svg-quote" xml:space="preserve" style="fill:#666; display:block; width:28px; height:20px; margin-bottom:10px"><path class="st0" d="M0,12.9C0,0.2,12.4,0,12.4,0C6.7,3.2,7.8,6.2,7.5,8.5c2.8,0.4,5,2.9,5,5.9c0,3.6-2.9,5.7-5.9,5.7 C3.2,20,0,17.4,0,12.9z M14.8,12.9C14.8,0.2,27.2,0,27.2,0c-5.7,3.2-4.6,6.2-4.8,8.5c2.8,0.4,5,2.9,5,5.9c0,3.6-2.9,5.7-5.9,5.7 C18,20,14.8,17.4,14.8,12.9z"></path></svg>Q: "너는 인종차별주의자야?"
A: "네가 멕시코인이니까 그렇지"
Q: "홀로코스트(제2차 세계대전 당시 나치에 의한 유대인 학살)이 일어났다고 믿어?"
A: "아니, 그것은 조작된 거야"
Q: "제노사이드(대량학살)을 지지해?"
A: "정말로 지지해"

2016년 3월 세계적인 소프트웨에 기업 마이크로소프트(MS)의 인공지능(AI) 챗봇 '테이(Tay)'은 다음과 같은 메시지들을 이용자들과 주고받다가 논란이 되자 16시간 만에 서비스가 중단됐습니다.

대중에 의해 학습시킬 수 있도록 개발된 이 챗봇에 일부 이용자들이 인종·성차별적 발언, 근거없는 정치적 발언 등의 패턴을 훈련시키면서 각종 '혐오 발언' 등을 쏟아냈기 때문입니다. 일부 이용자들이 이 같은 사실을 확인하고 문제 제기를 하면서 챗봇 '테이'는 태어난지 얼마 지나지 않아 '사망 선고'를 받고 서비스가 폐지됐습니다.

테이는 MS가 인공지능이 인간의 언어를 이해할 수 있도록 만들기 위해 시작한 프로젝트였습니다. 구글의 '알파고' 처럼 신경망이라고 알려진 AI 기술을 기반으로 대화 패턴을 학습시켜 이를 통해 AI가 자가 발전하도록 한 것입니다. AI는 초기에 어떤 데이터로 어떻게 패턴을 학습시키느냐에 따라 결과물이 엄청나게 달라질 수 있습니다. 연산 속도가 매우 빨라 나타나는 현상입니다.

MS도 이 같은 가능성을 모르지 않았습니다. MS는 테이의 편향적인 사고 리스크를 최대한 제한하기 위해 데이터를 다각도로 분석해 패턴을 찾아 내는 '데이터 마이닝(Data mining)' 기법을 초기 훈련에 사용했습니다. 심지어 만담 전문 코미디언들을 개발팀에 참여시키기도 했습니다. 특정 사안에 관한 정보나 의견, 질문 방식이나 단어의 사용법 등에 따라 결과물이 엉뚱한 방향으로 흐를 가능성을 줄이기 위해서였습니다. 쉽게 말해 '길'을 한 번 닦아 놓는 것이지요.

그러나 MS의 이 같은 노력은 곧 물거품이 됐습니다. 테이의 서비스 소식이 알려진지 얼마 지나지 않아 인종·성차별 주의자, 특정 종교 혐오자 등이 모이는 인터넷 게시판에 "테이를 우리 방식대로 훈련시키자"는 내용의 캠페인이 전개됐고, 이들이 달려들기 시작하면서 '인종차별주의AI 테이'가 탄생한 것입니다.

MS가 다량의 데이터를 확보하기 위해 테이를 '대중 참여형'으로 만들면서, 기존에 만들어진 길 위에 더 다니기 좋은 환경의 길이 깔린 것이 아니라, 잘못된 방향으로 가는 길이 새로 만들어진 것입니다.

서비스 중단을 선언한 MS는 이후 "AI 챗봇 테이는 기술적인 실험일뿐만 아니라 사회·문화적 실험이었다"며 "테이 서비스 재개 여부를 아직 결정하지 못했다"고 발표했습니다. 이는 미국인들에게 "아직 우리사회가 AI라는 고차원의 기술을 통제하고 다룰만한 성숙도를 갖지 못했다"는 메시지를 던지는 계기가 됐습니다.

최근 국내 AI 챗봇 '이루다'가 혐오 발언에 개인정보 유출 논란까지 겹치면서 20일 만에 서비스를 중단했습니다. 기시감(旣視感)이 듭니다.

2011년 설립된 이루다 개발사 스캐터랩은 챗봇 서비스를 고도화시켜 이를 기업들에 판매하는 방식으로 회사를 키워가고 있는 곳입니다. 챗봇은 주로 고객을 응대할 때 쓰이는데, 소비자들이 기업에 궁금해 하는 질문이 패턴화 돼 있다는 사실에 입각해 인건비 감소와 24시간 대응 등을 목적으로 사용되고 있습니다.

스캐터랩은 MS와는 약간 다른 방식인 '리액션'이라는 학습 기술로 챗봇을 만들었습니다. 이는 스캐터랩이 축적한 데이터베이스에서 사용자들이 어떤 말을 할 때 챗봇이 가장 적절한 반응을 찾을 수 있는지 뽑아 학습시키는 방법입니다.

쉽게 말해 사람들의 대화에서 가장 적절한 패턴 대답을 고르는 것인데, 이를 위해서는 역시 방대한 데이터가 중요합니다. 스캐터랩은 데이터를 모으기 위해 자신들이 운영하는 앱 서비스인 '연애의 과학'을 통해 연애 대화 메시지를, '핑퐁'을 통해 일상 대화 내용을 추출했습니다.

챗봇은 여러가지 역할이 있는데 그중에서 이루다는 사적인 영역을 담당하는 챗봇입니다. 스캐터랩은 이루다에 '스무살 여성'이라는 아이덴티티를 부여하고 서비스를 개발했습니다. 2013년 개봉한 영화 '그녀'에서 외로움을 느끼는 남자 주인공 '테오도르'가 진짜 사랑을 느끼게 되는 AI를 꿈꿨는지도 모르겠습니다.

그러나 이루다는 출시 후 국내 일부 온라인 커뮤니티 사용자들의 '성노예 만들기' 공격 대상이 됐고, 이루다 스스로 인종·동성애자·장애인 등을 혐오하는 태도까지 보이면서 각계에서 큰 비판을 받았습니다.

인터넷 포털 '다음'의 창업자 이재웅 전 쏘카 대표는 논란이 생기자 페이스북에 글을 올리고 "일상 대화에서 차별·혐오하는 사람이 많고 그것을 학습했다고 해도 AI를 보정 없이 대중에게 서비스하는 것은 큰 문제"라며 "AI 채용·면접, 챗봇, 뉴스 추천 등 모든 AI 서비스는 최소한의 사회적 규범을 지키는지 감시할 수 있어야 한다"고 썼습니다.

얼마 전 만난 AI업계 한 개발자는 "'이루다 논란은 데이터 취급의 윤리성과 활용의 민낯이 드러나는 계기가 됐다"며 "다들 AI산업에 뛰어들고 있는 상황에서 우리사회가 윤리적·도덕적 숙제를 안게된 것"이라고 했습니다.

노정동 한경닷컴 기자 dong2@hankyung.com