"AI 학습 금지합니다"…데이터 저작권 논란 확산

입력 2023-08-27 17:37 수정 2023-08-28 00:53

"AI 학습 금지합니다"…데이터 저작권 논란 확산

초거대 인공지능(AI) 기반의 생성 AI 서비스가 잇따르면서 AI 학습에 사용한 데이터를 둘러싼 저작권 갈등도 끊이지 않고 있다.

27일 정보기술(IT)업계에 따르면 뉴욕타임스(NYT), 로이터, CNN 등 주요 외신은 최근 오픈AI가 자사 뉴스·블로그 사이트의 콘텐츠를 임의로 수집하지 못하도록 챗GPT의 웹 크롤러를 차단했다. 웹 크롤러는 웹사이트를 돌아다니며 데이터를 수집하는 자동화된 프로그램이다.

기사는 대규모언어모델(LLM) 학습에 가장 유용한 데이터로 손꼽힌다. 각종 정보를 담고 있을뿐더러 언어를 논리적으로 구사하고 있어 LLM의 성능을 높일 수 있다는 평가를 받는다. 최수연 네이버 대표는 최근 자체 개발한 LLM 하이퍼클로바X를 발표하면서 “뉴스가 AI 학습과 개발에 필요한 가장 고품질 데이터”라고 설명했다.

챗GPT와 구글의 바드 등 해외 LLM과 하이퍼클로바X 같은 국내 AI 모델 모두 기사를 학습에 활용하고 있다. 이 같은 사실이 알려지면서 언론사가 AI 개발회사를 대상으로 제동을 걸고 나섰다. 웹 크롤러를 차단해 데이터 사용을 막은 것은 물론 사용료 협상을 벌이기도 한다. 지난 5월에는 구글이 NYT에 기사를 AI 학습에 활용하는 대가로 3년간 1억달러(약 1300억원)를 지급하기로 했다.

한국에서도 비슷한 논란이 시작됐다. 네이버는 하이퍼클로바X 학습 과정에 뉴스 공급 계약을 맺은 언론사의 기사를 활용 중이다. 한국신문협회는 이에 대해 ‘불공정 행위’라며 네이버, 카카오, 구글코리아 등을 상대로 저작권자와 이용 기준 협의, 학습 데이터 출처 공개, 보상 체계 마련 등을 요구하기도 했다.

이미지는 텍스트보다 먼저 학습 데이터를 둘러싼 저작권 논쟁이 벌어졌다. 이미지 생성 AI 스테이블 디퓨전의 제작사인 스테빌리티AI는 세계 최대 이미지 제공 업체인 게티이미지로부터 고소당했다. 올해 1월에는 미국의 창작자 세 명이 업계를 대표해 미드저니를 비롯한 생성 AI 개발사에 집단 소송을 제기했다.

이승우 기자 leeswoo@hankyung.com