"AI 학습엔 '라면'보다 '라방에서 본 불닭마라면'이 낫다"

입력 2023-04-30 07:00

"AI 학습엔 '라면'보다 '라방에서 본 불닭마라면'이 낫다"

"AI 학습엔 '라면'보다 '라방에서 본 불닭마라면'이 낫다"
초거대 AI 학습용 데이터 사업공고…SNS 대화·노년층 현대사 구술 등

(서울=연합뉴스) 조성미 기자 = GPT 아성에 도전하는 국산 초거대 AI 모델 개발을 지지하고 나선 정부는 인공지능 학습용 데이터 구축에 올해에만 2천805억원을 투입하면서 이들 데이터 일부를 초거대 AI 학습용으로 별도 지정했다.
이들 데이터 34종의 특성을 보면 밋밋한 텍스트가 아닌 현대 한국인의 언어 사용 특징을 고스란히 살려 실생활에 보다 유용한 AI 서비스 개발에 활용하려는 의도가 엿보인다.
30일 과학기술정보통신부와 한국지능정보사회진흥원의 인공지능 학습용 데이터 구축 지원사업 공고를 보면 구축 대상에 한국인의 소셜네트워크서비스(SNS) 대화 패턴과 동화 줄거리, 고령층이 구술하는 현대사 등 다양한 콘텐츠가 포함됐다.
우선 SNS 대화 데이터는 최근 3년간 사회·문화적 주제를 반영해야 하고, 신조어, 축약어 같은 SNS 대화의 특징이 잘 담겨 있어야 한다는 조건이 달렸다.
예를 들어 "밥 뭐 먹었어? 라면 먹었어" 같은 평범한 대화보다는 "OO님이 어제 라방에서 먹은 불닭마라면 해 먹었는데 진짜 킹정"이 선호되는 데이터라고 공고문은 설명했다. SNS에서 이뤄질 법한 대화에 근접할수록 데이터 가치가 높아진다는 이야기다.
올해만 이런 SNS상 대화 300만 건 이상을 데이터로 쌓는다는 것이 당국의 목표다. 두 명 이상의 대화에 참여하고, 1명당 7건 이상 발화해야 대화 1건으로 인정된다.
대화 데이터는 SNS 챗봇 또는 SNS 대화 기반 추천 서비스 개발 등에 활용될 예정이다. 정부 지원을 받아 데이터 구축 사업에 참여하는 기관 또는 사업자가 SNS상 원천데이터를 수집하기 위한 지식재산권 해결 방안 등을 직접 제시해야 한다.
'킹정' 같은 MZ 세대 발 데이터만 초거대 AI 학습 데이터로 구축되는 것은 아니다.
60대 이상 고령자가 구술한 음성 데이터 10만 건 이상도 구축 대상에 포함됐다.
고령자가 근현대사를 거치며 직접 경험한 자전적 스토리가 데이터로 쌓이게 된다.
고령자의 구술 데이터는 지역 문화·역사 해설 콘텐츠 개발에 활용된다. 또, 고령자 인지능력이나 치매 진단 AI 모델 개발에도 쓰일 수 있다.
동화, 어린이용 소설 등 아동 문학 작품 2천 개 이상도 데이터로 축적되는데 저작권이 만료된 책이나 공개 데이터를 활용하거나 저작권자와 계약을 맺고 데이터로 구축해야 한다.
한편, 국내 기술에 기반한 AI 서비스로 동남아, 중동 등 해외 시장에 진출할 목적으로 영어를 제외한 외국어 말뭉치 데이터도 2억 토큰(어절) 이상 구축한다는 계획을 세웠다.
한국지능정보사회진흥원은 AI 학습용 데이터 구축 사업 공고를 내면서 "인공지능 서비스 개발에서 데이터 구축에 자원의 80%가 투입된다"며 제대로 된 데이터의 중요성을 강조했다.
csm@yna.co.kr
(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>