TTA, AI 학습용 데이터에서 유해 표현 찾는 AI 모델 공개

입력 2025-02-03 11:50

TTA, AI 학습용 데이터에서 유해 표현 찾는 AI 모델 공개

TTA, AI 학습용 데이터에서 유해 표현 찾는 AI 모델 공개
오픈소스 라이브러리·허깅페이스서 API로 활용 가능

(서울=연합뉴스) 조성미 기자 = 한국정보통신기술협회(TTA)는 거대언어모델(LLM) 학습용 데이터 가운데 유해한 표현을 걸러낼 수 있는 인공지능(AI) 모델을 구축했다고 3일 밝혔다.
한국정보통신기술협회와 한국지능정보사회진흥원(NIA)이 지난해 '초거대 AI 학습용 데이터 품질검증 사업'을 통해 함께 개발한 이 모델은 국가인권위원회가 만든 혐오 표현 정의를 참고해 11가지 유형별 유해 표현을 검출할 수 있다.
유해하지 않은 표현과 유해한 표현 문장을 각각 20만 건 구축해 AI 모델을 만들었으며, 학습에 사용된 AI 모델은 카카오[035720] 브레인의 'KcELECTRA'다.
유해 표현은 모욕, 욕설, 외설스럽거나 성적 혐오를 담은 표현, 인종·지역, 장애 여부, 연령, 종교, 정치 성향, 직업에 따른 차별적 표현, 폭력 위협이나 범죄 조장 표현으로 분류된다.
한국정보통신기술협회는 유해 표현 검출 AI가 텍스트의 문맥을 고려해 유해성을 분석하므로 비속어가 포함되지 않은 유해 표현도 검출할 수 있다고 설명했다.
협회는 유해 표현 검출 AI 모델과 학습용 데이터를 오픈소스 라이브러리와 AI 모델 배포 플랫폼인 허깅페이스에 업로드했다.
허깅페이스 애플리케이션 프로그래밍 인터페이스(API)를 활용하면 누구나 말뭉치 텍스트의 유해성을 분석하고 유해 표현을 정제할 수 있다.
손승현 한국정보통신기술협회장은 "AI 모델은 배운 대로 텍스트를 생성하기 때문에 학습용 텍스트에 포함된 유해 표현을 정제하는 과정이 꼭 필요하다"고 말했다.