코스피
4,090.59
(0.00
0.00%)
코스닥
938.83
(0.00
0.00%)
버튼
가상화폐 시세 관련기사 보기
정보제공 : 빗썸 닫기

[AI픽] AI 학습 병목 돌파구…한컴 PDF 엔진 개방

입력 2025-09-17 10:37  

[AI픽] AI 학습 병목 돌파구…한컴 PDF 엔진 개방
문서 텍스트·표·이미지까지 정형 데이터로 전환


(서울=연합뉴스) 오지은 기자 = 한글과컴퓨터[030520]가 인공지능(AI) 학습 과정에서 고질적인 문제로 지적된 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 오픈소스로 공개했다고 17일 밝혔다.
한컴이 공개한 오픈데이터로더 PDF는 한컴이 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다.
최근 AI 스타트업 허깅 스페이스가 PDF 문서를 기반으로 4억7천500만건의 대규모 데이터셋 '파인PDFs'를 공개했고 이를 활용하려는 기업의 움직임도 본격화됐다.
PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않아 AI 개발 과정에서 제약이 따랐다.
이번 오픈소스 프로젝트는 이러한 문제를 해결하기 위해 지난 7월 PDF 기술 전문 기업 듀얼랩과 업무협약(MOU)을 체결한 뒤 첫 성과라고 한컴은 전했다.
오픈데이터로더 PDF는 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출, AI 학습에 활용할 수 있는 정형화된 데이터로 변환한다.
한컴에 따르면 오픈데이터로더 PDF는 사람의 읽기 순서를 측정하는 지표인 NID에서 다른 기술보다 85% 높은 수치를 기록했다.
오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다.
built@yna.co.kr
(끝)


<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>

관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!