대통령 업무보고, HWP 문서 AI 호환성 비판개방형 문서 포맷 전환, 관련 솔루션 구축
-
- ▲ ⓒ한글과컴퓨터
대통령 업무보고에서 공공부문 문서 체계가 AI 데이터 학습에 적합하지 않다는 비판이 나왔다. 한컴은 HWP 문서 AI 호환성 문제에 대해 제한사항이 없다는 입장이다.18일 업계에 따르면 이재명 대통령은 지난 11일 업무보고에서 아래아한글 문서의 공공 데이터 호환성 문제에 대한 대책 마련을 요구했다.이 대통령은 “데이터의 중요성이 커지면서 AI 사회의 핵심은 결국 데이터”라며 “정부 공문서는 데이터 측면에서 양질의 자산인데 대부분이 아래아한글로 작성되면 기계가 못 읽는다는 거 아니냐”고 언급했다.한글과컴퓨터(이하 한컴)가 개발한 아래아한글의 기본 문서 형식인 HWP 확장자는 폐쇄형 포맷으로, AI 데이터 학습에 적절치 않다는 것이다.업계에 따르면 정부와 공공기관에서 생산되는 문서는 90% 넘게 HWP로 유통되고 있다. HWP는 폐쇄형 문서 포맷으로, AI 학습에 활용할 경우 문맥이 깨지거나 의미없는 정보만 남아 활용도가 떨어진다.한컴은 HWP 포맷 구조가 AI 문서 인식을 어렵게 만든다는 지적에 대해 사실과 다르다는 설명이다. 공공문서 데이터 AI 학습 지원을 위해 개방형 문서 포맷 전환을 해결책으로 꾸준히 제시해 왔다는 것.폐쇄형 문서 포맷인 HWP의 한계를 극복하기 위해 한컴은 2010년부터 HWP 파일 구조를 공개하고 개방형 포맷 HWPX 지원을 시작했다. 2021년부터는 HWPX를 기본 저장 포맷으로 전면 전환했다는 전언이다. HWPX는 국제표준을 따르는 XML 기반 구조로 AI 활용에 적합하다.HWP로 작성된 문서를 AI 데이터로 활용하기 위한 노력도 병행 중이다. 공식 사이트에서는 HWPX 변환기를 무료로 제공하고, 한글 제품과 PDF 추출 핵심 기술도 오픈소스로 공개한 바 있다. 한컴 데이터 로더를 사용하면 HWP를 HWPX로 변환하는 과정을 거치지 않고도 파일 자체에서 텍스트와 문서구조 정보를 직접 추출할 수 있다.HWP 문서의 글로벌 LLM에서 활용은 기술 연동의 문제로, 포맷 자체의 결함이 아니라고도 덧붙였다.한컴 관계자는 “최근 제미나이3는 HWP와 HWPX 지원을 시작했다”며 “이는 글로벌 LLM이 한국 문서 포맷을 서비스 기능으로 구현하기 위한 부분이 단순 시간차 문제였음을 보여주는 사례”라고 말했다.





