대규모 벤치마크 데이터셋과 고성능 AI모델 개발해 실용성↑정확도 평가 지표에서 0.9923으로 세계 최고 수준 달성세계적 권위 '유럽 자연어처리학회(EACL) 2026' 발표 … 특허도 출원
-
- ▲ 연구진. 왼쪽부터 고려대 컴퓨터학과 정연돈 교수(교신저자), 최우석 학사과정(제1저자), 김형빈 박사과정(제2저자).ⓒ고려대
고려대학교는 컴퓨터학과 정연돈 교수 연구팀이 인공지능(AI)을 이용해 판결문 속 개인정보를 빠르고 정확하게 지워주는 기술을 개발했다고 16일 밝혔다.특히 학부생이 제1저자로 참여해 세계적인 국제학회에서 발표까지 이뤄져 눈길을 끈다.대한민국 헌법(제109조)에 따라 재판의 심리와 판결은 공개돼야 하지만, 판결문을 공개할 때는 개인의 이름, 주민등록번호, 주소 등 민감한 개인식별정보를 가려 보호해야 한다.기존의 수작업 방식으로는 개인정보를 가리는 데 문서 1건당 약 2주가 걸린다. 이는 병목 현상으로 이어져 전체 판결문 중 5.97%만이 비식별화 처리가 완료된 상태로 공개됐다. 법원의 기존 자동화 시스템은 개인정보를 찾아 마스킹하는 정확도가 8% 수준에 그쳐 실효성이 떨어졌다. -
- ▲ 연구진이 개발한 합성 데이터 생성 및 라벨링 구조도. SNS 대화, 법원 판결문 등 다양한 출처의 데이터를 표준화된 비식별화 규칙에 맞춰 통합하고, 인공지능이 학습할 수 있도록 구조화하는 과정을 보여준다.ⓒ고려대
이에 연구팀은 대규모 벤치마크 데이터셋(표준화된 데이터 모음) ‘K-LegalDeID’와 고성능 AI 모델 ‘KLUEBERT-CRF’를 개발해 문제를 해결했다. 39개 법률 분야 2000건의 판결문과 사회관계망서비스(SNS) 대화 데이터 등을 결합해 100만여 건에 달하는 대규모 학습 데이터를 구축하고, AI가 이를 학습해 비식별화를 수행하는 방식이다. 기존 모델에 조건부 무작위장(Conditional Random Field)을 결합해 한국어 특유의 교착어 형태와 법률 문서의 복잡한 문장 구조를 효과적으로 처리하는 게 특징이다.KLUEBERT-CRF 모델은 정확도 평가 지표인 ‘개체 수준 마이크로 F1 점수’에서 세계 최고 수준인 0.9923을 달성했다. 또 파라미터(AI가 데이터를 학습하면서 저장한 판단 기준의 개수)를 기존 다른 모델보다 20배 가벼운 1억1000만 개 수준으로 설계해 메모리 사용량을 대폭 절감했다. 법원에서 실제로 활용할 수 있게 실용성과 효율성을 극대화했다.정 교수는 “고품질의 벤치마크 데이터셋을 통해 한국 리걸 테크(Legal Tech) 분야의 고질적인 데이터 부족 문제를 해결했다”며 “판결문 비식별화 업무를 자동화함으로써 판결문 공개를 획기적으로 확대하고 사법 투명성을 높이는 데 기여할 것”이라고 설명했다.이번 연구 성과는 지난달 26일 모로코 라바트에서 열린 자연어 처리 분야 세계적 권위의 학회인 ‘유럽 자연어처리학회(EACL) 2026’에서 발표됐다. 국내 특허도 출원됐다. 최우석 학부생이 제1저자, 김형빈 대학원생이 공동저자, 정연돈 교수가 교신저자로 각각 참여했다.이번 연구는 과학기술정보통신부와 정보통신기획평가원의 ICT명품인재양성 사업, 한국연구재단 이공분야기초연구사업의 지원을 받아 수행됐다. -
- ▲ ⓒ고려대





