금융위원회가 지난해 12월 12일 발표한 ‘금융권 생성형 AI(인공지능)활용 지원 방안’의 후속조치로 31일부터 ‘금융 특화 한글 말뭉치’ 제공을 시작한다.
금융 특화 한글 말뭉치란 금융 분야의 다양한 전문지식들을 AI 모델이 가공·처리·분석할 수 있는 형태로 모은 대규모 한국어 언어자료 집합으로, 국내 금융권에 특화된 AI 서비스를 개발하기 위해서는 필수적인 요소다.
그간 금융회사들은 해외에서 일반 사용자들을 위해 개발된 상용 AI(Chat GPT, HyperCLOVA 등), 오픈소스 AI(LLaMA3.3, EXAONE 등)를 활용해 챗봇, 뉴스 요약, 번역 등 일반화된 서비스를 제공하는 데 사용해 왔다. 그러나 한국어로 된 금융 용어, 우리나라 금융 법규 등 전문화된 데이터가 부족해 금융에 특화된 업무를 수행함에 있어 AI를 활용하는 데에는 어려움이 있었다.
금융권 AI 협의체 논의 과정에서도 은행 등 모든 금융업권이 공통적으로 한국어로 된 금융 말뭉치의 필요성을 제기했으며, 이에 따라 금융위는 금융권 AI의 신뢰성과 전문성을 향상시킬 수 있도록 ‘금융권 생성형 AI 활용 지원 방안’을 발표하면서 ‘금융 특화 한글 말뭉치’ 구축 지원 방안을 발표했었다.
금융 특화 한글 말뭉치는 AI 모델의 금융 전문지식 학습과 답변의 정확도 제고, 성능과 윤리 평가 등에 활용할 수 있도록 다양한 형태로 제공된다.
먼저 AI 모델의 금융 전문지식 습득을 위한 학습용 말뭉치를 지원한다. 국내 금융정책·제도 설명자료, 금융 법규·가이드라인 및 보험연수원의 기초 연수자료를 활용했다. 일반적인 AI 모델에 학습용 데이터를 적용할 경우, 한국어로 된 금융 용어에 대한 이해력과 국내 금융제도·법규 등에 대한 전문성을 향상시킬 수 있다.
또 AI 모델이 외부의 최신 정보, 전문 데이터를 참조해 보다 정확한 답변을 도출하도록 하는 검색증강생성(RAG*)용 말뭉치를 지원한다.
이밖에도 AI 모델의 금융 지식, 추론능력 및 잠재적 유해성을 평가하기 위한 평가지원용 말뭉치를 지원한다. 생성형 AI가 허구의 정보를 생성하는 환각(Hallucination)이나 성별, 인종 등에 대한 선입견을 학습하는 편향(Bias) 등의 문제는 금융분야 AI 활용의 주요 장애요인으로 작용해 왔다. 학습데이터와 별도로 구축된 평가지원용 말뭉치를 활용해 AI의 객관적인 성능과 공정성을 검증함으로써 이러한 우려를 상당 부분 해소할 수 있을 것으로 기대된다.
금융 공통분야 말뭉치 이용을 희망하는 모든 금융회사는 금융결제원 데이터 공유 플랫폼을 통해 신청하고 말뭉치를 다운로드 받을 수 있다. 2025년 6월 말까지 진행되는 이번 시범사업 기간에는 금융회사들의 말뭉치 조기 활용을 촉진하고, 이용 기관들의 다양한 경험과 의견을 확보하기 위해 말뭉치를 무료로 제공할 예정이다.
금융위는 이번 시범사업 과정에서 제기되는 금융회사들의 추가 수요와 의견을 반영하여 2025년 하반기에는 금융 공통분야 말뭉치의 유형과 규모를 확대하고 내년부터는 금융 업권별 특화 말뭉치를 지원할 수 있도록 다양한 원천 데이터 보유기관 및 유관기관과 지속적으로 협의해나갈 계획이다.