LLM 개발 더해 멀티모달 구축 AI 기술력 입증콘텐츠·미디어 분야 등 광범위 사용 가능
-
- ▲ ⓒNC AI
NC AI가 한국어 기반 멀티모달 AI 기술력을 집약한 VARCO-VISION 2.0(이하 바르코-비전 2.0) 총 4종의 멀티모달 AI 모델을 오픈소스로 공개한다고 16일 밝혔다.바르코-비전 2.0은 이미지와 텍스트를 함께 이해해 질문에 답할 수 있는 차세대 인공지능 모델이다. 여러 장의 이미지를 동시에 분석할 수 있어 복잡한 문서나 표, 차트도 효과적으로 처리할 수 있다는 점이 차별화 요소다. 한국어와 영어 모두 자연스럽게 이해할 수 있으며, 특히 텍스트 생성 능력과 한국 문화에 대한 이해도를 크게 향상시켰다.NC AI는 개인과 산업의 활용도를 실질적으로 높이기 위해 14B 파라미터 모델과 함께 1.7B 파라미터 경량 모델을 동시에 제공한다. 14B 모델은 복잡한 멀티이미지 분석과 고도화된 추론이 필요한 업무용 환경에 최적화되어 있으며, 1.7B 경량 모델은 스마트폰이나 PC 등 개인 기기에서도 원활하게 동작할 수 있도록 설계됐다.이미지 내 문자를 인식하는 광학 문자 인식 작업에 특화된 모델인 바르코-비전-1.7B-OCR도 내놓았다. 기존 OCR(광학문자판독) 모델들과 달리 이미지와 언어 정보를 동시에 학습한 VLM기반 접근 방식을 채택, 기존 오픈소스 OCR 모델 대비 한국어 OCR 능력이 더 높은 것으로 확인됐다.멀티모달 임베딩 모델은 텍스트, 이미지, 비디오 간의 의미적 유사도를 고차원 임베딩 공간에서 정밀하게 계산한다. 임베딩이란 영상의 내용을 숫자로 변환해서 저장하는 것이다. 이 기술을 통해 사용자의 자연어 질의에 따라 동영상 콘텐츠를 고차원 임베딩으로 변환할 수 있다.이번에 공개된 4종의 모델은 금융, 교육, 문화, 쇼핑, 제조 등 다양한 도메인에서 활용 가능하다. 복잡한 보고서, 계약서, 청구서 등의 자동 분석과 디지털화, 표와 차트가 포함된 문서 처리나 주문서 자동 요약 등 문서 처리와 자동화 분야에서 광범위하게 활용할 수 있다. 또한 제품 이미지 기반 자동 설명 생성, 비디오 콘텐츠의 자연어 기반 검색 시스템, 크리에이티브 콘텐츠 생성과 광고 문구 작성 등 콘텐츠·미디어 분야에서도 업무효율 증대를 가져올 것으로 기대된다.이번 모델 발표로 NC AI는 파운데이션 모델을 기반부터 구축하는 프롬스크래치 방식의 LLM 모델 개발 경험에 더해 멀티모달 모델 구축 능력까지 갖춘 독자 AI 기술력을 입증했다. 특히 한국어 특화 성능과 글로벌 수준의 기술력을 동시에 확보함으로써 국내 AI 산업의 경쟁력을 높였다는 평가다.특히 NC AI는 이번에 공개하는 4종 모델 모두를 연구용 오픈소스로 공개한다고 밝혔다. 기업과 개인, 공공기관 누구나 활용할 수 있도록 함으로써 전국민 AI 생태계 발전에 기여하겠다는 취지다.이연수 NC AI 대표는 “기술 고도화로 글로벌 트렌드가 텍스트만 처리하는 언어모델을 넘어 비전 모델을 함께 활용하는 비전언어모델로 전환되고 있다”며 “이번 4종 모델 공개를 통해 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다”고 말했다.





