데이터 차별화로 현실형 AI 에이전트 구현 가속현실 세계에 맞는 차세대 파운데이션 기술 주목
-
- ▲ ⓒ네이버클라우드
네이버클라우드가 ‘네이티브 옴니모델’과 추론형 AI에 시각·음성·도구 활용 역량을 더한 ‘고성능 추론모델’을 오픈소스로 공개했다고 29일 밝혔다.이번에 공개한 HyperCLOVA X SEED 8B Omni는 텍스트·이미지·오디오 등 서로 다른 형태의 데이터를 단일 모델에서 처음부터 함께 학습하는 네이티브 옴니모달 구조를 전면 적용한 모델이다. 옴니모달 AI는 말과 글, 시각·음성 정보가 오가는 현실 환경에서 활용도가 높은 차세대 AI 기술로 주목받고 있다.네이버클라우드는 옴니모달 AI의 잠재력을 극대화하기 위해 기존 인터넷 문서나 이미지 중심의 학습을 넘어 현실 세계의 다양한 맥락을 담은 데이터 확보에 집중한다는 전략이다.이번 모델 공개를 통해 네이티브 옴니모달 AI 개발 방법론을 검증한 만큼, 향후 차별화된 데이터를 본격적으로 학습시키며 단계적인 스케일업에 나선다는 계획이다.또한 해당 모델은 텍스트 지시를 기반으로 이미지를 생성·편집하는 옴니모달 생성 기능도 갖췄다. 텍스트와 이미지의 맥락을 함께 이해해 의미를 반영한 결과물을 만들어내는 방식으로, 단일 모델에서 텍스트 이해와 이미지 생성·편집을 자연스럽게 수행한다.네이버클라우드는 향후 옴니모달 AI 에이전트 활용 가능성을 검증하기 위해 ‘HyperCLOVA X SEED 32B Think’도 공개했다. 해당 모델은 자체 추론형 AI에 시각 이해, 음성 대화, 도구 활용 능력을 결합했다.한국어 기반 종합 지식과 시각 이해, 실제로 도구를 활용해 문제를 해결하는 에이전트 수행 능력 등 주요 능력 항목에서 글로벌 모델들과 비교해 우수한 성능을 기록하며 복합적인 문제 해결 역량을 입증했다.또한 해당 모델로 올해 대학수학능력시험 문제를 풀이한 결과, 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급에 해당하는 성과를 거뒀다. 다수의 AI 모델이 문제를 텍스트로 변환해 입력해야 하는 방식과 달리, 해당 모델은 이미지 입력을 직접 이해해 문제를 해결했다는 점에서 차별화된다는 설명이다.성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “텍스트·시각·음성 등 AI의 감각을 수평적으로 확장하는 동시에 사고와 추론 능력을 함께 강화했을 때 현실 문제 해결력이 높아진다는 점을 확인했다”며 “단순히 크기만 큰 모델이 아닌 실제로 쓰임새 있는 AI로 발전할 수 있다고 보고 스케일업을 이어갈 계획”이라고 말했다.





