텍스트·이미지·물리 환경까지 동시 학습, 환각 현상 최소화국대 AI 정예팀 선발평가 맞춰 준비, 경량화 버전 제시소버린 AI 경쟁력 강화, 일반인공지능 첫 단추 의의
  • ▲ ⓒ네이버
    ▲ ⓒ네이버
    네이버가 개발중인 차세대 생성형 AI ‘옴니모달’ 모델이 이르면 이달 말 공개된다. 텍스트·이미지·영상을 아우르는 AI 모델로서 선도적 역할을 할 것으로 기대된다.

    22일 업계에 따르면 네이버는 ‘하이퍼클로바X’를 기반으로 한 옴니모달 모델 개발을 사실상 마쳤다.

    옴니모달은 텍스트를 넘어 이미지와 영상, 물리적 환경까지 동시 학습하는 생성형 AI 모델을 의미한다. 텍스트를 기반 생성형 AI(LLM)는 물론, 텍스트에 이미지를 덧붙여 활용 범위를 넓힌 ‘멀티모달’과도 구분된다. 인간의 감각과 유사하게 하나의 모델 안에서 텍스트와 이미지, 음성 신호를 동시 학습해 일관성과 정확도를 높인 것이 특징이다.

    국내외서는 옴니모달을 차세대 생성형 AI를 구현하는 핵심 기술로 파악하고 있다. 기존 AI 모델에서 한계로 지적받는 환각 현상을 해소하고, 향후 ‘피지컬 AI’를 접목하는 데에도 적합하기 때문이다. 사용자가 텍스트나 이미지 등 어떤 방식으로 질문하더라도 종합 결과를 출력할 수 있어 일반인공지능(AGI)에 도달하기 전 단계로 해석하기도 한다.

    옴니모달을 접목한 생성형 AI 개발 방식은 국내외에서 대세로 자리잡았다. 오픈AI가 선보인 ‘GPT-4o’는 텍스트와 이미지, 음성을 동시에 처리하는 대표적인 옴니모달 모델이다. 국내에서도 국가대표 AI 정예팀으로 선발된 LG AI 연구원과 SK텔레콤 등이 옴니모달을 목표로 자체 AI 모델을 개발 중이다.

    정부 주관 ‘독자 AI 파운데이션 모델 프로젝트’ 정예팀으로 선발된 네이버는 앞서 옴니모달 모델 개발을 목표로 제시한 바 있다. AI 경쟁지표인 벤치마크 성능에만 치중하지 않고 산업과 실생활에 접목할 수 있는 AI를 구현하겠다는 취지다. 컨소시엄에 기업으로 유일하게 포함된 영상 AI 스타트업 ‘트웰브랩스’와 협업도 옴니모달을 실현하기 위함이다.

    네이버가 선보이는 옴니모델 모델은 입력 방식과 무관하게 출력 형태를 자유자재로 내놓는 ‘Any-to-Any’ 방식을 지향한다. 내년 서비스에 구현할 통합형 AI 플랫폼 ‘에이전트 N’에도 관련 기술이 활용될 것으로 보인다. 텍스트와 음성 등에 의존하는 입력 방식에 대한 장벽을 낮추는 것은 AI 에이전트 접근성 확보와도 무관치 않기 때문이다.

    네이버는 경량화된 옴니모달 모델을 먼저 선보인다는 방침이다. 새로운 개발 방법론을 검증하며, 에이전트 등 서비스에 붙이기도 용이하기 때문으로 풀이된다. 텍스트와 이미지, 영상을 함께 학습하는 모델 구조상 경량화 버전을 바탕으로 향후 스케일업하겠다는 계획이다.

    옴니모달 AI로 확보한 경쟁력은 네이버가 추구하는 ‘소버린 AI’ 전략과도 맞닿아 있는 모습이다. 국내 주요 기업들과 버티컬 AI를 개발하면서 오픈AI의 챗GPT나 구글 제미나이가 범접하기 어려운 산업 특화 모델을 만들겠다는 구상이다. 신뢰할 수 있는 소버린 AI 구축 경험은 K-AI를 바탕으로 한 글로벌 수출과도 연결된다.

    네이버 관계자는 “정예팀 선발 평가 시기에 맞춰 준비한만큼 빠르면 이달 내로 옴니모달 모델을 선보일 계획”이라며 “독자 파운데이션 모델 설명회에서 옴니모달에 대한 부분도 같이 공개될 것”이라고 말했다.