벤치마크 우위, 한국어 특화“실용적 서비스로 가치제공”
  • ▲ ⓒ카카오
    ▲ ⓒ카카오
    카카오가 거대언어모델과 멀티모달 언어모델 각 3종과 비주얼 생성모델 2종, 음성모델 2종 등 AI 모델 총 10종을 공개했다.

    김병학 카카오 카나나알파 성과리더는 23일 개발자 컨퍼런스 이프카카오에서 카나나 브랜드 AI 모델을 소개했다.

    김 성과리더는 카나나 모델의 핵심 특징으로 한국어와 처리에 있어 탁월한 고성능을 보유했다고 소개했다. 신뢰할 수 있는 데이터로 학습해 투명성을 갖췄다는 점, 서비스 최적화에 맞춘 비용 효율적 모델이라는 점도 강조했다. 

    거대언어모델 3종은 크기순으로 플래그와 에센스, 나노로 나눠진다.

    카나나 에센스는 정제된 데이터의 학습과 최적화된 모델 크기로 성능과 비용 효율성을 모두 갖췄다. 저작권이나 개인정보 이슈가 해소된 고품질 데이터를 기반으로 필터링과 데이터 큐레이션 등의 전처리 작업을 진행했다. 3차례의 멀티 스테이지 학습을 통해 유효한 성능을 내는 방법들을 병합하고, 고성능 모델로 발전시키게 됐다는 설명이다.

    에센스 모델은 현재 글로벌 최고 성능을 가진 유사 사이즈의 대표 모델과의 성능 비교에서 유사하거나 높은 성능을 보이는 것으로 나타났다. 특히 한국어 논리와 추론을 평가하는 KMMLU, HAE-RAE 벤치마크에서 확실한 우위를 보였다.

    모바일 디바이스에서도 활용 가능한 초경량 모델인 카나나 나노 역시 유사 사이즈의 글로벌 대표 모델들과 비교했을 때 전반적인 벤치마크에서 평균적으로 탁월한 성능을 보였다. 한국어 성능에서도 압도적 성능을 나타냈다.

    멀티모달 언어모델은 총 3가지로, 이날 세션에서는 ‘Kanana-o’ 모델을 중심으로 소개했다. Kanana-o 텍스트와 음성합성 모델을 모듈식으로 결합해 사용했던 기존의 구조에서 벗어나, 여러 모달리티의 데이터를 통합적으로 처리하는 형태로 개발됐다. 궁금한 사물을 카메라로 비추어 실시간 대화하는 형태로도 발전할 예정이다. 

    이미지와 영상 생성이 가능한 비주얼 생성 모델 2종도 공유했다. 이 중 동영상 생성모델의 구조에 대해 설명하며, 텍스트 입력부터 이미지 그리고 개인 프로필 사진까지 다양한 입력을 처리하는 형태로 개발 중이라고 밝혔다. 간단한 마우스 조작만으로 카메라와 캐릭터의 움직임을 제어할 수 있게될 전망이다.

    김 성과리더는 “기술의 가치는 서비스로 연결돼 이용자의 문제를 직접적으로 해결해주고, 실질적 가치를 제공해주는 실용적인 서비스로 구현되어야 빛을 발한다고 생각한다”고 말했다.