제한된 데이터 학습만으로 장문 음성 인식 눈길
  • ▲ ⓒ뉴데일리DB
    ▲ ⓒ뉴데일리DB

    네이버가 한 단계 진화한 음성인식 엔진 'NEST(Neural End-to-end Speech Transcriber)'를 공개했다고 13일 밝혔다.

    'NEST'는 제한된 데이터 학습만으로도, 복잡한 장문의 음성 표현을 정확하게 인식하고 텍스트로 변환할 수 있는 기술이다. 대량의 정제된 데이터를 사전에 학습하지 않고도, 예상치 못한 표현에 대해 정확한 음성인식이 가능한 것이 장점이다.

    음향 정보와 언어 정보를 별도로 학습하는 기존 모델링 방식을 통합 모델링 방식으로 개선했다는 설명이다. 학습에 필요한 데이터 양과 시간은 기존의 1/10 수준으로 단축시키면서도, 인식의 정확도는 오히려 높였다.

    네이버는 'NEST' 기술을 적용한 자동 자막을 다양한 동영상 및 오디오 서비스로 확대하고, 동영상 검색에도 해당 기술을 활용할 예정이다.

    ​일반 사용자들은 클로바 스피치 홈페이지에서 'NEST' 기술을 무료로 체험해 볼 수 있으며, 기업 및 단체도 제휴 제안을 통해 사용이 가능하다. 하반기 일본어 출시를 시작으로, 영어, 중국어 등으로 제공 언어도 확대한다는 계획이다.

    한익상 리더는 "앞으로도 AI 핵심 기술 연구에 더욱 집중해 음성인식의 품질과 효율을 더욱 고도화해 나가겠다"고 말했다.