음성 합성 품질 개선·음성 인식률 향상 우수성 입증적극적인 AI 기초연구 통해 서비스 가치 높여 갈 것
-
라인과 네이버는 국제 음향·음성신호처리 학술대회인 'ICASSP'에 양사의 공동연구 논문 2편을 포함해 총 14편의 논문이 채택됐다고 26일 밝혔다.
올해로 46회차를 맞는 ICASSP는 국제전기전자협회 신호처리학회가 주최하는 음향·음성신호처리 분야 세계 최대 규모의 국제학회다. 올해는 3600편 중 약 1700편의 논문이 채택돼 오는 6월 온라인으로 개최되는 'ICASSP 2021'에서 발표될 예정이다.
라인은 전략사업 중 하나인 인공지능(AI) 사업 발전을 가속화하기 위해 AI 연구개발 및 기술 활용 분야에서 네이버 클로바 및 AI LAB과 긴밀하게 협력하고 있다.
데이터 기반 개발, 데이터 분석, 머신러닝, AI 기술 개발, 기초연구 등을 담당하는 각 팀은 각자의 영역을 넘어 연계함으로써 연구, 개발, 사업화로 이어지는 사이클을 강화하고 있다.
이와 함께 라인과 네이버는 AI관련 서비스 및 기능 개발을 뒷받침하는 기초연구에도 힘쓰고 있다. 머신러닝 기반의 음성 처리, 언어 처리, 화상 처리 등에 주력하고 있다.
이번 'ICASSP 2021'에서는 음성 합성 관련 머신러닝 분류모델 중 하나인 '생성적 대립 신경망(GAN)을 이용해 비 자기회귀형 음성 생성 모델 'Parallel WaveGAN'에서 유성·음무성음 정보를 활용, 식별기를 개량한 연구를 소개했다.
비 자기회귀형 음성 생성 모델은 과거에 생성한 음성에 의존하지 않고 각 시점의 음성을 생성하는 모델이다. 병렬처리가 가능하기 때문에 계산 효율이 높은 특징을 갖고 있다.
이번 연구에서는 유성음과 무성음의 음성 성질이 상이하다는 점에 착안, 각 음성의 성질에 맞는 식별기를 설계해 합성 음성의 품질을 크게 개선시켰다.
또 음원 분리와 관련해 심층 학습을 사용하지 않는 음원 분리 방식인 ISS(Iterative Source Steering)와 심층 학습을 이용한 음원 모델 추정 방식을 접목시킨 새로운 방식을 제안했다.
기존 ISS보다 음성 인식률을 크게 향상시킨 점과 더불어 해당 접근법이 음원 수에 의존하지 않아도 적용 가능한 프레임워크라는 점에서 우수성을 입증했다.
앞으로도 라인과 네이버는 적극적인 AI 기초 연구를 통해 기존 서비스의 품질을 더욱 높이고, 새로운 기능과 서비스를 선보일 계획이다.