AI 학습용 표준데이터 '코쿼드 2.0' 첫 선국내 AI 기술 발전 및 개방형 생태계 조성 기여
  • LG CNS는 국내 최초로 AI(인공지능)의 자연어 이해를 위한 한국어 표준데이터 10만여개를 제작, 국내 AI 업계에 무료로 개방한다고 5일 밝혔다.

    언어 AI 개발을 위해서는 학생들이 공부하는 교과서와 유사한 개념인 AI 학습용 표준데이터가 필요하다. 

    해외의 경우 미국 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 존재해 AI 개발에 활용되고 있지만, 국내는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했다.

    이에 LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 '코쿼드 1.0'을 제작하고 AI 업계에 공개했다. 네이버, 카카오 등 국내 AI 기술 기업들과 AI 현업 종사자 등 50여개 팀은 코쿼드를 사용한 AI 개발에 나서기도 했다,

    LG CNS 측은 "표준데이터를 제작하고 외부에 개방해 향후 AI 연구자들 간의 시너지를 통한 국내 AI 기술 발전에 기여한다는데 의미가 크다"고 설명했다.

    LG CNS는 이날 서울 강서구 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 AI 커뮤니티 행사 'AI 테크톡 for NLU'을 열고 '코쿼드 2.0' 출시를 알렸다.

    코쿼드 2.0은 한국어 표준데이터를 10만개로 확대하고, 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 버전이다. 또 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있도록 표준데이터 범위도 확대했다.

    한편 이번에 출시한 한국어 표준데이터는 코쿼드 2.0 웹사이트에서 누구나 다운로드 가능하다.