디지털뉴딜 '데이터 댐' AI 허브 통해 개방AI·데이터 기업, 대학, 병원 등 674개 기업·기관 참여9월까지 이용자 참여를 통해 데이터 집중개선
  • ▲ ⓒ과기정통부
    ▲ ⓒ과기정통부
    정부가 기업과 국민이 함께 채운 '데이터 댐'을 본격 개방한다. 데이터 댐은 '데이터·네트워크·인공지능(D.N.A)' 강화를 위한 14만개 공공데이터 개방으로 일종의 '댐'을 구축하는 사업이다.

    18일 과학기술정보통신부에 따르면 인공지능(AI) 학습용 데이터 170종(4억 8000만건)을 'AI 허브'를 통해 이날부터 30일까지 순차적으로 무료 개방한다. 

    과기정통부는 2017년부터 기업, 연구자, 개인 등이 시간 및 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 구축·개방해 왔다. 2020년부터는 디지털 뉴딜 데이터 댐 구축 프로젝트의 일환으로 규모를 대폭 확대했다.

    이번에 개방하는 170종의 인공지능 학습용 데이터는 ▲음성·자연어(한국어 방언 등 39종) ▲헬스케어(암진단 영상 등 32종) ▲자율주행(도로주행영상 등 21종) ▲비전(스포츠 동작 영상 등 15종) ▲국토환경(산림수종 이미지 등 12종) ▲농축수산(가축행동 영상 등 14종) ▲안전(노후 시설물 이미지 등 19종) ▲기타(패션상품 이미지 등 18종) 등 8개 분야로 나눠졌다.

    특히 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등 '한국형 인공지능 학습용 데이터'가 대폭 확충됐다. 대표적으로 자율주행 데이터의 경우 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 제공한다. 오는 30일 공개되는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 AI 서비스의 문제점을 상당 부분 해소할 전망이다.

    데이터 구축에는 국내 주요 인공지능·데이터 전문기업은 물론 주요 대학(서울대, KAIST 등 48개), 병원(서울대병원, 아산병원 등 25개) 등 총 674개 기업·기관이 참여했다. 데이터 수집·가공 등 구축 과정에 국민 누구나 참여할 수 있는 '크라우드소싱' 방식을 도입, 4만여명에 달하는 참여를 이끌어 냈다.

    AI 허브에 대규모로 개방되는 인공지능 학습용 데이터의 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 모았다. 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영, 전문적 품질관리 지원체계를 구축했다.

    이와 함께 주요 대기업(네이버, LG, 삼성전자, KT, 현대차 등), 스타트업(딥노이드, 스트라드비젼, 비바엔에스 등), 대학 및 연구기관(KAIST, GIST, ETRI, 농정원 등) 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행(5~6월)했다. 과기정통부와 지능정보원(NIA)은 데이터 개방 후에도 오는 9월까지 이용자 참여를 통해 이용자의 요구사항을 반영할 계획이다. 

    정부는 AI 허브에 개방되는 인공지능 학습용 데이터를 통해 '데이터 갈증'을 어느 정도 해소할 수 있을 것으로 기대하고 있다. 과기정통부와 NIA는 품질관리 전문기관인 한국정보통신기술협회(TTA) 및 전문기업 등과 협력해 데이터 품질관리 수준을 강화할 방침이다. 향후 개인정보보호위원회와 개인정보 전문기관인 한국인터넷진흥원(KISA) 등과도 협력을 구축한다.

    과기정통부는 이날 데이터 활용 촉진과 성과 확산 등을 위해 '인공지능(AI) 데이터 활용협의회'도 출범했다. 협의회는 데이터 품질관리 전문기관인 TTA와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐다. AI 허브 데이터를 적극 활용하고 성과를 공유·확산하는 한편, 데이터 품질 제고와 지속적 개선에 협력해 나갈 예정이다. 

    임혜숙 과기정통부 장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"고 말했다.