연합학습 기반 AI 신약개발 플랫폼 구축에 5년간 348억원 투자연합학습에 데이터를 제공하는 게 법 위반 아니라는 법적 해석도 필요AI 모델 학습 위한 교재 라이선스 무상화 주장도 제기
-
AI(인공지능) 모델 개발을 위해 고품질의 대량 데이터 확보가 산업계에 화두로 떠오르고 있다.특히 신약개발에 AI모델을 활용하려는 제약바이오업계에서는 민감한 바이오데이터 확보에 어려움을 겪고 있는데 공공연구비가 투입된 사업에서 얻은 바이오데이터를 공익화하자는 주장이 제기됐다.김화종 K-멜로디사업 단장은 26일 서울 여의도 국회의원회관에서 열린 '제약바이오산업의 AI 대전환' 토론회에서 "국가가 연구한 국민 바이오데이터를 K-멜로디 사업에 제공하는 것을 의무화할 필요가 있다"고 제안했다.K-멜로디사업은 연합학습을 기반으로 AI 신약개발 플랫폼을 구축하기 위해 보건복지부와 과학기술정보통신부가 함께 추진하는 사업이다. 지난 4월부터 2028년 12월까지 총 348억원이 투입된다.AI 플랫폼 개발을 위해 선택한 연합학습은 제약사, 연구소, 대학, 병원 등 기관이 보유한 데이터를 직접 공유하지 않고 AI모델 파라미터(가중치)만 공유하는 방식이다. 글로벌 IT기업 구글이 2017년 개발한 것으로 각 기관의 원천 데이터를 보호하면서도 데이터를 활용할 수 있어 현재 가장 효율적인 AI모델 학습방법으로 주목받고 있다.김 단장은 "AI 생물학(Biology)의 핵심요소(클라우드 컴퓨팅, AI소프트웨어, 바이오데이터) 중 바이오데이터가 희소성이 높으면서도 구하기 어려운 것이다"면서 "세계적 빅테크 기업이 AI 생물학에 올인하고 있는 상황에서 바이오데이터 활용 선진국이 되는 것을 차별점으로 삼아야 할 것이다"고 주장했다.이를 위해서는 제도적 보완도 선행돼야 한다고 지적했다.김 단장은 "연합학습에 데이터를 제공하는 게 개인정보보호법을 위반하거나 지적재산권을 유출하지 않는다는 법적 해석도 필요하다"면서 "글로벌 신약 개발을 위해서는 국내 데이터만으로는 한계인 만큼 글로벌 제약사와 기관도 매력을 느끼고 참여할 수 있는 시스템이 마련돼야 한다"고 했다.한편, AI 모델 고도화를 위해서는 양질의 정보를 학습시켜야 하는 만큼 관련 교재에 대한 접근장벽을 낮춰야 한다는 목소리도 나왔다.LLM(거대언어모델)을 기반으로 한 4세대 생성형AI 신약개발 플랫폼을 개발 중인 아이젠사이언스의 강재우 대표는 국내 교과서와 정부 문서, 의생명 문헌 등의 학습용 라이선스를 풀어달라고 요청했다.올 4월 아이젠사이언스가 개발한 소형언어모델(sLM) '미어캣'은 미국 의사면허시험에서 85.8점을 획득해 시험을 통과했다. 미국 의사면허시험 통과 점수는 60점으로 오픈AI의 'GPT-4'의 82.3점을 뛰어넘었다.강 대표는 "대규모 컴퓨팅 인프라와 양질의 데이터가 제공되면 국내 AI기술로도 글로벌에서 뛰어난 경쟁력이 예상된다"면서 "국가 차원의 고성능 컴퓨팅 클러스터 구축 등도 필요한 부분이다"고 강조했다.이날 토론회는 한국제약바이오협회와 '국회 AI와 우리의 미래'가 함께 주최했다.국회 AI와 우리의 미래의 공동대표를 맡고 있는 국회 과학기술정보방송통신위원회 소속 최수진 의원 국민의힘 의원(비례대표)은 "바이오 분야 챗GPT를 만들기 위해 예비타당성(예타) 조사도 추진하겠다"면서 "흩어져 있는 데이터를 모으고 부족한 건 채우면서 그 데이터를 활용할 수 있는 플랫폼을 만드는 데 투자해야 한다고 생각한다"고 말했다.
-