"초거대 AI, 데이터 60~70% '무단' 학습"… '사각지대'

인터넷기업협회 세미나 열고 대응책 논의허락 없는 수집 '크롤링' 등 법적 문제 부상김앤장 "크롤링, 민형사상 '불법'" 지적도개보위 “초거대 AI 학습 데이터 관련 원칙 공개할 것”

▲ 이성엽 고려대학교 기술법정책센터장 교수가 28일 서울 여의도에서 열린 ‘초거대 AI 시대, 데이터의 개방·공유의 이슈와 과제’세미나에서 발언하고 있다. ⓒ김병욱 기자

초거대 인공지능(AI) 경쟁이 격화되면서 ‘데이터 소유권’이 핵심 법적 쟁점으로 떠오르고 있다. 온라인에 공개된 무료 데이터로 초거대 AI를 학습시킬 수 있게 되면서 데이터의 가치가 급등하고 있기 때문이다. 이에 데이터를 무단으로 수집하는 ‘크롤링(Crawling)’ 행위 등을 규제해 데이터의 권리관계를 명확히 해야 한다는 목소리가 나온다.

한국인터넷기업협회는 28일 서울 여의도 전경련회관에서 ‘초거대 AI 시대, 데이터의 개방·공유의 이슈와 과제’를 주제로 세미나를 개최했다. 윤아리 김앤장 변호사, 김현수 정보통신정책연구원 등 각계 전문가를 초빙해 데이터의 개방·공유 문제를 논의했다.

발제자로 나선 윤아리 김앤장 변호사는 타 플랫폼의 데이터를 크롤링하는 행위는 “형사적인 이슈와 민사적인 이슈가 있다”고 설명했다. 가령 구글이 네이버의 데이터를 크롤링한다면 저작권법, 정보통신망법, 업무방해에 저촉될 수 있다는 것.

윤 변호사에 따르면 저작권법은 인간의 창작물뿐만 아니라 데이터베이스 제작자의 권리도 보호한다. 데이터베이스 전부 또는 상당 부분을 크롤링 시 불법이다. 일부를 크롤링하더라도 데이터베이스 제작자의 이익을 부당하게 침해한다면 불법이다. 또한 크롤링은 정보통신망 ‘침입’과 ‘업무방해’에도 해당할 수 있다.

민형사상 위법 소지가 있음에도 불구하고 크롤링은 현장에서 만연하게 일어나고 있는 것으로 나타났다.

이날 토론 패널로 참여한 박유리 정보통신정책연구원은 “(초거대 AI) 파운데이션 모델 학습 시 데이터의 60~70%가 크롤링 데이터라고 알고 있다”며 “데이터 크롤링 관련 소송들이 제기되고 있고, 저작권자들의 소송도 제기되고 있는데, 이게 바람직한 방향인가”라고 우려했다.

하지만 규제를 통해 데이터 크롤링을 방지하는 것은 사실상 불가능하다는 게 업계 중론이다.

토론 좌장을 맡은 이성엽 고려대학교 기술법정책센터장 교수는 “유럽연합이 (초거대 AI) 학습 데이터 출처 공개를 의무화하고 있지만 엄청난 양의 데이터를 학습하는데 이게 기술적으로 가능한지 의문”이라고 말했다.

토론에 참석한 김직동 개인정보위원회 신기술개인정보과 총괄 과장은 “초거대 AI는 정당하게 수집된 것을 떠나서 공개된 것, 계약 관계를 벗어나거나 명확하지 않은 것까지 학습해 환경이 바뀌고 있다”며 “룰 베이스 규제는 특히 초거대 AI 환경에서 어려울 것 같아서 원칙 베이스 규제로 바꿔야 하지 않나 생각한다”고 말했다. 김 총괄에 따르면 개보위는 7월에 초거대 AI 학습 데이터에 관한 원칙을 제시할 계획이다.

"초거대 AI, 데이터 60~70% '무단' 학습"… '사각지대'

관련기사

이 시각 주요뉴스