AI 정예팀 업스테이지·네이버클라우드 표절 논란 휩싸여오픈소스 활용, 인코더·가중치 등 기준정립 필요성 제기국대 AI 상징성과 연결 … 실질적 평가 변수될 듯
-
- ▲ 성낙호 네이버클라우드 기술 총괄이 지난달 30일 열린 '독자 AI 파운데이션 모델 프로젝트 1차 발표회'에서 무대에 선 모습 ⓒ뉴데일리
독자 AI 파운데이션 모델 프로젝트 선발 과정에서 중국산 모델 활용 논란이 사그라들지 않고 있다. 주권 AI 개발을 주도하는 정예팀 선발 과정에서 탈락 여부를 결정지을 수 있는 주요 변수로 떠올랐다.8일 업계에 따르면 글로벌 오픈소스 플랫폼 깃허브에 ‘국가 AI 파운데이션 모델 프롬 스크래치 검증 프로젝트’ 보고서가 등재됐다. 해당 리포트는 타 컨소시엄과 다르게 네이버가 독자 AI 기술로 모델을 개발한 것이 아니라는 내용이 적시됐다.네이버클라우드 독자 AI 모델 ‘하이퍼클로바X 시드 32B 싱크’ 모델이 개발 과정에서 중국 알리바바 ‘큐웬 2.5’의 비전 인코더를 사용했다는 점에서다. 비전 인코더는 외부 시청각 데이터를 AI가 이해할 수 있는 디지털 신호로 변환하는 입력 장치다. 네이버가 개발한 멀티모달 모델에서는 표현 학습을 수행하는 핵심 모듈로 인식된다.AI 모델개발에서 핵심 요소인 ‘가중치’ 값을 차용한 것도 문제가 됐다. 가중치는 데이터 학습을 통해 얻은 경험치로, 가중치 설정은 AI의 정확성과 직결된다. 인코더만 참고한 것이 아니라 알리바바가 비용을 들여 학습시킨 결과물로서 가중치 값을 그대로 사용했다는 점이 지적받았다.네이버는 중국 오픈소스 모델을 사용했다는 점을 인정하면서도 호환성과 효율성을 고려한 전략적 선택이라고 설명했다. 오픈소스를 빌려 썼다고 해서 프롬스크래치 방식이 아니라는 지적은 적절치 않다는 것. 인코더 사용 여부를 테크 리포트에 공개했기 때문에 문제될 것이 없다는 입장으로, 모델 고도화 과정에서 자체 인코더 교체 가능성도 열어뒀다.업스테이지도 독자 모델로 개발한 ‘솔라 오픈 100B’가 중국 지푸AI의 ‘GLM’ 모델과 구조적 유사성이 있다는 의혹이 제기되면서 비슷한 논란에 휩싸인 바 있다. 김성훈 업스테이지 대표는 지난 2일 공개 검증회를 열어 학습 로그와 체크포인트를 공개했다. 이후 의혹을 제기한 측에서 분석이 정밀하지 못했다며 공식 사과하면서 논란은 사실무근으로 일단락 됐다.해당 논란은 독자 파운데이션 모델 개발 사업 취지에 대한 근본적인 의문을 던졌다는 평가가 나온다. 정부가 정예팀을 선발해 주권 AI 모델을 개발하는 것은 해외 기술에 의존하지 않고 기술적 자립을 실현하겠다는 취지다. 정부는 사업 공고 시 해외 모델을 조정한 파생모델이 아닌 모델 설계부터 사전학습을 수행한 모델을 조건으로 내걸기도 했다.업계에서는 이번 논란을 계기로 정부가 독자 AI 모델에 대한 판단 기준을 명확히 세워야 한다고 주장한다. 오픈소스나 인코더를 활용한 모델을 프롬 스크래치 방식으로 판단할 수 있는지, 어디까지 허용할지를 결정하는 부분이 관건이 될 전망이다.특히 독자 AI 모델 개발에는 오픈소스와 인코더 활용도 취지에 어긋난다는 주장이 엇갈리면서 논쟁이 지속되는 양상이다.현재 프로젝트에 참여 중인 다른 정예팀도 검증 논란에서 완전히 자유롭지는 못한 모습이다. 대부분 기업들이 메타 ‘라마’ 등 글로벌 오픈소스의 아키텍처(구조)를 참고해서 만든다는 점에서다. 향후 고도화 과정에서 외부 모델 요소를 도입한다면 또 다른 논란이 야기될 가능성도 남아있다.정부는 이번 논란을 계기로 학습 로그와 체크포인트를 전수 조사한다는 방침이다. 또한 논란이 제기된 네이버클라우드 AI모델에 대해서는 인코더가 모델에서 차지하는 비중과 역할을 분석한다. 인코더가 모델 성능에 중요 요소로 판단된다면 완전한 독자 모델로 인정받기 어려울 수 있다.이달 중순으로 예고한 정부 1차 평가 결과발표를 일주일 정도 앞두고 논란이 가중되면서 변수로 작용할지 이목이 집중되고 있다.업계 관계자는 “평가 위원회가 인코더 활용을 전략적 선택이 아닌 기준 위반으로 해석한다면 감점을 받을 수밖에 없다”며 “이번 평가 결과는 ‘독자 AI모델’에 대한 공식적인 기준점을 제시할 가능성이 높다”고 말했다.





