오픈AI 텍스트-비디오 변환 생성형 AI 공개제품출시 연기, 유해·위험성 사전검증 집중딥페이크 원천차단 불가, 저지 대책 필요
  • ▲ 오픈AI 생성형 AI모델 '소라'가 제작한 동영상 일부 ⓒ오픈AI 홈페이지 화면 캡처
    ▲ 오픈AI 생성형 AI모델 '소라'가 제작한 동영상 일부 ⓒ오픈AI 홈페이지 화면 캡처
    챗GPT 개발사 오픈AI가 내놓은 텍스트-영상 변환 생성형 AI 모델 ‘소라’가 높은 품질을 보여줘 이목을 끌고 있지만, 그만큼 악용될 우려도 나온다.

    21일 업계에 따르면 오픈AI는 최근 텍스트를 기반으로 최대 1분 분량 동영상을 만드는 생성형 AI 모델 소라를 선보였다.

    텍스트를 비디오로 전환하는 기술은 앞서 다른 인공지능 모델도 공개한 바 있다. 구글의 ‘이매진 비디오’, 메타의 ‘에뮤 비디오’ 등이 대표적이다. 다만 텍스트 외에 사진 등 추가로 생성을 위한 조건이 필요하거나 화질이 낮고, 제작 가능한 동영상 길이가 20초 내외로 짧았다.

    오픈AI가 선보인 소라는 텍스트-동영상 변환 기술의 한계를 뛰어넘었다는 평가가 나온다. 기존 도구보다 대폭 향상된 영상 품질은 물론, 텍스트만으로도 창작물의 완성도가 뛰어나 실제 영상과 구분이 불가능하다는 의견이 쏟아졌다. 물리법칙을 적용해 실제 촬영한 영상과 같은 착각이 든다는 점도 놀라움을 더하는 요소다.

    소라는 텍스트만 아니라 이미지를 영상으로 만드는 작업도 가능하며 역으로도 수행할 수 있다. 기존 영상을 하나로 잇거나, 배경을 변경하는 편집 작업도 지원한다. 비디오를 시간에 따라 앞뒤로 확장하면 계속해서 영상이 이어지는 무한 루프가 생성된다.

    소라는 명령 프롬프트와 함께 제작한 영상 일부를 홈페이지를 통해 공개했지만, 챗GPT와 달리 누구나 사용할 수 있도록 제품으로 출시하지는 않았다. 오픈AI는 현재 소라가 가진 취약점을 발견하는 ‘레드팀’을 운영해 유해성과 위험성을 사전 검증하고 있다. 이미지 생성기 ‘Dall-E’에 사용 중인 안전기능을 일부 사용할 계획이라고도 덧붙였다.

    이는 생성형 AI 모델이 가진 긍정적인 효과보다 부정적 효과가 우선적으로 거론되기 때문이다. 간편하게 실제 영상과 비슷한 수준의 비디오를 만들 수 있는 생성형 AI 모델을 활용해 허위정보로 여론을 조작하거나 음란물 등 딥페이크에 활용될 가능성이 농후하다.

    전문가들은 생성형 AI 고도화로 인한 부작용에 대해 우려를 나타내고 있다. 잘못된 정보가 과대 선전될 수 있고, 이미 희미해진 온라인 콘텐츠와 가짜 콘텐츠의 경계를 더욱 모호하게 만들 수 있다고 경고한다. AI가 비디오 제작을 위해 학습하는 과정에서 수집한 자료로 인해 혐오적이거나 편향된 관점을 강화할 수 있다는 지적도 나온다.

    김용희 동국대 영상대학원 교수는 ”오픈AI가 소라를 만드는 데 적용한 건 AI 기술이라기 보다 기계적 학습에 가깝다“며 ”이는 오히려 창의성을 저해할 수 있고 결국 패턴을 보이는 부분이 있어서 리터러시(문해력)가 많이 필요하다“고 말했다.

    누구나 쉽게 AI로 실제와 같은 영상을 제작할 수 있어 소셜미디어를 통해 무차별한 딥페이크 영상이 유포될 수 있다는 우려도 커지고 있다. 이미 지난해 미국에서는 조 바이든 대통령의 가짜 목소리와 도널드 트럼프 전 대통령의 체포 사진 등이 유포돼 논란이 일었다. 영상에서 딥페이크가 고도화됐을 때 파급력은 더 커질 전망이다.

    오픈AI는 일부 영상을 통해 아직 적지 않은 오류를 해결하지 못했다며 기술적으로 완벽하지 않음을 시사했다. 소라는 복잡한 물리학이 반영된 장면을 시뮬레이션하는데 어려움을 겪으며, 원인과 결과의 사례를 이해하지 못할 수 있다는 식이다. 카메라로 촬영했을 때처럼 좌우 반전으로 인해 왼쪽과 오른쪽을 혼동하는 사례도 쉽게 나타난다.

    AI 업계 관계자는 “이미 직간접적으로 생성형 AI가 만든 텍스트와 이미지, 영상에 노출되면서 이에 따른 부작용은 불가피한 상황”이라며 “기술 고도화를 통해 사회적으로 악용될 우려가 큰 만큼 국내에서도 이를 저지하기 위한 대책 마련이 절실하다”고 말했다.