"AI로 영상 속 원하는 장면 정확히 찾는다" … 단국대 김선오 교수팀, 비디오 그라운딩 기술 개발

문장 기반으로 영상 탐색 정확도 향상기존 AI 모델 재훈련 없이 성능 개선국제학술지 '트랜잭션즈 온 멀티미디어' 게재

▲ 김선오 교수.ⓒ단국대

단국대학교는 AI융합대학 컴퓨터공학과 김선오 교수가 인공지능(AI)을 활용해 영상 속에서 사용자가 원하는 장면을 정확하게 찾아내는 비디오 그라운딩(Video Grounding·영상 장면 탐색) 기술을 개발했다고 16일 밝혔다.

이 기술은 기존 AI 모델을 새로 학습시키지 않고도 추론 결과를 정교하게 보정하는 방식으로, 영상 장면 탐색 정확도를 높일 수 있어 대규모 영상 검색과 콘텐츠 탐색 기술 발전에 이바지할 것으로 기대된다.

영상 그라운딩은 영상 속에서 특정 객체·행동·장면을 정확히 찾아내고 의미적으로 연결하는 기술이다. 사용자가 "주인공이 요리하는 장면을 찾아줘"라고 입력하면 해당 장면이 등장하는 구간을 자동으로 찾아내는 방식이다. 최근 디지털 콘텐츠의 생산·활용이 급증하면서 영상 자료가 폭발적으로 늘어나고 있어 관련 기술의 중요성이 커지고 있다.

기존의 '약지도 영상 그라운딩(Weakly Supervised Video Grounding)' 기술은 사람이 영상 속 장면의 시작과 끝을 일일이 표시하지 않아도 학습할 수 있다는 장점이 있다. 하지만 특정 장면이 등장할 가능성이 높은 구간을 확률적으로 추정한 뒤 간단한 기준으로 장면의 시작과 끝을 정하는 방식이라 실제 장면의 경계를 정확하게 찾아내는 데 한계가 있었다.
▲ 가우시안 경계 최적화(Gaussian Boundary Optimization) 방법은 영상 구간 예측을 원칙적인 최적화 문제로 정식화한다. 가우시안 기반 제안 구간에서 쿼리와 관련된 콘텐츠의 포함 범위를 최대화하면서, 동시에 과도하게 긴 구간에는 패널티 가중치를 부여함으로써 불필요한 확장을 억제한다. 이를 통해 사용자의 질의와 더 정확하게 일치하는 영상 구간을 도출한다.ⓒ단국대

연구팀은 이런 문제를 해결하기 위해 제안된 장면이 실제 장면을 얼마나 잘 포함하는지, 불필요하게 길어지지 않는지를 동시에 고려하는 최적화 방식을 제안했다. 이를 통해 기존 모델이 생성한 결과를 수학적으로 보정해 더 정확한 장면 경계를 찾는 방법을 구현했다.

특히 이번 기술은 새로운 AI 모델을 다시 학습시키지 않아도 기존 모델에 바로 적용할 수 있다는 점이 특징이다. 별도의 대규모 학습 과정 없이도 다양한 확률을 기반으로 탐색 정확도를 높일 수 있어 영상 검색과 분석 기술에 폭넓게 활용될 것으로 기대된다.

김 교수는 "이번 연구는 영상 장면 탐색 모델을 처음부터 다시 학습시키는 대신, 이미 학습된 모델의 추론 결과를 더 정교하게 해석하는 방법을 제시했다"며 "향후 대규모 영상 검색과 장면 기반 콘텐츠 탐색, 영상 분석 기술의 실용성을 높이는 데 기여할 것"이라고 말했다.

이번 연구 성과는 국제전기전자학회(IEEE)가 발간하는 소프트웨어 엔지니어링 분야의 국제학술지 '트랜잭션즈 온 멀티미디어(IEEE Transactions on Multimedia)'에 지난해 11월 게재됐다. 이번 연구는 윤기민 한국전자통신연구원(ETRI) 연구원, 엄대호 서울시립대 교수가 공동으로 수행했다.

"AI로 영상 속 원하는 장면 정확히 찾는다" … 단국대 김선오 교수팀, 비디오 그라운딩 기술 개발

관련기사

이 시각 주요뉴스