창조하신 대로 사는 생활 지식/창조주 하나님의 사회: 이런 일이?

MS, '움직임'까지 조정 가능한 비디오 생성 AI 출시

heojohn 2024. 1. 13. 23:39
  • 기자명 박찬 기자 
  •  입력 2024.01.10 16:45
  •  수정 2024.01.10 16:54

 타임스 유튜브

(사진=MS)

마이크로소프트(MS)가 텍스트 및 이미지 프롬프트를 사용한 일반적인 비디오 생성 인공지능(AI)보다 진일보한 모델을 출시했다. 이를 통해 사용자는 비디오에 포함된 개체나 전체 비디오 프레임의 움직임을 조작할 수 있다. 

벤처비트는 9일(현지시간) 텍스트 및 이미지 기반 프롬프트에 ‘궤적(Trajectory)’ 요소를 결합한 비디오 생성 모델 ‘드래그누와(DragNUWA)’를 오픈 소스로 출시했다고 보도했다.

일반적으로 텍스트와 이미지의 조합만으로는 비디오에 나타나는 복잡한 모션 디테일을 전달하지 못한다. 이미지는 시간이 흘러감에 따라 개체의 움직임을 적절하게 표현할 수 없으며, 언어는 추상적인 개념을 표현할 때 모호함을 초래할 수 있다. 

이 문제를 해결하기 위해 MS는 이미지, 텍스트는 물론 궤적이라는 3가지 요소를 결합하는 개방형 도메인 확산 기반 비디오 생성 모델 드래그누와를 개발했다. 기존 텍스트 및 이미지 프롬프트 방식을 넘어 시간적 측면에서 비디오 움직임을 직접 컨트롤하는 방식이다.

이를 통해 사용자는 원하는 텍스트, 이미지, 궤적을 입력으로 정의할 수 있다. 이를 통해 확대나 축소 효과를 포함한 카메라 움직임이나 출력 비디오의 개체 모션 등을 제어할 수 있다.

예를 들어 물 위의 보트 이미지를 업로드하고 보트의 궤적을 표시하는 방향과 함께 '호수를 항해하는 보트'라는 텍스트 프롬프트를 추가하면, 표시된 방향으로 움직이는 보트 비디오가 생성된다. 궤적은 모션 세부정보를 제공하고, 언어는 미래 개체에 대한 세부정보를 제공하며, 이미지는 개체 간의 구별을 제공한다.

드래그누와의 비디오 생성 (사진=MS)

드래그누와는 스테빌리티 AI의 비디오 생성 모델인 ‘스테이블 비디오 디퓨전(Stable Video Diffusion)’을 활용해 특정 경로를 표시하는 궤적에 따라 이미지 또는 해당 개체에 애니메이션을 적용한다. 여기저기에 선을 그리는 것만으로도 배경을 변형하고, 이미지에 애니메이션을 적용하고, 모션 경로를 지시할 수 있다.

MS는 이 모델이 다양한 드래그 궤적을 통해 ▲복잡한 곡선 궤적을 따라 움직이는 객체 생성 ▲궤적이 길어질수록 모션 진폭이 커지는 가변 궤적 길이 허용 ▲여러 객체의 궤적에 대한 동시 제어 기능을 통해 정확한 카메라 움직임과 개체 움직임을 제어할 수 있다고 주장했다.

MS는 현재 드래그누와 1.5 버전을 허깅페이스에 오픈 소스로 공개했으나, 연구 목적으로만 사용할 수 있다. 

박찬 기자 cpark@aitimes.com