창조하신 대로 사는 생활 지식/창조주 하나님의 사회: 이런 일이?

사진 속 세계를 가상으로 그려주는 비디오 AI...그 원리는

heojohn 2022. 11. 21. 23:23
  • 기자명 박찬 위원 
  •  입력 2022.11.11 14:35

구글, '인피니트네이처-제로' 세부 내용 공개

구글이 공개한 3D 뷰 생성 AI ‘인피니트네이처-제로’의 이미지 예 (사진=구글)

드론이 항공 촬영을 하는 것처럼 사진 속 세계를 가상으로 그려주는 3D 뷰 생성 AI ‘인피니트네이처-제로(InfiniteNature-Zero)’가 지난달 공개돼 큰 반응을 불러 일으켰다.

구글은 지난 7일(현지시간) 블로그를 통해 인피니티네이처-제로의 이미지 생성 원리와 도입 기술 등 세부 내용을 공개했다.

인피니트네이처-제로는 사진 한 장 만으로 그 뒤로 펼쳐질 무한한 풍경 비행 비디오를 생성한다. 비디오는 비행 모션을 시뮬레이션하고 지속적으로 확대, 축소하거나 바꿔, 드론이 자연 경관 위를 비행하는 느낌을 준다. 시청자는 실시간으로 비행 방향을 대화식으로 변경할 수도 있다.

구글에 따르면 이 모델은 지난 2021년 발표한 '인피니트네이처'라는 모델을 기반으로 한다. 두 모델은 모두 하나의 이미지를 기반으로 장면을 이동하는 카메라 관점 비디오를 생성한다. 

인피니트네이처는 3D 지형을 설명하는 포인트 맵과 카메라 위치 정보를 포함한 비디오 데이터로 훈련한 반면, 인피니트네이처-제로는 단순한 개별 이미지 모음을 가지고 학습했다. 그 결과 인피니트네이처-제로가 더 높은 품질과 더 사실적인 비디오를 생성할 수 있다고 구글은 설명했다.

또 인피니트네이처-제로는 입력 이미지와 해당 깊이 맵을 학습에 사용한다. 깊이 맵을 사용해 이미지를 원하는 새로운 시점으로 렌더링한다. 훈련하는 동안 실제 입력 이미지를 최종 이미지로 설정하고, 이 최종 이미지 이전의 가상 이미지를 렌더링해서 입력 이미지(최종 이미지)와 비교해 비디오 프레임 생성을 학습한다. 고품질 프레임이 계속 생성되도록 하기 위해 GAN(적대적 생성 신경망) 시스템을 도입해 입력 이미지와 일치하도록 훈련했다.

입력 이미지를 최종 이미지로 설정하고, 이 최종 이미지 이전의 가상 이미지를 렌더링해서 입력 이미지(최종 이미지)와 비교해 비디오 프레임 생성을 학습한다. (사진=구글).

입력 프레임과 깊이 맵 이미지를 기반으로 프레임을 생성하는 방법을 학습하면, 가상 카메라가 이동할 때 프레임을 무한정 생성할 수 있다. 

인피니트네이처-제로는 새로 생성된 각 프레임을 다음 생성을 위한 입력으로 사용해 다음 프레임을 반복적으로 생성해 단일 입력 이미지에서 결국 모션 비디오를 만들어 낼 수 있다. 

또 프레임을 생성하는 동안 사진의 숨겨진 영역과 같이 초기 이미지에는 나타나지 않지만 카메라가 움직일 때 보이게 되는 이미지 정보를 추가해야 한다. 이는 이미지 생성 AI에서도 제공하는 '인페인팅(Inpainting)' AI 모델을 이용, 이전 프레임에서 숨겨진 위치의 이미지 콘텐츠를 생성한다.

사진 경계 밖에 있는 이미지 콘텐츠도 생성해야 한다. 이는 '아웃페인팅(Outpainting)' AI 모델을 이용, 딥러닝을 통해 누락된 이미지 정보를 적절하게 생성한다.

여기에 사진을 확대하면 흐릿해지고 픽셀화되기 때문에, '초해상도(super-reolution)' AI 모델을 통해 이미지를 선명하게 만든다는 원리다.

박찬 위원 cpark@aitimes.com