구글 리서치가 보다 현실적이고 일관성이 있는 동영상을 생성하는 AI 모델인 Lumiere를 발표했습니다.
문장이나 이미지에서 영상을 만들 수 있으며, 참고할만한 이미지의 스타일을 흉내내서 영상을 만들 수도 있습니다.
현재 나온 영상 모델은 키프레임을 만들고 나서 시간 초해상 처리를 수행하지만, 이건 시공간 U-Net 아키텍처로 영상 전체를 한번에 만들기에 품질이 높습니다. 시공간 업/다운 샘플링과 사전 학습된 이미지 확산 모델을 사용합니다.
아래 예시 사진은 그닥 감이 오지 않는데 위 영상은 나쁘지 않군요.