Google представив ШІ Lumiere, який створює реалістичні ролики
Команда дослідників Google презентувала дифузійну нейромодель для перетворення тексту на відео під назвою Lumiere. Судячи з наведених прикладів, Lumiere вдається наблизитися до фотореалістичності результатів.
Модель базується на унікальній архітектурі Space-Time U-Net з генерацією відео не покадрово, а в рамках одного процесу.
“Такий підхід контрастує з існуючими моделями text-to-video, які синтезують окремі ключові фрагменти з подальшим збільшенням кадрової частоти – такий механізм за своєю суттю перетворює узгодженість кадрів між собою на важкодоступне завдання”, – йдеться в описі Lumiere.
Нейромодель навчена на 30 млн парах «відео + текстовий опис». У базовому варіанті Lumiere здатна згенерувати 80 кадрів із частотою 16 к/с (час – 5 секунд).
Крім роботи в режимі «текст → відео», Lumiere здатна конвертувати нерухомі зображення у відео, створювати ролики у певному стилі на основі зображення-еталона, змінювати стиль об’єктів у відеоряді й навіть домальовувати недостатню частину кадрів.
Багато прикладів показано на презентаційній вебсторінці Lumiere.