Google створив ШІ для перетворення тексту в відео Lumiere

Команда дослідників Google презентувала дифузійну нейромодель для перетворення тексту на відео під назвою Lumiere. Судячи з наведених прикладів, Lumiere вдається наблизитися до фотореалістичності результатів.

Модель базується на унікальній архітектурі Space-Time U-Net з генерацією відео не покадрово, а в рамках одного процесу.

«Такий підхід контрастує з існуючими моделями text-to-video, які синтезують окремі ключові фрагменти з подальшим збільшенням кадрової частоти – такий механізм за своєю суттю перетворює узгодженість кадрів між собою на важкодоступне завдання», – йдеться в описі Lumiere.

Нейромодель навчена на 30 млн парах «відео + текстовий опис». У базовому варіанті Lumiere здатна згенерувати 80 кадрів із частотою 16 к/с (час – 5 секунд).

Крім роботи в режимі «текст → відео», Lumiere здатна конвертувати нерухомі зображення у відео, створювати ролики у певному стилі на основі зображення-еталона, змінювати стиль об’єктів у відеоряді й навіть домальовувати недостатню частину кадрів.

Багато прикладів показано на презентаційній вебсторінці Lumiere.

Google представив ШІ Lumiere, який створює реалістичні ролики

Залишити відповідь Скасувати коментар

Грицай Микита

Залишити відповідь Скасувати коментар

Грицай Микита

Related Posts