Società

Google svela Lumiere, l’IA che crea video realistici dalle foto

La novità è nella qualità con cui il software riesce a ricreare lo spostamento dei soggetti all'interno del filmato

In sintesi:
  • Il modello è stato addestrato su un set di dati di 30 milioni di video, insieme alle relative didascalie di testo
  • Al momento non è un software aperto al pubblico ma solo un progetto sperimentale di ricerca
Dal dipinto al video
28 gennaio 2024
|

Google, insieme al Weizmann Institute of Science e all'Università di Tel Aviv, ha sviluppato un nuovo modello di intelligenza artificiale per la creazione di video a partire da foto e istruzioni testuali.

Si chiama Lumiere, un chiaro omaggio ai fratelli francesi inventori della macchina da presa e del proiettore cinematografico. La novità di Lumiere IA, dal punto di vista tecnologico, è nella qualità con cui il software riesce a ricreare lo spostamento dei soggetti all'interno del filmato. Programmi come Stable Diffusion, infatti, spesso mostrano imperfezioni dovute alla difficoltà di mantenere una certa coerenza nel rendere animate immagini statiche.

A tal proposito, Google ha sviluppato un'architettura chiamata "Space-Time U-Net", una rete spazio-temporale, che genera tutto il video in un unico passaggio, senza creare cioè delle sequenze intermedie, che presenterebbero possibili incoerenze con le azioni precedenti e quelle successive.

Il grosso del lavoro è svolto dall'intelligenza artificiale generativa che sceglie il movimento migliore dopo averne analizzati diversi, basandosi sul vasto database a cui hanno accesso i modelli di Big G, per restituire un video plausibile.

Un esempio è quando inseriamo in Lumiere la foto di un peluche chiedendo al programma di farlo camminare da un punto A al punto B. Creando un'unica sequenza spazio-temporale, l'IA genera un filmato in cui ogni attività è strettamente legata l'una con l'altra, con sintonia maggiore. Il modello video di Lumiere è stato addestrato su un set di dati di 30 milioni di video, insieme alle relative didascalie di testo.

Al momento non è un software aperto al pubblico ma solo un progetto sperimentale di ricerca.