Lumiere è un progetto congiunto tra Google e alcuni istituti di ricerca e promette video creati da una intelligenza artificiale precisissima.
L’intelligenza artificiale ci accompagnerà ancora a lungo e diventerà probabilmente un nuovo strumento di tutti i giorni, come sono adesso, tra gli altri, smartphone e tablet. C’è ancora molta strada da fare, soprattutto per quello che riguarda la legislazione e la protezione del materiale di partenza e degli utenti finali. Ma è chiaro che dal punto di vista puramente scientifico e tecnologico, c’è tutto l’interesse a creare modelli che siano sempre più affidabili e realistici.
Di recente è stato presentato al mondo il progetto Google denominato Lumiere, un evidente omaggio ai primi grandi inventori del cinema. Si tratta di un progetto in cui sono coinvolti anche il Weizmann Institute e l’Università di Tel Aviv. La promessa del team è in particolare quella di riuscire ad arrivare oltre la qualità vista finora nei modelli di intelligenza artificiale generativa quando vengono messi a produrre video a partire da immagini fisse o da descrizioni.
Cosa c’è dentro l’intelligenza artificiale di Lumiere
L’IA ha un suo spazio su GitHub dove sono per esempio indicati 14 soggetti che hanno contribuito. Sempre dalla pagina GitHub vediamo che i linguaggi di programmazione utilizzati che sono, con una proporzione di circa 6 a 4, HTML e CSS.
Il servizio, non disponibile ancora, è stato addestrato con un database di oltre 30 milioni di video accompagnati da didascalie e per questi milioni di video mancano, su qualunque paper ufficiale, l’indicazione di dove siano stati presi. Un problema, quello della attribuzione del materiale con cui vengono addestrate le intelligenze artificiali, che quindi ritorna. Ma almeno, sul repository di Lumiere c’è la provenienza delle immagini utilizzate nei test apparsi anche per esempio nel trailer di YouTube del servizio.
Oltre Stable Diffusion, il sistema Space-Time U-Net
Non è la prima volta che si parla di servizi che producono video a partire da immagini o da prompt testuali. Ma la tecnologia denominata Space-Time U-Net, alla base di Lumiere, promette un risultato superiore. Si tratta di un utilizzo diverso dell’intelligenza artificiale che non produce fotogrammi di video uno dopo l’altro ma genera, a partire da un campionario, tutte le possibili soluzioni e poi riunisce quelle tra loro coerenti.
Un’altra differenza sostanziale è che oltre a lavorare a partire da stringhe di testo per descrivere ciò che si vuole si può animare una foto con un risultato estremamente realistico e coerente, una parola che torna spesso nella descrizione del progetto. Gli unici limiti sono per ora l’impossibilità di creare video più lunghi di una manciata di secondi o unendo più foto.
Il modello Space-Time U-Net introduce, questo si legge sul sito ufficiale, l’elemento temporale accanto a quello spaziale. È è grazie a questo nuovo elemento che il video contiene una dose di coerenza maggiore. Gli utilizzi sono destinati ad essere i più vari ma gli sviluppatori di Lumiere non sono degli sciocchi. Le ultime righe sono dedicate al riconoscimento della possibilità di “cattivo utilizzo per creare contenuti fake o pericolosi“. Un problema che non si risolve cambiando qualche stringa di codice.