Quando si fanno foto di gruppo non è sempre facile riuscire a scattare nel momento giusto in cui tutte le persone hanno gli occhi aperti, quindi bisogna continuare ad andare a tentativi fino a quando si riesce ad avere una foto in cui tutti guardano l’obiettivo e non sembra che stiano dormendo. Facebook vuole pero’ sfruttare la sua intelligenza artificiale per evitare questi tentativi alla ricerca dello scatto perfetto e sta mettendo a punto un algoritmo in grado, automaticamente, di "aprire" gli occhi delle persone che li hanno chiusi nelle fotografie.
Facebook ha pubblicato nel portale delle ricerche in corso presso l’azienda il documento dal titolo "Eye In-Painting with Exemplar Generative Adversarial Networks" nel quale viene introdotto un nuovo approccio alla "in-painting" in cui "l’identità dell’oggetto da rimuovere o modificare viene preservata e contabilizzata al momento dell’inferenza: Exemplar GAN (ExGAN)". Tecnicamente viene spiegato che gli ExGAN sono "un tipo di GAN condizionale che utilizza informazioni esemplificative per produrre risultati di in-painting personalizzati di alta qualità". Secondo Facebook, gli ExGAN possono "produrre risultati di in-painting personalizzati fotorealistici che sono sia percettivamente sia semanticamente plausibili applicandoli al compito di aprire gli occhi in foto con immagini naturali."
Per spiegare in parole piu’ semplici quanto viene descritto nel documento, gli ingegneri di Facebook hanno messo a punto un nuovo metodo per ricreare gli occhi nelle foto utilizzando la "rete generativa del contraddittorio generativo" o ExGAN, ossia un apprendimento approfondito che è già stato utilizzato per generare immagini di volti da zero e ora Facebook vuole usarlo per modificare le foto aprendo gli occhi a chi li ha chiusi usando come riferimento altre loro foto cosi’ da preservarne l’identità. La tecnologia altro non fa che trovare in una foto persone che hanno gli occhi chiusi e va a sostituirli (ed eventualmente adattarli) con gli occhi che la stessa persona puo’ avere in altre foto presenti su Facebook usando per l’identificazione lo stesso algoritmo che viene usato le consigliare i tag cosi’ non deve ricreare gli occhi da zero o prendere gli occhi di altre persone da modelli preimpostati.
La tecnologia è in sviluppo, non è ancora pronta, e non si sa tra quanto lo potrà essere.
Nell’immagine qui sotto vengono messi a confronto due algoritmi in grado di aprire gli occhi nelle immagini usando l’IA: con Adobe Photoshop Elements (c) e la nuova tecnica ExGAN (d). L’esempio e le immagini originali sono mostrati rispettivamente nelle figure (a) e (b).
Ecco un estratto del documento (tradotto con Google Traduttore):
"Ogni giorno, un gran numero di immagini vengono catturate e condivise nei social network con una grande percentuale di esse che hanno contenuti incentrati sulle persone. Non c’è dubbio che gli algoritmi realistici di ritocco del volto sono un tema di ricerca in crescita all’interno delle comunità della computer vision e del machine learning. Alcuni esempi includono l’eliminare gli occhi rossi e la rimozione delle imperfezioni, in cui è stato utilizzato il patch matching e il Poisson blending per creare risultati dall’aspetto plausibile. (…) Tuttavia, gli umani sono molto sensibili ai piccoli errori della struttura facciale, specialmente se quei volti sono nostri o sono ben noti a noi; inoltre, la cosiddetta ‘uncanny valley’ è un difficile impedimento da superare quando si manipolano le caratteristiche facciali. Recentemente, le reti convoluzionali (DNN) hanno prodotto risultati di alta qualità nel ricreare oggetti in punti mancanti di immagini per mostrare scenari naturali. Per il particolare problema delle trasformazioni facciali, imparano non solo a preservare elementi come l’illuminazione globale e il tono della pelle ma possono anche codificare alcune nozioni di plausibilità semantica. Dato un set di formazione di dimensioni sufficienti, la rete puo’ imparare che aspetto dovrebbe avere un volto umano e crearlo di conseguenza, preservando la struttura complessiva dell’immagine del viso. (…) Mentre i DNN possono produrre risultati semanticamente plausibili e realistici, la maggior parte delle tecniche profonde non preservano l’identità della persona in una fotografia. Ad esempio, un DNN potrebbe imparare ad aprire un paio di occhi chiusi, ma non vi è alcuna garanzia codificata nel modello stesso che i nuovi occhi corrisponderanno alla struttura oculare specifica della persona originaria. Invece, i DNN inseriscono un paio di occhi che corrispondono a facce simili nel set da cui imparano portando spessp a risultati indesiderati e tendenziosi; se una persona ha alcune caratteristiche distintive (come una forma dell’occhio non comune), questa non si rifletterà nel risultato. Le reti GAN sono un tipo specifico di rete profonda che contiene una rete generativa del contraddittorio appetibile rappresentata da una rete discriminatrice. Le GAN sono state usate con successo per generare facce da zero, o per dipingere le regioni mancanti di una faccia. Sono particolarmente adatte ai compiti generali di manipolazione del viso, poiché si utilizzano immagini di volti reali. (…) Questo documento estende l’idea di utilizzare informazioni condizionali extra e introduce GAN Exemplar (ExGAN), un tipo di cGAN in cui le informazioni aggiuntive corrispondono direttamente ad alcuni tratti identificativi dell’entità di interesse. Riteniamo che questo sia possibile quando sono disponibili più immagini degli stessi oggetti."
A confronto due algoritmi in grado di aprire gli occhi nelle immagini
Uno dei più grandi paradossi dei nostri tempi è che con gli smartphone possiamo fotografare…
In tanti aspettavano da tempo l'adeguamento del 5,4% delle rendite Inail: le ultime circolari dell'ente…
Con lo switch-off dello scorso 28 agosto, che ha introdotto il nuovo digitale terrestre, è…
Sapere dove si trova un'altra persona è ora possibile grazie a WhatsApp: in pochi conoscono…
Il cappotto termico interno è una soluzione ottimale per avere ottimi risultati in riferimento all'isolamento…
Basta una mossa semplice e automatica per avere sempre a disposizione tutti i canali del…