Facebook ora consente di cercare immagini digitando il contenuto al loro interno, ricerca del tutto simile a quella offerta da Google Foto. Questo viene reso possibile grazie alla tecnologia chiamata da Facebook ‘Lumos‘, una piattaforma di apprendimento automatico (machine learning) che mira a comprendere cio’ che si trova nelle immagini (e prossimamente anche nei video). Con parole meno ‘tecniche’, Lumos permette alle immagini di essere descritte da una macchina in modo da essere restituite in maniera piu’ precisa e veloce quando l’utente cerca foto con determinati elementi.
"Pensate all’ultimo post piaciuto – molto probabilmente comprendeva una foto o un video. Ma, fino a poco tempo fa, la ricerca online è sempre stata una tecnologia text-driven, anche quando la ricerca interssava le immagini" scrive il direttore dell’apprendimento automatico applicato in Facebook, Joaquin Quiñonero Candela, in un blogpost. "Se un’immagine era rilevabile dipendeva dal fatto che era sufficientemente taggata o aveva una descrizione di testo – fino ad ora. Ora le cose stanno cambiando, perché abbiamo spinto la computer vision alla fase successiva con l’obiettivo di comprendere le immagini a livello di pixel. Questo aiuta i nostri sistemi a fare cose come riconoscere ciò che si trova in un’immagine, che tipo di scena è, se si tratta di un noto punto di riferimento, e così via. Questo, a sua volta, ci aiuta a meglio descrivere le foto per i non vedenti e fornire migliori risultati di ricerca per i messaggi con immagini e video".
Facebook ha analizzato miliardi di foto utilizzando tecniche di apprendimento approfondito (deep learning) utilizzando una varietà di elementi al fine di migliorare risultati. La piattaforma Lumos, annunciata al Web Summit l’anno scorso, è un sistema scalabile per trovare foto e video che contengono determinati elementi. Il riconoscimento di oggetti nelle foto permette di cercare contenuti come ambienti, persone, animali, luoghi e vestiti. Ricercare "foto con persone con i capelli rossi" mostrerà le immagini in cui le persone hanno capelli rossi, anche in assenza di testo descrittivo o tag in una foto che indicano la presenza di persone con tale caratteristica. Ricerca di "foto di iguana" mostreranno foto di questo animale, anche prive di tag.
Facebook sta inoltre lavorando sulla comprensione di ciò che le persone stanno in realtà facendo nelle immagini al fine di restituire i piu’ corrispondenti risultati per ricerche come "persone che camminano", "gente che balla", "persone in sella a cavalli", "persone che suonano strumenti," o altro ancora.
Lumos viene sviluppato per l’uso in diversi scopi. In primo luogo, il sistema migliorerà la ricerca di foto e il sistema AAT (Automatic Alternative Text) per i non vedenti.
Dopo aver messo a punto Lumos per comprendere al meglio le foto, Facebook andrà ad adattare il suo sistema di riconoscimento di intelligenza artificiale nei video in futuro. Prima di questo passo, Facebook prevede di rendere la tecnologia disponibile ai suoi utenti nelle ricerche sul social netowrk prima negli Stati Uniti.
standard
"L’apprendimento automatico è essenziale per Facebook", scrive la società nel suo sito. "Aiuta le persone a scoprire nuovi contenuti e connettersi con le storie di cui si interessano di più. I nostri ricercatori e ingegneri di apprendimento automatico applicato sviluppano algoritmi che si allineano ai feed, annunci e risultati di ricerca, e creano nuovi algoritmi di comprensione del testo che mantengono spam e contenuti fuorvianti a bada. I nuovi algoritmi di visione artificiale sono in grado di ‘leggere’ le immagini e video ai ciechi e di tradurre oltre 2 miliardi di storie ogni giorno".
Dopo un inizio come un piccolo progetto di ricerca per Facebook AI Research, la piattaforma FBLearner Flow e la squadra si sono trasferiti al team di Applied Machine Learning quando è stata raggiunta la scala di produzione ed è ora il motore per il team della computer vision in Facebook. Prosegue Candela: "Lumos è la piattaforma che abbiamo costruito per la comprensione di immagini e video. (…) La piattaforma di Lumos continua a migliorare per tutto il tempo, sia attraverso tutti i dati recentemente etichettati che forniamo [al sistema], che attraverso i dati annotati dalle applicazioni che il nostro team sviluppa. I progressi nell’apprendimento profondo ci hanno permesso di fare grandi miglioramenti nella classificazione di immagini per rispondere a domande come "Che cosa c’è nell’immagine?" e "Dove sono gli oggetti?" nel modo più accurato che mai. Abbiamo avanzato questa ricerca attraverso la progettazione di tecniche che consentono di rilevare e segmentare gli oggetti in una data immagine".
Quando queste tecniche sono applicate a Facebook, le foto passano attraverso un motore di apprendimento automatico che può segmentare l’immagine e identificare oggetti e scene, e dare "più senso alla foto", dice Candela. Ciò fornisce un ricco set di informazioni che qualsiasi prodotto o servizio di Facebook puo’ utilizzare, tra cui anche combattere lo spam nel social network.
Una percentuale considerevole di foto condivise su FB includono persone, quindi il team di è concentrato sull’ottimizzare la piattaforma in modo che possa fornire prima descrizioni automatiche che coinvolgono le persone. Il team ha raccolto un campione di 130.000 foto pubbliche condivise su Facebook che comprendevano persone, poi a persone ‘umane’ è stato chiesto di scrivere una descrizione di ogni singola foto, come se la stessero descrivendo ad un amico non vedente. Il team ha poi sfruttato queste annotazioni per costruire un modello di apprendimento automatico che puo’ dedurre "le azioni delle persone nelle foto".
Mentre l’applicazione di Lumos in ambito AAT è importante perché può portare un nuovo livello di accesso ai contenuti per gli utenti non vedenti di Facebook, ci sono altre applicazioni che semplicemente offrono convenienza, come lanciare un nuovo parametro di ricerca: "Con Lumos, siamo in grado di fornire ricerca visiva per la nostra comunità. Un esempio: quando stai pensando ai tuoi ricordi preferiti, può essere difficile da ricordare esattamente quando qualcosa ha avuto luogo e chi ha scattato la foto per catturare il momento. Oggi, stiamo annunciando che abbiamo costruito un sistema di ricerca che sfrutta la comprensione delle immagini per ordinare attraverso questa grande quantità di informazioni le immagini più rilevanti rapidamente e facilmente. In altre parole, in una ricerca per ‘foto con camicia nera’ il sistema può ‘vedere’ se c’è una camicia nera nella foto e effettua una ricerca sulla base di questo parametro, anche se la foto non è stata etichettato con queste informazioni."
Il modello di rilevamento degli oggetti in una immagine è una rete neurale profonda con milioni di parametri apprendibili, tra cui ambienti (ad esempio giardino), oggetti (ad esempio auto), animali (ad esempio pinguino), i luoghi e le attrazioni (ad esempio, il Golden Gate Bridge), e gli articoli di abbigliamento (ad esempio sciarpa). Inoltre, genera anche funzioni semantiche di alto livello, che sono versioni quantizzati dei livelli piu’ avanzati della rete neurale profonda: "questo ricco set di informazioni è utile per raffinare i risultati di ricerca di immagini" spiega Joaquin.
Joaquin spiega il funzionamento di questo nuovo tipo di ricerca intelligente con queste parole: "Un modo per costruire questo è quello di estrarre i concetti e le categorie previste da un’immagine, quindi analizzare la query di ricerca per collegare le entità ed estrarre concetti, e quindi utilizzare una funzione di somiglianza tra le due serie di concetti per determinare la pertinenza".
Facebook è solo all’inizio: "Avere dei classificatori di immagini per Lumos ha impiegato un sacco di lavoro da un sacco di squadre. Mentre questi nuovi sviluppi sono degni di nota, abbiamo una strada lunga ed emozionante avanti e stiamo solo grattando la superficie di ciò che sarà possibile fare con una piattaforma di computer vision self-service. Con i modelli di computer vision in grado di analizzare i singoli pixel perfettamente in video e altri formati coinvolgenti, Lumos contribuirà a liberare nuove possibilità in modo affidabile, veloce e scalabile e spianare la strada per una più ricca esperienza di prodotti in un prossimo futuro" ha concluso Joaquin.