Per la ricerca vocale, dal 2012 Google aveva cominciato a usare la Deep Neural Networks (DNN), una tecnologia per il riconoscimento del linguaggio che ha sostituito il vecchio standard dell’industria, ormai vecchio di 30 anni: il Gaussian Mixture Model (GMM). Rispetto al passato, il DNN era in grado di valutare meglio che suono producesse una persona in ogni istante; il passo in avanti è stato notevole.
Ebbene, Google ha annunciato sul suo blog che il motore di ricerca vocale diventerà più veloce, preciso e "resistente al rumore". A partire dalle ultime ore infatti sono stati annunciati dei nuovi modelli acustici che integreranno ancor meglio la rete neurale.
Stiamo parlando della Connectionist Temporal Classification (CTC) e delle tecniche di sequenza discriminativa (sequence discriminative training techniques). Queste due sono delle estensioni "speciali" delle reti neurali ricorrenti (RNN). Riescono a distinguere con maggior precisione i suoni, specialmente negli ambienti rumorosi, e sono decisamente più veloci.
Nel modello tradizionale, il parlato di una persona viene suddiviso in porzioni da 10 millisecondi ciascuna. Di ciascuna viene analizzata la frequenza; il vettore risultante viene poi elaborato dal DNN (per esempio) che produce una distribuzione di probabilità dei fonemi. Altre tecnologie poi aiutano a dare una struttura temporale e a collegare le sequenze dei suoni in parole con un significato.
Con i nuovi modelli acustici si introduce il concetto di dipendenza temporale tra i fonemi. Il risultato è che le informazioni vengono memorizzate meglio in termini di qualità. Inoltre il riconoscimento dei fonemi viene fatto senza una previsione istante per istante: si preferisce riconoscere solo la sequenza dei picchi delle onde sonore.
"Abbiamo ridotto drasticamente il numero dei calcoli e abbiamo reso il riconoscimento più veloce", si legge sul blog.
Il risultato è che, dopo molte prove e perfezionamenti, gli ingegneri di Google sono riusciti a ottenere dei modelli più efficienti, precisi e "resistenti al rumore".
I nuovi modelli acustici sono già in uso sulle applicazioni Ricerca Google per Android e iOS e per la dettatura sui dispositivi Android.