Puoi distinguere la differenza tra intelligenza artificiale e linguaggio umano?

Steven Mike Voser
G
Gli ingegneri di Google hanno appena creato la più recente tecnologia di sintesi vocale, il Tacotron 2. Puoi capire la differenza tra questo robot e un essere umano?

Pensi di poter distinguere la differenza tra un umano e una macchina che parla? Se hai familiarità con le voci dell’intelligenza artificiale nel testo parlato della vecchia scuola (come Sam, Mike e Mary di Microsoft) o anche quelle di Siri e Alexa, puoi rispondere con un sonoro “sì”. Ma se hai sentito l’ultima sintesi vocale di Google Tacotron 2, potresti non sentirti così sicuro. Google ha lanciato questo programma a fine dicembre insieme a un suo articolo che paragona la voce di Tacotron a quella di un vero umano. E secondo un documento scritto dai ricercatori di Google presso l’Università di Berkeley, è quasi impossibile distinguere tra i due. Per scoprirlo, vai ad ascoltare i campioni sonori Tacotron qui prima di continuare a leggere.
 

 

TACOTRON 2: L’ULTIMO NATO NELLA IA PER LA LETTURA DEI TESTI

Ora che hai ascoltato gli esempi di Google Tacotron 2, probabilmente ti sei stupito di quanto siano realistici. Il sistema, sviluppato dai tecnici di Google, consiste di due reti neurali profonde che aiutano a tradurre il testo in linguaggio parlato. La prima rete funziona trasformando il testo in uno spettrogramma, che fornisce al sistema una rappresentazione visiva di come dovrebbe apparire il testo. Lo spettrogramma viene quindi inserito in WaveNet, che lo legge e produce i relativi suoni.
 
Lo spettrogramma viene quindi inserito in WaveNet, che lo legge e produce i relativi suoni.
 

SVILUPPI NELLA SINTESI VOCALE

Mentre il riconoscimento vocale ha fatto molta strada negli ultimi anni (basta guardare Google Voice Search o Apple Siri come esempi), la tecnologia text-to-speech è rimasta indietro. Per anni, la tecnologia text-to-speech faceva affidamento sui cosiddetti sistemi concatenativi. Questi sistemi consistevano fondamentalmente in una libreria di piccoli frammenti di parlato registrati da un vero speaker umano che venivano poi combinati per formare frasi.
Questi sistemi funzionavano ma rendevano molto difficile replicare le complessità del linguaggio umano, come l’intonazione o le emozioni. Per acquisire questi dettagli, un’enorme libreria audio dovrebbe essere registrata da zero. Per molto tempo, l’unica alternativa ai sistemi di sintesi vocale concatenativa erano i sistemi parametrici per la sintesi vocale. Questi sistemi hanno la capacità di controllare i contenuti e le caratteristiche del parlato usando specifici input, ma tendono a suonare molto meno naturali. WaveNet, il sistema che sta dietro a Google Tacotron 2, rivoluziona completamente il modo in cui le macchine sintetizzano la voce.
 

WAVENET: UNA RIVOLUZIONE NELLA IA TEXT-TO-SPEECH

WaveNet è stato sviluppato da DeepMind, una società per lo sviluppo di intelligenza artificiale con sede nel Regno Unito. La scienza che sta alla base di questo sistema è molto complessa. Secondo DeepMind, i WaveNet vengono prima addestrati usando forme d’onda sonora registrate da veri speaker umani. Una volta che il sistema è stato addestrato con questi esempi, è in grado di campionarli per creare nuove espressioni sintetiche. Infine utilizza algoritmi complessi per effettuare previsioni sui passaggi successivi in una porzione di testo, producendo come risultato un audio ricco e naturale.
Utilizzando i set di dati text-to-speech di Google, i ricercatori di DeepMind hanno messo a confronto le prestazioni di WaveNet con quelle dei migliori sistemi Google di sintesi vocale esistenti, sia parametrici, sia concatenativi. I risultati sono stati espressi utilizzando una scala 1-5 di Mean Opinion Scores (MOS), che è una misura standard utilizzata nei test audio. Sintetizzando l’inglese americano, WaveNet ha prodotto un MOS di 4.21. I sistemi concatenativi e parametrici di Google hanno prodotto punteggi rispettivamente di 3,86 e 2,6, mentre il parlato umano reale ha ottenuto un punteggio di 4,55. I ricercatori di DeepMind hanno condotto gli stessi test in cinese mandarino, ottenendo i seguenti risultati:

  • Discorso umano: 4,21
  • WaveNet: 4,08
  • Parametrico: 3,79
  • Concatenativo: 3,47

WaveNet differisce da altri sistemi di sintesi vocale sotto diversi aspetti. Perché sappia cosa dire, a WaveNet deve essere presentato un testo che è stato già trasformato in una sequenza di frammenti linguistici e fonetici di sillabe, parole o altri suoni che dovranno essere replicati. Senza questa informazione il sistema funziona ancora, ma deve decidere autonomamente cosa dire. Quando lo fa, di solito produce una serie di suoni casuali con alcune parole reali al suo interno.
Poiché il sistema si basa su audio non elaborato, WaveNet è anche in grado di produrre suoni naturali come la respirazione o il suono dei movimenti della bocca. È interessante notare che WaveNet può essere addestrato a replicare tutti i tipi di suoni, non solo le parole. Ad esempio, i ricercatori di DeepMind hanno addestrato il sistema sulla musica classica per pianoforte, piuttosto che su un parlatore umano. Il risultato? Affascinanti campionature di pianoforte improvvisate dalla IA. Puoi leggere ulteriori informazioni su WaveNet sul sito Web di DeepMind.
 
Puoi leggere ulteriori informazioni su WaveNet sul sito Web di DeepMind.
 

FAI IL TEST: RIESCI A TROVARE IL ROBOT?

Ora che sai come funziona Google Tacotron 2, è tempo di fare il test: Pensi di poter distinguere Tacotron da un vero umano? Per eseguire il test, segui questo link e scorri fino agli ultimi campioni audio, intitolati “Tacotron 2 o Human?”. Troverai un totale di 8 campioni: 4 da un oratore umano e 4 da Tacotron 2. Riesci a individuare il bot? Dopo aver ascoltato, scorri verso il basso per avere le risposte su quali campioni sono stati prodotti da Tacotron 2.
 

RISPOSTE

Quindi, quale di questi campioni proviene da un essere umano? Bene, Google non l’ha detto ma ha lasciato un grande indizio: Se scarichi i file, noterai che alcuni nomi di file contengono il termine “gen”, mentre altri contengono il codice “gt”. Anche se non possiamo essere certi, il documento di Google suggerisce che i file etichettati “gen” siano stati generati da Tacotron 2, mentre quelli etichettati “gt” provenivano da un essere umano. Supponendo che sia corretto, ecco le risposte al test di cui sopra:
“That girl did a video about Star Wars lipstick.”

  • Esempio 1: vero umano
  • Esempio 2: Tacotron 2

“She earned a doctorate in sociology at Columbia University.”

  • Esempio 1: Tacotron 2
  • Esempio 2: vero umano

“George Washington was the first President of the United States.”

  • Esempio 1: Tacotron 2
  • Esempio 2: vero umano

“I’m too busy for romance.”

  • Esempio 1: vero umano
  • Esempio 2: Tacotron 2