Cosa significa per un'intelligenza artificiale "capire"?

 

Cosa significa per un'intelligenza artificiale "capire"?

È abbastanza semplice che l'IA sembri comprendere i dati, ma concepire un vero test della conoscenza di una macchina si è dimostrato difficile.


Ricordate Watson di IBM, il campione di IA Jeopardy! Una promozione del 2010 proclamava: "Watson capisce il linguaggio naturale con tutta la sua ambiguità e complessità". Tuttavia, come abbiamo visto quando Watson ha poi fallito spettacolarmente nel suo tentativo di "rivoluzionare la medicina con l'intelligenza artificiale", una patina di facilità linguistica non è la stessa cosa che comprendere effettivamente il linguaggio umano.

La comprensione del linguaggio naturale è stata a lungo uno dei principali obiettivi della ricerca sull'IA. All'inizio, i ricercatori hanno cercato di programmare manualmente tutto ciò di cui una macchina avrebbe avuto bisogno per dare un senso a storie di cronaca, narrativa o qualsiasi altra cosa che gli umani potessero scrivere. Questo approccio, come ha dimostrato Watson, era inutile - è impossibile scrivere tutti i fatti non scritti, le regole e le ipotesi necessarie per la comprensione del testo. Più recentemente, è stato stabilito un nuovo paradigma: Invece di costruire una conoscenza esplicita, lasciamo che le macchine imparino a capire il linguaggio da sole, semplicemente ingerendo grandi quantità di testo scritto e imparando a prevedere le parole. Il risultato è quello che i ricercatori chiamano un modello linguistico. Quando si basano su grandi reti neurali, come GPT-3 di OpenAI, tali modelli possono generare prosa (e poesia!) incredibilmente simili a quelle umane e apparentemente eseguire sofisticati ragionamenti linguistici.

Ma GPT-3 - addestrato su testi provenienti da migliaia di siti web, libri ed enciclopedie - ha trasceso la patina di Watson? Capisce davvero il linguaggio che genera e su cui apparentemente ragiona? Questo è un argomento di forte disaccordo nella comunità di ricerca dell'IA. Queste discussioni una volta erano appannaggio dei filosofi, ma nell'ultimo decennio l'IA è uscita dalla sua bolla accademica per entrare nel mondo reale, e la sua mancanza di comprensione di quel mondo può avere conseguenze reali e talvolta devastanti. In uno studio, Watson di IBM è stato trovato a proporre "molteplici esempi di raccomandazioni di trattamento non sicure ed errate". Un altro studio ha mostrato che il sistema di traduzione automatica di Google ha fatto errori significativi quando è stato utilizzato per tradurre le istruzioni mediche per i pazienti che non parlano inglese.

Come possiamo determinare in pratica se una macchina può capire? Nel 1950, il pioniere dell'informatica Alan Turing ha cercato di rispondere a questa domanda con il suo famoso "gioco di imitazione", ora chiamato test di Turing. Una macchina e un umano, entrambi nascosti alla vista, avrebbero gareggiato per convincere un giudice umano della loro umanità usando solo la conversazione. Se il giudice non riusciva a dire quale fosse l'umano, allora, affermava Turing, avremmo dovuto considerare la macchina come pensante - e, in effetti, comprensiva.

Sfortunatamente, Turing ha sottovalutato la propensione degli umani ad essere ingannati dalle macchine. Anche semplici chatbot, come Eliza, la psicoterapeuta surrogata di Joseph Weizenbaum negli anni '60, hanno ingannato le persone facendogli credere che stavano conversando con un essere comprensivo, anche quando sapevano che il loro interlocutore era una macchina.

In un documento del 2012, gli informatici Hector Levesque, Ernest Davis e Leora Morgenstern hanno proposto un test più obiettivo, che hanno chiamato la sfida dello schema di Winograd. Questo test è stato adottato nella comunità del linguaggio AI come un modo, e forse il migliore, per valutare la comprensione della macchina - anche se, come vedremo, non è perfetto. Uno schema Winograd, dal nome del ricercatore linguistico Terry Winograd, consiste in una coppia di frasi, che differiscono esattamente di una parola, ciascuna seguita da una domanda. 

Ecco due esempi:

Frase 1: Ho versato l'acqua dalla bottiglia nella tazza fino a riempirla.
Domanda: Cosa era pieno, la bottiglia o la tazza?
Frase 2: Ho versato l'acqua dalla bottiglia nella tazza finché non era vuota.
Domanda: Cosa era vuoto, la bottiglia o la tazza?

Frase 1: Lo zio di Joe può ancora batterlo a tennis, anche se ha 30 anni in più.
Domanda: Chi è più vecchio, Joe o lo zio di Joe?
Frase 2: Lo zio di Joe può ancora batterlo a tennis, anche se ha 30 anni di meno.
Domanda: Chi è più giovane, Joe o lo zio di Joe?

I modelli linguistici a rete neurale hanno raggiunto circa il 97% di precisione su un particolare set di schemi Winograd. Questo equivale all'incirca alle prestazioni umane.

In ogni coppia di frasi, la differenza di una parola può cambiare a quale cosa o persona si riferisce un pronome. Rispondere correttamente a queste domande sembra richiedere la comprensione del senso comune. Gli schemi di Winograd sono progettati proprio per testare questo tipo di comprensione, alleviando la vulnerabilità del test di Turing ai giudici umani inaffidabili o ai trucchi dei chatbot. In particolare, gli autori hanno progettato alcune centinaia di schemi che credevano fossero "a prova di Google": Una macchina non dovrebbe essere in grado di utilizzare una ricerca su Google (o qualcosa di simile) per rispondere correttamente alle domande.

Questi schemi sono stati oggetto di un concorso tenutosi nel 2016 in cui il programma vincitore è stato corretto solo sul 58% delle frasi - difficilmente un risultato migliore che se avesse indovinato. Oren Etzioni, uno dei principali ricercatori dell'IA, ha scherzato: "Quando l'IA non riesce a determinare a cosa si riferisce "esso" in una frase, è difficile credere che conquisterà il mondo".

Tuttavia, la capacità dei programmi AI di risolvere gli schemi di Winograd è aumentata rapidamente grazie all'avvento di grandi modelli linguistici a rete neurale. Un documento del 2020 di OpenAI ha riportato che GPT-3 era corretto su quasi il 90% delle frasi in un set di riferimento di schemi Winograd. Altri modelli linguistici hanno ottenuto risultati ancora migliori dopo l'addestramento specifico su questi compiti. Al momento in cui scriviamo, i modelli linguistici a rete neurale hanno raggiunto circa il 97% di accuratezza su un particolare set di schemi Winograd che fanno parte di una competizione di comprensione del linguaggio AI nota come SuperGLUE. Questa accuratezza equivale all'incirca alla performance umana. Questo significa che i modelli di linguaggio delle reti neurali hanno raggiunto una comprensione simile a quella umana?

Non necessariamente. Nonostante i migliori sforzi dei creatori, quegli schemi di Winograd non erano effettivamente a prova di Google. Queste sfide, come molti altri test attuali della comprensione del linguaggio dell'IA, a volte permettono scorciatoie che permettono alle reti neurali di eseguire bene senza capire. Per esempio, consideriamo le frasi "L'auto sportiva ha superato il camion della posta perché andava più veloce" e "L'auto sportiva ha superato il camion della posta perché andava più piano". Un modello linguistico addestrato su un enorme corpus di frasi inglesi avrà assorbito la correlazione tra "macchina sportiva" e "veloce", e tra "camion della posta" e "lento", e quindi può rispondere correttamente basandosi solo su queste correlazioni piuttosto che attingendo a qualsiasi comprensione. Si è scoperto che molti degli schemi di Winograd nel concorso SuperGLUE permettono questo tipo di correlazioni statistiche.

Piuttosto che rinunciare agli schemi Winograd come test di comprensione, un gruppo di ricercatori dell'Allen Institute for Artificial Intelligence ha deciso invece di provare a risolvere alcuni dei loro problemi. Nel 2019 hanno creato WinoGrande, un insieme molto più ampio di schemi Winograd. Invece di alcune centinaia di esempi, WinoGrande contiene ben 44.000 frasi. Per ottenere così tanti esempi, i ricercatori si sono rivolti ad Amazon Mechanical Turk, una piattaforma popolare per il lavoro di crowdsourcing. Ad ogni lavoratore (umano) è stato chiesto di scrivere diverse coppie di frasi, con alcuni vincoli per garantire che la collezione contenesse argomenti diversi, anche se ora le frasi in ogni coppia potrebbero differire di più di una parola.

I ricercatori hanno poi tentato di eliminare le frasi che potevano permettere scorciatoie statistiche applicando un metodo di IA relativamente poco sofisticato ad ogni frase e scartando quelle che erano troppo facilmente risolvibili. Come previsto, le frasi rimanenti hanno presentato una sfida molto più difficile per le macchine rispetto alla raccolta originale dello schema Winograd. Mentre gli esseri umani hanno ancora ottenuto un punteggio molto alto, i modelli linguistici delle reti neurali che avevano eguagliato le prestazioni umane sul set originale hanno ottenuto un punteggio molto più basso sul set WinoGrande. Questa nuova sfida sembrava riscattare gli schemi Winograd come test per la comprensione del senso comune - a condizione che le frasi fossero attentamente vagliate per garantire che fossero a prova di Google.

Tuttavia, un'altra sorpresa era in serbo. Nei quasi due anni da quando la raccolta WinoGrande è stata pubblicata, i modelli di linguaggio delle reti neurali sono cresciuti sempre di più, e più grandi diventano, meglio sembrano ottenere un punteggio in questa nuova sfida. Al momento in cui scrivo, i migliori programmi attuali - che sono stati addestrati su terabyte di testo e poi ulteriormente addestrati su migliaia di esempi di WinoGrande - si avvicinano al 90% di correttezza (gli umani ottengono circa il 94% di correttezza). Questo aumento delle prestazioni è dovuto quasi interamente all'aumento delle dimensioni dei modelli linguistici delle reti neurali e dei loro dati di allenamento.

La comprensione del linguaggio richiede la comprensione del mondo, e una macchina esposta solo al linguaggio non può ottenere tale comprensione.


Queste reti sempre più grandi hanno finalmente raggiunto una comprensione del senso comune simile a quella umana? Di nuovo, non è probabile. I risultati di WinoGrande sono accompagnati da alcuni avvertimenti importanti. Per esempio, poiché le frasi si sono basate su lavoratori di Amazon Mechanical Turk, la qualità e la coerenza della scrittura è piuttosto irregolare. Inoltre, il metodo AI "non sofisticato" usato per eliminare le frasi "non a prova di Google" potrebbe essere stato troppo poco sofisticato per individuare tutte le possibili scorciatoie statistiche disponibili per un'enorme rete neurale, e si è applicato solo a frasi individuali, quindi alcune delle frasi rimanenti hanno finito per perdere il loro "gemello". Uno studio successivo ha mostrato che i modelli linguistici delle reti neurali testati solo su frasi gemelle - e richiesti di essere corretti su entrambe - sono molto meno accurati degli umani, dimostrando che il precedente risultato del 90% è meno significativo di quanto sembrasse.


Quindi, cosa fare della saga di Winograd? La lezione principale è che spesso è difficile determinare dalle loro prestazioni su una data sfida se i sistemi AI capiscono veramente il linguaggio (o altri dati) che elaborano. Ora sappiamo che le reti neurali spesso usano scorciatoie statistiche - invece di dimostrare effettivamente una comprensione simile a quella umana - per ottenere alte prestazioni sugli schemi di Winograd così come su molti dei più popolari benchmark di "comprensione generale del linguaggio".


Il nocciolo del problema, a mio parere, è che la comprensione del linguaggio richiede la comprensione del mondo, e una macchina esposta solo al linguaggio non può ottenere tale comprensione. Considerate cosa significa capire "La macchina sportiva ha superato il camion della posta perché andava più piano". Dovete sapere cosa sono le macchine sportive e i camion della posta, che le macchine possono "sorpassarsi" l'un l'altra, e, a un livello ancora più basilare, che i veicoli sono oggetti che esistono e interagiscono nel mondo, guidati da esseri umani con le loro agende.


Tutte queste sono conoscenze che noi umani diamo per scontate, ma non sono incorporate nelle macchine né è probabile che siano esplicitamente scritte nel testo di allenamento di un modello di linguaggio. Alcuni scienziati cognitivi hanno sostenuto che gli esseri umani si basano su una conoscenza di base innata e pre-linguistica dello spazio, del tempo e di molte altre proprietà essenziali del mondo per imparare e comprendere il linguaggio. Se vogliamo che le macchine padroneggino allo stesso modo il linguaggio umano, dovremo prima dotarle dei principi primordiali con cui gli umani sono nati. E per valutare la comprensione delle macchine, dovremmo iniziare valutando la loro comprensione di questi principi, che si potrebbe chiamare "metafisica infantile".


Addestrare e valutare le macchine per l'intelligenza infantile può sembrare un gigantesco passo indietro rispetto alle prodigiose imprese di sistemi di IA come Watson e GPT-3. Ma se la comprensione vera e affidabile è l'obiettivo, questo può essere l'unico percorso verso macchine che possono genuinamente comprendere a cosa si riferisce "esso" in una frase, e tutto ciò che la comprensione di "esso" comporta.


Articolo originale: quantamagazine 

Scrivi cosa ne pensi

Condividi la tua opinione nel rispetto degli altri. Link e materiale non pertinente sarà eliminato.

Nuova Vecchia