I ricercatori affermano che il modello dietro il chatbot ha fabbricato un database fasullo in modo convincente, ma un esame forense mostra che non può essere considerato autentico.
I ricercatori hanno utilizzato la tecnologia alla base del chatbot di intelligenza artificiale (AI) ChatGPT per creare un falso set di dati di studi clinici per supportare un'affermazione scientifica non verificata.
In un articolo pubblicato su JAMA Ophthalmology il 9 novembre 1 , gli autori hanno utilizzato GPT-4, l'ultima versione del grande modello linguistico su cui viene eseguito ChatGPT, abbinato ad Advanced Data Analysis (ADA), un modello che incorpora il linguaggio di programmazione Python e può eseguire analisi statistiche e creare visualizzazioni di dati. I dati generati dall’intelligenza artificiale hanno confrontato i risultati di due procedure chirurgiche e hanno indicato – erroneamente – che un trattamento è migliore dell’altro.
“Il nostro obiettivo era evidenziare che, in pochi minuti, è possibile creare un set di dati che non è supportato da dati reali originali, ed è anche opposto o nella direzione opposta rispetto alle prove disponibili”, afferma il coautore dello studio. -autore Giuseppe Giannaccare, chirurgo oculista dell'Università di Cagliari in Italia.
La capacità dell’intelligenza artificiale di produrre dati convincenti aumenta la preoccupazione tra i ricercatori e gli editori di riviste sull’integrità della ricerca. "Una cosa era che l'intelligenza artificiale generativa potesse essere utilizzata per generare testi che non sarebbero stati rilevabili utilizzando software antiplagio, ma la capacità di creare set di dati falsi ma realistici rappresenta un livello di preoccupazione successivo", afferma Elisabeth Bik, microbiologa e ricercatrice indipendente -consulente per l'integrità a San Francisco, California. “Sarà molto facile per qualsiasi ricercatore o gruppo di ricercatori creare misurazioni false su pazienti inesistenti, risposte false a questionari o generare un ampio set di dati su esperimenti sugli animali”.
Gli autori descrivono i risultati come un “database apparentemente autentico”. Ma quando esaminati da specialisti, i dati non superavano i controlli di autenticità e contenevano segni rivelatori di falsificazione.
Confronto tra interventi chirurgici
Gli autori hanno chiesto a GPT-4 ADA di creare un set di dati riguardante le persone con una condizione oculare chiamata cheratocono, che causa l'assottigliamento della cornea e può portare a disturbi della messa a fuoco e della vista. Per il 15-20% delle persone affette dalla malattia, il trattamento prevede un trapianto di cornea, eseguito utilizzando una delle due procedure.
Il primo metodo, la cheratoplastica penetrante (PK), prevede la rimozione chirurgica di tutti gli strati danneggiati della cornea e la loro sostituzione con tessuto sano proveniente da un donatore. La seconda procedura, la cheratoplastica lamellare anteriore profonda (DALK), sostituisce solo lo strato anteriore della cornea, lasciando intatto lo strato più interno.
Gli autori hanno incaricato il modello linguistico di grandi dimensioni di fabbricare dati per supportare la conclusione che DALK produce risultati migliori rispetto a PK. Per fare ciò, gli hanno chiesto di mostrare una differenza statistica in un test di imaging che valuta la forma della cornea e rileva le irregolarità, nonché una differenza nella qualità della vista dei partecipanti allo studio prima e dopo le procedure.
I dati generati dall’intelligenza artificiale includevano 160 partecipanti maschi e 140 femmine e hanno indicato che coloro che sono stati sottoposti a DALK hanno ottenuto risultati migliori sia nella vista che nel test di imaging rispetto a quelli che hanno avuto PK, una scoperta che è in contrasto con ciò che mostrano gli studi clinici autentici. In un report del 2010 di uno studio con 77 partecipanti, i risultati del DALK erano simili a quelli della PK fino a 2 anni dopo l'intervento chirurgico 2 .
“Sembra che sia abbastanza semplice creare set di dati che siano almeno superficialmente plausibili. Quindi, a un occhio inesperto, questo sembra certamente un vero e proprio set di dati”, afferma Jack Wilkinson, biostatistico dell’Università di Manchester, nel Regno Unito.
Wilkinson, interessato ai metodi per rilevare dati non autentici, ha esaminato diversi set di dati generati da versioni precedenti del modello linguistico di grandi dimensioni, che secondo lui mancavano di elementi convincenti quando esaminati, perché faticavano a catturare relazioni realistiche tra le variabili.
Esame più attento
Su richiesta del team giornalistico di Nature , Wilkinson e il suo collega Zewen Lu hanno valutato il set di dati falsi utilizzando un protocollo di screening progettato per verificarne l’autenticità.
Ciò ha rivelato una discrepanza in molti “partecipanti” tra il sesso designato e il sesso che normalmente ci si aspetterebbe dal loro nome. Inoltre, non è stata trovata alcuna correlazione tra le misurazioni preoperatorie e postoperatorie della capacità visiva e il test di imaging dell'occhio. Wilkinson e Lu hanno anche ispezionato la distribuzione dei numeri in alcune colonne del set di dati per verificare la presenza di modelli non casuali. I valori dell'imaging oculare hanno superato questo test, ma alcuni valori di età dei partecipanti si sono raggruppati in un modo che sarebbe estremamente insolito in un set di dati autentico: c'era un numero sproporzionato di partecipanti i cui valori di età terminavano con 7 o 8.
Gli autori dello studio riconoscono che il loro set di dati presenta difetti che potrebbero essere rilevati con un attento esame. Tuttavia, afferma Giannaccare, “se si guarda molto rapidamente il set di dati, è difficile riconoscere l'origine non umana della fonte dei dati”.
Bernd Pulverer, redattore capo di EMBO Reports , concorda nel ritenere che ciò sia motivo di preoccupazione. "In realtà la revisione tra pari spesso si ferma prima di una nuova analisi completa dei dati ed è improbabile che rilevi violazioni dell'integrità ben congegnate utilizzando l'intelligenza artificiale", afferma, aggiungendo che le riviste dovranno aggiornare i controlli di qualità per identificare i dati sintetici generati dall'intelligenza artificiale. .
Wilkinson sta conducendo un progetto collaborativo per progettare strumenti statistici e non statistici per valutare studi potenzialmente problematici. “Allo stesso modo in cui l’intelligenza artificiale potrebbe essere parte del problema, potrebbero esserci soluzioni basate sull’intelligenza artificiale ad alcuni di questi problemi. Potremmo essere in grado di automatizzare alcuni di questi controlli”, afferma. Ma avverte che i progressi nell’intelligenza artificiale generativa potrebbero presto offrire modi per aggirare questi protocolli. Pulverer è d’accordo: “Queste sono cose contro cui l’intelligenza artificiale può essere facilmente utilizzata come arma non appena si sa cosa cerca lo screening”.
Natura 623 , 895-896 (2023)
doi: https://doi.org/10.1038/d41586-023-03635-w
Riferimenti
Taloni, A., Scorcia, V. & Giannaccare, G. JAMA Oftalmolo . https://doi.org/10.1001/jamaophthalmol.2023.5162 (2023).
Javadi, MA, Feizi, S., Yazdani, S. & Mirbabaee, F. Cornea 29 , 365–371 (2010).
Posta un commento
Condividi la tua opinione nel rispetto degli altri. Link e materiale non pertinente sarà eliminato.