Perché la maggior parte dei risultati delle ricerche pubblicate sono falsi

Perché la maggior parte dei risultati delle ricerche pubblicate sono falsi


Di  John P. A. Ioannidis su Plos Medicine


C'è una crescente preoccupazione che la maggior parte dei risultati delle ricerche attualmente pubblicate siano falsi. La probabilità che un'affermazione di ricerca sia vera può dipendere dalla potenza e dalla distorsione dello studio, dal numero di altri studi sulla stessa questione e, cosa importante, dal rapporto tra relazioni vere e non vere tra le relazioni sondate in ogni campo scientifico.


In questo quadro, è meno probabile che un risultato della ricerca sia vero quando gli studi condotti in un campo sono più piccoli; quando le dimensioni dell'effetto sono più piccole; quando c'è un numero maggiore e una minore preselezione delle relazioni testate; quando c'è una maggiore flessibilità nei disegni, nelle definizioni, nei risultati e nelle modalità di analisi; quando c'è un maggiore interesse e pregiudizio finanziario e di altro tipo; e quando in un campo scientifico sono coinvolte più squadre nella caccia alla significatività statistica.


Le simulazioni mostrano che per la maggior parte dei disegni e delle impostazioni degli studi, è più probabile che un'affermazione di ricerca sia falsa che vera. Inoltre, per molti campi scientifici attuali, i risultati di ricerca dichiarati possono spesso essere semplicemente misure accurate dei pregiudizi prevalenti. In questo saggio, discuto le implicazioni di questi problemi per la condotta e l'interpretazione della ricerca.


I risultati delle ricerche pubblicate sono talvolta confutati da prove successive, con conseguente confusione e delusione. Le confutazioni e le controversie si riscontrano in tutta la gamma dei disegni di ricerca, dagli studi clinici e dai tradizionali studi epidemiologici [1-3] alla più moderna ricerca molecolare [4,5].


C'è una crescente preoccupazione che nella ricerca moderna i falsi risultati possano essere la maggioranza o addirittura la stragrande maggioranza delle affermazioni della ricerca pubblicata [6-8]. Tuttavia, questo non dovrebbe sorprendere. Si può dimostrare che la maggior parte dei risultati di ricerca dichiarati sono falsi. Qui esaminerò i fattori chiave che influenzano questo problema e alcuni corollari.


Modellare il quadro dei risultati falsi positivi

Diversi metodologi hanno sottolineato [9-11] che l'alto tasso di non replicazione (mancanza di conferma) delle scoperte di ricerca è una conseguenza della conveniente, ma infondata strategia di rivendicare risultati di ricerca conclusivi solo sulla base di un singolo studio valutato in base alla significatività statistica formale, tipicamente per un valore di p inferiore a 0,05. La ricerca non è rappresentata e riassunta in modo appropriato dai valori di p, ma, sfortunatamente, c'è una nozione diffusa che gli articoli di ricerca medica dovrebbero essere interpretati solo sulla base dei valori di p.


I risultati della ricerca sono qui definiti come qualsiasi relazione che raggiunge la significatività statistica formale, ad esempio, interventi efficaci, predittori informativi, fattori di rischio o associazioni. Anche la ricerca "negativa" è molto utile. "Negativa" è in realtà un termine improprio, e l'interpretazione errata è diffusa. Tuttavia, qui ci concentreremo sulle relazioni che gli investigatori sostengono che esistano, piuttosto che sui risultati nulli.


Si può dimostrare che la maggior parte dei risultati di ricerca dichiarati sono falsi

Come è stato dimostrato in precedenza, la probabilità che un risultato della ricerca sia effettivamente vero dipende dalla probabilità precedente che sia vero (prima di fare lo studio), dalla potenza statistica dello studio e dal livello di significatività statistica [10,11]. Consideriamo una tabella 2 × 2 in cui i risultati della ricerca sono confrontati con il gold standard delle relazioni vere in un campo scientifico. In un campo di ricerca possono essere fatte sia ipotesi vere che false sulla presenza di relazioni.


Sia R il rapporto tra il numero di "relazioni vere" e "nessuna relazione" tra quelle testate nel campo. R è caratteristico del campo e può variare molto a seconda che il campo si rivolga a relazioni altamente probabili o cerchi solo una o poche relazioni vere tra migliaia e milioni di ipotesi che possono essere postulate. Consideriamo anche, per semplicità computazionale, campi circoscritti in cui o c'è solo una relazione vera (tra molte che possono essere ipotizzate) o il potere è simile a trovare una qualsiasi delle diverse relazioni vere esistenti.


La probabilità pre-studio che una relazione sia vera è R/(R + 1). La probabilità di uno studio di trovare una vera relazione riflette la potenza 1 - β (uno meno il tasso di errore di tipo II). La probabilità di affermare una relazione quando non ne esiste nessuna riflette il tasso di errore di tipo I, α. Supponendo che le relazioni c vengano sondate sul campo, i valori attesi della tabella 2 × 2 sono riportati nella tabella 1. Dopo che un risultato della ricerca è stato affermato sulla base del raggiungimento della significatività statistica formale, la probabilità post-studio che sia vero è il valore predittivo positivo, PPV.


Il PPV è anche la probabilità complementare di ciò che Wacholder et al. hanno chiamato la probabilità di rapporto falso positivo [10]. Secondo la tabella 2 × 2, si ottiene PPV = (1 - β)R/(R - βR + α). Un risultato di ricerca è quindi più probabilmente vero che falso se (1 - β)R > α. Poiché di solito la grande maggioranza degli investigatori dipende da a = 0,05, questo significa che un risultato di ricerca è più probabilmente vero che falso se (1 - β)R > 0,05.


Ciò che è meno apprezzato è che la distorsione e l'estensione di ripetuti test indipendenti da parte di diversi team di ricercatori in tutto il mondo possono distorcere ulteriormente questo quadro e possono portare a probabilità ancora minori che i risultati della ricerca siano effettivamente veri. Cercheremo di modellare questi due fattori nel contesto di simili tabelle 2 × 2.


Bias

Per prima cosa, definiamo il bias come la combinazione di vari fattori di progettazione, dati, analisi e presentazione che tendono a produrre risultati di ricerca quando non dovrebbero essere prodotti. Lasciamo che u sia la proporzione di analisi sondate che non sarebbero state "risultati di ricerca", ma che tuttavia finiscono per essere presentate e riportate come tali, a causa del bias. Il bias non deve essere confuso con la variabilità casuale che fa sì che alcuni risultati siano falsi per caso anche se il disegno dello studio, i dati, l'analisi e la presentazione sono perfetti.


Il bias può comportare una manipolazione nell'analisi o nella presentazione dei risultati. La segnalazione selettiva o distorta è una forma tipica di tale bias. Possiamo assumere che u non dipenda dall'esistenza o meno di una vera relazione. Questa non è un'assunzione irragionevole, poiché tipicamente è impossibile sapere quali relazioni siano effettivamente vere. In presenza di bias (Tabella 2), si ottiene PPV = ([1 - β]R + uβR)/(R + α - βR + u - uα + uβR), e PPV diminuisce all'aumentare di u, a meno che 1 - β ≤ α, cioè 1 - β ≤ 0,05 per la maggior parte delle situazioni.


Così, con l'aumento della distorsione, le possibilità che un risultato della ricerca sia vero diminuiscono considerevolmente. Questo è mostrato per diversi livelli di potenza e per diverse probabilità pre-studio nella Figura 1. Al contrario, i veri risultati della ricerca possono occasionalmente essere annullati a causa della distorsione inversa. Per esempio, con grandi errori di misurazione le relazioni si perdono nel rumore [12], o i ricercatori usano i dati in modo inefficiente o non riescono a notare relazioni statisticamente significative, o ci possono essere conflitti di interesse che tendono a "seppellire" risultati significativi [13].


Non c'è una buona evidenza empirica su larga scala su quanto frequentemente tali bias inversi possano verificarsi in diversi campi di ricerca. Tuttavia, è probabilmente giusto dire che il reverse bias non è così comune. Inoltre, gli errori di misurazione e l'uso inefficiente dei dati stanno probabilmente diventando problemi meno frequenti, poiché l'errore di misurazione è diminuito con i progressi tecnologici nell'era molecolare e i ricercatori stanno diventando sempre più sofisticati riguardo ai loro dati.


Indipendentemente da ciò, il bias inverso può essere modellato nello stesso modo del bias di cui sopra. Inoltre il bias inverso non dovrebbe essere confuso con la variabilità casuale che può portare a mancare una vera relazione a causa del caso.



Test da parte di diversi team indipendenti

Diversi team indipendenti possono affrontare lo stesso insieme di domande di ricerca. Con la globalizzazione degli sforzi di ricerca, è praticamente la regola che diversi team di ricerca, spesso decine, possono sondare le stesse domande o domande simili. Purtroppo, in alcune aree, la mentalità prevalente fino ad ora è stata quella di concentrarsi su scoperte isolate da parte di singoli team e di interpretare gli esperimenti di ricerca in modo isolato.


Un numero crescente di domande ha almeno uno studio che rivendica una scoperta di ricerca, e questo riceve un'attenzione unilaterale. La probabilità che almeno uno studio, tra i tanti fatti sulla stessa domanda, affermi un risultato di ricerca statisticamente significativo è facile da stimare. Per n studi indipendenti di uguale potenza, la tabella 2 × 2 è mostrata nella Tabella 3: PPV = R(1 - βn)/(R + 1 - [1 - α]n - Rβn) (senza considerare i bias). Con l'aumentare del numero di studi indipendenti, la PPV tende a diminuire, a meno che 1 - β < a, cioè, tipicamente 1 - β < 0,05.


Questo è mostrato per diversi livelli di potenza e per diverse probabilità pre-studio nella Figura 2. Per n studi di diversa potenza, il termine βn è sostituito dal prodotto dei termini βi per i = 1 a n, ma le inferenze sono simili.


Continua su Plos Medicine

Scrivi cosa ne pensi

Condividi la tua opinione nel rispetto degli altri. Link e materiale non pertinente sarà eliminato.

Nuova Vecchia