Paolo BruzziPaolo Bruzzi
SC di Epidemiologia, AO IRCSS San Martino, IST Genova

Gli studi clinici di fase III di nuovi farmaci oncologici sono studi ben fatti sul piano formale. Tuttavia nascondono una serie di ambiguità che di per sé non alterano la correttezza dello studio né la veridicità dei risultati, ma che sono finalizzate a dimostrare una differenza statisticamente significativa a favore del trattamento sperimentale e, comunque, ad amplificarla. Così alla Riunione Annuale 2013 dell’Associazione Alessandro Liberati - Network Italiano Cochrane, Paolo Bruzzi ha iniziato la sua relazione che potremmo paragonare ad una perizia anatomopatologica del disegno dei trial clinici randomizzati di ultima generazione sponsorizzati dall’industria in ambito oncologico.

Lo scopo ultimo di questi studi clinici è valutare positivamente gli effetti della terapia sperimentale messa a confronto con la terapia standard per arrivare alla registrazione del nuovo farmaco, preferibilmente nei tempi più brevi. Il disegno degli studi deve soddisfare una serie di criteri al fine di garantire che i risultati differiscano dalla verità solo per effetto del caso (validità interna) e siano replicabili in popolazioni, ambienti e tempi diversi da quelli in cui è stata condotta la sperimentazione clinica (validità esterna). Per quanto concerne la validità interna, i disegni degli trial clinici sponsorizzati dall’industria sono ineccepibili, sono di alta qualità statistica e accettabilità e non si identificano bias nella conduzione. Le anomalie emergono quando si prova a guardare meglio al di là dei criteri valutativi adottati per dimostrare la correttezza e la trasferibilità dei risultati nel mondo reale.

Una prima anomalia, spiega Bruzzi, viene dallo scelta dell’obiettivo primario che deve dimostrare il beneficio del trattamento. Dimostrare la presenza di un beneficio significa rifiutare l’ipotesi nulla secondo la quale i due interventi sanitari confrontati sono di pari efficacia.Tuttavia negli studi oncologici di fase III l’ipotesi nulla è alquanto improbabile perché essenzialmente si sperimentano farmaci che si presuppone abbiano una minima efficacia clinica già dimostrata negli studi preclinici e in quelli di fase II o in trial di altri farmaci con lo stesso meccanismo . Quindi il problema non è tanto dimostrare se c’è una differenza statisticamente significativa (p > 0.005) ma piuttosto valutare se c’è una differenza clinicamente rilevante.

Minimal Observed Hazard Ratio

Spesso l’industria adotta dei trucchi per dimostrare una differenza più ampia e nel più breve tempo possibile (cosa non da poco visto che anticipare di sei mesi la registrazione di un farmaco si traduce in un grosso guadagno per l’industria). Il primo trucco è disegnare trial sovradimensionati rispetto alla necessità di dimostrare la presenza di un beneficio clinicamente rilevante: in questo modo, per calcoli esclusivamente statistici, differenze anche di piccole dimensioni risultano significative. Bruzzi porta come esempio i primi tre studi clinici pubblicati degli inibitori dell’aromatasi nel carcinoma della mammella precoce che hanno arruolato rispettivamente 4270, 5187 e 6200 pazienti.

Un secondo trucco è scegliere l’endpoint più efficiente dal punto di vista statistico. Se lo scopo del trattamento vuole essere migliorare la quantità o la qualità della vita, andrebbe scelto come endpoint primario la sopravvivenza globale che è l'unico endpoint in grado di definire realmente l'efficacia del trattamento, oppure il QoL Score che misura la qualità di vita o il numero di anni di vita aggiustati per qualità di vita (Qaly). Spesso invece l’industria adotta endpoint surrogati (anche non validati), quali la sopravvivenza libera da progressione, la sopravvivenza libera dalla malattia, la sopravvivenza libera da recidiva o il tasso di risposta. L'interesse per questi endpoint surrogati è duplice. Il primo è che essi massimizzano le differenze tra due bracci di studio e quindi rendono statisticamente significative le differenze oppure sovradimensionano l’efficacia del trattamento. Il secondo motivo di interesse è che anticipano di molto la risposta, fino a tre, quattro mesi.

Inoltre l’utilizzo degli endpoint surrogati viene rafforzato dal cross over progression. Se infatti ad una analisi intermedia viene osservato precocemente un beneficio del trattamento, per apparenti ragioni umanitarie viene acconsentito il cross over progression, cioè il passaggio dei pazienti del braccio di controllo a quelli del trattamento sperimentale . Ma in questo modo non si potrà mai sapere se il trattamento sperimentale ha un effetto sulla sopravvivenza globale perché tutti i pazienti prima o poi hanno assunto il nuovo trattamento.

Typical treatment effect in advanced solid tumors

Infine, un terzo trucco è l’uso intensivo dell’analisi ad interim che ad una non appropriata analisi statistica dei risultati basata sulla regressione della mediana tendono a produrre una sovrastima della efficacia del trattamento . L’hazard ratio (il rapporto tra l’incidenza dell’endpoint esaminato nei due bracci in diversi momenti dello studio) può essere ingannevole perché non è costante per tutta la durata dello studio: l’effetto positivo del farmaco sperimentale rispetto al controllo può crescere fino a un massimo per poi decrescere fino ad annullarsi. Statisticamente analisi intermedie tenderanno quindi a sovrastimare l’hazard ratio dell’efficacia del trattamento. Tornando ai tre studi clinici sugli inibitori dell’aromatasi nel carcinoma della mammella precoce è singolare che l’analisi intermedia sia stata fatta dopo due anni e mezzo del follow up per un trattamento di cinque anni, che lo studio sia stato interrotto per fare precocemente il cross over dei pazienti del gruppo di controllo. Questo ha comportato che alla valutazione della positività dei risultati sono stati mascherati i dati sulla tossicità e sulla mortalità per il semplice fatto che i pazienti del gruppo di controllo hanno seguito il medesimo trattamento seppure in ritardo del gruppo del farmaco sperimentale.

In sommario possiamo dire che i trial oncologici di ultima generazione sono privi di macroscopici difetti dal punto di vista statistico e metodologico e sono disegnati per massimizzare la probabilità di trovare una differenza significativa e di produrre sovrastime di efficacia del trattamento aumentando le dimensioni dello studio, focalizzandosi sugli endpoint surrogati e/o le analisi ad interim, focalizzandosi sugli effetti precoci in cui è prevedibile che l’effetto sarà massimo. Tutto questo, sottolinea Bruzzi, produce delle sovrastime del beneficio che vengono adeguatamente pubblicizzate ma che forniscono una visione distorta della vera efficacia clinica del trattamento sperimentale. Il problema è che queste anomalie non sono considerate dalle autorità regolatorie e impattano sul processo autorizzativo favorendo la registrazione di nuove terapie dai benefici limitati e dagli alti costi.

Le soluzioni? Bruzzi concorda con Fiona Godlee che la soluzione migliore sia puntare a trial indipendenti e a una più forte capacità di negoziare tra le agenzie regolatorie, la comunità scientifica e le aziende farmaceutiche. Inoltre andrebbero corretti , statistica già in sede di programmazione dello studio, i criteri di analisi alzando il “livello dell’asticella” di efficacia richiesta per l’approvazione di un farmaco oltre la quale si concretizzi un vantaggio concreto, tangibile per il paziente.

Resoconto a cura di Laura Tonon.

 

Riferimenti bibliografici

Baum M, Budzar AU, Cuzick J, et al. Anastrozole alone or in combination with tamoxifen versus tamoxifen alone for adjuvant treatment of postmenopausal women with early breast cancer: first results of the ATAC randomised trial. Lancet 2002; 359: 2131-9.

Goss PE, Ingle JN, Martino S, et al. A Randomized Trial of Letrozole in Postmenopausal Women after Five Years of Tamoxifen Therapy for Early-Stage Breast Cancer. N Engl J Med 2003; 349: 1793-802.

Coombes RC, Hall E, Gibson LJ, et al. A Randomized Trial of Exemestane after two to three years of Tamoxifen therapy in postmenopausal women with primary Breast Cancer. N Engl J Med 2004; 11; 350: 1081-92.