publicité
Facebook Facebook Facebook Partager

Études

Publié le 21 juin 2011Lecture 14 min

Analyse en intention de traiter ou en per protocole

D. KOENIG et M.-D. DRICI, CHU de Nice

Cet article garde en filigrane la différence entre les « essais de supériorité » classiques et les essais de « non infériorité », de plus en plus nombreux ! Si un essai concluant à la supériorité d’un traitement sur l’autre inclut sa non-infériorité, le contraire n’est pas vrai. Ainsi, deux traitements non statistiquement différents de manière significative, ne sont pas forcément identiques.
Comme la supériorité d’un médicament envers un autre médicament de même classe est très difficile à prouver, on va essayer d’en déterminer sa non-infériorité. Il est ainsi devenu habituel au cours du développement de nombreux médicaments, que les industriels utilisent des essais de « non-infériorité » qui sont ensuite souvent publiés comme evidence-based medicine.
Si ces problèmes de méthodologie sont affaire de spécialistes, il est essentiel pour le médecin qui est confronté à la présentation des résultats par la visite médicale de comprendre ces différences.

L'hypothèse de ces essais est un peu particulière ainsi que leur méthodologie : il faut que la référence ait été préalablement évaluée contre un placebo, afin d’obtenir une certaine « réserve d’efficacité », que le nouveau traitement comparé soit compris dans cette « réserve », mesuré par un critère de jugement robuste. Pour minimiser les chances de faire des erreurs d’appréciation, on réalise l’analyse en « per protocole » : c’est-à-dire que seuls les patients qui ont correctement suivi le protocole et donc le traitement, sont gardés dans l’analyse statistique finale. Cela contraste avec les essais de supériorité (pour évaluer par exemple un nouveau médicament contre un placebo) où l’analyse en intention de traiter est la règle et où la totalité des patients randomisés est analysée, qu’ils aient pris correctement leur traitement ou aucun comprimé !   Définition des populations d’analyse en « intention de traiter » ou en « per protocole » ? L’essai prospectif contrôlé et randomisé constitue la méthode de référence pour démontrer l’efficacité d’un traitement. La randomisation, qui permet la comparabilité initiale des groupes, est nécessaire pour que les effets observés soient attribuables au traitement testé et non à d’autres caractéristiques. Ainsi, un traitement inefficace conduira à un nombre comparable d’événements dans les deux groupes comparés et une différence quelconque dans la survenue d’événements pourra être attribuée au traitement testé[1]. La durée d’un essai clinique peut être très variable et, durant son déroulement, les patients inclus ne vont pas tous parfaitement adhérer au protocole : certains vont arrêter, d’autres ne vont pas prendre la dose prévue, tandis que des étourdis vont consommer des médicaments interdits par le protocole. La question qui se pose est alors la suivante : doit-on exclure de l’analyse statistique les patients qui n’ont pas respecté le protocole de l’étude ? À cette question correspondent deux grandes approches concernant la population d’analyse d’une étude : l’analyse « per protocol » (PP) et l’analyse en « intention de traiter » (ITT). L’analyse en « intention de traiter » consiste à inclure dans l’analyse tous les sujets initialement randomisés, qui restent dans leur groupe quelle que soit la suite des événements (changement de traitement, arrêt, voire changement de groupe). C’est analyzed as randomised, les sujets sont analysés tels qu’ils ont été randomisés. Cette méthode d’analyse s’oppose à l’analyse dite en « per protocole » qui consiste à analyser uniquement les patients ayant scrupuleusement respecté le protocole de l’essai clinique.   Analyse en intention de traiter Méthode à privilégier pour tout essai contrôlé randomisé ayant pour objectif de démontrer l’efficacité d’un traitement (« essai d’efficacité ») car cette approche permet de fournir des résultats non biaisés et représentatifs[2]. En ITT, tous les patients randomisés sont analysés, qu’ils aient respecté le protocole ou non (par exemple un patient décide d’arrêter après le premier comprimé d’un traitement antihypertenseur de 6 mois : il est analysé au même titre que les autres). L’exclusion de certains sujets compromet la comparabilité des groupes car elle survient après le début du traitement et donc de la randomisation. Cela peut avoir un impact sur l’interprétation des données si l’exclusion est liée à l’inefficacité (antalgique par exemple) ou à la tolérance du traitement (son goût, ses effets indésirables, etc.) car cette exclusion n’est alors pas indépendante du traitement reçu ! Cette approche reflète aussi au mieux les conditions réelles d’utilisation du traitement puisque, dans la « vraie vie », tous les patients ne respecteront pas les conditions idéales de l’essai clinique. Enfin, en ITT, les déviations et changements de traitement vont en principe survenir de manière semblable dans les deux groupes et donc sous-estimer l’effet réel du traitement testé et diminuer le risque de première espèce α. Cette approche est donc très « conservatrice » dans le cas d’un essai d’efficacité ou de supériorité. Ces trois raisons (respect de la randomisation, meilleur reflet des conditions réelles d’utilisation et approche conservatrice) font que l’analyse en ITT est impérative pour les essais de supériorité (« essai d’efficacité »).   Analyse per protocole Cette méthode consiste à ne conserver que les patients ayant parfaitement suivi le protocole de l’étude. Les personnes qui ont arrêté ou changé de traitement sont exclus de l’analyse ainsi que les écarts au protocole (on ne garde donc que les « bien traités » dans chaque groupe). L’analyse en PP peut sembler intéressante de prime abord : en effet, ce qui est intéressant, c’est d’évaluer les effets du traitement chez les personnes qui ont réellement pris le traitement attribué lors de la randomisation, à la posologie attribuée. Les autres patients risquent de « parasiter » les résultats. Toutefois, l’effet du traitement est alors évalué dans un contexte théorique et idéal qui n’est pas réellement le reflet de ce qu’il se passe dans la « vie réelle ». Cette approche augmente le contraste entre les deux groupes comparés (sans prendre en compte le fait que les patients qui adhèrent rigoureusement au protocole ont empiriquement tendance à aller mieux que ceux qui s’écartent du protocole de l’essai clinique). L’effectif analysé est réduit par rapport à l’effectif randomisé (on parle alors « d’attrition de la cohorte »)[2]. L’exclusion des patients peut introduire un biais et augmenter le risque de première espèce (conclure à une différence qui n’existe pas). Cette approche n’est donc pas adaptée à un essai d’efficacité puisqu’elle est peu conservatrice : dans ce type d’essai, on souhaite se mettre dans les pires conditions pour pouvoir sous-entendre, en cas de supériorité d’un traitement sur l’autre, que c’est « malgré les conditions d’ITT ». Si l’analyse en ITT représente le mieux « la vraie vie » pour évaluer la supériorité d’un traitement sur l’autre, dans un essai d’équivalence ou de non-infériorité, qui a pour objectif de démontrer que deux traitements ont une efficacité similaire ou qu’un traitement n’est pas inférieur à un autre, l’approche en PP est la plus conservatrice et est donc à privilégier. L’analyse per protocole est à privilégier pour les essais d’équivalence et de non-infériorité car elle permet, alors qu’elle augmente les contrastes entre les traitements, de conclure, s’il n’y en a pas (traitement non inférieur au comparateur) que c’est « malgré le fait d’avoir analysé per protocole ». Mais il est nécessaire de bien documenter les motifs d’arrêt ou de changement de traitement, les effets indésirables, les retraits d’étude, les changements de groupe, etc. afin de justifier le choix de cette méthode d’analyse.   Les essais d’équivalence et de non-infériorité La majorité des essais cliniques a pour objectif de montrer qu’un traitement est meilleur qu’une autre (essais dits de « supériorité ou d’efficacité »). Toutefois, dans de nombreuses pathologies, il existe des traitements « de référence » dont l’efficacité est scientifiquement prouvée et qui figurent généralement dans les référentiels. Lorsqu’un traitement de référence performant existe, les bénéfices attendus d’un nouveau médicament (qui est souvent un me-too, c’est-à-dire un composé de classe semblable qui diffère par des propriétés pharmacologiques minimes) sont le plus souvent réduits, voire nuls, et la démonstration statistique de la supériorité est alors difficile à démontrer (le nombre de sujets nécessaires est très important puisque la différence d’efficacité à mettre en évidence est minime). Il faut alors démontrer que le nouveau traitement est au moins aussi efficace que le traitement de référence (« essai d’équivalence ») ou au moins que ce nouveau traitement n’est pas inférieur au traitement de référence (« essai de non-infériorité »). En général, l’intérêt du nouveau est fondé sur une meilleure tolérance, une voie d’administration plus commode, un traitement moins invasif, un coût plus faible, etc. avec une efficacité comparable à celle du traitement de référence (un nouvel ARA2 dans l’hypertension artérielle, un nouvel antidiabétique, etc.). Les essais d’équivalence et de non-infériorité nécessitent des précautions méthodologiques qui diffèrent de celles des essais de supériorité. La nécessité de ce type d’étude est réelle, comme illustré par le développement d’une extension du guideline CONSORT en 2006, spécialement dédiée aux essais d’équivalence et non-infériorité, même si ce design reste encore assez peu utilisé (en 2005, Pubmed identifiait seulement 1,6 % des essais cliniques dans le cancer comme essais d’équivalence ou de non-infériorité)[3]. La stagnation des pipelines amène les industriels à utiliser de plus en plus ce type d’approche pour comparer à l’existant ses « copies conformes ».   Aspects méthodologiques La méthodologie d’un essai de non-infériorité doit être irréprochable, bien plus que pour les essais de supériorité tant les enjeux sont importants. En effet, tout écart au protocole ou des erreurs méthodologiques conduisent à réduire artificiellement l’écart entre les deux groupes et donc à conclure à tort à une équivalence entre les deux traitements. Un des points méthodologiques primordiaux est le choix du traitement de référence : ce traitement doit non seulement avoir démontré son efficacité contre placebo dans les études précédentes, mais aussi toute son efficacité dans l’essai de non-infériorité réalisé. Pour vérifier cela, on parle de validité interne et externe de l’étude de non-infériorité. La validité interne est difficile à mettre en œuvre éthiquement (troisième groupe contrôle placebo) puisqu’il existe déjà un traitement de référence efficace. Toutefois, ce design « 3 bras » placebo-référence-nouveau traitement reste la référence[4]. La notion de validité interne renvoie également à un principe important : la sensibilité de l’étude (assay sensitivity), qui est la capacité d’un essai clinique à distinguer un traitement efficace d’un traitement inefficace : elle dépend de la taille de l’effet que l’on veut démonter. Un défaut d’assay sensitivity augmente la probabilité de conclure à tort à l’équivalence[5]. En pratique, ce défaut d’assay sensitivity n’est pas détectable en l’absence d’un groupe placebo. Il faut donc généralement se contenter de la validité externe, c’est-à-dire vérifier que l’efficacité du traitement de référence retrouvée dans l’essai de non-infériorité est cohérente avec les essais cliniques publiés ayant prouvé l’efficacité du traitement de référence[5]. Et là encore, on se heurte à l’antienne : « par rapport aux patients d’il y a 10 (15 ? 20 ? 3 ?) ans, nos patients sont tellement mieux traités qu’ils ne présentent plus autant d’affections cardio-vasculaires (donc de critères de jugement) » !   Choix de la marge d’équivalence European Medicine Agency : “The selection of the non-inferiority margin is based upon a combination of statistical reasoning and clinical judgement”. Il n’y a pas de règle stricte pour choisir la valeur de la borne d’équivalence. Le choix doit être à la fois clinique et, quand c’est possible, statistique. La borne inférieure doit donc être « petite », en tout cas inférieure à celle choisie dans les essais de supériorité. Statistique, la borne doit être déterminée de manière à ce que la différence entre les deux traitements soit négligeable, mais que le nouveau traitement soit également efficace. Pour cela, il faut estimer, de manière conservatrice, l’efficacité du traitement de référence versus placebo d’après les études disponibles dans la littérature. On constate qu’une hypothèse forte doit être faite : l’efficacité retrouvée dans les études passées doit se maintenir dans l’étude de non-infériorité. C’est ce que l’on dénomme constancy assumption. L’essai d’équivalence donnera ensuite directement l’effet du nouveau traitement par rapport à la référence et, par comparaison indirecte, l’effet du nouveau traitement par rapport au placebo. La valeur de la borne inférieure est alors la plus petite valeur acceptable pour l’intervalle de confiance de la différence d’effet entre le nouveau traitement et la référence qui assure que cet intervalle de confiance ne contienne pas 0 (le nouveau traitement ne serait alors pas supérieur au placebo). Cette démarche statistique est celle recommandée par l’EMA[4]. Une autre démarche, plus « factuelle », consiste à choisir une valeur de la borne inférieure égale à une fraction de la plus petite des bornes inférieures de la différence retrouvée dans les essais publiés estimant l’effet du traitement de référence versus placebo. Tout le problème consiste à décider jusqu’où la perte d’efficacité du nouveau médicament peut être acceptable pour accepter la pertinence d’une non-infériorité. Il s’agit d’un problème clinique extrêmement délicat (par exemple, doit-on préserver 50 à 75 %, ou encore plus de 75 % de l’effet du traitement de référence par rapport au placebo ?). Une valeur représentant la moitié de cette plus petite borne est le plus souvent choisie, parfois les deux tiers de manière à ne pas se retrouver dans la zone du placebo du traitement de la référence. C’est pour cette raison (un plus petit que celui des essais de supériorité) que les essais d’équivalence et de non-infériorité nécessitent des effectifs plus grands que les essais de supériorité. Il n’existe en tout cas aucun consensus sur le choix des bornes, dont la valeur doit être le fruit d’une réflexion entre cliniciens et statisticiens.   Comment montrer l’équivalence ou la non-infériorité ? Parmi les grandes approches différentes pour montrer l’équivalence ou la non-infériorité figure celle par intervalle de confiance (IDC), qui est la plus intuitive. Pour un essai d’équivalence, on conclut à l’équivalence si l’intervalle de confiance de la différence observée est intégralement inclus dans l’intervalle de confiance défini a priori (figure 1). Figure 1. Conclure à l’équivalence (d’après l’EMA). Pour un essai de non-infériorité, on conclut à la non-infériorité si la borne inférieure (ou supérieure) de l’intervalle de confiance de  observé ne dépasse pas la limite de non-infériorité établie a priori -(ou) définit a priori (figure 2). Figure 2. Conclure à la non infériorité (d’après l’EMA). Avec cette approche par intervalle de confiance, il n’y a donc pas de degré de significativité (pas de « petit p »). Pour le calcul de l’intervalle de confiance, il n’y a actuellement pas de consensus, il est indispensable de préciser quelle méthode de calcul a été choisie. Il faut noter que la méthode préconisée par le CPMP (Committee for Proprietary Medical Product de l’EMA) souffre d’une perte de puissance pénalisante pour les essais d’équivalence qui nécessitent un grand nombre de sujets. Mais cette approche est aussi plus conservatrice et permet au CHMP (Committee for Medicinal Products for Human Use) de dire que si la non-infériorité est prouvée, c’est dans les pires conditions (ce qui désavantage la comparaison au maximum).   Switch de la non-infériorité vers la supériorité   Définition Lorsque la non-infériorité d’un traitement a été démontrée, il peut être ensuite intéressant de regarder si le traitement est supérieur au traitement de référence. On parle alors de switch d’un essai de non-infériorité vers un essai de supériorité. Ce changement est envisageable uniquement lorsque que la borne inférieure de l’intervalle de confiance du nouveau traitement ne dépasse pas la valeur 0 (figure 3). Il faut alors calculer le degré de significativité du test de l’essai de supériorité et vérifier s’il est suffisamment petit pour rejeter l’hypothèse nulle d’égalité des deux traitements. Cette démonstration de supériorité est généralement suffisante sous réserve que le profil de sécurité de la nouvelle molécule et du comparateur soit comparable. Dans le cas contraire (hémorragies sous nouveaux anticoagulants par exemple), il est nécessaire d’estimer la taille de l’effet indésirable et de voir si le bénéfice apporté par la nouvelle molécule lui est supérieur. Dans la pratique, le switch se fait d’un essai de non-infériorité vers un essai de supériorité ou parfois dans l’autre sens (mais, dans ce cas, avec des précautions méthodologiques extrêmes et particulières car, dans le second cas, l’hypothèse de supériorité n’a pas été démontrée et l’industriel « se raccroche » à ce qu’il peut) ; les essais d’équivalence sont spécifiques et non concernés par ce changement. Dans les essais versus placebo, ce changement n’est pas effectué en pratique, même si l’information de non-infériorité par rapport au placebo peut être intéressante, notamment concernant les effets indésirables. Figure 3. De la non infériorité à la supériorité (d’après l’EMA). Précautions méthodologiques L’évolution d’un essai de non-infériorité vers un essai de supériorité est conditionnée par quelques précautions méthodologiques[6] : – la méthodologie de non-infériorité exigée doit être respectée scrupuleusement, notamment le fait que le traitement de référence doit avoir démontré toute son efficacité dans l’essai de non-infériorité ; – la puissance du test de supériorité doit être suffisante, les essais de non-infériorité ne posent généralement pas de problème dans ce cadre ; – l’efficacité supplémentaire apportée par le nouveau traitement doit être confrontée au bénéfice clinique apporté au patient en tenant compte de la balance bénéfice/risque ; comme dans tout essai de supériorité, la méthode d’analyse en ITT doit être utilisée ; – les degrés de significativité des tests de supériorité doivent être fournis pour vérifier la robustesse des résultats et en particulier le même risque alpha que celui utilisé dans le test de non-infériorité doit être utilisé.   Les limites du switch Il faut noter que ces précautions méthodologiques ont été établies dans l’hypothèse d’une étude n’ayant qu’une seule variable d’intérêt sur laquelle la non-infériorité ou la supériorité est jugée. La meilleure alternative reste cependant de prévoir, dès la conception de l’étude et la rédaction du protocole, qu’une étude de non-infériorité puisse évoluer par la suite (en fonction des résultats de non-infériorité) vers une étude de supériorité. Toutes les précautions décrites ci-dessus pourraient alors être intégrées dans le design et la méthodologie de l’essai[6].   En pratique   Lorsque l’efficacité d’un nouveau médicament ou méthode est évaluée contre placebo, il faut une analyse en intention de traiter de l’essai prospectif randomisé concerné. Lorsque l’efficacité d’un me-too (la nème statine, molécule antivirale, antihypertensive, etc.) est comparée à sa référence afin de lui être non inférieure, l’analyse se fait en per protocole. Si jamais la non-infériorité est prouvée et si cela est prévu à l’avance, il est alors possible d’analyser en intention de traiter si le nouveau traitement ou le me-too n’est pas supérieur à la référence.

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

Version PDF

Articles sur le même thème

  •  
  • 1 sur 46
publicité
publicité