Le problème de la reproductibilité (Steven Novella)

Traduit de « The Reproducibility Problem », publié par Steven Novella le 31/08/2015 sur son blog NeuroLogica.


Une récente et gigantesque étude tentant de répliquer 100 études publiées en psychologie a reçu beaucoup d’attention dernièrement, non sans raison. La couverture médiatique a été généralement bonne, à vrai dire – probablement parce que les résultats sont plutôt bancals. Beaucoup se sont empressés de mettre en avant que « la science n’est pas cassée » tandis que d’autres se demandaient « la science est-elle cassée? »

Alors qu’ils étaient nombreux à être surpris par les résultats de l’étude, les auteurs en premier, je n’étais personnellement pas surpris du tout. Les résultats vont dans le sens de ce que je raconte depuis des années sur ce blog et sur SBM [NdT: Science-Based Medicine, un blog auquel contribue Steven Novella] – nous devons prendre beaucoup plus au sérieux la réplication.

Voici les résultats de l’étude:

Nous avons tenté de répliquer 100 études expérimentales et corrélationnelles publiées dans trois journaux de psychologie en utilisant les designs et méthodologies originales lorsqu’elles étaient disponibles. Les effets dans nos réplications (Mr = 0.197, SD = 0.257) étaient deux fois moins grands que les effets originaux (Mr = 0.403, SD = 0.188), ce qui représentait une chute considérable. Nonante-sept1 pourcents des études originales avaient des résultats significatifs (p < 0.05). Trente-six pourcents des réplications avaient des résultats significatifs; 47% des tailles d’effets originaux étaient compris dans l’intervalle de confiance à 95% des tailles d’effets des réplications; 39% des effets ont été subjectivement notés comme ayant reproduit les résultats originaux; et, en supposant l’absence de biais dans les résultats originaux, la combinaison des résultats originaux et répliqués donnait 68% d’effets significatifs. Les tests de corrélation suggéraient que le succès réplicatif était mieux prédit par la force des effets originaux que par les caractéristiques des équipes originales et de réplication.

Déchiffrons un peu tout ça. Le résultat le plus important est que 97% des 100 études originales avaient des résultats significatifs, mais ce n’était le cas que pour 36% des réplications. Si on regarde la taille des effets plutôt qu’à la significativité, 47% des études originales ont pu être reproduites dans un intervalle de confiance à 95%. En combinant les deux, les auteurs concluent que 39% des études de réplications ont confirmé les résultats des études originales.

En utilisant un seuil de significativité statistique à p=0.05, on pourrait penser qu’il devrait y avoir 95% de chances que les résultats soient « vrais » et donc que la majorité des réplications auraient dû être positives également. Mais il s’agit là d’une mauvaise interprétation des p-values.

J’ai déjà discuté des nombreuses raisons pour lesquelles une étude unique, même avec un haut niveau de significativité statistique, pourrait ne pas être fiable. L’une d’entre elles est que les p-values elles-mêmes ne sont pas reproduites ne manière systématique. Cette vidéo, Dance of the p-values, illustre bien mon propos. Même en utilisant un programme informatique avec une taille d’effet fixe et en générant des données aléatoirement, les différentes p-values vont dans tous les sens. Les p-values n’ont jamais eu comme objectif d’être l’indication ultime que les résultats d’une expérience sont vrais – elles servent en réalité de première approximation pour savoir si des résultats sont intéressants à creuser ou non.

Donc même avec un design expérimental béton et une exécution sans failles, on ne s’attendrait pas à ce que 95% des études ayant une p-value de 0.05 soient reproduites. Et la plupart des études n’ont pas un design expérimental béton et une exécution sans failles. J’ai discuté auparavant des degrés de liberté de l’expérimentateur et du p-hacking. Il s’agit en gros de la pratique (qu’elle soit intentionnelle, innocente, ou à peine conscientisée – arrondir les angles en se disant que ce n’est pas bien grave) qui consiste à modifier légèrement la conduite d’une expérience après avoir vu les résultats, de sorte à dépasser le seuil magique de significativité statistique. Vous pourriez, par exemple, continuer à collecter des données jusqu’à ce que le résultat, qui se promène erratiquement, finisse par se retrouver de l’autre côté de cette ligne de significativité, puis arrêter l’expérience à ce moment et publier.

Les réplications exactes restreignent les degrés de liberté du chercheur, et donc la possibilité du p-hacking. Par conséquent, elles permettent de mettre au jour de nombreuses études qui sont en réalité des faux positifs. Une autre façon de réduire le nombre de degrés de liberté, que j’ai également discuté récemment, est d’enregistrer les études avant de les faire. Une récente analyse a montré que cette simple mesure avait réduit les études positives de 57% à 8%.

Cette nouvelle étude prône un autre remède contre l’apparente abondance de faux positifs dans la littérature scientifique – mettre plus d’emphase sur les réplications. Le Journal of Personality and Social Psychology, est connu pour avoir refusé de publier une réplication exacte de Richard Wiseman d’une des recherches de Bem sur la PES [NdT: Perception extra-sensorielle]. Le journal a simplement dit que c’était leur politique de publication de ne pas publier de réplications exactes.

La raison principale est que les réplications sont ennuyeuses, tandis que de nouveaux résultats excitants augmentent le prestige d’un journal et son facteur d’impact. Bien entendu, les résultats nouveaux et excitants ont plus de chances d’être faux, précisément parce qu’ils sont nouveaux et pour ce qui les rend excitants – le fait d’aller à contre-courant des intuitions ou résultats établis.

Un des aspects de cette étude souvent ignoré par les médias est l’impact des tailles d’effets. Les auteurs ont trouvé que les tailles d’effets dans les études répliquées étaient environ réduites de moitié par rapport aux études originales. C’est un phénomène bien connu sous le terme d’effet déclin – la tendance des tailles d’effets à diminuer lorsque de nouvelles recherches étudiant la même question sont publiées. Parfois ces effets déclinent jusqu’à zéro, parfois jusqu’à un résultat positif mais réduit.

Des chercheurs en PES, confrontés à leur propre effet déclin ont même été jusqu’à proposer que la PES est un phénomène qui a tendance à diminuer dans le temps lorsque les chercheurs l’étudient. C’est tout aussi absurde qu’inutile. Une explication beaucoup plus simple est que les chercheurs étudiant un sujet établissent des protocoles de mieux en mieux conçus, grâce à l’apprentissage des recherches précédentes. Et comme les designs expérimentaux et protocoles s’améliorent avec le temps, les biais des chercheurs sont réduits et les effets diminuent de taille.

Que faire désormais?

Chaque discipline scientifique possède sa propre culture, ses journaux et ses pratiques, et certaines sont plus rigoureuses que d’autres. Mais dans tous les cas, il est utile de réinsister sur l’importance de la réplication. Tout au long du processus de la recherche, la réplication doit être reconnue pour sa valeur scientifique et académique. Lorsque vous discutez avec des chercheurs, vous vous rendez compte qu’ils ont bien conscience de la valeur des réplications. C’est grâce à elles qu’on peut mieux savoir ce qui est vrai ou non. Mais les motivations sont entièrement déplacées vers les recherches nouvelles et excitantes, tandis que les récompenses pour des réplications exactes sont bien maigres.

Les éditeurs des journaux sont en grande partie responsables. Ils doivent se mettre à publier plus de réplications. Il doit probablement exister un bon équilibre entre les recherches nouvelles et exploratoires d’un côté et les recherches de réplication et de confirmation de l’autre. C’est comme chercher le bon mélange d’oxygène et de fuel dans le moteur. Si le mélange n’est pas dans les bonnes proportions, le moteur ne tourne pas de manière optimale.

Tous ces problèmes de la science, vue comme une activité humaine collective, ne signifient pas que la science est cassée. Cela signifie qu’elle n’est pas la plus efficace possible. Avec le temps et la patience, des réplications sont faites et les connaissances s’améliorent. Seuls les effets réels passeront avec succès le test du temps. Mais je ne pense pas que nous ayons aujourd’hui le bon mélange. De mauvaises motivations ont poussé le système trop loin dans la direction des recherches exploratoires, avec par conséquent un tas de faux positifs publiés et un déficit de réplications pour nous aider à trier le bon grain de l’ivraie.

Le problème est connu, et sa solution aussi.

Conclusion

Cette étude a aussi des implications pour le citoyen qui souhaiterait s’informer sur la façon d’évaluer les études et connaissances scientifiques. La question à se poser est: quels résultats scientifiques sont probants et où placer le seuil pour accepter qu’une affirmation est probablement vraie?

D’après mon expérience, il semble que beaucoup de personnes croient que si une étude unique montre quelque chose, alors les résultats peuvent être tenus pour vrais – surtout s’ils confirment leurs a priori. On essaie souvent de me contredire à coups d’études uniques lorsque je défends une position contraire.

J’ai déjà précisé quels types de preuves je trouve convaincantes. Les preuves scientifiques sont convaincantes lorsqu’elles partagent simultanément les caractéristiques suivantes:

  1. Un design d’étude rigoureux
  2. Des résultats statistiquement significatifs
  3. Des effets dont la taille est substantiellement distincte du bruit
  4. Des réplications indépendantes

Beaucoup se focalisent sur le critère 2 – si les résultats sont significatifs, alors le phénomène est réel. Mais ce critère est sans doute le moins important des quatre. L’étude discutée ici montre que les tailles d’effets sont un meilleur prédicteur de reproduction que la significativité statistique.

Par exemple, je ne suis pas convaincu de la réalité des PES, de l’homéopathie, l’acupuncture ou l’astrologie parce que vous ne voyez jamais dans ces domaines un effet spécifique qui soit significatif, de grande taille, avec un design rigoureux et qui soit fidèlement reproduit par des réplications indépendantes. Soit les effets sont minimes, ou bien le design suit une méthodologie bancale, ou encore il s’agit d’une étude unique qui n’a pas pu être reproduite.

Et tout ceci ne concerne encore que les données mêmes des recherches. Il faudrait tenir compte également de la plausibilité scientifique des résultats. Il faut toujours se poser ces questions, certes subjectives: à quel point les résultats doivent-ils être significatifs? Quelle taille devraient avoir les effets? Combien de fois devraient-ils être répliqués? Les réponses à ces questions dépendent largement de la plausibilité de l’effet allégué. Le seuil pour l’homéopathie est par exemple très haut, parce que la  plausibilité est proche de zéro. (Et pour être franc, les preuves en faveur de l’homéopathie ne franchissent même pas le seuil minimal pour un effet hautement plausible.)

Ces critères sont à garder en tête la prochaine fois qu’une nouvelle étude est partagée sur les réseaux sociaux. Passez d’abord l’étude à travers le filtre de ces critères.


1 J’ai beaucoup hésité entre la version belge et la version française de 97 en toutes lettres. Il va sans dire que la version française est bien plus répandue; mais il m’apparait tout aussi évident que la version belge est beaucoup plus logique que cet étrange assortiment qu’est 4-20-10-7. Étant moi-même belge, j’ai finalement opté pour écrire dans la langue que je parle, n’en déplaise aux français de France :-).


Laisser un commentaire