Le problème de la reproductibilité (Steven Novella)

Traduit de « The Reproducibility Problem », publié par Steven Novella le 31/08/2015 sur son blog NeuroLogica.


Une récente et gigantesque étude tentant de répliquer 100 études publiées en psychologie a reçu beaucoup d’attention dernièrement, non sans raison. La couverture médiatique a été généralement bonne, à vrai dire – probablement parce que les résultats sont plutôt bancals. Beaucoup se sont empressés de mettre en avant que « la science n’est pas cassée » tandis que d’autres se demandaient « la science est-elle cassée? »

Alors qu’ils étaient nombreux à être surpris par les résultats de l’étude, les auteurs en premier, je n’étais personnellement pas surpris du tout. Les résultats vont dans le sens de ce que je raconte depuis des années sur ce blog et sur SBM [NdT: Science-Based Medicine, un blog auquel contribue Steven Novella] – nous devons prendre beaucoup plus au sérieux la réplication.

Voici les résultats de l’étude: Lire la suite

Publicités

La méthode scientifique: erreurs statistiques (Regina Nuzzo)

Dans la catégorie des critiques sur la recherche scientifique, la méthodologie, le processus de publication… voici un article de Regina Nuzzo, chargée de cours en statistiques à l’Université Gallaudet de Washington DC, qui traite de l’utilisation abusive des p-values.

Article original: « Scientific method: Statistical errors » publié le 12 février 2014 sur Nature.


DALE EDWIN MURRAY

DALE EDWIN MURRAY

Pendant un bref instant en 2010, Matt Motyl était à deux doigts d’une gloire scientifique: il avait découvert que les extrémistes voient littéralement le monde en noir et blanc.

Les résultats étaient clairs comme de l’eau de roche, se rappelle Motyl, un thésard en psychologie à l’Université de Virginia à Charlottesville. Les données d’une étude portant sur près de 2000 personnes montraient que les personnes politiquement modérées voyaient les nuances de gris avec plus d’acuité que les extrémistes de gauche ou de droite. « L’hypothèse était sexy, dit-il, et les données la soutenaient clairement. » La p-value, une valeur courante pour représenter la robustesse d’un résultat, était de 0.01 – habituellement interprété comme un résultat très significatif. La publication dans un journal à haut impact était à portée de main pour Motyl.

Puis intervint la réalité. Lire la suite

Des vérités individuelles (NY Times)

La recherche scientifique est une des plus nobles et passionnantes activités humaines. Mais les hommes de science sont des hommes avant tout, et, malgré des succès indéniables – et impensables dans n’importe quelle autre activité –, la recherche souffre aussi de problèmes internes.

Il y a quelques temps, le sujet du biais de publication avait déjà été abordé sur ce blog, avec une proposition d’un chercheur pour changer le processus de publication afin de réduire ce biais. Aujourd’hui, on s’interroge sur le problème des recherches non reproductibles, ou non réplicables, avec un article de George Johnson, publié dans la section Science du New York Times le 20 janvier 2014 et sous le titre « New Truths That Only One Can See« .


Carl WiensDepuis 1955, le Journal of Irreproducible Results [Journal des résultats non reproductibles] nous a offert « des caricatures, des parodies, des fantaisies, du burlesque, du ridicule, des satires » à propos de la vie au laboratoire. Parmi ses plus grands titres: « Oscillations acoustiques dans la gelée, avec et sans fruit, soumise à divers niveaux de stress » et « Utiliser des boucles infinies pour calculer une valeur approximative de l’infini. » Ces plaisanteries bon enfant sont une célébration détournée de la science. Ce qui se déroule réellement au laboratoire est d’une nature plus noble et plus sérieuse.

Ce fut déconcertant d’apprendre, ces dernières années, Lire la suite

Un nouveau genre de peer-review? (Neuroskeptic)

Article original: « A New Kind of Peer Review?« , publié le 13 juillet 2013 par Neuroskeptic.

La critique des pseudosciences, des médecines alternatives, du journalisme approximatif, c’est bien, mais il faut parfois aussi balayer devant sa propre porte et critiquer la science elle-même. Ou plutôt le processus de la recherche scientifique. Pour ceux qui ne connaissent pas beaucoup le domaine, le processus en question est centré sur la publication scientifique. Les scientifiques font des recherches, écrivent un article qui décrit la recherche qu’ils ont faite, puis soumettent leur article à un journal scientifique en espérant qu’il soit accepté pour publication. L’article suit presque toujours la même structure:

  • une introduction: elle sert souvent à placer le contexte de la recherche et à faire l’état de la littérature existante sur le sujet
  • « Materials and methods »: un chapitre consacré à la description de la méthodologie, des appareils et programmes informatiques utilisés, des statistiques calculées… avec suffisamment de détails pour permettre non seulement à d’autres scientifiques d’éventuellement tenter une réplication de l’expérience, mais plus fondamentalement pour que l’expérience puisse être critiquable.
  • « Results »: qui présente les résultats bruts
  • « Discussion »/ »Conclusion »: un chapitre qui permet de commenter les résultats trouvés, les limites de la méthode employée, des pistes à explorer ensuite, etc.
  • (N’oublions pas l’abstract, placé en tout début de l’article, et qui en contient un résumé bien condensé)

Une fois l’article reçu par l’éditeur, celui-ci va le transmettre à quelques experts dans le domaine, lesquels vont faire des commentaires qui vont servir à l’éditeur pour prendre une décision: refuser l’article, demander aux auteurs de faire quelques modifications et de soumettre à nouveau, ou directement accepter l’article tel quel. Ceci n’est vrai que pour les journaux dits à « peer-review » (littéralement: revue par les pairs); il existe des journaux qui ne font pas de peer-review et publient directement l’article sans poser plus de questions, mais les scientifiques évitent de soumettre leur article dans ce genre de journaux parce qu’ils sont de moins bonne qualité scientifique. Le processus du peer-review existe pour garantir une meilleure crédibilité et une meilleure qualité aux publications qui forment les briques du savoir scientifique.

Aussi bien ficelé que puisse paraître le processus du peer-review, il n’est pas infaillible (voir l’étude OGM de Séralini, sur laquelle j’ai fait un post et ce ne sera probablement pas le dernier). Un problème récurrent, qui n’est pas uniquement propre au peer-review, est le biais de publication: les résultats positifs ont plus souvent tendance à être publiés que les résultats négatifs. C’est un problème bien connu mais qui a pourtant du mal à être éradiqué. C’est aussi un problème d’une importance critique en sciences: les résultats négatifs sont au moins aussi importants que les résultats positifs. Ils le sont peut-être même plus! Si on se range à l’avis de Karl Popper et de son critère de réfutabilité pour définir ce qui est de la science et ce qui n’en est pas, un résultat négatif est fondamental. L’idée de ce critère de réfutabilité vient d’un problème plus fondamental encore en épistémologie et qui concerne la non-validité de l’induction. Pour reprendre un exemple souvent utilisé: on ne peut pas pas dire avec une certitude absolue que tous les corbeaux sont noirs, même si tous ceux qu’on a pu voir jusqu’à présent sont effectivement noirs; il suffit de trouver un seul corbeau blanc pour réfuter cette affirmation. Il est donc difficile, peut-être même impossible, de prouver que quelque chose est vrai, mais il est bien plus facile de prouver que quelque chose est faux. Une proposition qui se veut scientifique doit être formulée de façon à pouvoir être réfutée, c’est-à-dire qu’on doit pouvoir trouver un moyen, ne fut-ce qu’en principe, de prouver qu’elle est fausse; si ce n’est pas le cas, on n’est pas dans le domaine de la scienceA. Formuler les questions de sorte qu’elles puissent être réfutées, parce qu’on peut « prouver faux » mais pas « prouver vrai », c’est ça le critère de réfutabilité, et son importance explique en quoi un résultat négatif ne devrait jamais être ignoré en sciences.

Pourtant, les résultats négatifs sont beaucoup trop souvent ignorés, c’est ce fameux biais de publication. Les raisons de son existence sont multiples et trop complexes pour que je puisse en parler dans ce post. Par contre, on peut imaginer de nouveaux processus de recherche, des améliorations au système du peer-review, qui permettraient de diminuer ce biais, et c’est le sujet de cette traduction de l’article de Neuroskeptic, ci-dessous.

__________________________________________________

Dans une publication du Journal of Clinical Epidemiology, Dr Yvo Smulders des Pays-Bas fait une proposition: A two-step manuscript submission process can reduce publication bias1

L’idée de Smulders est que les manuscrits scientifiques devraient être soumis au peer-review en omettant les résultats et la discussion. Les reviewers2 donneraient leur avis uniquement sur base de la robustesse de la méthode et de l’introduction. S’ils sont en faveur de la publication, les auteurs enverraient alors l’article complet.

Les reviewers auraient alors l’occasion de changer d’avis et de le rejeter, ou bien de demander de faire des expériences supplémentaires, mais les critères pour pouvoir le faire devraient être très stricts.

Ainsi, la portée du biais de publication par les reviewers, leur tendance à favoriser les résultats « positifs », serait réduite. Les reviewers devraient prendre une décision sur base du protocole même de l’expérience, peu importe que les résultats s’avèrent positifs ou non. D’après Smulders, cela allégerait aussi le travail des reviewers par rapport à la quantité de papiers qu’ils doivent digérer.

C’est un concept intelligent (et comme le souligne Smulders, il n’est pas neuf; il date des années ’70 mais n’a jamais décollé.)

La proposition me rappelle le modèle de préenregistrement avec peer-review que j’ai prôné. La différence dans ce dernier, c’est que les auteurs soumettent l’introduction et les méthodes avant de poursuivre les expériences, tandis que dans la soumission en deux étapes, les résultats sont déjà là, mais révélés plus tard dans le processus.

Trois systèmes de peer-review comparés

La différence, contrairement au préenregistrement, c’est que le peer-review en 2 étapes n’empêcherait pas le biais de publication (ou d’autres pratiques douteuses) de la part de l’auteur. Le deux-étapes permettrait cependant de diminuer la tendance d’un tel biais – pourquoi se donner tant de mal à obtenir des résultats positifs si on sait que notre recherche serait publiée dans un bon journal tant que la méthodologie est solide?

Cette proposition serait certainement un pas dans la bonne direction, et pourrait même servir de pierre d’achoppement pour le système de préenregistrement.

__________________________________________________

A C’est d’ailleurs ce qui a permis à Popper de classer la psychanalyse dans les non-sciences: aucune critique ne permet de réfuter les hypothèses psychanalytiques, elles sont mêmes considérées comme des résistances à la psychanalyse et donc comme des preuves de sa vérité!

1 « Un processus de soumission de manuscrit en deux étapes peut réduire le biais de publication »

2 Au lieu de « relecteur », je garde le terme anglais « reviewer » qui est de toute façon plus souvent utilisé, même dans la recherche francophone.

L’expérience des écolières danoises avec des routeurs WiFi et du cresson, un bon exemple de mauvaise science (Pepijn van Erp)

EDIT 25/05/2014: Jean-Michel Abrassart, du blog Scepticisme Scientifique, m’a proposé d’inclure une section Sceptom pour ses podcasts, ce que j’ai accepté avec plaisir. Le premier épisode de cette nouvelle série traite de cet article et est disponible ici: Épisode #241: Wifi et cresson.


 

Pepijn van Erp est un mathématicien néerlandais et membre de la fondation sceptique néerlandais Skepsis. Il écrit principalement en néerlandais mais il traduit en anglais les articles qu’il estime les plus intéressants, dans un blog qui s’appelle, tout simplement, Pepijn van Erp. Son blog est moins actif que les deux blogs dont j’ai traduit des articles pour mes premiers posts, Science-Based Medicine et Edzard Ernst, mais une moyenne de 2 posts par mois, c’est tout à fait respectable.

De son blog, j’ai choisi en premier un article qui m’avait particulièrement plu et qui répondait à un sujet qui avait fait un petit buzz il y a quelques mois: une expérience d’école qui « prouvait » la nocivité des ondes WiFi. Étant donné le climat particulièrement anxiogène qui existe actuellement à propos du WiFi et à peu près de toute technologie peu comprise, mal comprise, ou pas comprise du tout, et vu que peu de médias traditionnels sont apparemment capables de faire autre chose que les perroquets, ce genre d’articles est particulièrement nécessaire et, à mon avis, il n’y en a pas assez. D’où une traduction pour les lecteurs francophones. J’en profite tout de même pour mentionner un autre article francophone sceptique sur le sujet, sur l’excellent blog de Nima Yeganefar, Sham and Science.

L’article original a été publié le 25 mai 2013 sous le titre « Danish School Experiment with WiFi Routers and Garden Cress, Good Example of Bad Science« .

____________________

L’histoire des cinq écolières danoises qui ont gagné un prix grâce à leur expérience montrant prétendument que le rayonnement électromagnétique des routeurs WiFi a un effet négatif sur la germination du cresson, a été rapportée par de nombreux sites internet. Jetez juste un œil au nombre de résultats Google en cherchant « wifi cress« 1. Les filles ont placé devant une fenêtre 12 assiettes contenant des graines de cresson posées dans du coton, les ont arrosées d’eau régulièrement et ont observé la germination des graines. Des routeurs WiFi ont été placés à proximité de 6 des assiettes. Après 13 jours, le cresson a été coupé et séché, et les graines ayant germé ont été comptées.  Une grande différence a été trouvée. Les graines soumises aux rayonnements ont beaucoup moins germé. Une preuve des effets négatifs du WiFi? Pas vraiment.

L’expérience a d’abord été publiée sur un site web danois (traduction Google2) et puis récupérée par Geek.com et ABC News notamment. Des comptes-rendus pas très critiques. Le journaliste scientifique norvégien Gunnar Tjomlid a bien étudié le design de l’étude et le rapport. Il a relevé beaucoup de choses à remettre en question. Je vous suggère de lire son excellent blog (avec traduction Google si vous ne lisez pas le norvégien3). Je vais simplement mentionner les choses les plus importantes:

  • Le groupe WiFi et le groupe contrôle n’étaient pas différents uniquement à cause de la présence des routeurs. Sur les images dans le rapport, on peut voir que les PC portables dans le groupe WiFi étaient eux aussi positionnés à proximité des assiettes. Il est fort probable qu’il y ait eu un effet sur le flux d’air et sa température autour des assiettes et par conséquent sur la germination, ce qui n’a rien à voir avec les présence des champs EM. Pas correctement contrôlé.
  • Il était évident quel était le groupe WiFi et quel était le groupe contrôle. Non aveuglé.
  • D’après un contact avec la prof de sciences des filles, Tjomlid a appris qu’il y avait eu deux expériences. Dans la première, les routeurs émettaient uniquement leur SSID. La deuxième expérience, dans laquelle les portables se « pingaient » constamment, ne montrait aucune différence important dans la germination. Seule la première expérience a été utilisée dans le rapport (c’est un point pas tout à fait clair, en raison d’informations contradictoires données par l’enseignante). Biais de publication: ne pas rapporter les résultats négatifs.

    Ce graphe est une bien meilleure représentation des résultats, mais pas aussi "sexy" que les photos du cresson.

    Ce graphe est une bien meilleure représentation des résultats, mais pas aussi « sexy » que les photos du cresson.

  • Les articles retrouvés dans les blogs illustraient la différence en germination par des photos des assiettes de cresson, l’une montrant du cresson mature, non irradié, « sain », et l’autre du cresson irradié, « malade ». Si vous regardez les résultats complets dans le rapport, ils ne paraissent pas si choquants: en moyenne le groupe contrôle avait 332 graines germées contre 252 dans le groupe WiFi. Représentation trompeuse des résultats dans la presse.
  • (non relevé par Tjomlid). Les assiettes d’un groupe n’étaient pas spatialement séparées, donc on ne peut considérer des assiettes individuelles comme des observations indépendantes. En fait, on pourrait estimer qu’il s’agit d’une expérience à N=2. Analyse statistique erronée.
  • Les filles ont arrêté l’expérience au jour 13. Pas parce qu’il s’agissait d’un moment prédéfini, mais parce que c’est le moment où le cresson du groupe contrôle avait atteint sa hauteur maximale. Le problème, c’est qu’avec une différence de température de seulement quelques degrés, le cresson peut mettre quelques jours supplémentaires à atteindre la même hauteur. S’il y avait donc une différence de température à cause de l’emplacement des PC portables, ou pourrait s’attendre à ce que le groupe WiFi ait poussé de façon similaire au groupe contrôle si on l’avait laissé quelques jours de plus. Elles cherchaient à obtenir le résultat qu’elles attendaient. Biaisées envers un résultat particulier.
  • Donc comment ces jeunes filles ont-elles accumulé autant de biais? Eh bien, on ne leur avait fourni que de la littérature pointant vers des études qui montraient des effets nocifs, menées par des chercheurs discrédités par des scientifiques sérieux. Et pour un potentiel mécanisme de fonctionnement (dangereux) des champs EM, elles se sont basées sur un unique rapport écrit par Thomas Grønborg, qui lui-même s’est basé sur Olle Johansson (voir plus loin). Choix partial des sources.
D'après le site danois: "Des chercheurs de Grande-Bretagne, des Pays-Bas et de la Suède ont montré beaucoup d'intérêt dans l'expérience de biologie des cinq filles."

D’après le site danois: « Des chercheurs de Grande-Bretagne, des Pays-Bas et de la Suède ont montré beaucoup d’intérêt dans l’expérience de biologie des cinq filles. »

Qui sont donc ces scientifiques si enthousiastes par rapport à cette mauvaise expérience? L’article sur le site danois mentionne Olle Johansson, qui a reçu le prix « Trompeur de l’année » des sceptiques suédois en 2004. Il est bien connu pour ses idées sans fondement sur les effets nocifs des rayonnements. Il est dit dans l’article danois qu’il compte répliquer l’expérience des filles en collaboration avec la chercheuse senior Marie-Claire Cammaerts de l’Université Libre de Bruxelles4. On ne devrait s’attendre à rien de bon de cette réplication car, comme je l’ai montré dans le blog il y a quelques temps, on ne peut probablement pas faire beaucoup confiance à Cammaerts pour ce genre d’expériences (voir: Des fourmis capables de miracles statistiques sous rayonnement de GSM?5)
Tjomlid mentionne aussi Andrew Goldsworthy, un autre alarmiste bien connu, et le néerlandais Niek van ‘t Wout, qui est le responsable de l’espace vert d’une ville néerlandaise et l’instigateur de recherches sur les effets potentiellement nuisibles du WiFi sur les arbres (il n’est donc pas scientifique lui-même). Après une expérience pas très concluante, l’université de Wageningen a repris la suite, dont on n’a plus entendu parler.

Il est assez clair qu’on ne peut tirer de cette expérience aucune conclusion sur les effets non thermiques des routeurs WiFi sur la germination. C’est dommage que les filles aient eu comme superviseur une enseignante manifestement biaisée et que leur travail est maintenant récupéré par des pseudo-scientifiques comme « preuve » que les champs EM sont très dangereux, alors que le consensus est que, si risques il y a, ils sont extrêmement faibles. On peut difficilement blâmer les filles pour les erreurs commises et on espère que cette expérience n’entachera pas leur intérêt pour la recherche. Ce peut même être un excellent apprentissage, pour autant qu’elles veuillent bien regarder à ce qui n’allait pas, parce qu’il y avait trop de mauvaise science.

N’oubliez pas de lire le blog de Gunnar Tjomlid, il contient bien plus de choses intéressantes que mon résumé: http://blogs.wsj.com/numbersguy/trees-and-wi-fi-may-co-exist-after-all-1018/

____________________

1 J’ai fait aussi une recherche « wifi cresson » sur google.be

2 Et la Google traduction en français ici. (Il va de soi que si je lisais le danois, je vous aurais fourni une traduction de meilleure qualité.)

3 Et la traduction Google française ici.

4 C’est là d’où je viens, donc je peux pas m’empêcher de faire une spéciale dédicace à mes amis ulbistes. La mention de l’ULB n’est pas tout à fait reluisante dans ce contexte, mais tant pis.

5 Il est probable que je traduise celui-ci un autre jour.

____________________

Re-joyeux Noël!