Des vérités individuelles (NY Times)

La recherche scientifique est une des plus nobles et passionnantes activités humaines. Mais les hommes de science sont des hommes avant tout, et, malgré des succès indéniables – et impensables dans n’importe quelle autre activité –, la recherche souffre aussi de problèmes internes.

Il y a quelques temps, le sujet du biais de publication avait déjà été abordé sur ce blog, avec une proposition d’un chercheur pour changer le processus de publication afin de réduire ce biais. Aujourd’hui, on s’interroge sur le problème des recherches non reproductibles, ou non réplicables, avec un article de George Johnson, publié dans la section Science du New York Times le 20 janvier 2014 et sous le titre « New Truths That Only One Can See« .


Carl WiensDepuis 1955, le Journal of Irreproducible Results [Journal des résultats non reproductibles] nous a offert « des caricatures, des parodies, des fantaisies, du burlesque, du ridicule, des satires » à propos de la vie au laboratoire. Parmi ses plus grands titres: « Oscillations acoustiques dans la gelée, avec et sans fruit, soumise à divers niveaux de stress » et « Utiliser des boucles infinies pour calculer une valeur approximative de l’infini. » Ces plaisanteries bon enfant sont une célébration détournée de la science. Ce qui se déroule réellement au laboratoire est d’une nature plus noble et plus sérieuse.

Ce fut déconcertant d’apprendre, ces dernières années, Lire la suite

Dictionnaire sceptique: Le biais d’optimisme

Les sceptiques du Québec ont entrepris depuis quelques années un gros travail de traduction du Dictionnaire Sceptique de Robert Caroll. J’avais déjà traduit 3 articles de Robert Caroll qui ne faisaient pas exactement partie du dictionnaire mais étaient plutôt des mini-cours d’esprit critique. Le premier faisait une introduction générale aux concepts d’induction et déduction, le second parlait du concept de validité et le troisième de la tâche de sélection de Wason.

La semaine passée, j’ai fait ma première contribution pour le dictionnaire sceptique des sceptiques du québec avec un petit article sur le biais d’optimisme. Il a en plus bénéficié d’une relecture très attentive d’une communauté de traducteurs et autres blogueurs sur le forum des sceptiques du québec (merci à eux!), et gagne ainsi en qualité. N’hésitez pas à aller le lire ainsi que les autres entrées du dico. C’est un travail de longue haleine mais extrêmement intéressant. Je me suis d’ailleurs déjà lancé dans une prochaine traduction, j’en ferai également part sur mon blog quand elle sera terminée.

EDIT: j’ai oublié de préciser une information capitale: ma contribution au dictionnaire sceptique était la 666e définition du dico!

Ce que les médecins ne savent pas à propos des médicaments qu’ils prescrivent

Jean-Michel Abrassart a partagé sur sa page Scepticisme Scientifique une vidéo d’une conférence TED qui date de 2010. Je l’avais déjà vue à l’époque mais je l’ai revisionnée avec plaisir car le conférencier, Ben Goldacre, y explique extrêmement bien le problème du biais de publication. J’avais déjà parlé un peu de ce problème dans un post précédent, dans lequel Neuroskeptic parle d’une possible solution, mais sans avoir pris la peine de montrer l’ampleur du problème. Cette vidéo TED le fait pour moi, et avec des sous-titres en français en plus! Je vous la conseille vivement.

What doctors don’t know about the drugs they prescribe

Un nouveau genre de peer-review? (Neuroskeptic)

Article original: « A New Kind of Peer Review?« , publié le 13 juillet 2013 par Neuroskeptic.

La critique des pseudosciences, des médecines alternatives, du journalisme approximatif, c’est bien, mais il faut parfois aussi balayer devant sa propre porte et critiquer la science elle-même. Ou plutôt le processus de la recherche scientifique. Pour ceux qui ne connaissent pas beaucoup le domaine, le processus en question est centré sur la publication scientifique. Les scientifiques font des recherches, écrivent un article qui décrit la recherche qu’ils ont faite, puis soumettent leur article à un journal scientifique en espérant qu’il soit accepté pour publication. L’article suit presque toujours la même structure:

  • une introduction: elle sert souvent à placer le contexte de la recherche et à faire l’état de la littérature existante sur le sujet
  • « Materials and methods »: un chapitre consacré à la description de la méthodologie, des appareils et programmes informatiques utilisés, des statistiques calculées… avec suffisamment de détails pour permettre non seulement à d’autres scientifiques d’éventuellement tenter une réplication de l’expérience, mais plus fondamentalement pour que l’expérience puisse être critiquable.
  • « Results »: qui présente les résultats bruts
  • « Discussion »/ »Conclusion »: un chapitre qui permet de commenter les résultats trouvés, les limites de la méthode employée, des pistes à explorer ensuite, etc.
  • (N’oublions pas l’abstract, placé en tout début de l’article, et qui en contient un résumé bien condensé)

Une fois l’article reçu par l’éditeur, celui-ci va le transmettre à quelques experts dans le domaine, lesquels vont faire des commentaires qui vont servir à l’éditeur pour prendre une décision: refuser l’article, demander aux auteurs de faire quelques modifications et de soumettre à nouveau, ou directement accepter l’article tel quel. Ceci n’est vrai que pour les journaux dits à « peer-review » (littéralement: revue par les pairs); il existe des journaux qui ne font pas de peer-review et publient directement l’article sans poser plus de questions, mais les scientifiques évitent de soumettre leur article dans ce genre de journaux parce qu’ils sont de moins bonne qualité scientifique. Le processus du peer-review existe pour garantir une meilleure crédibilité et une meilleure qualité aux publications qui forment les briques du savoir scientifique.

Aussi bien ficelé que puisse paraître le processus du peer-review, il n’est pas infaillible (voir l’étude OGM de Séralini, sur laquelle j’ai fait un post et ce ne sera probablement pas le dernier). Un problème récurrent, qui n’est pas uniquement propre au peer-review, est le biais de publication: les résultats positifs ont plus souvent tendance à être publiés que les résultats négatifs. C’est un problème bien connu mais qui a pourtant du mal à être éradiqué. C’est aussi un problème d’une importance critique en sciences: les résultats négatifs sont au moins aussi importants que les résultats positifs. Ils le sont peut-être même plus! Si on se range à l’avis de Karl Popper et de son critère de réfutabilité pour définir ce qui est de la science et ce qui n’en est pas, un résultat négatif est fondamental. L’idée de ce critère de réfutabilité vient d’un problème plus fondamental encore en épistémologie et qui concerne la non-validité de l’induction. Pour reprendre un exemple souvent utilisé: on ne peut pas pas dire avec une certitude absolue que tous les corbeaux sont noirs, même si tous ceux qu’on a pu voir jusqu’à présent sont effectivement noirs; il suffit de trouver un seul corbeau blanc pour réfuter cette affirmation. Il est donc difficile, peut-être même impossible, de prouver que quelque chose est vrai, mais il est bien plus facile de prouver que quelque chose est faux. Une proposition qui se veut scientifique doit être formulée de façon à pouvoir être réfutée, c’est-à-dire qu’on doit pouvoir trouver un moyen, ne fut-ce qu’en principe, de prouver qu’elle est fausse; si ce n’est pas le cas, on n’est pas dans le domaine de la scienceA. Formuler les questions de sorte qu’elles puissent être réfutées, parce qu’on peut « prouver faux » mais pas « prouver vrai », c’est ça le critère de réfutabilité, et son importance explique en quoi un résultat négatif ne devrait jamais être ignoré en sciences.

Pourtant, les résultats négatifs sont beaucoup trop souvent ignorés, c’est ce fameux biais de publication. Les raisons de son existence sont multiples et trop complexes pour que je puisse en parler dans ce post. Par contre, on peut imaginer de nouveaux processus de recherche, des améliorations au système du peer-review, qui permettraient de diminuer ce biais, et c’est le sujet de cette traduction de l’article de Neuroskeptic, ci-dessous.

__________________________________________________

Dans une publication du Journal of Clinical Epidemiology, Dr Yvo Smulders des Pays-Bas fait une proposition: A two-step manuscript submission process can reduce publication bias1

L’idée de Smulders est que les manuscrits scientifiques devraient être soumis au peer-review en omettant les résultats et la discussion. Les reviewers2 donneraient leur avis uniquement sur base de la robustesse de la méthode et de l’introduction. S’ils sont en faveur de la publication, les auteurs enverraient alors l’article complet.

Les reviewers auraient alors l’occasion de changer d’avis et de le rejeter, ou bien de demander de faire des expériences supplémentaires, mais les critères pour pouvoir le faire devraient être très stricts.

Ainsi, la portée du biais de publication par les reviewers, leur tendance à favoriser les résultats « positifs », serait réduite. Les reviewers devraient prendre une décision sur base du protocole même de l’expérience, peu importe que les résultats s’avèrent positifs ou non. D’après Smulders, cela allégerait aussi le travail des reviewers par rapport à la quantité de papiers qu’ils doivent digérer.

C’est un concept intelligent (et comme le souligne Smulders, il n’est pas neuf; il date des années ’70 mais n’a jamais décollé.)

La proposition me rappelle le modèle de préenregistrement avec peer-review que j’ai prôné. La différence dans ce dernier, c’est que les auteurs soumettent l’introduction et les méthodes avant de poursuivre les expériences, tandis que dans la soumission en deux étapes, les résultats sont déjà là, mais révélés plus tard dans le processus.

Trois systèmes de peer-review comparés

La différence, contrairement au préenregistrement, c’est que le peer-review en 2 étapes n’empêcherait pas le biais de publication (ou d’autres pratiques douteuses) de la part de l’auteur. Le deux-étapes permettrait cependant de diminuer la tendance d’un tel biais – pourquoi se donner tant de mal à obtenir des résultats positifs si on sait que notre recherche serait publiée dans un bon journal tant que la méthodologie est solide?

Cette proposition serait certainement un pas dans la bonne direction, et pourrait même servir de pierre d’achoppement pour le système de préenregistrement.

__________________________________________________

A C’est d’ailleurs ce qui a permis à Popper de classer la psychanalyse dans les non-sciences: aucune critique ne permet de réfuter les hypothèses psychanalytiques, elles sont mêmes considérées comme des résistances à la psychanalyse et donc comme des preuves de sa vérité!

1 « Un processus de soumission de manuscrit en deux étapes peut réduire le biais de publication »

2 Au lieu de « relecteur », je garde le terme anglais « reviewer » qui est de toute façon plus souvent utilisé, même dans la recherche francophone.

Pourquoi je pense que l’étude OGM de Séralini est bidon (Andrew Kniss)

Dans un blog à propos de scepticisme, et expressément francophone, il était difficile de ne pas parler de l’étude de Gilles-Éric Séralini sur un OGM et son effet sur des rats et qui a fait un fameux buzz en 2012. L’article a fait la joie des anti-OGM, tandis qu’il était descendu en flèche par les nombreuses critiques scientifiques. On en a reparlé il n’y a pas très longtemps suite à l’annonce du journal Food and Chemical Toxicology dans lequel était publié l’article de Séralini. En phase avec les critiques mais avec un peu de retard, le journal a finalement décidé de retirer l’article. C’est donc l’occasion d’aller chercher l’un ou l’autre article sur le sujet et de vous fournir une belle petite traduction.
J’ai choisi en premier lieu (il y aura probablement au moins un autre article sur le sujet) de traduire un article d’Andrew Kniss de WeedControlFreaks.com, qui se focalise sur un point particulier de l’article de Séralini, les statistiques. Le titre original est Why I think the Seralini GM feeding trial is bogus, posté le 19 septembre 2012.

__________________________________________________

Si vous suivez les news à propos de l’étude française sur l’alimentation au maïs OGM, vous êtes probablement au courant que: (A) il faut immédiatement retirer toute culture OGM du marché; ou (B) l’étude comporte des défauts et ne vaut pratiquement rien. Je pense que je penche plutôt vers la seconde option. Je vous livre ici la raison pour laquelle je pense que la récente étude sur le maïs OGM de Séralini (Seralini et al. 2012. Food and Chemical Toxicology) est bidon. Par souci d’honnêteté, je précise que je ne suis pas expert en recherches sur l’alimentation des animaux. Mais je m’y connais un peu en statistiques et probabilités (la plupart du temps, juste assez pour créer des problèmes). J’invite toute personne qui voit des erreurs dans ma logique à me le faire savoir, que ce soit au niveau de la science animale, de la toxicologie ou des statistiques.

Dans la toute première phrase de l’introduction, les auteurs disent qu' »il y a actuellement un débat international sur la durée nécessaire des études de toxicité chez les mammifères en relation à la consommation de plantes génétiquement modifiées (GM), y compris concernant les analyses métaboliques standard (Séralini et al., 2011). » Je trouve intéressant que Seralini se cite lui-même pour argumenter ce point… Je n’ai pas été lire la référence ni cherché à voir si le débat est effectivement existant ou bien s’il s’agit plutôt de Seralini contre le reste du monde à ce sujet. Mais je digresse. Quelqu’un de raisonnable serait certainement d’accord sur le fait que des études sur les produits alimentaires sur du long terme semblent une bonne idée, et on peut facilement se ranger du côté des auteurs pour dire que ce genre de recherche est nécessaire.

Mais si on compare la longévité des rats avec celle des humains, le concept de « long terme » n’est pas du tout pareil. Et c’est là, je pense, que l’étude de Seralini ne tient pas la route. Cela revient en fin de compte au fait que l’étude a duré 2 ans, et qu’ils ont utilisé des rats Sprague-Dawley. Pour ceux qui ne font pas d’études avec des rats, 2 ans semblent être du « long terme » raisonnable (c’est en tout cas ce que j’ai pensé au premier abord). Pourtant, il semblerait que pour cette ligne particulière de rats choisie (Sprague-Dawley), 2 ans est sans doute exceptionnellement long.

Un article de 1979 par Suzuki et al. publié dans le Journal of Cancer Research and Clinical Oncology a étudié l’apparition spontanée de tumeurs endocrines dans cette ligne de rats. Une apparition spontanée signifie simplement que les auteurs n’ont donné aucun traitement (comme une nourriture avec OGM ou herbicides). Ils ont juste observé les rats pendants 2 ans et noté ce qui se passait chez ces rats par ailleurs sains. Lorsque l’étude fut terminée au bout de 2 ans (la même durée que l’étude de Seralini), l’impressionnante proportion de rats ayant développé des tumeurs était de 86% chez les mâles et 72% chez les femelles.

Ci-dessous, je fournis les résultats d’une simulation R1 très basique. J’ai aussi copié le code R au cas où quelqu’un souhaiterait répéter ou modifier ce petit exercice2. Supposons que l’article de Suzuki et al. (1979) est correct et que 72% de rats femelles Sprague-Dawley développent des tumeurs après 2 ans, même en l’absence de tout traitement. Si nous choisissons aléatoirement 10 000 rats dont la probabilité de développer des tumeurs en 2 ans est de 72%, on peut être à peu près certain qu’environ 72% des rats choisis auront développé une tumeur au bout de 2 ans.

## Créer un échantillon de 10 000 rats femelles. Chaque rat choisi
## a 72% de risque de développer une tumeur après 2 ans.
SD.Female<-sample(c(0,1),10000,replace=T,c(0.28,0.72))
## La moyenne de cette population (de 0 et 1) nous dira la proportion
## de rats ayant développé des tumeurs par hasard.
## 0 = pas de tumeur; 1= tumeur
mean(SD.Female)
[1] 0.714

Dans notre échantillon très large de 10 000 rats simulés, nous avons trouvé que 71.4% d’entre eux auront développé des tumeurs au bout d’une étude de 2 ans. C’est très proche de 72%. Mais c’est ici que la taille de l’échantillon prend une importance critique. Si nous choisissons seulement 10 rats femelles, la probabilité de trouver exactement 72% de rats avec des tumeurs est bien inférieure. En fait, il y a une probabilité assez haute que, parmi 10 rats, le pourcentage de ceux qui ont développé des tumeurs soit TRÈS différent de la moyenne de la population à 72%. Cela s’explique par le fait qu’il y a un grand risque qu’un petit échantillon de 10 ne soit pas représentatif de la population.

UPDATE: 20/09/2012 – Voir le commentaire de Luis ci-dessous pour une façon plus élégante de simuler les 9 groupes. Elle permet également de modifier plus facilement les probabilités (seulement une fois, au lieu de 9) si vous voulez observer l’impact lorsque les probabilités sont à 50 ou 80% au lieu de 72%. Merci Luis!3

 ## Créer 9 groupes de rats. Chaque groupe contient 10 individus.
  ## Chaque individu a 72% de risques de développer une tumeur
  ## après 2 ans.
  SD.Fgrp1<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp2<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp3<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp4<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp5<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp6<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp7<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp8<-sample(c(0,1),10,replace=T,c(0.28,0.72))
  SD.Fgrp9Female.9grp
  colnames(Female.9grp)<-c("Control","t1","t2","t3","t4","t5","t6","t7","t8")
  Female.9grp
Control t1 t2 t3 t4 t5 t6 t7 t8
1 1 1 0 1 1 1 0 0 0
2 1 1 1 1 0 0 0 0 1
3 1 1 0 1 1 1 1 1 0
4 1 1 1 0 1 1 1 0 0
5 0 1 0 1 1 1 0 1 1
6 1 1 0 1 0 0 1 1 0
7 1 1 0 1 1 1 1 1 0
8 0 1 1 0 1 1 1 1 1
9 1 1 1 1 1 0 1 1 0
10 0 1 1 0 1 1 1 1 1
sum(Female.9grp)
[1] 62
sum(Female.9grp)/90
[1] 0.6889

Les 9 groupes (en colonnes) de 10 rats chacun représentent une sélection aléatoire possible des rats utilisés dans l’étude de Seralini. Supposons que « Control » soit le groupe contrôle, « t1 » soit le premier groupe de traitement, et ainsi de suite. Si nous regardons les 90 rats femelles simulés et choisis pour l’expérience, 62 rats (69%) développeraient des tumeurs après 2 ans, même sans aucun traitement. Encore une fois, nous ne sommes pas très loin de la moyenne connue de notre population, 72%.

Mais le plus important est ce qui suit: par pur hasard, si nous prenons 10 rats parmi une population où 72% auront des tumeurs après 2 ans, nous pouvons avoir entre 5 (« t2 ») et 10 (« t1 ») rats dans un groupe traitement qui vont développer des tumeurs. Uniquement par hasard; et pas à cause d’un traitement. Si je n’étais pas au courant de cette prédisposition à développer des tumeurs chez les rats Sprague-Dawley, et si je devais comparer les groupes de traitement, je serais enclin à dire qu’il y a effectivement une différence entre le traitement 1 et le traitment 2. Seulement 5 animaux ont développé des tumeurs dans le groupe traitement 1, et les 10 animaux du groupe traitement 2 ont développé des tumeurs4. Mais de nouveau, dans ce cas, c’était par pur hasard.

Ma conclusion est donc que cette étude présente des défauts en raison du choix de rats Sprague-Dawley et de la durée (2 ans) pendant laquelle cette étude a été faite. Les rats Sprague-Dawley semblent avoir une forte chance d’avoir des problèmes de santé en 2 ans. Et lorsqu’il y a une forte probabilité de problèmes de santé, il y a aussi une forte probabilité que, par simple hasard, vous trouviez des différences entre des traitements, surtout dans le cas où la taille de l’échantillon pour chaque traitement est de seulement 10 individus.

__________

UPDATE: 23 septembre. Pour ceux qui voudraient plus d’informations sur l’étude de Seralini et al, je vous conseille de lire la critique d’Emily Willingham5. C’est de loin le résumé le plus complet que j’ai lu. Emily est sur Twitter à @ejwillingham. Un extrait:

Les explications potentielles sont légion, mais avec plusieurs types différents de récepteurs d’œstrogènes avec différentes actions dans différents tissus, des composés qui bloquent un récepteur à une certaine concentration mais qui l’activent à d’autres, des composés qui interagissent avec différents types de récepteurs hormonaux de différentes manières, et des effets non transposables entre différentes espèces–ce n’est pas étonnant que les résultats de ces mixtures soient autant mixés. La seule chose qui n’apparaît pas impliquée de façon flagrante, au milieu de cette mer de possibilités aussi probables l’une que l’autre, c’est le maïs OGM même.

__________

UPDATE: 28 septembre. Pour une démonstration graphique de ce post, allez voir le blog Inspiring Science.

__________

UPDATE: 4 octobre. L’autorité européenne de sécurité des aliments (EFSA) a publié un rapport à propos de l’étude de Seralini. Leur conclusion (c’est moi qui souligne):

L’EFSA note que l’étude de Séralini et al. (2012) a des objectifs peu clairs et est improprement rapportée dans la publication, notamment en raison de l’omission de nombreux détails clés dans la conception, l’exécution et l’analyse. Sans ces détails, il est impossible de donner du poids aux résultats. Aucune conclusion ne peut être tirée sur la différence dans l’incidence des tumeurs entre les groupes de traitements sur base de la conception, des analyses et des résultats rapportés dans la publication de Séralini et al. (2012). En particulier, Séralini et al. (2012) tirent des conclusion sur l’incidence des tumeurs en se basant sur 10 rats par traitement par sexe, ce qui est un nombre insuffisant d’animaux pour faire une distinction entre les effets spécifiques du traitement et l’occurrence de tumeurs dans les rats dues au hasard. Considérant que l’étude telle que rapportée dans la publication de Séralini et al. (2012) possède une conception, une analyse et un rapport inadéquats, l’EFSA conclut qu’elle est d’une qualité scientifique insuffisante pour une évaluation de la sûreté alimentaire.

et:

Séralini et al. (2012) tirent des conclusions sur l’incidence des tumeurs en se basant sur 10 rats par traitement par sexe. C’est très inférieur au nombre de 50 rats par traitement par sexe tel que recommandé dans les directives internationales pour l’évaluation de la carcinogénicité (OECD 451 et OECD 453). Compte tenu de l’occurrence spontanée de tumeurs chez les rats Sprague-Dawley, le faible nombre de rats rapporté dans la publication de Séralini et al. (2012) est insuffisant pour faire une distinction entre les effets spécifiques du traitement et l’occurrence de tumeurs dans les rats dues au hasard.

Je pense que le débat est clôs.
__________________________________________________

Notes du traducteur:

1 R est un logiciel de statistique souvent utilisé en recherche

2 Dans la partie codée, j’ai traduit uniquement la partie non compilée, c’est-à-dire les commentaires.

3 Le lien pour voir le commentaire de Luis est ici. son code R tient en une seule ligne.

4 L’auteur a en fait fait une petite erreur ici en confondant les colonnes t1 et t2 du tableau. C’est bien dans t1 qu’il y a 10 chiffres 1, c’est-à-dire 10 rats avec tumeurs, et dans t2 seulement 5 rats avec tumeurs.

5 J’ai prévu de m’atteler plus tard à la traduction de cet article également.