La science « évaluée par les pairs » est-elle scientifique ?
Henry I. Miller et S. Stanley Young*
Pixabay
L'examen par les pairs des articles scientifiques avant leur publication est souvent considéré comme l'« étalon-or » de la fiabilité, mais son éclat a été terni par l'appât du gain – le désir de la communauté des chercheurs d'obtenir des fonds de recherche, la pression exercée sur les scientifiques pour qu'ils publient, pour ne pas périr, et les éditeurs de revues scientifiques qui cherchent à maximiser leurs profits.
L'aphorisme « il y a trois sortes de mensonges : les mensonges, les foutus mensonges et les statistiques » est attribuée à Benjamin Disraeli, Premier Ministre du Royaume-Uni de 1874 à 1880. Un siècle et demi plus tard, la manipulation abusive des statistiques est omniprésente. Elle peut faire de gros dégâts lorsqu'elle corrompt ce que l'on appelle la « littérature scientifique », c'est-à-dire l'ensemble des connaissances publiées dans des articles par des chercheurs sur la base de leurs expériences ou de leurs études, qui est le fondement de la science. Lorsque ces articles défectueux publiés contiennent des résultats potentiellement importants, ils sont largement relayés par les médias et les réseaux sociaux.
Un système a été mis au point pour tenter de garantir la validité des recherches publiées dans des revues « à comité de lecture » – l'étalon-or. Les chercheurs soumettent leur article à la revue et les rédacteurs envoient ensuite le manuscrit à des réviseurs non rémunérés, ou « pairs », dans la communauté des chercheurs, qui donnent anonymement leur avis sur la qualité de l'article pour qu'il soit publié, ou non.
Ce processus apparemment logique pose toutefois un problème : il échoue bien trop souvent. De nombreux articles qui passent par ce processus sont méthodologiquement défectueux, contiennent des données manipulées frauduleusement ou des affirmations manifestement invraisemblables, et n'auraient pas dû être acceptés. Parfois, les rédacteurs et les réviseurs font partie de la supercherie.
Un exemple flagrant a été mis en lumière l'automne dernier lorsqu'un éditeur de premier plan, Hindawi, filiale égyptienne d'une société multinationale plus importante, John Wiley & Sons, a annoncé qu'en raison d'un scandale de tricherie majeur impliquant certains de ses rédacteurs et pairs examinateurs, il retirait plus de 500 articles d'un coup.
Hindawi publie 200 revues en libre accès et à compte d'auteur, dont 16 étaient concernées. Voici ce qu'a écrit en septembre 2022 Retraction Watch, une publication qui suit les retraits d'articles scientifiques :
L'équipe d'intégrité de la recherche d'Hindawi a trouvé plusieurs signes de manipulations des évaluations par les pairs pour les articles concernés, y compris des évaluations qui contenaient du texte dupliqué, quelques individus qui faisaient beaucoup d'évaluations, des évaluateurs qui rendaient leurs évaluations extrêmement rapidement, et une mauvaise utilisation des bases de données que les éditeurs utilisent pour vérifier les évaluateurs potentiels.
Richard Bennett, vice-président des services de recherche et d'édition pour Hindawi, nous a dit que l'éditeur soupçonne l'existence de "réseaux coordonnés d'évaluation par les pairs" composés d'évaluateurs et de rédacteurs travaillant ensemble pour faire avancer les manuscrits jusqu'à la publication. Certains des manuscrits semblent provenir d'usines à papier, a-t-il ajouté. »
Le problème n'est pas unique à Hindawi. Retraction Watch a poursuivi :
« D'autres éditeurs ont annoncé récemment d'importants lots de rétractations. Au début du mois, l'IOP Publishing de l'Institut de Physique a annoncé qu'il prévoyait de rétracter près de 500 articles provenant probablement d'usines à papier, et PLOS a annoncé en août qu'il allait rétracter plus de 100 articles de sa revue phare pour cause de manipulation de l'évaluation par les pairs. »
Un article paru en 2021 décrit les tribulations d'un petit groupe de chasseurs de fraude scientifique, ou « limiers des données », qui révèlent des tricheries dans les articles publiés. L'ampleur de ces inconduites n'est pas claire, mais il y a certainement beaucoup de choses qui tombent sous la rubrique des « mauvais comportements en matière de recherche » ou des pratiques de recherche douteuses (PRD). La tricherie pure et simple en matière de statistiques constitue un sous-ensemble important de ces pratiques.
Un type de PRD utilise une forme d'astuce statistique appelée test multiple et modélisation multiple, TMMM. Le test multiple consiste à poser un grand nombre de questions en utilisant un ensemble de données vaste et compliqué. Par exemple, dans le cadre d'une étude standard sur la nutrition, on demande à un grand nombre de personnes, une cohorte, de noter dans des questionnaires sur la fréquence des repas, ou QFR, la quantité de certaines choses qu'elles ont mangées. Les enquêteurs suivent ensuite la cohorte au fil du temps et lui demandent si elle souffre de divers problèmes de santé.
Le nombre d'aliments dans le QFR peut aller de 60 à plusieurs centaines, et les différents résultats de santé peuvent aller de quelques dizaines à cinquante ou plus. Avec une planification minutieuse et des ordinateurs puissants, plusieurs milliers de corrélations sont possibles. Une extraction de données des prédicats et des résultats est susceptible de donner lieu à de nombreuses « corrélations » statistiques qui peuvent sembler convaincantes après que le chercheur a construit un récit, mais qui sont purement dues au hasard.
Quel est l'aspect « modélisation » du TMMM ? Les données peuvent être découpées en tranches d'âge, de sexe, de géographie, etc. et ne sont limitées que par l'imagination du chercheur et la puissance de calcul. Cela offre d'innombrables possibilités de corrélations fallacieuses. Par exemple, les 511 articles rétractés par Hindawi ont été publiés en 2020, la même année que 7.740 articles comprenant le terme « QFR », ce qui offre de nombreuses possibilités de pratiques de recherche douteuses.
Une autre technique de tour de passe-passe statistique utilisée pour obtenir un résultat souhaité – mais pas nécessairement exact – est appelée « p-hacking » : il s'agit d'essayer une manipulation statistique ou de données après l'autre jusqu'à ce que vous obteniez une valeur p suffisamment faible pour être qualifiée de « signification statistique », même si le résultat est le fruit du hasard et non le reflet de la réalité. Le p-hacking pose de nombreuses questions mais ne corrige pas le nombre de tentatives et constitue un moyen de truquer l'analyse. Il n'est pas rare. Le Dr Megan Head, biologiste de l'évolution, et ses collègues ont constaté que le p-hacking est courant dans presque tous les domaines scientifiques.
Ainsi, compte tenu de la généralisation du p-hacking et de la rétractation récente de centaines d'articles censés avoir été examinés par des pairs, il est évident que l'examen par les pairs et la surveillance éditoriale ne garantissent pas que les articles des publications scientifiques représentent la réalité plutôt que des chicaneries statistiques. Et le problème s'aggrave avec le temps : en 2020, 7,3 % des personnes ayant répondu à l'enquête de l'American Physical Society ont déclaré avoir été témoins de falsification de données, contre 3,9 % en 2003. Et 12,5 % des personnes interrogées en 2020 se sont senties poussées à enfreindre les règles d'éthique, contre 7,7 % en 2003.
Il s'agit d'un problème important pour la communauté scientifique, car si les articles publiés ne sont pas fiables, nous ne savons pas vraiment ce que nous pensons savoir.
La cause de toutes ces tricheries est tout simplement l'appât du gain : le désir de la communauté des chercheurs de puiser dans les énormes réservoirs de fonds de recherche, la pression exercée sur les scientifiques pour qu'ils publient pour ne pas périr, et les éditeurs de revues scientifiques qui cherchent à maximiser leurs profits. De nombreux éditeurs de revues prospèrent en percevant des honoraires auprès des auteurs, ce qui les incite à accepter des articles de recherche, même de qualité médiocre ou franchement frauduleux. Dans le même temps, les chercheurs sont désireux de garnir leur C.V. d'un grand nombre de publications, quelle que soit leur qualité.
Une meilleure surveillance est nécessaire. Les agences gouvernementales et les responsables universitaires chargés de garantir l'intégrité de la recherche ainsi que les sociétés professionnelles scientifiques doivent reconnaître la fraude insidieuse dans la publication des études scientifiques et prendre des mesures correctives.
_____________
* Henry I. Miller, MS, MD
Henry I. Miller, MS, MD, est le Glenn Swogger Distinguished Fellow de l'American Council on Science and Health. Ses recherches portent sur les politiques publiques en matière de science, de technologie et de médecine, et couvrent un certain nombre de domaines, notamment le développement pharmaceutique, le génie génétique, les modèles de réforme réglementaire, la médecine de précision et l'émergence de nouvelles maladies virales. Le Dr Miller a travaillé pendant quinze ans à la Food and Drug Administration (FDA) des États-Unis, où il a occupé plusieurs postes, notamment celui de directeur fondateur de l'Office of Biotechnology.
Source : How Scientific is ‘Peer-Reviewed’ Science? | American Council on Science and Health (acsh.org)