Overblog Tous les blogs Top blogs Technologie & Science Tous les blogs Technologie & Science
Editer l'article Suivre ce blog Administration + Créer mon blog
MENU
Publicité
Agriculture, alimentation, santé publique... soyons rationnels

La grande parade des SPAM (Statistiques Pour l’Agrologie Militante), conclusion

11 Mars 2026 Publié dans #Article scientifique

La grande parade des SPAM (Statistiques Pour l’Agrologie Militante), conclusion

 

Des modèles « significatifs » qui ne signifient pas grand chose

 

Philippe Stoop, sur LinkedIn*

 

 

 

Dans quelques posts précédents, nous avons vu plusieurs exemples des paradoxes de l’interprétation des modèles statistiques couramment utilisés pour démontrer des évolutions temporelles, ou des relations dose-effet, dans des publications d’écologie :

 

  • Ces modèles peuvent être statistiquement significatifs (ce qui impliquerait qu’il y a bien une variation dans le temps, ou un effet-dose du facteur étudié), alors que leur intervalle de confiance n’exclut pas l’hypothèse nulle (la variable expliquée ne varie pas dans le temps, ou pas en fonction de l’exposition).

 

 

Exemple 1. Fig 2A de Perrot et al., 2025 : les auteurs trouvent une liaison significative entre l’utilisation d’imidaclopride et l’évolution des populations d’oiseaux, conforme à leur hypothèse : l’imidaclopride aurait provoqué une baisse des populations dans les régions où il était le plus utilisé, et cette décroissance s’affaiblirait depuis son interdiction en 2018. Pour chacune des trois périodes analysées, le modèle est statistiquement significatif. Toutefois, sur les trois périodes, son intervalle de confiance du modèle est parfaitement compatible avec l’hypothèse nulle, selon laquelle il n’y aurait pas de relation entre quantité d’imidaclopride employé et populations d’oiseaux. Modèle utilisé : GAMM (generalized additive mixed model). Pour plus de précisions, voir ici, sur la page LinkedIn de M. Philippe Stoop, ou ici sur ce blog.

 

 

  • Ces modèles peuvent être statistiquement significatifs, tout en trouvant une courbe de tendance régulière très différente des tendances réellement observées, et avec un intervalle de confiance qui parait très acceptable.

 

 

Exemple 2. Comparaison entre le modèle statistique et la variabilité des données observées :

a)  dans Seibold et al., 2019 (évolution dans le temps des populations d’arthropodes sur 150 sites de prairies en Allemagne, modèle linéaire mixte)

b)  dans Henry et al., 2015 (validation d’un modèle d’exposition au thiametoxame des abeilles butineuses, modèle linéaire généralisé mixte avec excès de zéros).

Dans ces deux cas, le modèle trouve une tendance significative, sur l’ensemble de l’intervalle des valeurs explicatives étudiées, avec un intervalle de confiance à 95 % relativement étroit. Ces résultats sont néanmoins en contradiction évidente avec les tendances des données étudiées : dans le premier exemple, il n’y a aucune évolution significative des populations entre 2010 et 2017, soit 8 années sur les 10 de l’étude. Et dans le second, il n’y aucune corrélation entre l’indicateur d’exposition et la concentration de thiametoxame mesurée, pour les valeurs d’exposition entre 8 et 65, soit 88 % de l’intervalle de valeur étudié. Pour plus de précisions, voir ici et ici, ou ici et ici.

 

 

Ces exemples suffisent pour montrer que l’interprétation de ces modèles est complexe, et que leur caractère statistiquement significatif ne suffit pas pour prouver qu’ils décrivent correctement le comportement de la variable qu’ils sont censés expliquer. Pourtant, dans tous les articles où nous les avons trouvés, cette significativité a été jugée suffisante pour considérer que l’effet des variables explicatives supposées par le modèle était démontré. Et à l’inverse, le fait que d’autres variables explicatives n’ait pas permis d’obtenir cette fameuse significativité était interprété comme une absence d’effet de ces variables. Ce fétichisme de la significativité à 5 % n’est pas seulement le fait de revues médiocres, l’exemple le plus décomplexé que nous avons vu venait d’une revue du prestigieux groupe Nature :

 

 

Exemple 3. « Démonstration » de la relation entre concentration d’imidaclopride dans l’eau des milieux humides, et tendance d’évolution des populations d’oiseaux à proximité de ces points d’eau (d’après Hallmann et al., 2014, sur le graphe de gauche la courbe de tendance et l’intervalle de confiance du modèle ont été retirés pour faciliter la comparaison). A gauche, malgré l’absence de corrélation claire entre ces deux variables, les auteurs considèrent cette relation comme démontrée, car le modèle est statistiquement significatif (de justesse, sa probabilité critique étant de 3.4 %). Ils affirment de plus que cette corrélation n’est pas due à une différence entre sites pré-existante à l’utilisation de l’imidaclopride, car le même modèle, appliqué aux données de population avant l’utilisation de ce produit, est non-significatif. Sa probabilité critique n’est pourtant que de 15 %, ce qui veut dire que la probabilité que la tendance pré-existait à l’imidacloprid est de 85 %. Modèle utilisé : modèle linéaire mixte. Pour plus de précisions, voir ici ou ici.

 

 

Un double changement de paradigme

 

Cette fétichisation du « statistiquement significatif », comme critère de qualité d’un résultat scientifique, traduit une double dérive :

 

  • Sur la notion de significativité : initialement, les analyses statistiques ont été introduites dans la littérature scientifique pour quantifier la répétabilité sur des résultats obtenus, par exemple dans le cadre de comparaison de valeurs d’une mesure. Imaginons que l’on compare la mortalité dans une population exposée à un produit supposé toxique, à celle d’une population non exposée. Dans ce cadre, l’interprétation de cette analyse statistique est simple : dire que la différence de mortalité entre les deux populations est significative (à 5 %) signifie que l’on aurait eu moins de 5 % de chances d’obtenir cette différence dans l’hypothèse nulle (c’est-à-dire si le produit n’était pas toxique). Et, dans ce cas, c’est pratiquement équivalent à dire que la mortalité dans la population exposée est hors de l’intervalle de confiance à 95 % de la mortalité de la population non exposée. Si l’on construit un modèle statistique pour représenter la relation entre la dose de ce produit et la mortalité, l’analyse statistique va aussi dire si ce modèle est significatif à 5 %, et lui attribuer un intervalle de confiance à 95 %, mais l’interprétation de ces résultats est beaucoup plus complexe. Nous avons vu dans l’exemple 1 qu’un modèle peut très bien être significatif (il y a une relation cohérente entre dose d’exposition et mortalité), alors que son intervalle de confiance n’exclut pas l’hypothèse nulle (selon laquelle le produit est inoffensif). De plus, l’intervalle de confiance de ces modèles n’a plus aucun rapport avec l’incertitude sur les données mesurées. Avec les Fig. 2a et 3b, nous avons deux superbes exemples de modèle significatifs, alors que la majorité des points qui ont servi à définir ce modèle sont extérieurs à son intervalle de confiance. C’est parfaitement normal sur le plan statistique, mais cela signifie aussi que ce modèle, tout significatif qu’il soit, ne décrit pas du tout la variabilité réellement existante dans le monde réel.

 

  • Sur la notion de modèle : au sens scientifique le plus courant, un modèle est censé être une représentation simplifiée de la réalité, qui reproduit le comportement d’une variable expliquée en fonction des variables explicatives les plus importantes qui agissent sur elle. Comme il s’agit d’une simplification, il est normal que les données modélisées diffèrent des données réellement mesurées, mais il faut bien sûr que cet écart ne soit pas trop important, et que le modèle reproduise bien les tendances d’évolution de la variable modélisée. La validité du modèle peut alors être évaluée, en analysant les différences entre les valeurs mesurées de cette variable expliquée, et les valeurs simulées par le modèle. Pour les modèles déterministes, qui associent à chaque variable d’entrée une valeur unique de sortie, on regarde en deux types d’indicateurs simples :

 

  • Un indicateur de l’écart moyen entre les valeurs calculées par le modèle et les valeurs réelles mesurées, comme la RMSE

     

  • Le coefficient de détermination (R²), qui mesure la part de la variance de la variable expliquée par le modèle.

 

Or, sur tous les exemples que nous venons de voir, il est évident que ces modèles statistiques obtiendraient des résultats lamentables, si on les mesurait à l’aune de ce type d’indicateurs. En particulier, leur R² avec les données réelles est manifestement très faible, ce qui veut dire qu’ils ne modélisent qu’une part très faible de la variabilité de la variable expliquée. L’interprétation qui est généralement faite de ce type de résultats est donc paradoxale : le modèle statistiquement significatif est présenté comme la démonstration d’un effet significatif de la variable explicative, par exemple un effet de l’imidaclopride sur les populations d’oiseaux. Pourtant, si on mesurait le R² de ce modèle avec l’évolution réelle des populations, il serait de toute évidence très faible, ce qui veut dire que, dans le meilleur des cas, l’imidaclopride n’explique que pour une très faible part la décroissance observée des populations.

 

 

Le biais par omission de variable : un piège classique des modèles statistiques

 

On pourrait se dire que, même si l’on n’a identifié qu’une cause mineure parmi celles qui influent sur la variable à expliquer, c’est toujours bon à prendre, et qu’agir sur cette cause mineure permettra au moins d’améliorer un peu la situation. Mais rien n’est moins sûr. En effet, si l’on a réussi à construire un modèle statistiquement significatif avec cette variable explicative, cela peut être dû au fait qu’elle a réellement un effet mineur, mais aussi au fait qu’elle serait plus ou moins corrélée avec le vrai facteur explicatif. Si ce facteur explicatif n’est pas présent dans les covariables incluses dans le modèle, l’analyse statistique ne permettra pas de faire la différence entre ces deux situations, et attribuera à la variable explicative choisie par les auteurs un effet significatif, qui est simplement dû à sa corrélation avec la vraie variable causale. Et cet effet sera bien sûr remis en cause si on intègre la vraie variable causale dans le modèle : on obtiendra alors un nouveau modèle, dont le R² avec les données réelles sera bien meilleur, et où l’effet attribué à la variable explicative initiale aura fortement régressé… et peut même disparaitre, voire s’inverser ! C’est le problème classique du biais par omission de variable, bien connu des statisticiens. Un exemple classique est celui du lien entre consommation d’alcool et cancer du poumon : si on ne tient pas compte de la consommation de tabac, on trouve un lien significatif entre consommation d’alcool et risque de cancer du poumon. Mais cet effet apparent de l’alcool disparait si on intègre la consommation de tabac dans le modèle : en effet, il est simplement dû au lien entre consommations d’alcool et de tabac, et disparait donc quand on réintroduit le vrai facteur causal. Si on fait une étude restreinte aux non-fumeurs, dans ce cas on trouve même un lien négatif entre consommation d’alcool et cancer du poumon ! [i] Sur un sujet plus proche des exemples que nous avons vu, il a été montré qu’en écologie des populations végétales, une mauvaise prise en compte des variables environnementales peut faire croire par erreur à des mutualismes entre espèces, là où il y en réalité compétition [ii].

 

Ce problème du bais par omission de variable explique pourquoi le R² est (ou devrait être) un indicateur essentiel pour juger de la validité d’un modèle statistique : un modèle avec un faible R² est par définition un modèle qui n’intègre pas les causes essentielles de la variabilité du système étudié : soit parce qu’il ne prend pas en compte ces causes, soit parce que, dans le jeu de données étudiées, les vrais facteurs causaux avaient une faible variabilité. Dans les deux cas, c’est donc un modèle dont les conclusions risquent d’être complètement invalidées si on y ajoute le vrai facteur causal et qu’on l’applique à un autre jeu de données.

 

Mais pour que l’on se pose cette question, encore faudrait-il avoir calculé le R² du modèle initial, ce qui donnerait une idée du poids des facteurs explicatifs qui y manquent. Or c'est rarement le cas. Cela s’explique en partie par le fait que, pour les catégories de modèles que nous avons vus en exemple (modèles linéaires généralisés, ou modèles additifs généralisés), on ne peut pas calculer de vrai R², car on ne peut distinguer la variance expliquée de la variance totale de façon aussi claire que dans une régression linéaire simple. Toutefois, il existe des « pseudo-R² », adaptés pour ces modèles, qui ne sont que rarement mentionnés dans les publications, en raison de leur complexité d’interprétation. Et quand ils le sont, ils confirment souvent qu’une probabilité critique faible (donc une bonne significativité) ne garantit nullement un bon R² :

 

 

Exemple 4. Publication d’agroécologie où les auteurs ont bien publié les pseudo R² des modèles utilisés. Il s’agit d’une étude de Solagro sur le lien entre biodiversité de la flore messicole et intensification des cultures [iii]. On voit bien le manque de lien entre significativité des modèles (d’autant plus significatifs que leur p-value est faible), et la part de variabilité qu’ils expliquent (mesurée par leurs R²). Par exemple, le modèle sur la richesse spécifique totale (Total segetal taxa) est hautement significatif (p-value < 0,001), et ses pseudo R² sont relativement élevés (0,11 et 0,44). Pour les espèces communes (common segetal taxa), le modèle est tout aussi significatif (p-value < 0.001), mais ses pseudo R² sont très faibles (4 %). À l’inverse, le modèle sur la richesse spécifique des espèces menacées (threatened segetal taxa) a une probabilité critique très médiocre (0,37), mais il est parmi les meilleurs (ou les moins mauvais) pour le R².

 

 

Parmi les exemples que nous avons revus en introduction, Seibold et al., 2019, (l’exemple 2a sur le déclin des insectes en Allemagne), est la seule à avoir publié les R² de ces modèles, mais il faut bien fouiller au fin fond des données supplémentaires pour les retrouver [iv]. Sans surprise, on constate que le modèle sur l’évolution des populations d’arthropodes n’a qu’un pseudo R² très faible de 10 %. Cela confirme statistiquement les doutes que nous avions émis intuitivement sur la validité de ce modèle, au vu du faible accord entre la courbe de tendance du modèle et l’évolution de données réellement observées.

 

Ce manque d’accord entre la significativité d’un modèle et son R² ou son pseudo R² est un problème clairement identifié en statistique. Il est d’ailleurs reconnu que les modèles utilisés en écologie ont en général des R² faibles, ce qui est souvent interprété comme une conséquence normale du fait que les écosystèmes sont des systèmes particulièrement complexes [v]. C’est effectivement une explication possible. Mais il y a une autre explication possible, qui nous ramène au début de ce paragraphe : si un modèle est significatif, mais avec R² ou pseudo R² bas, cela peut très bien être dû au fait qu’il ne prend pas en compte les vraies variables causales du système, mais seulement des variables qui leur sont corrélées… et dont l’effet s’effondrerait si on intégrait les vraies causes. Le R² mesure en quelque sorte la partie émergée du système étudié : s’il vaut 90 %, il y a peu des risques que la découverte des causes des 10 % restant bouleverse notre vision du système. S’il vaut 10 %, tout reste possible…

 

 

Comment faire pour des publications plus conclusives ?

 

Il est donc clair que la significativité d’un modèle statistique est une condition nécessaire pour qu’il ait un intérêt, mais que ce n’est pas une condition suffisante : si ce modèle, même significatif, a un R² ou pseudo R² faible, il risque d’être complètement remis en cause si on intègre les variables expliquant le reste de la variabilité du système. La significativité du modèle mesure seulement la cohérence de la corrélation entre la variable à expliquer et la ou les variables explicatives testées par les auteurs (et éventuellement les covariables qu’ils ont incluses dans leur analyse). Par contre, elle ne dit rien de la pertinence de ce modèle pour expliquer la réalité, en tenant compte de l’ensemble des facteurs, peut-être ignorés, qui sont réellement à l’œuvre. Seul le calcul du R² entre le modèle et les données, qui ne fait aucune hypothèse sur les causes de variations de la variable expliquée, permet d’évaluer la part de variabilité non expliquée par les hypothèses des chercheurs, et donc le risque que leur résultats soit contredit par la suite. Pour juger de la validité ou de la répétabilité d’un modèle, le R² ou le pseudo R² est donc un indicateur bien plus pertinent que sa probabilité critique, et donc son caractère significatif ou non.

 

Malheureusement, exiger la publication de ces R² ou pseudo R² ne fait manifestement pas partie des réflexes des reviewers des publications scientifiques. Cela s’explique probablement par la difficulté de leur interprétation, qui a empêché la création de seuils simples et reconnus par tous, comme les fameux 5 % ou 1 % de probabilité critique qui définissent les résultats « significatifs » ou « hautement significatifs ».

 

Cette négligence envers les R² a pourtant des conséquences graves. Accepter une publication au simple motif que le modèle est statistiquement significatif, c’est se contenter de montrer que l’hypothèse des auteurs est statistiquement crédible, mais sans vérifier si d’autres hypothèses n’expliqueraient pas mieux (et peut-être beaucoup mieux) le résultat observé. C’est la définition même de la « science d’opinion » qui envahit la presse scientifique. On comprend facilement que ces modèles soient les outils privilégiés des chercheurs ayant un agenda politique clair. Je rappelais, en introduction de cette série de posts, que ces modèles étaient cités par un historien de sciences de l’INRAE comme « une nouvelle manière de produire de la science, plus performante pour dialoguer avec la société et avec des objets complexes comme la question de l’environnement dans le champ des agrobiosciences » [vi]. Rappelons le titre de la conférence où il chantait les louanges de ces méthodes statistiques : « Le chercheur militant, un nouveau citoyen ? ».

 

Mais si ces modèles sont le plus souvent acceptés sur la foi de leur seule significativité statistique, sans qu’elle soit mise en perspective avec la variance totale de la variable qu’ils prétendent expliquer, c’est avant tout parce que la plupart des revues, même les plus prestigieuses, n’exigent pas cette vérification : il serait dommage de se priver d’une publication douteuse, mais qui permet d’entretenir leur impact factor… Dans une séance de l’Académie d’Agriculture de France, nous avions déjà vu que, pour les publications dont les résultats reposent sur des comparaisons de moyennes, l’absence de test de Bonferroni ou de procédure False Discovery Rate (FDV) permet aux chercheurs militants, ou simplement opportunistes, de faire publier des résultats dont la répétabilité est loin d’être garantie, en raison du problème dit des tests multiples [vii]. Avec les modèles statistiques, c’est l’absence de pseudo R² qui permet les mêmes tours de passe-passe avec l’intégrité scientifique, en mettant en avant un facteur explicatif qui a, au mieux un effet très mineur, ou au pire une simple corrélation avec la ou les vraies causes de variation du système.

 

Dans les deux cas, des règles simples suffiraient pour mieux apprécier la fiabilité des publications scientifiques, si les comités de lecture les appliquaient :

 

  • Exiger des tests de Bonferroni ou des procédures FDV sur les publications exposées au problème des tests multiples

     

  • Exiger la publication des R² ou pseudo R² pour tout modèle statistique, pour évaluer la part de variabilité non décrite par le modèle.

 

Ces deux précautions simples permettraient de relativiser l’importance exagérée attribuée à la significativité statistique, et d’indiquer ainsi dans quelle mesure les résultats annoncés sont vraiment répétables. Cela éviterait de présenter comme dûment démontrée une hypothèse qui, dans le cas le plus favorable, n’identifie qu’un effet marginal, et, dans le cas le plus probable, n’est qu’un artefact statistique dû à l’absence des vraies variables explicatives dans le modèle.

 

______________

 

[i] Alcohol and lung cancer risk among never smokers: A pooled analysis from the international lung cancer consortium and the SYNERGY study

 

[ii] Omitted variable bias in studies of plant interactions

 

[iii] Impacts of agricultural intensification on arable plants in extensive mixed crop-livestock systems

 

[iv] 41586_2019_1684_MOESM1_ESM.pdf, Table S1-1,p.4

 

[v] Low R2 in ecology: Bitter, or B-side?

 

[vi] Cycle de débats BorderLine | « Le chercheur-militant, un nouveau citoyen ? », à 12’30 ‘’

 

[vii] https://www.academie-agriculture.fr/system/files_force/seances-colloques/20200513presentation1.pdf?download=1

 

Directeur Recherche & Innovation ITK - Membre de l'Académie d'Agriculture de France

 

Source : https://www.linkedin.com/pulse/la-grande-parade-des-spam-statistiques-pour-lagrologie-philippe-stoop-nk2de/

 

 

Publicité
Partager cet article
Repost0
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article