Reproductibilité.

-

La reproductibilité

La reproductibilité est l'un des piliers fondamentaux sur lesquels repose la démarche scientifique moderne. Elle désigne l'exigence selon laquelle un résultat expérimental, pour être considéré comme valide, doit pouvoir être obtenu à nouveau par d'autres chercheurs, dans des conditions équivalentes, indépendamment du laboratoire, de l'époque ou des individus impliqués. C'est ce critère qui distingue la science d'un simple témoignage ou d'une intuition.

La reproductibilité s'articule étroitement avec la notion de publication scientifique et d'évaluation par les pairs. Pour qu'une étude soit reproductible, ses auteurs doivent décrire leur méthode avec suffisamment de détails pour qu'un tiers puisse la suivre pas à pas : taille de l'échantillon, matériaux, logiciels, paramètres statistiques, traitements des données aberrantes. Ce principe de transparence méthodologique est en soi une norme éthique de la recherche.

L'idée centrale est que la vérité scientifique ne peut pas dépendre d'une personne particulière. Si une expérience n'est réalisable que par son auteur, dans son propre laboratoire, avec ses propres instruments, alors son résultat reste suspect (il pourrait tenir à un artefact local, à une erreur de protocole, voire à un biais inconscient). La reproductibilité impose donc une forme d'impersonnalité : le phénomène doit se manifester de façon régulière, indifférent à celui qui l'observe.

Il faut ici distinguer la reproductibilité de la répétabilité.

• La répétabilité ou réplicabilité désigne la stabilité des mesures lorsqu'on répète une mesure plusieurs fois dans des conditions strictement identiques (même protocole, les mêmes instruments et, si possible, les mêmes données brutes), afin de vérifier qu'on obtient les mêmes chiffres.
• La reproductibilité va plus loin : elle teste si le résultat survit au changement de contexte (autre laboratoire, autre population, autre instrument de mesure, autre culture). Un instrument peut être très répétable (il donne toujours le même nombre) tout en produisant un résultat non reproductible (parce que ce nombre reflète un artefact local, comme une contamination du milieu ou un biais d'échantillonnage). Si le phénomène résiste à ces variations, sa robustesse est bien plus convaincante. C'est cette forme que la communauté scientifique juge la plus probante.

L'idée même de reproductibilité est centrale dans la méthode scientifique depuis les travaux de Karl Popper, qui insistait sur la falsifiabilité (la capacité d'un énoncé à être réfuté par l'expérience) comme critère de scientificité. Une expérience ou une observation doit pouvoir être répétée dans des conditions similaires et produire des résultats comparables. La reproductibilité est en quelque sorte la condition pratique de la falsifiabilité : si une expérience ne peut être reproduite, elle ne peut pas non plus être réfutée de manière décisive. Sans reproductibilité, la science ne peut pas fonctionner comme un système cumulatif d'auto-correction, où chaque génération de chercheurs bâtit sur les résultats des précédentes en sachant qu'ils ont été soumis à une vérification indépendante. Mais pendant longtemps, cette exigence a été considérée comme allant de soi, mais elle a rarement été testée systématiquement à grande échelle. Le système académique privilégiait la nouveauté, les résultats positifs et la publication rapide, plutôt que la vérification indépendante.

On notera toutefois que l'absence de reproductibilité n'invalide pas automatiquement un résultat. Certains phénomènes sont intrinsèquement difficiles à reproduire (par exemple, les événements historiques uniques, certains processus biologiques très sensibles aux conditions environnementales, ou les systèmes sociaux qui évoluent avec le temps). La reproductibilité reste un idéal régulateur, un horizon vers lequel la science tend, plutôt qu'une règle absolue applicable uniformément à toutes les disciplines.

La crise de la reproductibilité.
On a donné le nom de crise de la reproductibilité à une remise en question profonde de la fiabilité de certains résultats scientifiques, apparue progressivement à partir des années 2000 mais enracinée dans des pratiques plus anciennes. Elle a touché en particulier la psychologie, la médecine, la biologie et certaines branches des sciences sociales, où de nombreuses études publiées se sont révélées difficiles, voire impossibles, à reproduire de manière indépendante.

Au tournant du XXI^e siècle, plusieurs signaux d'alerte apparaissent. Dans les années 2000, des chercheurs en biomédecine commencent à signaler qu'ils ne parviennent pas à reproduire des résultats pourtant publiés dans des revues prestigieuses. Un cas marquant survient en 2011, lorsque Ioannidis, épidémiologiste, publie un article affirmant que " la plupart des résultats de recherche publiés sont faux". Il y démontre, à partir de modèles statistiques et d'analyses empiriques, que les biais méthodologiques, la petite taille des échantillons et les conflits d'intérêts rendent de nombreux résultats peu fiables.

Des affaires emblématiques contribuent à amplifier la crise. Le psychologue Diederik Stapel est reconnu coupable de fraude scientifique en 2011, ayant fabriqué des données dans des dizaines d'articles. En parallèle, des études très médiatisées, comme celles sur les primings sociaux (effets subtils de l'environnement sur le comportement), échouent souvent à être reproduites, ce qui fragilise leur crédibilité.

Dans le domaine biomédical, des entreprises pharmaceutiques comme Amgen et Bayer rapportent au début des années 2010 qu'elles ne peuvent reproduire qu'une minorité des résultats académiques qu'elles tentent de valider pour le développement de médicaments. Ces constats ont des implications économiques et sanitaires majeures, car ils suggèrent que certaines pistes thérapeutiques reposent sur des bases fragiles.

En psychologie, la crise devient particulièrement visible avec le projet de réplication (Reproducibility Project) mené par le Open Science Collaboration en 2015. Cette initiative tente de reproduire 100 études publiées dans des revues de psychologie de haut niveau. Le résultat est frappant : seulement environ 36 % des expériences produisent des effets significatifs similaires à ceux rapportés initialement. Ce constat remet en cause la robustesse d'une grande partie de la littérature.

Plusieurs causes structurelles sont identifiées.

• Le biais de publication favorise les résultats positifs, novateurs ouspectaculaires, tandis que les résultats négatifs ou non concluants restent souvent non publiés, alors même qu'ils contribuent à une image fidèle de la réalité.
• Les pratiques de p-hacking (manipulation des analyses statistiques jusqu'à obtenir un résultat significatif) et de HARKing (formulation d'hypothèses après avoir observé les résultats) contribuent à gonfler artificiellement les taux de succès.
• La pression à publier, résumée par l'expression publish or perish, incite les chercheurs à privilégier la quantité de publications plutôt que leur robustesse.
• Des échantillons trop petits produisent des effets gonflés par le hasard, qui ne se reproduisent pas sur de plus grandes populations.

À cela s'ajoute un manque de transparence dans les données et les protocoles, rendant les réplications difficiles.

Face à cette situation, un mouvement de réforme émerge sous le nom de science ouverte (open science). Des initiatives encouragent le partage des données, des codes et des protocoles expérimentaux. Les pré-enregistrements (preregistration) obligent les chercheurs à déclarer leurs hypothèses et méthodes avant de collecter les données, limitant ainsi les manipulations a posteriori. Des plateformes comme Center for Open Science promeuvent ces pratiques et développent des outils pour améliorer la transparence.

Les revues scientifiques commencent également à évoluer. Certaines adoptent des formats comme les Registered Reports, où les protocoles sont évalués avant la collecte des données, garantissant la publication indépendamment des résultats. D'autres encouragent ou exigent la mise à disposition des données brutes et des scripts d'analyse.

La crise de la reproductibilité ne signifie pas que la science est défaillante dans son ensemble, mais plutôt qu'elle traverse une phase d'auto-correction. Elle met en lumière les limites du système de production des connaissances et incite à renforcer les standards méthodologiques. En ce sens, elle peut être interprétée comme un processus normal, quoique douloureux, d'amélioration épistémologique.

Aujourd'hui, la situation reste contrastée. Certaines disciplines ont fortement progressé en matière de transparence et de rigueur, tandis que d'autres sont encore en transition. La crise a néanmoins profondément transformé les pratiques scientifiques, en replaçant la reproductibilité, la transparence et la rigueur au coeur de l'activité de recherche.

Dictionnaire Idées et méthodes