Critère sigma.

-

Le critère sigma
La règle empirique

Le critère sigma repose sur l'écart-type, noté σ, qui quantifie la dispersion des observations d'une série statistique autour de sa moyenne. Dans une distribution normale, cet indicateur permet de déterminer avec précision la probabilité qu'une valeur se situe à une distance donnée de la moyenne, ce qui en fait un repère objectif pour évaluer la variabilité et fonder des décisions.

L'usage du critère sigma exige une application rigoureuse. Il présuppose une distribution symétrique et à queues légères, ce qui peut être mis en défaut par des phénomènes présentant des asymétries marquées, des valeurs extrêmes récurrentes ou des ruptures structurelles. L'écart type est également sensible aux valeurs aberrantes, qui peuvent artificiellement gonfler la dispersion et masquer des signaux réels, et son estimation reste imprécise sur de petits échantillons. Dans des contextes où la normalité est douteuse, il convient de recourir à des transformations de données, à des méthodes robustes ou à des seuils adaptés à la distribution observée, sans pour autant abandonner l'esprit du critère qui consiste à normaliser la variabilité pour la rendre comparable et interprétable.

Malgré ces précautions méthodologiques, le critère sigma demeure un outil de référence grâce à sa simplicité de calcul, son ancrage probabiliste clair et sa capacité à harmoniser le langage entre divers domaines. Il permet de transformer une notion abstraite de dispersion en levier d'arbitrage concret, en définissant objectivement ce qui relève du bruit de fond inhérent au système et ce qui constitue un signal d'alerte nécessitant une réaction. Son efficacité réelle dépend cependant de la qualité des données collectées, du respect des conditions d'application et de la complémentarité avec d'autres indicateurs.

La règle empirique.
La règle empirique, aussi appelée règle 68-95-99,7 ou règle des trois sigma, est un principe fondamental de la statistique qui décrit la répartition des données dans une distribution normale. Elle énonce que dans toute courbe en cloche, les données se concentrent de manière prévisible autour de la moyenne selon des intervalles bien définis.Le coeur de la règle repose sur l'écart-type σ (sigma), qui mesure la dispersion des valeurs autour de la moyenne μ.

Concrètement, pour une distribution normale, environ 68,27 % des valeurs se trouvent dans l'intervalle défini par la moyenne plus ou moins un écart-type, soit dans l'intervalle [μ − σ, μ + σ]. En s'éloignant à deux écarts-types de la moyenne, on englobe environ 95,45 % des observations. Enfin, à trois écarts-types, la règle indique que près de 99,73 % des données sont comprises dans cet intervalle. Cela signifie que très peu de valeurs (moins de 0,3 %) se situent au-delà de trois écarts-types de la moyenne, ces points étant souvent considérés comme des anomalies ou des valeurs extrêmes. Ces seuils ne sont pas arbitraires : ils découlent directement de l'intégrale de la fonction gaussienne, dont la forme caractéristique en cloche est entièrement déterminée par μ et σ.

Par exemple, si la taille moyenne d'une population adulte est de 170 cm avec un écart-type de 10 cm, on peut s'attendre à ce que 68 % des individus mesurent entre 160 et 180 cm, 95 % entre 150 et 190 cm, et 99,7 % entre 140 et 200 cm.

La beauté de la règle empirique est qu'elle transcende les unités de mesure, qu'on parle de tailles humaines, de résultats d'examens, d'erreurs de mesure ou de rendements financiers, les proportions restent identiques dès lors que la distribution est approximativement normale. Cette règle constitue une heuristique puissante pour détecter des valeurs aberrantes, évaluer l'étalement des données ou fixer des seuils de normalité dans des processus industriels ou biomédicaux.

En pratique, la règle empirique peut servir de boussole rapide. Un fabricant de pièces mécaniques dont la tolérance est de ±2σ sait qu'environ 4,55 % de sa production sera hors gabarit. Un enseignant qui applique une notation "sur la courbe" peut immédiatement localiser les élèves dans des bandes de performance.

La règle n'est valide que pour les distributions normales ou approximativement normales. Dès qu'une distribution présente des queues lourdes (comme la distribution de Cauchy) ou une forte asymétrie, les pourcentages s'écartent significativement de 68-95-99,7. La règle empirique perd aussi son intérêt pour des distributions asymétriques ou multimodales. Dans ces cas, d'autres outils comme l'inégalité de Tchebychev (valable pour toute distribution, mais moins précise) peuvent être employés. Ajoutons quer de nombreux phénomènes réels (cours boursiers, revenus, tailles de fichiers) ne suivent pas une loi normale et peuvent être mal décrits par cette règle.

Le critère sigma dans les sciences expérimentales.
Dans les sciences expérimentales, un résultat n'est jamais déclaré vrai ou faux de manière absolue. Il est jugé selon la probabilité qu'il soit le fruit du hasard. C'est précisément là qu'intervient le critère sigma : plus le nombre de sigmas est élevé, plus il est improbable que l'observation soit une fluctuation statistique accidentelle, et plus la confiance dans le résultat est grande.

Le seuil de 2σ correspond à une probabilité d'environ 4,55 % que le résultat soit dû au hasard (valeur p ≈ 0,045). C'est le minimum historiquement accepté dans de nombreuses sciences sociales et médicales, mais il est aujourd'hui considéré comme insuffisant pour des affirmations fortes. La crise de la reproductibilité qui a secoué la psychologie et la biologie dans les années 2010 est en grande partie attribuée à une trop grande complaisance envers ce seuil : des milliers d'études publiées à p < 0,05 se sont avérées non reproductibles.

À 3σ, la probabilité de fluctuation tombe à environ 0,27 %, soit 1 chance sur 370. Ce niveau constitue traditionnellement le seuil d'une "évidence" (terme traduit de l'anglais, et qu'il conviendrait d'entendre comme "indication à l'appui") en physique des particules. Il est jugé suffisant pour signaler qu'un phénomène mérite d'être investigué sérieusement, mais pas encore pour revendiquer une découverte. En astrophysique et en cosmologie, 3σ est ordinairement le niveau minimal publié pour des résultats préliminaires.

Entre 4σ et 5σ se trouve une zone intermédiaire souvent qualifiée de dite de forte évidence. Un résultat à 4σ (probabilité de fluctuation ≈ 1 sur 15 800) indique qu'un phénomène est très probablement réel, mais la communauté scientifique reste prudente. Historiquement, plusieurs signaux à 4σ se sont évanouis avec l'accumulation de données supplémentaires (notamment certaines prétendues particules supersymétriques annoncées puis retirées).

Le seuil de 5σ est le véritable étalon-or de la physique des hautes énergies. Il correspond à une probabilité de fluctuation d'environ 1 sur 3,5 millions, ce qui est le niveau requis par les collaborations du CERN (comme ATLAS et CMS) pour annoncer officiellement une découverte. C'est précisément à ce seuil que fut annoncé le boson de Higgs en juillet 2012, après des années d'accumulation de données au LHC. Ce standard très élevé s'explique par un problème structurel : dans ces expériences, on teste simultanément des millions de canaux de désintégration et de plages d'énergie, ce qui multiplie mécaniquement les chances d'observer une fluctuation fortuite à 3σ ou même 4σ. C'est ce qu'on appelle le problème des comparaisons multiples, oulook-elsewhere effect.

Au-delà de 5σ, les critères deviennent pertinents dans des contextes très spécifiques. En métrologie et en physique de précision, des mesures comme la constante de structure fine ou le moment magnétique anomal du muon sont comparées aux prédictions théoriques avec une précision telle que des écarts à 4-5σ entre théorie et expérience constituent des énigmes scientifiques majeures. L'anomalie du muon g−2, mesurée au Fermilab, affiche un écart persistant avec le Modèle Standard à environ 5σ en combinant plusieurs expériences, ce qui en fait l'un des indices les plus sérieux de physique au-delà du Modèle Standard.

À 6σ (probabilité ≈ 1 sur 500 millions), on entre dans le domaine du contrôle de qualité industriel plutôt que de la physique fondamentale. La méthodologie Six Sigma, popularisée par Motorola puis General Electric dans les années 1980-1990, fixe comme objectif de n'avoir pas plus de 3,4 défauts par million d'occurences (ce qui correspond, après correction pour les dérivés de processus, à un niveau légèrement inférieur à 6σ au sens statistique strict). Ce standard est appliqué dans l'aéronautique, la fabrication de semi-conducteurs et la pharmacie.

Les niveaux 7σ et 8σ n'ont d'existence pratique que dans deux contextes. D'une part, en physique des particules, certains résultats accumulés sur des décennies finissent par atteindre ces niveaux : la découverte de l'oscillation des neutrinos, ou la confirmation de la désintégration du pion neutre, ont été établies bien au-delà de 5σ avec le temps. D'autre part, ils servent de référence conceptuelle pour évaluer la robustesse d'une mesure contre des biais systématiques mal compris, car un résultat à 8σ reste vulnérable si les erreurs systématiques sont sous-estimées d'un facteur deux.

Ce dernier point est fondamental et souvent sous-estimé : le critère sigma ne mesure que l'incertitude statistique. Les erreurs systématiques (mauvais étalonnage, biais de sélection, effets instrumentaux non modélisés) peuvent fausser un résultat même à 10σ. L'histoire des sciences regorge d'exemples où un signal apparemment écrasant s'est effondré non pas parce qu'il était une fluctuation statistique, mais parce que le dispositif expérimental avait un défaut non identifié. Le critère sigma est donc une condition nécessaire, jamais suffisante, pour valider un résultat scientifique.

Dictionnaire Idées et méthodes