Les bonnes statistiques ne peuvent pas sauver la science

🔥 Produits recommandés : Canon EOS R6 IIDJI Mini 4 ProMacBook Pro M4

Une révolution est en cours dans la manière dont les gens évaluent la valeur scientifique des études psychologiques, et bon nombre des réformes les plus importantes ont consisté à accorder plus d’attention aux statistiques.

From Lukas on Pexels. Modified by A. Danvers
Platt et Fisher sont d’accord pour dire que les statistiques ne suffisent pas pour faire de la bonne science.
Source : Lukas sur Pexels : De Lukas sur Pexels. Modifié par A. Danvers

Par exemple, le texte complet sur la puissance statistique – unebranche des statistiques qui permet aux chercheurs de savoir combien de participants ils doivent réunir pour qu’une expérience ait de bonnes chances de réussir – a été écrit en 1977. Ce n’est qu’au cours de la dernière décennie que certaines revues influentes ont commencé à obliger les chercheurs à utiliser ces informations pour justifier le nombre de participants qu’ils ont recueillis dans les nouvelles expériences qu’ils rapportent.

C’est une bonne chose pour l’intello que je suis, qui a des aptitudes pour les statistiques, mais cela tend aussi à donner l’impression que la « révolution de la crédibilité » en psychologie est essentiellement le fait de personnes qui connaissent très bien les statistiques et qui crient à ceux qui ne les connaissent pas de « faire leurs maths correctement ».

Mais faire de la bonne science, ce n’est pas d’abord connaître les statistiques. Ce qui compte, c’est de tirer de bonnes conclusions sur la façon dont le monde fonctionne.

La semaine dernière, j’ ai relu un article classique de John Platt sur la méthode scientifique. Toute la semaine, une section de l’article m’a trotté dans la tête :

« Aujourd’hui, nous prêchons que la science n’est pas de la science si elle n’est pas quantitative. Nous remplaçons les études causales par des corrélations et le raisonnement organique par des équations physiques. Les mesures et les équations … tendent à devenir l’objet de manipulations scientifiques au lieu d’être des tests auxiliaires de déductions cruciales. » (pp. 351-352)

En d’autres termes, la science n’est pas l’étude de modèles statistiques sophistiqués. C’est l’étude du monde réel, et les statistiques ne sont qu’un outil parmi d’autres pour atteindre cet objectif plus large.

Ou, comme je l’ai lu, ce n’est pas parce que vous avez utilisé la modélisation des équations structurelles ou la modélisation hiérarchique bayésienne ou n’importe quelle nouvelle technique fantaisiste que vous êtes tous excités de montrer, que vous faites de la bonne science. C’est comme une gifle du passé qui me force à être plus prudent et plus humble dans mon approche de la science.

From Magda Ehlers on Pexels. Modified by A. Danvers
Le message de Mme Platt invite à l’humilité ceux qui substituent les statistiques à une réflexion approfondie.
Source : Magda Ehlers sur Pexels : De Magda Ehlers sur Pexels. Modifié par A. Danvers

Platt poursuit :

« Les équations et les mesures sont utiles quand et seulement quand elles sont liées à la preuve ; mais la preuve ou la réfutation vient en premier et est en fait la plus forte quand elle est absolument convaincante sans aucune mesure quantitative. » (pp. 352)

Si vous devez utiliser un test statistique surpuissant qui tient compte de quatre autres facteurs pour trouver une petite différence entre les conditions expérimentales, vos résultats ne sont pas très convaincants.

Le test le plus important que Platt voudrait qu’une expérience réussisse est ce que les statisticiens appellent en plaisantant le « test du traumatisme intra-occulaire » : le résultat vous frappe en plein dans les yeux. La plupart du temps, cela signifie que si vous créez un graphique des résultats d’une étude, le résultat vous saute aux yeux. Il est facile et évident de repérer les différences.

Ronald Fisher, l’une des figures fondatrices des statistiques du comportement et de la biologie, serait d’accord. On lui attribue souvent l’introduction des tests de signification statistique, que la plupart des scientifiques en psychologie (et en biologie, en sociologie et dans bien d’autres domaines) utilisent encore dans la quasi-totalité de leurs publications. Pourtant, même lui s’est rendu compte que les tests de signification – son bébé – n’étaient pas suffisants pour stimuler la découverte scientifique :

« En ce qui concerne le test de signification, nous pouvons dire qu’un phénomène est démontrable expérimentalement lorsque nous savons comment mener une expérience qui échouera rarement à nous donner un résultat statistiquement significatif. » – R.A. Fisher, 1947 (cité dans Mayo, 2018)

En d’autres termes, vous savez que votre expérience fonctionne lorsque vous pouvez la répéter à l’infini et qu’elle donne presque toujours le même résultat. Aucun test statistique sophistiqué n’est nécessaire.

Les travaux de Daniel Kahneman et Amos Tversky sur la prise de décision (travaux qui ont été à l’origine d’un prix Nobel) comportent souvent des exemples de ce type. Par exemple, ils ont démontré ce que l’on appelle « The Conjunction Fallacy  » en utilisant une question qui suscite presque toujours l’effet clé chez les lecteurs :

Linda est âgée de 31 ans, célibataire, franche et très intelligente. Elle s’est spécialisée dans la philosophie. Lorsqu’elle était étudiante, elle s’intéressait beaucoup aux questions de discrimination et de justice sociale, et a également participé à des manifestations antinucléaires.

Laquelle est la plus probable ?

  • Linda est caissière dans une banque.
  • Linda est caissière dans une banque et participe activement au mouvement féministe.

Lorsque je lis cela, mon intuition me dit de choisir la seconde – elle s’intéresse à la philosophie, à la discrimination et à la justice sociale, donc elle doit être active dans le mouvement féministe ! Mais logiquement, la probabilité qu’une seule chose soit vraie (Linda est caissière) doit être plus élevée que la probabilité que cette chose plus une autre chose (Linda est caissière + Linda est active dans le mouvement féministe) soient vraies.

Le problème de Linda de Kahneman et Tversky démontre de manière fiable un cas où les gens sont intuitivement non logiques, et vous pouvez le constater presque à chaque fois que la question est posée. Le projet à long terme de Kahneman et Tversky était de démontrer que le modèle économique de l' »acteur rationnel » du comportement humain – qui suppose que les gens sont toujours rationnels et poursuivent leurs objectifs en utilisant les meilleures stratégies possibles – est incorrect.

Ils pourraient exclure différentes parties de ces hypothèses en démontrant des cas où les gens ne sont pas rationnels.

Revenons à Platt :

« On peut enfermer les phénomènes dans une boîte logique ou dans une boîte mathématique. La boîte logique est grossière mais solide. La boîte mathématique est à grain fin mais fragile ». (p. 352)

Il est possible de calculer un degré précis de « non-rationalité » à partir des résultats du problème de Linda, en calibrant votre réponse selon que la personne qui répond est un homme ou une femme, selon son âge ou selon que la question est posée d’une manière légèrement différente. Mais l’idée clé a été enfermée dans une boîte logique, pas dans une boîte mathématique. Les statistiques sont secondaires.

Ne vous méprenez pas, je pense que les statistiques sont importantes et que lorsque les chercheurs commettent des erreurs, les résultats scientifiques doivent être corrigés. Mais la science ne devrait pas être l’apanage des statisticiens (comme moi). La science consiste à comprendre et à expliquer le fonctionnement du monde, et les statistiques ne sont qu’un outil parmi d’autres pour y parvenir.