Corrélation et causalité

93
0
Share:
corrélation

Confondre corrélation et cause est un piège rationnel dans lequel il est facile de tomber. Il arrive que cette confusion soit accidentelle, et uniquement le fait d’un esprit distrait. Il arrive également qu’elle soit pleinement volontaire et constitue une forme de manipulation. Identifier et différencier corrélation et cause est donc, pour l’homme de raison souhaitant penser juste et droit, d’une importance primordiale.

Corrélation et causalité : définitions

Prenons deux éléments, que nous appellerons X et Y. Si X et Y évoluent de manière identique, ou, au moins, similaire, on dit qu’ils sont corrélés. Si une modification de X modifie également Y, alors X est la cause (ou du moins une des causes) de Y. Dit comme cela, ça semble simple. Et effectivement, ça l’est. Mais dans la pratique, les choses peuvent être plus difficile à définir.

Les choses se compliquent…

La différence entre corrélation et causalité n’est pas toujours évidente. Plus précisément : nous avons facilement tendance, en constatant une corrélation, à sauter aux conclusions et à y voir une causalité. Même si celle-ci est improuvée. Or, pour penser juste, il convient de demeurer prudent en la matière.

Un exemple : le petit-déjeuner des enfants

Une étude américaine datant de 2013 a montré que les enfants qui prennent un bon petit déjeuner le matin ont en général de meilleurs résultats scolaires. On pourrait déduire de cette étude (sponsorisée par Kellogg’s, mais c’est certainement un hasard…) que c’est ce petit déjeuner qui leur donne de tels résultats. Mais rien ne le prouve. Il ne s’agit que d’une corrélation. On pourrait également imaginer, par exemple, que les enfants qui ne mangent pas, ou peu, le matin, sont ceux de familles très pauvres ; or, on sait que plus les enfants sont issus de familles aisées, mieux ils tendent à réussir à l’école. On peut aussi penser que des enfants ne mangeant pas le matin sont des gamins dont les parents sont absents, travaillent de nuit et ne sont pas encore rentrés, ou encore sont démissionnaires : autant de bonnes raisons pour que les gosses, moins encadrés, aient de moins bons résultats à l’école. Il peut aussi s’agir de gosses dépressifs, de gamines anorexiques, etc. Là encore, autant de bonnes raisons pour avoir de mauvais résultats. Dans tous les cas, le fait de prendre ou de ne pas prendre de petit déjeuner est une indication d’un certain état éventuellement problématique, plus que la cause réelle des choses.

Dans le même genre, une étude britannique avait montré que les gens vivant sous des lignes à haute tension étaient généralement en moins bonne santé que les autres. Certes. Mais les gens vivant sous des lignes à haute tension sont en général des pauvres : les riches ne veulent pas de ces trucs bourdonnants au dessus de leurs têtes et vivent en général dans d’autres zones. De sorte que l’étude, au final, se contente de montrer qu’en moyenne, les pauvres sont en moins bonne santé que les riches. Scoop.

Jogging après soixante ans ?

D’après l’Ordre des Médecins, les seniors qui pratiquent le jogging régulièrement à 60 ans ont de fortes chances d’être en bonne forme à 70 ans. Conclusion : le jogging est bon pour la santé. C’est sans doute vrai. Mais le raisonnement ne prend pas en compte un fait essentiel : les personnes capables de pratiquer le jogging à 60 ans sont des personnes qui sont déjà en forme ; pas celles qui ont les poumons bousillés par le tabac, ni le corps massacré par leur travail. Dès lors, le jogging peut être considéré comme une indication d’une bonne forme physique déjà présente et pas forcément comme une cause. Et cette deuxième interprétation n’est pas moins légitime que la première. De ce point de vue, on pourrait donc résumer l’étude à : « Les gens en bonne forme pour leur âge à 60 ans ont tendance à être encore en bonne forme pour leur âge dix ans plus tard. ». Dit comme cela, ça n’a rien d’étonnant. Cela ne doit pas vous empêcher de jogger si vous y trouvez un intérêt mais on voit bien, ici, comment la cause et l’indice peuvent être mêlés.

Un dernier exemple pour la route

Le site du sociologue Baptiste Coulmont propose des nuages de prénoms, corrélant ceux-ci aux résultats au Baccalauréat. On y apprend qu’en 2017, Adèle, Diane, Théophile et Augustin ont eu de meilleures notes que Jordan, Mehdi, Cassandra et Yassine. Mais sur quasiment toutes les pages, le sociologue rappelle qu’il n’y a là rien de magique : un prénom, c’est d’abord la marque de la classe sociale et culturelle d’origine des parents. Il est évident que quand on appelle sa fille Marie-Amélie ou Justine, on ne vit en général pas dans le même milieu que quand on la nomme Cindy, Nelly ou Jessica. Et que quand on est issu de la bourgeoisie, on a plus de facilités à avoir de bons résultats scolaires que quand on vient de la cité ou du bled. Une famille d’immigrés du 93 qui appellerait son fils Charles-Edouard n’en ferait pas magiquement un énarque (même s’il est vrai qu’elle lui rendrait sans doute plus facile le fait de s’élever socialement quand il sera adulte que si elle le prénomme Mokhtar; en revanche, elle le condamnerait certainement à des moqueries de la part des autres gamins pendant une bonne partie de son enfance). Là encore, donc, comme pour le jogging, le prénom est l’indice d’un milieu social favorisé, lequel est généralement la cause de bons résultats scolaires.

Le mauvais usage de la corrélation est donc une tentation permanente, dans la publicité, dans le discours politique, dans le discours médiatique en général. On vous met très facilement sous le nez des courbes se voulant explicatives, mais qui n’ont, le plus souvent, aucune valeur rationnelle. Car au final, on peut comparer à peu près n’importe quoi avec n’importe quoi d’autre : ça n’est pas parce que deux tendances sont parallèles que cela a le moindre pouvoir explicatif.

corrélation n'est pas causalité

Comparaison entre le taux de mariage en Virginie et la consommation de viande de bœuf. Moralité : moins les gens mangent de viande, moins ils se marient. Achetez du steak pour sauver votre mariage !

Corrélation et causalité : penser juste et penser sain

Il peut être tentant, du seul fait qu’on a établi une corrélation entre deux variables, d’y voir une causalité. Sauter aux conclusions, surtout quand celles-ci confortent nos propres a priori, est une tendance courante, que l’homme de raison doit savoir limiter. Ainsi, même quand la conclusion nous semble tentante, convient-il de se plier à un minimum de discipline intellectuelle :

  • Vérifier que les informations ont une valeur véritable et sont significatives. Des informations anecdotiques peuvent fausser la perspective.
  • Vérifier que les informations sont pertinentes. Ainsi, on peut écarter très rapidement une proposition du genre : Mes employés sont vraiment des fainéants, qui abusent du système de santé : la majorité de leurs congés-maladie concernent les week-ends ou les jours qui les précèdent ou les suivent immédiatement. Ben oui : les deux jours de week-end, plus le vendredi, plus le lundi, ça fait quatre sur sept ; c’est normal que ce soit la majorité. On a donc là une proposition non pertinente.
  • Vérifier que la théorie de causalité a un pouvoir prédictif : c’est là l’essentiel. Si vous avez établi une cause véritable, vous êtes en mesure de prédire qu’un changement de cette cause provoquera un changement dans l’autre facteur. Si X change, Y change aussi (pas forcément immédiatement, ni dans les mêmes proportions, ni même forcément dans le même sens). Une causalité sans vertu prédictive n’est pas une causalité valable. La prédictibilité d’un changement est l’arme absolue pour différencier la corrélation de la cause. 

Pour reprendre les exemples ci-dessus : afin d’être certain que les corrélations sont des causalités, il faudrait pouvoir provoquer des changements dans les groupes étudiés. Par exemple : faire cesser de prendre leur petit-déjeuner à certains enfants ou en nourrir d’autres de force si nécessaire; il faudrait déplacer les gens vivant sous des lignes à haute tension et voir si leur santé s’améliore; il faudrait forcer certains seniors à se mettre au jogging, et d’autres à arrêter; il faudrait, enfin, pouvoir renommer certains enfants et attendre plusieurs années pour voir les résultats. Rien de tout cela n’étant réellement possible, on en vient à la conclusion qui s’impose : oui, il y a bien corrélation, mais ça ne prouve pas qu’il y a causalité. On reste dans une certaine incertitude. C’est moins confortable intellectuellement mais c’est nettement plus honnête.

 

Corrélation et causalité

Comparaison entre le nombre de films avec Nicolas Cage sortis chaque année et les noyades en piscine. C’est vrai que ça laisse songeur : à quand l’interdiction des films avec Nicolas Cage ? Cela éviterait bien des accidents et bien des décès.

Un peu d’humour pour finir

Pour en terminer sur le sujet, un petit site à recommander pour ceux qui auraient encore du mal à voir à quel point on peut abuser des corrélations et de la causalité. Les courbes présentes dans cet article en sont issues : il s’agit de Spurious Correlations. Une lecture pleine de surprises et fort amusante.

Pour aller plus loin : livres sur le sujet

Spurious Correlations a commis un bouquin très rigolo sur le sujet, plein de courbes stupides du genre de celles présentées ici et sur leur site. En anglais uniquement, lien en bas de page. Bouquin d’humour sympathique et parfois un brin potache, à mettre entre quasiment toutes les mains. Du moment que la personne connaît l’anglais, c’est lisible dès 10 ans. Même si … bon, OK, se marrer sur des graphiques, ça a un sérieux côté geek.
Pour un lecteur non anglophone, allez donc jeter un coup d’oeil du côté du Petit cours d’autodéfense intellectuelle, de Normand Baillargeon : ça vaut également le détour.

Illustration : Hans-Peter Gauster

Spurious Correlations


Neuf à partir de:EUR 12,83 En stock
D’occasion à partir de:EUR 4,62 En stock

Julien
Share: