6 - Coefficient de corrélation

Stat B.Falissard

31 May 201409:06

Summary

TLDRCette vidéo explique comment mesurer et interpréter la force de l'association entre deux variables, en distinguant corrélation et causalité. À travers des exemples concrets comme la taille des jumeaux ou l'âge et la taille, elle introduit le coefficient de corrélation de Pearson, sa signification et ses limites. L'accent est mis sur l'interprétation prudente des valeurs de corrélation et du pourcentage de variance partagée. Des conseils pratiques pour visualiser les données et calculer la corrélation avec R sont également présentés, tout en alertant sur les situations où la corrélation peut être trompeuse ou insuffisante pour évaluer une liaison réelle entre variables.

Takeaways

😀 La force de l'association entre deux variables dépend de la relation entre elles, qui peut être plus ou moins forte selon le cas.
😀 Les variables dépendantes ont une relation dans laquelle la connaissance de l'une donne une indication sur l'autre, mais la force de cette relation peut varier.
😀 Un exemple de forte corrélation est celle entre la taille des jumeaux, mais la relation devient moins forte lorsqu'il s'agit des revenus.
😀 La liaison entre deux variables n'implique pas nécessairement une causalité, comme dans l'exemple des dents jaunes et du cancer du poumon.
😀 Le coefficient de corrélation de Pearson est un moyen de quantifier la force de l'association entre deux variables quantitatives.
😀 Le coefficient de corrélation 'r' varie entre -1 et 1, avec des valeurs extrêmes indiquant une relation linéaire forte entre les variables.
😀 Une corrélation de 0 signifie qu'il n'y a pas de relation linéaire évidente, mais cela ne veut pas dire qu'il n'y a pas de liaison entre les variables.
😀 Une corrélation de 1 ou -1 indique une relation linéaire parfaite entre les variables, où la connaissance de l'une permet de prédire précisément l'autre.
😀 Le carré du coefficient de corrélation représente la proportion de variance partagée entre les deux variables, mais ne doit pas être interprété comme une simple ressemblance entre elles.
😀 L'interprétation des coefficients de corrélation doit être prudente, car des valeurs comme 0.6 ou 0.8 peuvent avoir des significations différentes selon le domaine et le contexte.
😀 Les simulations graphiques peuvent aider à visualiser l'intensité de la corrélation entre deux variables, montrant clairement la différence entre des corrélations faibles et fortes.
😀 Le calcul du coefficient de corrélation avec R est simple, mais nécessite de tenir compte des données manquantes pour obtenir des résultats fiables.

Q & A

Qu'est-ce qu'une variable dépendante selon le script ?
-Deux variables sont dites dépendantes lorsque la connaissance de l'une donne une indication sur la valeur de l'autre. Le niveau de cette indication peut varier, correspondant à des liaisons plus ou moins fortes.
Peut-on considérer qu'une corrélation implique une causalité ?
-Non. Une corrélation statistique entre deux variables ne signifie pas qu'il y a une relation de cause à effet entre elles. Par exemple, avoir les dents jaunes est corrélé au cancer du poumon, mais ce n'est pas la cause ; le tabac est le facteur commun.
Qu'est-ce que le coefficient de corrélation de Pearson et comment est-il noté ?
-Le coefficient de corrélation de Pearson mesure la force d'une liaison linéaire ou monotone entre deux variables quantitatives. Il est noté 'r' et varie entre -1 et 1.
Que signifie une corrélation r = 0, r = 1 et r = -1 ?
-r = 0 : aucune corrélation linéaire (mais pas nécessairement indépendance). r = 1 : corrélation positive parfaite (les deux variables augmentent ensemble). r = -1 : corrélation négative parfaite (une variable augmente tandis que l'autre diminue).
Comment interpréter le carré du coefficient de corrélation, r² ?
-Le carré du coefficient de corrélation représente le pourcentage de variance partagée entre deux variables. Par exemple, r = 0,6 → r² = 0,36, donc 36 % de variance partagée. Cependant, cela ne signifie pas que les variables sont identiques à 36 %.
Quels exemples illustrent une corrélation positive et négative dans la vie réelle ?
-Corrélation positive : entre 0 et 6 ans, la taille des enfants augmente avec l'âge. Corrélation négative : après 60 ans, la taille diminue légèrement avec l'âge en raison de l'ostéoporose.
Quels sont les repères approximatifs pour juger la force d'une corrélation ?
-Selon certaines sources : 0,8 → très fort, 0,6 → plutôt fort, 0,4 → moyen, 0,2 → faible, 0,1 → extrêmement faible. Ces repères restent indicatifs et non strictement rigoureux.
Pourquoi est-il important de visualiser les données avant de calculer la corrélation ?
-La visualisation avec un diagramme XY permet de percevoir la relation entre les variables et d'identifier des cas où la corrélation linéaire pourrait être nulle malgré une relation non linéaire (ex. courbe en U).
Comment calculer le coefficient de corrélation de Pearson dans R avec des données manquantes ?
-On utilise la fonction cor() avec l'option 'use = complete.obs' pour ignorer les données manquantes : cor(age, nb_enfants, use = 'complete.obs').
Quels sont les cas où une corrélation peut être parfaite mais trompeuse ?
-Si un appareil mesure systématiquement deux fois moins qu'un appareil de référence, la corrélation peut être r = 1, mais le nouvel appareil donne des résultats incorrects, donc la corrélation parfaite n'indique pas toujours une bonne concordance.
Quelle est la différence entre liaison statistique faible et forte ?
-Une liaison statistique forte signifie que la connaissance d'une variable permet de prédire précisément l'autre (ex. taille d'un jumeau). Une liaison faible signifie que l'information est peu indicative (ex. pertes au casino entre jumeaux).
Pourquoi faut-il être prudent avec le pourcentage de variance partagée entre deux variables ?
-Parce qu'il peut être interprété à tort comme un degré de ressemblance entre les variables. Même si r² = 0,36, cela ne signifie pas que les variables sont 36 % identiques. Il indique seulement la proportion de variance statistiquement partagée.