16 - Régression logistique : introduction

Stat B.Falissard
24 Jun 201407:34

Summary

TLDRCette vidéo explique la régression logistique, utilisée pour prédire des variables binaires comme le risque suicidaire en prison. Le transcript détaille pourquoi la régression linéaire classique est inadaptée et introduit la transformation logit pour modéliser les probabilités. À travers un exemple concret, il montre comment estimer les coefficients avec R (`glm`) et interpréter les résultats via l’odds ratio, illustrant l’association entre les antécédents d’abus dans l’enfance et un haut risque suicidaire. La vidéo combine théorie et pratique, offrant aux étudiants une compréhension claire et appliquée des concepts statistiques essentiels pour l’analyse de données binaires.

Takeaways

  • 😀 La régression logistique est utilisée pour des variables à expliquer binaires, comme le risque suicidaire en prison.
  • 😀 Un exemple concret est l'étude du risque suicidaire en prison, avec une variable binaire 'haut risque suicidaire' codée en 0/1.
  • 😀 La régression linéaire multiple ne convient pas pour des variables binaires, car le terme résiduel a une distribution normale, incompatible avec la nature binaire de la variable à expliquer.
  • 😀 La transformation de la probabilité en log-odds (log[(probabilité) / (1 - probabilité)]) permet de rendre la variable à expliquer compatible avec la régression linéaire.
  • 😀 La fonction de régression logistique est estimée à l'aide de la fonction glm dans R, avec 'family = binomial' pour spécifier qu'il s'agit d'une régression logistique.
  • 😀 Pour interpréter les coefficients de la régression logistique, il est essentiel de comprendre que le coefficient b n'est pas directement interprétable, mais que l'exponentielle de b donne l'odds ratio.
  • 😀 L'odds ratio (e^b) représente l'augmentation du risque d'un événement (par exemple, être à haut risque suicidaire) associée à la variable explicative (par exemple, les antécédents d'abus dans l'enfance).
  • 😀 Un odds ratio supérieur à 1 indique une augmentation du risque d'un événement, tandis qu'un odds ratio inférieur à 1 signifie une diminution du risque.
  • 😀 Dans l'exemple, un odds ratio de 2,15 signifie que les antécédents d'abus dans l'enfance multiplient par 2 le risque de risque suicidaire élevé en prison.
  • 😀 L'interprétation de l'odds ratio peut se faire à partir de la fonction R, en utilisant la librairie Epi et la fonction Twoby2 pour confirmer l'odds ratio calculé.
  • 😀 Ce modèle de régression logistique permet de démêler l'influence de différentes variables explicatives sur un risque binaire, comme le risque suicidaire en prison.

Q & A

  • Qu'est-ce que la régression logistique et dans quel contexte est-elle utilisée ?

    -La régression logistique est utilisée pour modéliser une variable dépendante binaire. Elle est particulièrement utile dans les sciences humaines et sociales ou en médecine, notamment pour expliquer des événements ayant deux issues possibles, comme le risque suicidaire (oui/non).

  • Quel est l'exemple donné pour illustrer l'application de la régression logistique ?

    -L'exemple donné est l'étude du risque suicidaire en prison. La variable à expliquer est 'haut risque suicidaire', codée en 0/1, et est expliquée par des variables comme la durée de la peine, les mesures disciplinaires, et les abus dans l'enfance.

  • Pourquoi la régression linéaire multiple ne peut-elle pas être utilisée dans ce cas ?

    -La régression linéaire multiple ne peut pas être utilisée car elle suppose une variable à expliquer quantitative, alors que la variable 'haut risque suicidaire' est binaire. De plus, une régression linéaire donnerait des résultats incohérents pour une variable binaire.

  • Quelle solution les statisticiens ont-ils trouvée pour résoudre ce problème ?

    -Les statisticiens ont transformé la variable binaire en une forme logarithmique : log[(probabilité d'un haut risque suicidaire) / (1 - probabilité)]. Cela permet de réagir à des probabilités qui varient entre 0 et 1 et d'obtenir des résultats compatibles avec une régression.

  • Que représente l'expression log[(probabilité d'un haut risque suicidaire) / (1 - probabilité)] ?

    -Cette expression est utilisée pour transformer une probabilité en une valeur continue qui peut varier entre moins l'infini et plus l'infini, permettant ainsi d'utiliser des techniques de régression pour une variable binaire.

  • Comment les coefficients dans une régression logistique sont-ils interprétés ?

    -Les coefficients dans une régression logistique sont souvent difficiles à interpréter directement. Cependant, si la variable explicative est binaire (0/1), l'exponentielle du coefficient donne l'odds ratio, qui représente le rapport des cotes associées à la variable explicative.

  • Que signifie l'odds ratio dans ce contexte ?

    -L'odds ratio indique combien les cotes (probabilité sur probabilité opposée) sont multipliées en fonction de la présence ou de l'absence de la variable explicative. Par exemple, un odds ratio de 2,15 signifie que les antécédents d'abus dans l'enfance doublent les chances d'un détenu d'avoir un haut risque suicidaire.

  • Quel rôle joue le test p dans l'analyse des résultats ?

    -Le test p permet d'évaluer la significativité statistique de l'association entre la variable explicative (comme les abus dans l'enfance) et la variable à expliquer (haut risque suicidaire). Un p faible (ex. 5x10^-5) indique que l'association est statistiquement significative.

  • Que se passe-t-il si la variable à expliquer est suffisamment rare, comme le risque suicidaire en prison ?

    -Si le risque suicidaire est suffisamment rare, l'odds ratio devient approximativement égal au risque relatif. Cela permet d'interpréter les résultats de manière similaire à une régression classique.

  • Comment vérifier si l'odds ratio calculé est correct ?

    -L'odds ratio calculé peut être vérifié en utilisant une fonction dédiée dans un logiciel statistique, comme la fonction Twoby2 de la librairie Epi en R, pour comparer les résultats obtenus et confirmer que l'odds ratio est bien égal à e^b (exponentielle du coefficient).

Outlines

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Mindmap

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Keywords

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Highlights

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード

Transcripts

plate

このセクションは有料ユーザー限定です。 アクセスするには、アップグレードをお願いします。

今すぐアップグレード
Rate This

5.0 / 5 (0 votes)

関連タグ
régression logistiquerisque suicidaireprisonstatistiquesanalyse de donnéessciences socialesméthodologiepsychologiemodèle statistiquesanté mentale
英語で要約が必要ですか?