4 - Mesures de position et de dispersion : la pratique

Stat B.Falissard

24 Jun 201404:03

Summary

TLDRCe script explique comment résumer efficacement des données dans R. Il présente d’abord la fonction 'summary', utile pour obtenir des statistiques descriptives essentielles, mais parfois peu lisible avec de nombreuses variables. Une alternative, la fonction 'describe' du package 'prettyR', offre une présentation plus claire des variables quantitatives et qualitatives. Toutefois, elle omet des indicateurs clés comme les quartiles, le minimum et le maximum, indispensables pour détecter des valeurs aberrantes. Le script montre enfin comment personnaliser les statistiques affichées et utiliser des fonctions simples comme 'min', 'sd' et 'table' pour des analyses ciblées.

Takeaways

😀 La fonction 'summary' permet d'analyser les variables quantitatives et catégorielles, et donne des informations comme le minimum, la médiane, la moyenne, et les données manquantes.
😀 La fonction 'summary' peut devenir encombrante lorsqu'il y a de nombreuses variables à analyser, rendant l'affichage moins synthétique.
😀 Il est plus traditionnel de présenter les résultats des variables avec les variables en ligne et les statistiques (moyenne, médiane, etc.) en colonnes, car cela est plus lisible.
😀 La fonction 'describe', issue du package 'prettyR', offre une présentation plus élégante des résultats, mais elle ne présente pas les quartiles, ni le minimum ou le maximum.
😀 L'absence de la présentation des quartiles dans la fonction 'describe' peut être un inconvénient, car ces informations sont essentielles pour détecter les valeurs aberrantes.
😀 En cas de valeurs aberrantes, comme un âge incorrect de 250 ans, le minimum et le maximum sont cruciaux pour identifier les erreurs de saisie ou de mesure.
😀 La fonction 'describe' peut être améliorée pour inclure des mesures supplémentaires comme la moyenne, l'écart-type, le minimum et le maximum.
😀 Les fonctions 'min' et 'sd' (écart-type) sont utiles pour calculer rapidement la moyenne ou l'écart-type d'une variable.
😀 La fonction 'table' permet de connaître les modalités d'une variable catégorielle et de vérifier les données manquantes à l'aide de l'option 'useNA'.
😀 L'option 'deparse.level=2' dans la fonction 'table' permet d'afficher le nom de la variable, ce qui aide à mieux comprendre les résultats de l'analyse.

Q & A

Quelle est la fonction de base pour obtenir un résumé des données dans R ?
-La fonction de base est `summary(fichier)`, qui fournit pour les variables quantitatives le minimum, le 1er quartile, la médiane, la moyenne, le 3e quartile, le maximum et le nombre de données manquantes, et pour les variables catégorielles, le nombre de sujets par modalité et les données manquantes.
Quels sont les inconvénients principaux de la fonction `summary()` ?
-Elle utilise beaucoup de place et peut devenir peu lisible si le fichier contient de nombreuses variables, car chaque variable a ses statistiques répétées, rendant le résumé moins synthétique.
Quel package est nécessaire pour utiliser la fonction `describe()` ?
-Le package `prettyR` doit être installé avec `install.packages("prettyR")` puis chargé avec `library(prettyR)`.
Quels types de statistiques la fonction `describe()` fournit-elle pour les variables quantitatives ?
-Elle fournit la moyenne, la médiane, l'écart type et le nombre de sujets disponibles pour chaque variable quantitative.
Quelles informations `describe()` fournit-elle pour les variables catégorielles ?
-Elle indique le nombre de modalités, le nombre de sujets par modalité et le pourcentage de sujets dans chaque modalité.
Quelles limitations de `describe()` sont mentionnées dans le script ?
-Elle ne fournit pas par défaut les quartiles, ni le minimum et le maximum, ce qui peut être problématique pour détecter les valeurs aberrantes.
Comment peut-on compléter `describe()` pour inclure le minimum et le maximum ?
-On peut demander explicitement à la fonction de calculer des mesures supplémentaires comme la médiane, le minimum, le maximum et l'écart type via des options spécifiques lors de l'appel de `describe()`.
Quelles fonctions ponctuelles permettent de calculer des statistiques spécifiques ?
-Pour la moyenne, on utilise `mean(variable)` ; pour l'écart type, `sd(variable)` ; et pour le minimum, `min(variable)`.
Comment obtenir le nombre de sujets par modalité pour une variable catégorielle et inclure les données manquantes ?
-On utilise la fonction `table(variable, deparse.level=2, useNA="ifany")` qui affiche le nom de la variable et inclut les valeurs manquantes.
Pourquoi est-il important de vérifier le minimum et le maximum d’une variable ?
-Le minimum et le maximum permettent de détecter des valeurs aberrantes ou des erreurs de saisie, par exemple un âge enregistré à 250 ans, ce qui pourrait fausser l’analyse.
Comment organiser la présentation des résultats pour qu’elle soit plus lisible ?
-Il est recommandé de mettre les variables en lignes et les mesures statistiques (moyenne, médiane, quartiles, etc.) en colonnes pour obtenir un tableau synthétique et facile à lire.
Quand pourrait-on utiliser uniquement des fonctions comme `mean()` ou `sd()` ?
-Lorsque l’on souhaite calculer des statistiques très spécifiques pour une variable individuelle, sans générer l’ensemble du résumé du fichier.