Ce document constitue une présentation succincte du package Rcommander (Rcmdr), une sur-couche du logiciel R. Il s’agit d’une interface graphique qui facilite l’interactivité avec le logiciel R. En particulier, on s’intéressera à l’importation et la manipulation des données quantitatives et qualitatives, à la description d’un jeu de données et à l’analyse statistique.
L’interface du package Rcmdr
est assez rudimentaire. Elle est composée d’un menu avec des listes déroulantes afin de remplacer les fonctions R à taper dans un script, d’une fenêtre “script R” avec les commandes R, d’une fenêtre “Sortie” relative aux résultats et d’une fenêtre “Message” relative aux messages d’erreur. Les commandes exécutées par le menu sont traduites en script R dans la fenêtre script. Il est possible de taper des commandes R directement dans cette fenêtre.
Démarrer avec R. Quelque soit le système d’exploitation utilisé (Windows, Mac, Linux), R fonctionne comme tout autre logiciel : il suffit généralement de double-cliquer sur l’icône de l’application pour démarrer R. On dispose ensuite d’une console interactive dans laquelle on peut commencer à saisir des commandes après l’invite R >
. Les résultats seront affichés aussitôt dans la console.
Il faut installer le package Rcmdr grâce à la commande install.packages()
:
install.packages("Rcmdr")
On obtient la fenêtre suivante :
Cliquer sur Oui pour installer les dépendances.
On installera aussi les packages epicalc
, epitools
et prettyR
:
install.packages("epicalc")
install.packages("epitools")
install.packages("prettyR")
Les packages sont installés définitivement (tant qu’on ne les désinstalle pas).
Ensuite, il faut “charger les packages” à chaque session de R pour avoir accès aux fonctions qui les composent. On utilise pour cela la commande library()
:
library(Rcmdr)
library(epicalc)
library(epitools)
library(prettyR)
Il est possible d’importer un jeu de données à partir d’un fichier Excel, Access, dBase ou texte mais également à partir d’autres formats comme SAS, SPSS ou STATA. Sous MAC, il est impossible d’importer un jeu de données à partir d’un fichier Excel, Access ou dBase.
Pour importer un jeu de données à partir d’un fichier Excel, Access ou dBase : Données >
Importer des données >
Depuis un fichier Excel, Access ou dBase
Il faut nommer le fichier qui vient d’être importé, par exemple en smp2
, et parcourir vos documents pour chercher le jeu de données smp2
.
Pour importer un jeu de données à partir d’un fichier csv : Données >
Importer des données >
Depuis un fichier texte, le presse-papiers ou URL
Il faut nommer le fichier qui vient d’être importé, par exemple en smp2
, et parcourir vos documents pour chercher le jeu de données smp2
.
Après l’importation du jeu de données dans Rcmdr, il est important de vérifier le nombre d’observations et de variables, afin de savoir s’il est bien adéquat avec le fichier initial.
En cliquant sur Visualiser
, il est possible d’apercevoir le jeu de données smp2
:
Une description brève du jeu de données importé peut être obtenue.
Statistiques >
Résumés >
Jeu de données actif
Pour chacune des variables du jeu de données, nous disposons d’indicateurs de positions (moyenne, médiane, quartiles). Attention, toutes les variables du jeu de données sont par défaut de type quantitatif. Nous verrons donc dans la partie suivante comment convertir ces variables en variables qualitatives.
L’ensemble des variables issues du jeu de données importé sont de type quantitatif par défaut. Avant d’analyser le jeu de données, il faut donc convertir les variables quantitatives, qui sont supposées être qualitatives, en variables qualitatives.
Données >
Gérer les variables du jeu de données actifs >
Convertir des variables numériques en facteurs
Par exemple, la variable “ecole” (niveau de formation actuel) est quantitative par défaut. Nous allons donc la convertir en variable qualitative en 5 classes.
La première possibilité est de transformer cette variable avec des modalités en chiffre “1”, “2”, “3”, “4”, “5” :
La seconde possibilité est de transformer cette variable avec des modalités en texte : “sans diplôme”, “collège”, “CAP, BEP”, “Lycée”, “université” :
Certaines analyses demandent de recoder des variables quantitatives en variables qualitatives, à 2 ou plusieurs catégories. Lors du recodage, il faut faire attention aux données manquantes.
Données >
Gérer les variables du jeu de données actifs >
Recoder des variables
Dans cet exemple, nous allons recoder la variable quantitative durée d’interview (dur.interv) en variable qualitative à 3 classes (dur.interv_c2). Si dur.interv est compris entre 0 et 60 minutes alors dur.interv_c2=“Duree 60-”, si dur.interv est vide alors dur.interv_c2=NA, sinon dur.interv_c2 = “Duree 60+”.
De nouvelles variables peuvent être créées à partir d’autres variables à l’aide de fonctions mathématiques : des opérateurs (+, -, *, /, ^
…) ou des fonctions (log, exp, sin, cos, tan…).
Données >
Gérer les variables du jeu de données actifs >
Calculer une nouvelle variable
Pour exemple, nous allons créer la variable log(duree), qui représente le logarithme de la durée d’interview :
Dans une étude, il est important de décrire les variables de son jeu de données.
Pour les variables quantitatives, il est intéressant d’obtenir des moyennes, écart-types, médiane…
Statistiques >
Résumés >
Statistiques descriptives
En moyenne, la durée d’interview est de 23.99 minutes (+/- 10 écart-types). La médiane de la durée d’interview est de 25 minutes, c’est à dire que la moitié de la population a une durée d’interview de 25 minutes.
Pour les variables qualitatives, il est intéressant d’obtenir des proportions et des intervalles de confiance.
Statistiques >
Résumés >
Distribution de fréquence
La proportion de détenus ayant subi des maltraitances pendant l’enfance est de 27,78% (220).
Pour obtenir l’intervalle de confiance d’une proportion, il n’existe pas de commande sous Rcmdr. Il faut taper et soumettre la procédure suivante dans le script: prop.test(n,t)
où n est le nombre de cas et t est le nombre total d’individus concernés par la variable testée.
… avec un IC95% [24,71% - 31.06%]
La distribution des variables quantitatives va être illustrée par des histogrammes ou des boxplots et celle des variables qualitatives par des diagrammes.
Graphes >
Histogramme
Par exemple, la distribution de la durée d’interview (dur.interv) est représentée par un histogramme. Dans les options, il est possible de choisir quel type de données nous intéresse (effectifs, pourcentages, densités), de renommer les libellés des axes et de donner un titre au graphique.
Graphes >
Boite de dispersion
La distribution de la durée d’interview peut être représentée également par un boxplot.
Graphes >
Graphes en barres
Nous allons représenter la variable abus (abus) par un diagramme en barres. Il est possible de renommer les libellés des axes et de donner un titre au graphique.
Sur cet exemple, nous constatons que les détenus ayant subi des maltraitances pendant l’enfance sont moins nombreux.
Pour représenter le diagramme en barre en pourcentage, il faut préalablement créer une variable abus en pourcentage.
Nous pouvons illustrer par un boxplot si le fait d’avoir subi des maltraitances pendant l’enfance pouvait entraîner des écarts dans la durée de l’interview.
Graphes >
Boite de dispersion
La médiane entre les deux groupes semble identique.
Nous allons comparer statistiquement la différence de durée d’interview entre les détenus ayant subi des maltraitances pendant l’enfance et ceux n’ayant jamais subi de maltraitance pendant l’enfance.
Nous allons regarder la moyenne de durée d’interview entre les deux groupes ainsi que les effectifs par groupe
Statistiques >
Résumés >
Statistiques descriptives
Les effectifs des deux groupes sont supérieurs à 30. Nous montrons que la médiane dans les deux groupes est de 25 minutes, et avec une moyenne de 23.34 minutes (+/- 10.7) dans le groupe “non abus” et de 25.75 minutes (+/- 10.2) dans le groupe “abus”.
Nous allons tester la normalité de la distribution de la durée d’interview.
Statistiques >
Résumés >
Tests de normalité de Shapiro-Wilk
Le test de Shapiro est significatif (p<0.05). Cela signifie que la variable ne suit pas une loi normale.
Dans notre exemple, les effectifs dans chaque groupe sont supérieurs à 30, donc nous pouvons réaliser un test de Student.
Si les effectifs étaient inférieurs à 30 et que la durée d’interview suivait une loi normale, alors le test de Student serait toujours valable (seuls les degrés de liberté et la loi seraient modifiés). Si les effectifs étaient inférieurs à 30 et que la durée d’interview ne suivait pas suivi une loi normale, alors le test non paramétrique de Mann-Whitney serait recommandé.
a- Test de Student
Statistiques >
Moyennes >
t-test indépendant
Le test indique qu’il y a une différence significative (p<0.05) de la durée d’interview entre les deux groupes.
b- Test non paramétrique de Wilcoxon
Statistiques >
Tests non paramétriques >
Test de Wilcoxon bivarié
Le test indique qu’il y a une différence significative (p<0.05) de la durée d’interview entre les deux groupes.
(Ce test est réalisé juste pour l’exemple et n’est pas recevable)
Nous allons comparer statistiquement l’association entre le fait de subir des maltraitances pendant l’enfance et l’existence d’un trouble dépressif.
Dans notre exemple, le test du khi² est faisable si et seulement si les effectifs espérés sont supérieurs à 5, sinon le test de Fisher est recommandé.
Statistiques >
Tables de contingences >
Tri croisé
Les effectifs théoriques sont bien supérieurs à 5, le test du Khi² est donc recevable.
Ce test indique qu’il n’y a pas d’association entre le fait de subir des maltraitances pendant l’enfance et l’existence d’un trouble dépressif (p>0.05).
Statistiques >
Tables de contingences >
Tri croisé
Ce test indique qu’il n’y a pas d’association entre le fait de subir des maltraitances pendant l’enfance et l’existence d’un trouble dépressif (p>0.05).
(Ce test est réalisé juste pour l’exemple et n’est pas recevable)
Statistiques >
Ajustement de modèles
Nous allons étudier l’association entre la durée de l’interview et l’abus, ajusté sur l’âge du détenu
Statistiques >
Ajustement de modèles >
Modèle linéaire
Il faut double-cliquer sur les variables afin qu’elles s’affichent dans la formule du modèle.
Le p-value global du modèle est de 0,0005366. Cela signifie qu’une des variables (abus ou âge) est significative.
Il y a une association significative entre la durée d’interview et abus (p=0,003), après ajustement sur l’âge du détenu.
Nous allons étudier entre le fait de subir des maltraitances pendant l’enfance et l’existence d’un trouble dépressif, ajusté sur l’âge du détenu
Statistiques >
Ajustement de modèles >
Modèle linéaire généralisé
Il faut double-cliquer sur les variables afin qu’elles s’affichent dans la formule du modèle. Pour indiquer qu’il s’agit d’un modèle logistique, il faut indiquer que la famille est binomiale et la fonction de lien logit.
Il n’y a pas association significative entre le fait de subir des maltraitances pendant l’enfance et l’existence d’un trouble dépressif, après ajustement sur l’âge du détenu.