Description du cours
Cette partie décrit comment comparer plusieurs moyennes dans R à l’aide de la méthode ANOVA (Analysis of Variance) et des variantes, notamment:
- Test ANOVA pour comparer des mesures indépendantes.
- ANOVA sur mesures répétées, qui est utilisé pour l’analyse des données lorsque les mêmes sujets sont mesurés plus d’une fois.
- ANOVA mixte, qui permet de comparer les moyennes des groupes croisées par au moins deux facteurs, l’un étant un facteur “intra-sujets” (mesures répétées) et l’autre étant un facteur “inter-sujets”.
- ANCOVA (analyse de la covariance), une extension de l’ANOVA à un facteur qui incorpore une covariable.
- MANOVA (multivariate analysis of variance ou analyse multivariée de la variance), une analyse de variance avec deux ou plusieurs variables-réponses continues.
Nous fournissons également un code R pour vérifier les hypothèses de l’ANOVA et effectuer des analyses post-hoc. De plus, nous vous présenterons:
- Le test de Kruskal-Wallis, qui est une alternative non paramétrique au test ANOVA à un facteur.
- Le test de Friedman, qui est une alternative non paramétrique au test ANOVA pour mesures répétées à un facteur.
Livre Apparenté
Pratique des Statistiques dans R II - Comparaison de Groupes: Variables NumériquesFonctions et packages R
Il y a différentes fonctions/paquets dans R pour calculer ANOVA. Il s’agit notamment:
aov()
[stats] : Calcul l’ANOVA de type I. Ne doit être utilisé que lorsque vous avez des plans équilibrés (les groupes sont de taille égale).Anova()
[car] : Calcul l’ANOVA de type II et de type III. Le type II donnera des résultats d’ANOVA identiques à ceux du type I lorsque les données sont équilibrées. Lorsque les données sont déséquilibrées, le type III imitera l’approche adoptée par les packages statistiques commerciaux populaires comme SAS et SPSS, mais cette approche n’est pas sans critique.ezANOVA()
[ez],car_aov()
[afex] etanova_test()
[rstatix] : Emballages autour de la fonctionAnova()
[car] pour faciliter les différents types d’analyse de variances, notamment l’ANOVA pour mesures répétées (designwithin-Ss
ouintra-sujets
), l’ANOVA pour mesures indépendantes (designbetween-Ss
ouinter-sujet
) et l’ANOVA pour mesures mixtes (design mixtewithin-and-between-Ss
).
L’avantage de anova_test()
[rstatix] est qu’il supporte à la fois les modèles et les formules comme entrées. Les variables peuvent aussi être spécifiées en tant que vecteur de caractère à l’aide des arguments dv
, wid
, between
, within
, covariate
. Plus d’informations dans la documentation en tapant ?anova_test
dans la console R. Il fournit un cadre simple et intuitif, compatible avec les pipes, cohérent avec la philosophie de conception tidyverse
. En outre, il prend en charge les données groupées renvoyées par la fonction dplyr::group_by()
. Les résultats comprennent le tableau ANOVA, la taille de l’effet généralisé et certaines vérifications d’hypothèses.
Dans ce guide, nous utiliserons principalement la fonction anova_test()
.
Recommandations
- La variable-réponse, également appelée variable dépendante (dv), doit être numérique
- Les variables de groupement, aussi appelées variables prédicteurs ou variables indépendantes, devraient être des facteurs. Si vous voulez calculer des modèles ANCOVA, vous pouvez également ajouter des prédicteurs numériques.
- N’utilisez pas les fonctions R aov() et anova() pour obtenir les tables ANOVA sauf si vous savez ce que vous faites. Ils calculent le
type-I sum of squares
(somme des carrés des écarts de type I), ce qui ne convient pas, par exemple, pour les plans non équilibrés. Les résultats, obtenus avec les options par défaut de ces fonctions, sont différents de ceux obtenus avec les logiciels de statistiques commerciaux, notamment SPSS et SAS, et la plupart des autres logiciels de statistiques. Ces différences sont importantes et porteront à confusion et vous donneront des résultats trompeurs si vous ne les comprenez pas.
Suivez les recommandations ci-dessous:
- Si vous avez un plan factoriel avec des mesures indépendantes, vous pouvez définir votre modèle à l’aide de
lm()
et ensuite utiliserrstatix::anova_test()
oucar::Anova()
pour calculer les tests F. - Si vous avez un parfait plan de mesures répétées équilibrées sans valeurs manquantes, alors utilisez
rstatix::anova_test()
. - Si vous avez un plan déséquilibré pour mesures répétées, ou si vous avez des mesures répétées avec des données manquantes, utilisez plutôt des modèles mixtes linéaires via la commande
lme4::lmer()
.
Version: English
j’aimerai apprendre les analyse sur R pour effectuer les analyses dans le cadre de mes études de thèse.