Le t-test pour échantillons indépendants se présente sous deux formes différentes:
- le test t standard de Student, qui suppose que la variance des deux groupes est égale.
- le Test de Welch, qui est moins restrictif que le test original de Student. Il s’agit du test où vous ne présumez pas que la variance est la même dans les deux groupes, ce qui donne les degrés de liberté fractionnaires suivants.
Notez que le test t de Welch est considéré comme le plus prudent. Habituellement, les résultats du test t classique de Student et du test t de Welch sont très similaires, à moins que la taille des groupes et les écarts types soient très différents.
Cet article décrit le Test t de Welch, qui est une adaptation du test t de Student pour comparer les moyennes de deux groupes indépendants, dans la situation où l’hypothèse d’homogénéité de la variance n’est pas satisfaite. Le test t de Welch est également appelé : t test à variance inégale, t test supposant des variances inégales ou t test à variance séparée, t test de Welch, t test de Welch, t test de Welch, *t test à variance inégale
Dans cet article, vous apprendrez:
- Formule du test t de Welch et hypothèses
- Comment calculer, interpréter et rapporter le test t de Welch dans R.
- Comment vérifier les hypothèses du test t de Welch
Sommaire:
Livre Apparenté
Pratique des Statistiques dans R II - Comparaison de Groupes: Variables NumériquesPrérequis
Assurez-vous d’avoir installé les paquets R suivants:
tidyverse
pour la manipulation et la visualisation des donnéesggpubr
pour créer facilement des graphiques prêts à la publicationrstatix
contient des fonctions R facilitant les analyses statistiques.datarium
: contient les jeux de données requis pour ce chapitre.
Commencez par charger les packages requis suivants:
library(tidyverse)
library(ggpubr)
library(rstatix)
Questions de recherche
Une question de recherche typique est : la moyenne du groupe A (\(m_A\)) est-elle égale à la moyenne du groupe B (\(m_B\)) ?
Hypothèses statistiques
- Hypothèse nulle (Ho) : les deux moyennes de groupes sont identiques (\(m_A = m_B\))
- Hypothèse alternative (Ha) : les deux moyennes de groupes sont différentes (\(m_A \ne m_B\))
Formule
La statistique t de Welch est calculée comme suit :
\[
t = \frac{m_A - m_B}{\sqrt{ \frac{S_A^2}{n_A} + \frac{S_B^2}{n_B} }}
\]
où, \(S_A\) et \(S_B\) sont les écart-types des deux groupes A et B, respectivement.
Contrairement au t-test classique de Student, la formule du t-test de Welch implique que la variance de chacun des deux groupes (\(S_A^2\) et \(S_B^2\)) comparés. En d’autres termes, il n’utilise pas la variance commune \(S\).
Le degré de liberté du test t de Welch est estimé comme suit :
\[
df = (\frac{S_A^2}{n_A}+ \frac{S_B^2}{n_B})^2 / (\frac{S_A^4}{n_A^2(n_A-1)} + \frac{S_B^4}{n_B^2(n_B-1)} )
\]
Une p-value peut être calculée pour la valeur absolue correspondante de la statistique t (|t|).
Si la p-value est inférieure ou égale au seuil de significativité 0,05, nous pouvons rejeter l’hypothèse nulle et accepter l’hypothèse alternative. En d’autres termes, nous pouvons conclure que les valeurs moyennes des groupes A et B sont significativement différentes.
Hypothèses et tests préliminaires
Le test t de Welch suppose les caractéristiques suivantes concernant les données:
- Indépendance des observations. Chaque sujet ne doit appartenir qu’à un seul groupe.
- Aucune valeur aberrante significative dans les deux groupes
- Normalité. les données pour chaque groupe devraient être distribuées approximativement normalement.
Cliquez pour vérifier les [hypothèses du test t de Student] (https://www.datanovia.com/en/lessons/t-test-in-r).
Calcul du test dans R
Données de démonstration
Jeu de données de démonstration : genderweight
[package datarium] contenant le poids de 40 individus (20 femmes et 20 hommes).
Charger les données et afficher quelques lignes aléatoires par groupes:
# Charger les données
data("genderweight", package = "datarium")
# Afficher un échantillon des données par groupe
set.seed(123)
genderweight %>% sample_n_by(group, size = 2)
## # A tibble: 4 x 3
## id group weight
## <fct> <fct> <dbl>
## 1 6 F 65.0
## 2 15 F 65.9
## 3 29 M 88.9
## 4 37 M 77.0
Statistiques descriptives
Calculer quelques statistiques descriptives par groupe : moyenne et sd (écart-type)
genderweight %>%
group_by(group) %>%
get_summary_stats(weight, type = "mean_sd")
## # A tibble: 2 x 5
## group variable n mean sd
## <fct> <chr> <dbl> <dbl> <dbl>
## 1 F weight 20 63.5 2.03
## 2 M weight 20 85.8 4.35
Visualisation
Visualiser les données à l’aide de box plots. Graphique du poids par groupes.
bxp <- ggboxplot(
genderweight, x = "group", y = "weight",
ylab = "Weight", xlab = "Groups", add = "jitter"
)
bxp
Calculs
Nous allons utiliser la fonction t_test()
[package rstatix], facile d’utilisation, un emballage autour de la fonction de base R t.test()
.
Rappelons que, par défaut, R calcule le test t de Welch, qui est le plus prudent. Il s’agit du test où vous ne présumez pas que la variance est la même dans les deux groupes, ce qui donne les degrés de liberté fractionnaires suivants. Si vous voulez supposer l’égalité des variances (test t de Student), spécifiez l’option var.equal = TRUE
.
stat.test <- genderweight %>%
t_test(weight ~ group) %>%
add_significance()
stat.test
## # A tibble: 1 x 9
## .y. group1 group2 n1 n2 statistic df p p.signif
## <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl> <chr>
## 1 weight F M 20 20 -20.8 26.9 4.30e-18 ****
Les résultats ci-dessus montrent les composantes suivantes:
.y.
: la variable y utilisée dans le test.group1,group2
: les groupes comparés dans les tests par paires.statistic
: Statistique de test utilisée pour calculer la p-value.df
: degrés de liberté.p
: p-value.
Notez que, vous pouvez obtenir un résultat détaillé en spécifiant l’option detailed = TRUE
.
Le d de Cohen pour le test t de Welch
La valeur de l’effet peut être calculée en divisant la différence moyenne entre les groupes par l’écart type “moyen”.
La formule du d de Cohen:
d = (mean1 - mean2)/sqrt((var1 + var2)/2)
, où:
mean1
etmean2
sont les moyennes de chaque groupe, respectivementvar1
etvar2
sont la variance des deux groupes.
Calculs:
genderweight %>% cohens_d(weight ~ group, var.equal = FALSE)
## # A tibble: 1 x 7
## .y. group1 group2 effsize n1 n2 magnitude
## * <chr> <chr> <chr> <dbl> <int> <int> <ord>
## 1 weight F M -6.57 20 20 large
Rapporter
Nous pourrions rapporter le résultat comme suit:
Le poids moyen dans le groupe des femmes était de 63,5 (SD = 2,03), alors que la moyenne dans le groupe des hommes était de 85,8 (SD = 4,3). Le test t de Welch a montré que la différence était statistiquement significative, t(26.9) = -20.8, p < 0.0001, d = 6.57 ; où, t(26.9) est une notation abrégée pour une statistique t de Welch qui a 26.9 degrés de liberté.
stat.test <- stat.test %>% add_xy_position(x = "group")
bxp +
stat_pvalue_manual(stat.test, tip.length = 0) +
labs(subtitle = get_test_label(stat.test, detailed = TRUE))
Résumé
Cet article décrit la formule et les principes de base du test t de Welch. Des exemples de codes R sont fournis pour le calcul du test et de la taille de l’effet, l’interprétation et la communication des résultats.
Version:
English
No Comments