Test T - L' Essentiel : Définition, Formule et Calcul

Test T de Student

Cet article décrit le Test T de Student indépendant, qui est utilisé pour comparer les moyennes de deux groupes indépendants. Ce test est aussi appelé test t de Student et Test t à variance égale. Par exemple, vous pourriez vouloir comparer les poids moyens des individus regroupés par sexe : les groupes d’hommes et de femmes, qui sont deux groupes non apparentés ou indépendants.

Le t-test pour échantillons indépendants se présente sous deux formes différentes:

  • le test t standard de Student, qui suppose que la variance des deux groupes est égale.
  • le test t de Welch, qui est moins restrictif que le test original de Student. Ce test est décrit dans un chapitre dédié.

Notez que le test t de Welch est considéré comme le plus prudent. Habituellement, les résultats du test t classique de Student et du test t de Welch sont très similaires, à moins que la taille des groupes et les écarts types soient très différents.

Dans cet article, vous apprendrez:

  • Formule du test t de Student et hypothèses
  • Comment calculer, interpréter et rapporter le test t de Student dans R.
  • Comment vérifier les hypothèses du test t de Student


Sommaire:

Livre Apparenté

Pratique des Statistiques dans R II - Comparaison de Groupes: Variables Numériques

Prérequis

Assurez-vous d’avoir installé les paquets R suivants:

  • tidyverse pour la manipulation et la visualisation des données
  • ggpubr pour créer facilement des graphiques prêts à la publication
  • rstatix contient des fonctions R facilitant les analyses statistiques.
  • datarium: contient les jeux de données requis pour ce chapitre.

Commencez par charger les packages requis suivants:

library(tidyverse)
library(ggpubr)
library(rstatix)

Questions de recherche

Une question de recherche typique est : la moyenne du groupe A (\(m_A\)) est-elle égale à la moyenne du groupe B (\(m_B\)) ?

Hypothèses statistiques

  • Hypothèse nulle (Ho) : les deux moyennes de groupes sont identiques (\(m_A = m_B\))
  • Hypothèse alternative (Ha) : les deux moyennes de groupes sont différentes (\(m_A \ne m_B\))

Formule

Le t-test classique de Student est plus restrictif. Il suppose que les deux groupes ont la même variance de population. Si les variances des deux groupes sont équivalentes (homoscédasticité), la valeur du test t, comparant les deux échantillons (A et B), peut être calculée comme suit.

\[
t = \frac{m_A - m_B}{\sqrt{ \frac{S^2}{n_A} + \frac{S^2}{n_B} }}
\]

où,

  • \(m_A\) et \(m_B\) représentent la valeur moyenne des groupes A et B, respectivement.
  • \(n_A\) et \(n_B\) représentent les tailles des groupes A et B, respectivement.
  • \(S^2\) est un estimateur de la variance mise en commun des deux groupes. Il peut être calculé comme suit :

\[
S^2 = \frac{\sum{(x-m_A)^2}+\sum{(x-m_B)^2}}{n_A+n_B-2}
\]

avec des degrés de liberté (df) : \(df = n_A + n_B - 2\).

Une p-value peut être calculée pour la valeur absolue correspondante de la statistique t (|t|).

Si la p-value est inférieure ou égale au seuil de significativité 0,05, nous pouvons rejeter l’hypothèse nulle et accepter l’hypothèse alternative. En d’autres termes, nous pouvons conclure que les valeurs moyennes des groupes A et B sont significativement différentes.

Hypothèses et tests préliminaires

Le test t à deux échantillons indépendants suppose les caractéristiques suivantes au sujet des données:

  • Indépendance des observations. Chaque sujet ne doit appartenir qu’à un seul groupe.
  • Aucune valeur aberrante significative dans les deux groupes
  • Normalité. les données pour chaque groupe devraient être distribuées approximativement normalement.
  • Homogénéité des variances. la variance de la variable-réponse devrait être égale dans chaque groupe.

Cliquez pour vérifier les [hypothèses du test t de Student] (https://www.datanovia.com/en/lessons/t-test-in-r).

Calcul du test dans R

Données de démonstration

Jeu de données de démonstration : genderweight [package datarium] contenant le poids de 40 individus (20 femmes et 20 hommes).

Charger les données et afficher quelques lignes aléatoires par groupes:

# Charger les données
data("genderweight", package = "datarium")
# Afficher un échantillon des données par groupe
set.seed(123)
genderweight %>% sample_n_by(group, size = 2)
## # A tibble: 4 x 3
##   id    group weight
##   <fct> <fct>  <dbl>
## 1 6     F       65.0
## 2 15    F       65.9
## 3 29    M       88.9
## 4 37    M       77.0

Statistiques descriptives

Calculer quelques statistiques descriptives par groupe : moyenne et sd (écart-type)

genderweight %>%
  group_by(group) %>%
  get_summary_stats(weight, type = "mean_sd")
## # A tibble: 2 x 5
##   group variable     n  mean    sd
##   <fct> <chr>    <dbl> <dbl> <dbl>
## 1 F     weight      20  63.5  2.03
## 2 M     weight      20  85.8  4.35

Visualisation

Visualiser les données à l’aide de box plots. Graphique du poids par groupes.

bxp <- ggboxplot(
  genderweight, x = "group", y = "weight", 
  ylab = "Weight", xlab = "Groups", add = "jitter"
  )
bxp

Calculs

Nous allons utiliser la fonction t_test() [package rstatix], facile d’utilisation, un emballage autour de la fonction de base R t.test().

Rappelons que, par défaut, R calcule le test t de Welch, qui est le plus prudent. Il s’agit du test où vous ne présumez pas que la variance est la même dans les deux groupes, ce qui donne les degrés de liberté fractionnaires suivants. Si vous voulez supposer l’égalité des variances (test t de Student), spécifiez l’option var.equal = TRUE:

stat.test <- genderweight %>%
  t_test(weight ~ group, var.equal = TRUE) %>%
  add_significance()
stat.test
## # A tibble: 1 x 9
##   .y.    group1 group2    n1    n2 statistic    df        p p.signif
##   <chr>  <chr>  <chr>  <int> <int>     <dbl> <dbl>    <dbl> <chr>   
## 1 weight F      M         20    20     -20.8    38 2.33e-22 ****

Les résultats ci-dessus montrent les composantes suivantes:

  • .y.: la variable y utilisée dans le test.
  • group1,group2: les groupes comparés dans les tests par paires.
  • statistic: Statistique de test utilisée pour calculer la p-value.
  • df: degrés de liberté.
  • p: p-value.

Notez que, vous pouvez obtenir un résultat détaillé en spécifiant l’option detailed = TRUE.

d de Cohen pour le test t de Student

Cette valeur de l’effet est calculée en divisant la différence moyenne entre les groupes par l’écart-type regroupé.

La formule du d de Cohen:

d = (mean1 - mean2)/pooled.sd, où:

  • pooled.sd est l’écart-type commun des deux groupes. pooled.sd = sqrt([var1*(n1-1) + var2*(n2-1)]/[n1 + n2 -2]);
  • var1 et var2 sont les variances (écart-type au carré) du groupe 1 et du groupe 2, respectivement.
  • n1 et n2 sont les nombres d’échantillons pour les groupes 1 et 2, respectivement.
  • mean1 et mean2 sont les moyennes de chaque groupe, respectivement.

Calculs:

genderweight %>%  cohens_d(weight ~ group, var.equal = TRUE)
## # A tibble: 1 x 7
##   .y.    group1 group2 effsize    n1    n2 magnitude
## * <chr>  <chr>  <chr>    <dbl> <int> <int> <ord>    
## 1 weight F      M        -6.57    20    20 large

L’ampleur de l’effet est importante, d = 6,57.

Rapporter

Nous pourrions rapporter le résultat comme suit:

Le poids moyen dans le groupe des femmes était de 63,5 (SD = 2,03), alors que la moyenne dans le groupe des hommes était de 85,8 (SD = 4,3). Un test-t de Student a montré que la différence était statistiquement significative, t(38) = -20,8, p < 0,0001, d = 6,57 ; où, t(38) est la notation abrégée pour une statistique t de Student qui a 38 degrés de liberté.

stat.test <- stat.test %>% add_xy_position(x = "group")
bxp + 
  stat_pvalue_manual(stat.test, tip.length = 0) +
  labs(subtitle = get_test_label(stat.test, detailed = TRUE))

Résumé

Cet article décrit la formule et les principes de base du test t de Student. Des exemples de codes R sont fournis pour le calcul du test et de la taille de l’effet, l’interprétation et la communication des résultats.



Version: English

Test T non Apparié (Prev Lesson)
(Next Lesson) Test T de Welch
Back to Test T – L’ Essentiel : Définition, Formule et Calcul

Comment ( 1 )

  • Louise

    Hello, in the formula of S^2, for an independent t-test, what does x correspond to?

Give a comment

Want to post an issue with R? If yes, please make sure you have read this: How to Include Reproducible R Script Examples in Datanovia Comments