Test T - L' Essentiel : Définition, Formule et Calcul

Test-T à Echantillon Unique

Le test t pour échantillon unique, également connu sous le nom de test t pour une seule moyenne , est utilisé pour comparer la moyenne d’un échantillon à une moyenne standard connue (ou théorique / hypothétique). Un autre synonyme est le test t à un groupe.

Généralement, la moyenne théorique provient de:

  • une expérience précédente. Par exemple, en comparant si le poids moyen des souris diffère de 200 mg, une valeur déterminée dans une étude précédente.
  • ou d’une expérience où vous avez des conditions contrôles et de traitements. Si vous exprimez vos données en “pourcentage de contrôle”, vous pouvez tester si la valeur moyenne de la condition de traitement diffère significativement de 100.

Notez que le test t à échantillon unique ne peut être utilisé que lorsque les données sont normalement distribuées. Cela peut être vérifié à l’aide du test de Shapiro-Wilk.

Dans cet article, vous apprendrez la formule du test t à échantillon unique, ainsi que, comment :

  • Calculer le test t à échantillon unique dans R. La fonction t_test() [paquet rstatix], qui est compatible avec les pipes, sera utilisée.
  • Vérifier les hypothèses du test t à échantillon unique
  • Calculer et rapporter la taille de l’effet du test t à échantillon unique en utilisant le d de Cohen. La statistique “d” redéfinit la différence de moyennes comme le nombre d’écarts-types qui sépare ces moyennes. Les tailles d’effet conventionnelles des tests T, proposées par Cohen, sont : 0,2 (petit effet), 0,5 (effet modéré) et 0,8 (effet important) (Cohen 1998).


Sommaire:

Livre Apparenté

Pratique des Statistiques dans R II - Comparaison de Groupes: Variables Numériques

Prérequis

Assurez-vous d’avoir installé les paquets R suivants:

  • tidyverse pour la manipulation et la visualisation des données
  • ggpubr pour créer facilement des graphiques prêts à la publication
  • rstatix contient des fonctions R facilitant les analyses statistiques.
  • datarium: contient les jeux de données requis pour ce chapitre.

Commencez par charger les packages requis suivants:

library(tidyverse)
library(ggpubr)
library(rstatix)

Questions de recherche

Les questions de recherche typiques sont:

  1. si la moyenne (\(m\)) de l’échantillon est égale à la moyenne théorique (\(\mu\)) ?
  2. si la moyenne (\(m\)) de l’échantillon est inférieure à la moyenne théorique (\(\mu\)) ?
  3. si la moyenne (\(m\)) de l’échantillon est supérieure à la moyenne théorique (\(\mu\)) ?

Hypothèses statistiques

En statistique, on peut définir l’hypothèse nulle correspondante (\(H_0\)) comme suit:

  1. \(H_0 : m = \mu\)
  2. H_0 : m $
  3. H_0 : m $

Les hypothèses alternatives correspondantes (\(H_a\)) sont les suivantes:

  1. \(H_a : m \ne \mu\) (différent)
  2. \(H_a : m > \mu\) (plus grand ou “greater” en anglais)
  3. \(H_a : m < \mu\) (plus petit ou “lesser” en anglais)

Notez que:

  • Les hypothèses 1) sont appelées tests bilatéraux
  • Les hypothèses 2) et 3) sont appelées tests unilatéraux

Formule

La formule du test t à échantillon unique peut s’écrire comme suit:

\[
t = \frac{m-\mu}{s/\sqrt{n}}
\]

où,

  • \(m\) est la moyenne de l’échantillon
  • \(n\) est la taille de l’échantillon
  • \(s\) est l’écart-type de l’échantillon avec les degrés de liberté \(n-1\)
  • \(\mu\) est la moyenne théorique

La p-value, correspondant à la valeur absolue des statistiques du test t (|t|), est calculée pour les degrés de liberté (df): df = n - 1.

Comment interpréter les résultats du test t à échantillon unique ?

Si la p-value est inférieure ou égale au seuil de significativité 0,05, nous pouvons rejeter l’hypothèse nulle et accepter l’hypothèse alternative. En d’autres termes, nous concluons que la moyenne de l’échantillon est significativement différente de la moyenne théorique.

Données de démonstration

Jeu de données de démonstration : mice [package datarium]. Contient le poids de 10 souris:

# Charger et inspecter les données
data(mice, package = "datarium")
head(mice, 3)
## # A tibble: 3 x 2
##   name  weight
##   <chr>  <dbl>
## 1 M_1     18.9
## 2 M_2     19.5
## 3 M_3     23.1

Statistiques descriptives

Calculer quelques statistiques sommaires : nombre de sujets, moyenne et sd (écart-type)

mice %>% get_summary_stats(weight, type = "mean_sd")
## # A tibble: 1 x 4
##   variable     n  mean    sd
##   <chr>    <dbl> <dbl> <dbl>
## 1 weight      10  20.1  1.90

Visualisation

Créer un boxplot pour visualiser la distribution du poids des souris. Ajoutez également des points jitter pour montrer les observations individuelles. Le gros point représente le point moyen.

bxp <- ggboxplot(
  mice$weight, width = 0.5, add = c("mean", "jitter"), 
  ylab = "Weight (g)", xlab = FALSE
  )
bxp

Hypothèses et tests préliminaires

Le test t pour échantillon unique suppose les caractéristiques suivantes au sujet des données:

  • Aucune valeur aberrante significative dans les données
  • Normalité. les données devraient être distribuées approximativement normalement

Dans cette section, nous effectuerons quelques tests préliminaires pour vérifier si ces hypothèses sont respectées.

Identifier les valeurs aberrantes

Les valeurs aberrantes peuvent être facilement identifiées à l’aide des méthodes boxplot, implémentées dans la fonction R identify_outliers() [paquet rstatix].

mice %>% identify_outliers(weight)
## [1] name       weight     is.outlier is.extreme
## <0 rows> (or 0-length row.names)

Il n’y avait pas de valeurs extrêmes aberrantes.

Notez que, dans le cas où vous avez des valeurs extrêmes aberrantes, cela peut être dû à : 1) erreurs de saisie de données, erreurs de mesure ou valeurs inhabituelles.

Dans ce cas, vous pourriez envisager d’exécuter le test de Wilcoxon non paramétrique.

Vérifier l’hypothèse de normalité

L’hypothèse de normalité peut être vérifiée en calculant le test de Shapiro-Wilk. Si les données sont normalement distribuées, la p-value doit être supérieure à 0,05.

mice %>% shapiro_test(weight)
## # A tibble: 1 x 3
##   variable statistic     p
##   <chr>        <dbl> <dbl>
## 1 weight       0.923 0.382

Selon le résultat, la p-value est supérieure au niveau de significativité 0,05 indiquant que la distribution des données n’est pas significativement différente de la distribution normale. En d’autres termes, nous pouvons supposer que la normalité.

Vous pouvez également créer un QQ plot des données de weight. Le graphique QQ plot dessine la corrélation entre une donnée définie et la distribution normale.

ggqqplot(mice, x = "weight")

Tous les points se situent approximativement le long de la ligne de référence (45 degrés), pour chaque groupe. Nous pouvons donc supposer la normalité des données.

Notez que, si la taille de votre échantillon est supérieure à 50, le graphique de normalité QQ plot est préféré parce qu’avec des échantillons de plus grande taille, le test de Shapiro-Wilk devient très sensible même à un écart mineur par rapport à la distribution normale.

Si les données ne sont pas normalement distribuées, il est recommandé d’utiliser un test non paramétrique tel que le test de Wilcoxon à échantillon unique. Ce test est semblable au test t pour échantillon unique, mais il est axé sur la médiane plutôt que sur la moyenne.

Calculer le test t à échantillon unique dans R

Nous voulons savoir si le poids moyen des souris diffère de 25 g (test bilatéral)

Nous allons utiliser la fonction t_test() [package rstatix], facile d’utilisation, un emballage autour de la fonction de base R t.test().

stat.test <- mice %>% t_test(weight ~ 1, mu = 25)
stat.test
## # A tibble: 1 x 7
##   .y.    group1 group2         n statistic    df       p
## * <chr>  <chr>  <chr>      <int>     <dbl> <dbl>   <dbl>
## 1 weight 1      null model    10     -8.10     9 0.00002

Les résultats ci-dessus montrent les composantes suivantes:

  • .y.: la variable-réponse utilisée dans le test.
  • group1,group2: en général, les groupes comparés dans les tests par paires. Ici, nous avons le modèle nul (test pour échantillon unique).
  • statistic: statistique du test (valeur t) utilisée pour calculer la p-value.
  • df: degrés de liberté.
  • p: p-value.

Vous pouvez obtenir un résultat détaillé en spécifiant l’option detailed = TRUE dans la fonction t_test().

Notez que:

  1. si vous voulez tester si le poids moyen des souris est inférieur à 25g (test unilatéral), tapez ceci:
mice %>% t_test(weight ~ 1, mu = 25, alternative = "less")
  1. Ou, si vous voulez tester si le poids moyen des souris est supérieur à 25g (test unilatéral), tapez ceci:
mice %>% t_test(weight ~ 1, mu = 25, alternative = "greater")

Pour calculer le test t à l’aide de la fonction de base R, tapez ceci:

t.test(mice$weight, mu = 25)

Taille de l’effet

Pour calculer la taille de l’effet, appelée d de Cohen, du test t pour échantillon unique, vous devez diviser la différence moyenne par l’écart type de la différence, comme indiqué ci-dessous. Notez que, ici: sd(x-mu) = sd(x).

La formule du d de Cohen:

\[
d = \frac{m-\mu}{s}
\]

  • \(m\) est la moyenne de l’échantillon
  • \(s\) est l’écart-type de l’échantillon avec les degrés de liberté \(n-1\)
  • \(\mu\) est la moyenne théorique à laquelle la moyenne de notre échantillon est comparée (la valeur par défaut est mu = 0).

Calculs:

mice %>% cohens_d(weight ~ 1, mu = 25)
## # A tibble: 1 x 6
##   .y.    group1 group2     effsize     n magnitude
## * <chr>  <chr>  <chr>        <dbl> <int> <ord>    
## 1 weight 1      null model   -2.56    10 large

Rappelons que les taille de l’effet conventionnelles du test t, proposé par Cohen J. (1998), sont : 0,2 (petit effet), 0,5 (effet modéré) et 0,8 (effet important) (Cohen 1998). Comme la taille de l’effet, d, est de 2,56, vous pouvez conclure qu’il y a un effet important.

Rapporter

Nous pourrions rapporter le résultat comme suit:

Un test t pour échantillon unique a été calculé pour déterminer si le poids moyen des souris incluses était différent du poids moyen normal de la population (25 g).

La valeur du poids des souris était normalement distribuée, telle qu’évaluée par le test de Shapiro-Wilk (p > 0,05) et il n’y avait pas de valeurs extrêmes aberrantes dans les données, telles qu’évaluées par la méthode boxplot.

Le poids moyen mesuré des souris (20,14 +/- 1,94) était statistiquement significativement inférieur au poids moyen normal de la population 25 (t(9) = -8,1, p < 0,0001, d = 2,56) ; où t(9) est une notation courte pour une statistique t qui a 9 degrés de liberté.

Créer un box plot avec p-value:

bxp + labs(
  subtitle = get_test_label(stat.test, detailed = TRUE)
  )

Créer un graphe de densité avec p-value:

  • La ligne rouge correspond à la moyenne observée
  • La ligne bleue correspond à la moyenne théorique
ggdensity(mice, x = "weight", rug = TRUE, fill = "lightgray") +
  scale_x_continuous(limits = c(15, 27)) +
  stat_central_tendency(type = "mean", color = "red", linetype = "dashed") +
  geom_vline(xintercept = 25, color = "blue", linetype = "dashed") + 
  labs(subtitle = get_test_label(stat.test,  detailed = TRUE))

Résumé

Cet article décrit les bases et la formule du test t à échantillon unique. De plus, il fournit un exemple pour:

  • vérification des hypothèses du test t à échantillon unique,
  • calcul du t-test à échantillon unique dans R en utilisant la fonction t_test() [paquet rstatix],
  • calculer le d de Cohen pour un test t à échantillon unique
  • Interpréter et communiquer les résultats

References

Cohen, J. 1998. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Hillsdale, NJ: Lawrence Erlbaum Associates.



Version: English

Types de Test-T (Prev Lesson)
(Next Lesson) Test T non Apparié
Back to Test T – L’ Essentiel : Définition, Formule et Calcul

No Comments

Give a comment

Want to post an issue with R? If yes, please make sure you have read this: How to Include Reproducible R Script Examples in Datanovia Comments