Hypothèses du test T Apparié: Excellent Tutoriel à Lire

Hypothèses du test T Apparié

Cet article décrit les hypothèses du test t apparié et fournit des exemples de code R pour vérifier si les hypothèses sont respectées avant de calculer le test t. On appelle aussi cela:

hypothèses du test t à échantillons appariés,
hypothèses pour test t à échantillons appariées et
hypothèses du test t dépendant

La procédure de l’analyse du test t apparié est la suivante:

Calculer la différence (\(d\)) entre chaque paire de valeur
Calculer la moyenne (\(m\)) et l’écart-type (\(s\)) de \(d\)
Comparer la différence moyenne à 0. S’il y a une différence significative entre les deux paires d’échantillons, alors la moyenne de d (\(m\)) devrait être loin de 0.

Sommaire:

Hypothèses
Vérifier les hypothèses du test t apparié dans R
Article apparenté

Livre Apparenté

Pratique des Statistiques dans R II - Comparaison de Groupes: Variables Numériques

Hypothèses

Le test t des échantillons appariés suppose les caractéristiques suivantes au sujet des données:

les deux groupes sont appariés.
Aucune valeur aberrante significative dans la différence entre les deux groupes appariés
Normalité. la différence des paires suit une distribution normale.

Dans cette section, nous effectuerons quelques tests préliminaires pour vérifier si ces hypothèses sont respectées.

Vérifier les hypothèses du test t apparié dans R

Prérequis

Assurez-vous d’avoir installé les paquets R suivants:

tidyverse pour la manipulation et la visualisation des données
ggpubr pour créer facilement des graphiques prêts à la publication
rstatix contient des fonctions R facilitant les analyses statistiques.
datarium: contient les jeux de données requis pour ce chapitre.

Commencez par charger les packages requis suivants:

library(tidyverse)
library(ggpubr)
library(rstatix)

Données de démonstration

Ici, nous utiliserons un jeu de données de démonstration mice2 [package datarium], qui contient le poids de 10 souris avant et après le traitement.

# Format large
data("mice2", package = "datarium")
head(mice2, 3)

##   id before after
## 1  1    187   430
## 2  2    194   404
## 3  3    232   406

# Transformez en données longues : 
# rassembler les valeurs de `before` (avant) et `after` (après) dans la même colonne
mice2.long <- mice2 %>%
  gather(key = "group", value = "weight", before, after)
head(mice2.long, 3)

##   id  group weight
## 1  1 before    187
## 2  2 before    194
## 3  3 before    232

Tout d’abord, commencez par calculer la différence entre les groupes:

mice2 <- mice2 %>% mutate(differences = before - after)
head(mice2, 3)

##   id before after differences
## 1  1    187   430        -242
## 2  2    194   404        -210
## 3  3    232   406        -174

Identifier les valeurs aberrantes

Les valeurs aberrantes peuvent être facilement identifiées à l’aide des méthodes boxplot, implémentées dans la fonction R identify_outliers() [paquet rstatix].

mice2 %>% identify_outliers(differences)

## [1] id          before      after       differences is.outlier  is.extreme 
## <0 rows> (or 0-length row.names)

Il n’y avait pas de valeurs extrêmes aberrantes.

Notez que, dans le cas où vous avez des valeurs extrêmes aberrantes, cela peut être dû à : 1) erreurs de saisie de données, erreurs de mesure ou valeurs inhabituelles.

Vous pouvez quand même inclure la valeur aberrante dans l’analyse si vous ne croyez pas que le résultat sera affecté de façon substantielle. Cela peut être évalué en comparant le résultat du test t avec et sans la valeur aberrante.

Il est également possible de conserver les valeurs aberrantes dans les données et d’effectuer un test Wilcoxon ou un test t robuste en utilisant le progiciel WRS2.

Vérifier la normalité par groupes

L’hypothèse de normalité peut être vérifiée en calculant le test de Shapiro-Wilk pour chaque groupe. Si les données sont normalement distribuées, la p-value doit être supérieure à 0,05.

mice2 %>% shapiro_test(differences)

## # A tibble: 1 x 3
##   variable    statistic     p
##   <chr>           <dbl> <dbl>
## 1 differences     0.968 0.867

D’après le résultat, les deux p-values sont supérieures au seuil de significativité 0,05, ce qui indique que la distribution des données n’est pas significativement différente de la distribution normale. En d’autres termes, nous pouvons supposer que la normalité.

Vous pouvez également créer des QQ plots pour chaque groupe. Le graphique QQ plot dessine la corrélation entre une donnée définie et la distribution normale.

ggqqplot(mice2, "differences")

Tous les points se situent approximativement le long de la ligne de référence (45 degrés), pour chaque groupe. Nous pouvons donc supposer la normalité des données.

Notez que, si la taille de votre échantillon est supérieure à 50, le graphique de normalité QQ plot est préféré parce qu’avec des échantillons de plus grande taille, le test de Shapiro-Wilk devient très sensible même à un écart mineur par rapport à la distribution normale.

Dans le cas où les données ne sont pas normalement distribuées, il est recommandé d’utiliser le test de Wilcoxon non paramétrique.

Article apparenté

Test t dans R

Version: English

Back to Test T – L’ Essentiel : Définition, Formule et Calcul

Hypothèses du test T Apparié

Livre Apparenté

Hypothèses

Vérifier les hypothèses du test t apparié dans R

Prérequis

Données de démonstration

Identifier les valeurs aberrantes

Vérifier la normalité par groupes

Article apparenté

No Comments

Give a comment Annuler la réponse

Course Curriculum

Teacher

Alboukadel Kassambara

Role : Fondateur de Datanovia