Le Coefficient de corrélation intraclasse (Intraclass Correlation Coefficient ou ICC en anglais) peut être utilisé pour mesurer le degré d’accord entre évaluateurs dans une situation où l’échelle de l’évaluation est continue ou ordinale. Il convient aux études avec deux évaluateurs ou plus. Notez que l’ICC peut également être utilisé pour l’analyse de fiabilité test-retest (mesures répétées d’un même individu) et intra-évaluateur (scores multiples obtenus par les mêmes évaluateurs).
D’une manière générale, l’ICC détermine la fiabilité des évaluations en comparant la variabilité des différentes évaluations d’un même individu à la variation totale de l’ensemble des évaluations et de tous les individus.
- Un ICC élevé (proche de 1) indique une grande similitude entre les valeurs d’un même groupe.
- Un ICC faible (ICC proche de zéro) signifie que les valeurs du même groupe ne sont pas similaires.
Il existe de multiples formes d’ICC (Koo and Li 2016). Cet article décrit comment:
- Choisir le bon type d’ICC pour les études de fiabilité inter-évaluateurs.
- Calculer le coefficient de corrélation intra-classe dans R.
Contents:
Livre associé
Concordance Inter-Juges: L'Essentiel - Guide Pratique dans RInterprétation de l’ICC
Koo et Li (2016) donnent la suggestion suivante pour interpréter l’ICC (Koo and Li 2016):
- en dessous de 0,50 : faible
- entre 0,50 et 0,75 : moyenne
- entre 0,75 et 0,90 : bon
- au-dessus de 0,90 : excellent
Exemple de données
Nous utiliserons les données sur l’anxiété [irr package], qui contiennent les évaluations de l’anxiété de 20 individus, notées par 3 évaluateurs. Les valeurs vont de 1 (pas du tout anxieux) à 6 (extrêmement anxieux).
data("anxiety", package = "irr")
head(anxiety, 4)
## rater1 rater2 rater3
## 1 3 3 2
## 2 3 6 1
## 3 3 4 4
## 4 4 6 4
Nous voulons calculer l’accord inter-évaluateurs en utilisant l’ICC2.
Calcul de l’ICC dans R
Il existe de nombreuses fonctions et packages R pour calculer les ICC. Si, nous allons considérer la fonction icc()
[package irr] et la fonction ICC()
[package psych].
Utilisation du package irr
Rappelons qu’il existe différents modes de calcul de l’ICC. Lorsqu’il s’agit de déterminer quelle forme d’ICC est appropriée pour un jeu de données, on doit prendre plusieurs décisions (Shrout and Fleiss 1979):
- Seuls les individus doivent-ils être considérés comme des effets aléatoires (modèle a un facteur (“oneway”)) ou sont-ils des individus et des évaluateurs choisis au hasard parmi un plus grand nombre de personnes (modèle à deux facteurs (“twoway”)) ?.
- Si la question d’intérêt concerne les différences dans les évalutions moyennes des juges, alors il faut calculer l’accord (“agreement”) entre les évaluateurs au lieu de l’uniformité (“consistency”).
- Si l’unité d’analyse est une moyenne de plusieurs évaluations, l’unité doit être remplacée par “average”. Dans la plupart des cas, cependant, les valeurs individuelles (unit = ‘single’) sont considérées.
Vous pouvez spécifier les différents paramètres comme suit:
library("irr")
icc(
anxiety, model = "twoway",
type = "agreement", unit = "single"
)
## Single Score Intraclass Correlation
##
## Model: twoway
## Type : agreement
##
## Subjects = 20
## Raters = 3
## ICC(A,1) = 0.198
##
## F-Test, H0: r0 = 0 ; H1: r0 > 0
## F(19,39.7) = 1.83 , p = 0.0543
##
## 95%-Confidence Interval for ICC Population Values:
## -0.039 < ICC < 0.494
Utilisation du package psych
Si vous utilisez la fonction ICC()
, vous n’avez pas besoin de spécifier quoi que ce soit. R calculera tous les types possibles et vous n’aurez qu’à sélectionner le bon.
Le résultat sera sous cette forme:
# install.packages("psych")
library(psych)
ICC(anxiety)
## Call: ICC(x = anxiety)
##
## Intraclass correlation coefficients
## type ICC F df1 df2 p lower bound upper bound
## Single_raters_absolute ICC1 0.18 1.6 19 40 0.094 -0.077 0.48
## Single_random_raters ICC2 0.20 1.8 19 38 0.056 -0.039 0.49
## Single_fixed_raters ICC3 0.22 1.8 19 38 0.056 -0.046 0.52
## Average_raters_absolute ICC1k 0.39 1.6 19 40 0.094 -0.275 0.74
## Average_random_raters ICC2k 0.43 1.8 19 38 0.056 -0.127 0.75
## Average_fixed_raters ICC3k 0.45 1.8 19 38 0.056 -0.153 0.77
##
## Number of subjects = 20 Number of Judges = 3
Les lignes du tableau correspondent respectivement aux ICC suivants : ICC1, ICC2, ICC3, ICC1k, ICC2k et ICC3k. Dans notre exemple, nous allons considérer le type ICC2.
Notez que, par défaut, la fonction ICC() utilise la fonction `lmer’, qui peut gérer les données manquantes et les designs non équilibrés.
Rapporter
Le coefficient de corrélation intra-classe a été calculé pour évaluer l’accord entre trois médecins quant à l’évaluation des niveaux d’anxiété chez 20 personnes. Il y a une faible concordance absolue entre les trois médecins, en utilisant le modèle à deux facteurs à effets aléatoires et l’unité “évaluateur unique” (single rater en anglais), kappa = 0,2, p = 0,056.
Résumé
Ce chapitre explique les bases du coefficient de corrélation intra-classe (ou Intraclass Correlation Coefficient en anglais, ICC), qui peut être utilisé pour mesurer l’accord entre plusieurs évaluateurs sur une échelle ordinale ou continue. Nous montrons également comment calculer et interpréter les valeurs d’ICC à l’aide du logiciel R.
References
Koo, Terry, and Mae Li. 2016. “A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research.” Journal of Chiropractic Medicine 15 (March). doi:10.1016/j.jcm.2016.02.012.
Shrout, P.E., and J.L. Fleiss. 1979. “Intraclass Correlation: Uses in Assessing Rater Reliability.” Psychological Bulletin 86: 420–28.
Version: English
Comment choisir les bons types d’ICC
Il existe différentes formes d’ICC qui peuvent donner des résultats différents lorsqu’elles sont appliquées au même jeude données (Koo and Li 2016). Les types d’ICC peuvent être définies sur la base des critères suivants:
Il existe trois modèles:
Unité d’évaluation. Pour chacun de ces 3 modèles, la fiabilité peut être estimée pour une évaluation unique (single rating) ou pour la moyenne des k évaluation (average k ratings). Le choix entre “single” et “average” dépend de la manière dont le protocole de mesure sera effectué dans l’application réelle (Koo and Li 2016). Par exemple:
Notez que, dans les prochaines sections, nous utiliserons les termes suivants:
Cohérence ou accord absolu. Dans le modèle à un facteur, l’ICC est toujours une mesure de concordance absolue. Dans les modèles à deux-facteurs, il est possible de choisir entre deux types : Cohérence lorsque les différences systématiques entre les évaluateurs ne sont pas pertinentes, et concordance absolue lorsque les différences systématiques sont pertinentes. En d’autres termes, l’accord absolu mesure le dégré selon lequel différents évaluateurs attribuent la même note à un même individu. Inversement, le type “consistency” (cohérence, concordance) concerne le fait que les notes des évaluateurs pour le même groupe de sujets sont corrélées de manière additive (Koo and Li 2016).
Il est à noter que le modèle mixte à deux facteurs et la concordance absolue sont recommandés pour les études de fiabilité test-retest et intra-évaluation (Koo et al., 206).