Mesures de la Concordance Inter-Evaluateurs dans R

Coefficient de Corrélation Intra-classe Dans R

Le Coefficient de corrélation intraclasse (Intraclass Correlation Coefficient ou ICC en anglais) peut être utilisé pour mesurer le degré d’accord entre évaluateurs dans une situation où l’échelle de l’évaluation est continue ou ordinale. Il convient aux études avec deux évaluateurs ou plus. Notez que l’ICC peut également être utilisé pour l’analyse de fiabilité test-retest (mesures répétées d’un même individu) et intra-évaluateur (scores multiples obtenus par les mêmes évaluateurs).

D’une manière générale, l’ICC détermine la fiabilité des évaluations en comparant la variabilité des différentes évaluations d’un même individu à la variation totale de l’ensemble des évaluations et de tous les individus.

  • Un ICC élevé (proche de 1) indique une grande similitude entre les valeurs d’un même groupe.
  • Un ICC faible (ICC proche de zéro) signifie que les valeurs du même groupe ne sont pas similaires.

Il existe de multiples formes d’ICC (Koo and Li 2016). Cet article décrit comment:

  • Choisir le bon type d’ICC pour les études de fiabilité inter-évaluateurs.
  • Calculer le coefficient de corrélation intra-classe dans R.

Contents:

Livre associé

Concordance Inter-Juges: L'Essentiel - Guide Pratique dans R

Comment choisir les bons types d’ICC

Il existe différentes formes d’ICC qui peuvent donner des résultats différents lorsqu’elles sont appliquées au même jeude données (Koo and Li 2016). Les types d’ICC peuvent être définies sur la base des critères suivants:

  • modèle : effets aléatoires à un facteur, effets aléatoires à deux facteurs ou effets fixes à deux facteurs.
  • unité : évaluateur unique ou moyenne de k évaluateurs
  • type de relation considéré comme important : cohérence (consistency en anglais) ou accord absolu (absolute agreement)

Il existe trois modèles:

  • ICC1 : Modèle à un facteur à effets aléatoires (one-way random). Dans ce modèle, chaque individu est évalué par un ensemble différent d’évaluateurs choisis au hasard. Ici, les évaluateurs sont considérés comme des effets aléatoires. En pratique, ce modèle est rarement utilisé dans l’analyse de la fiabilité en clinique parce que la majorité de ces études font généralement appel au même ensemble d’évaluateurs pour mesurer tous les individus. Une exception serait les études multicentriques pour lesquelles la distance physique entre les centres rend impossible l’utilisation du même ensemble d’évaluateurs pour évaluer tous les individus. Dans une telle situation, le modèle à effets aléatoires à un facteur devrait être utilisé (Koo and Li 2016).
  • ICC2 : Modèle à deux facteurs à effets aléatoires (two-way random). Un ensemble de k évaluateurs sont choisis au hasard, puis chaque individu est mesuré par le même ensemble de k évaluateurs ayant des caractéristiques similaires. Dans ce modèle, les individus et les évaluateurs sont considérés comme des effets aléatoires. Le modèle à deux facteurs aléatoires est choisi si nous prévoyons de généraliser nos résultats de fiabilité à tout évaluateur qui possède les mêmes caractéristiques que les évaluateurs sélectionnés dans l’étude de fiabilité. Ce modèle convient à l’évaluation des méthodes d’évaluation clinique fondées qui sont conçues pour être utilisé en routine.
  • ICC3 : Modèle à deux facteurs à effets mixtes. Ici, les évaluateurs sont considérés comme fixes. Nous devrions utiliser le modèle à deux facteurs à effets mixtes si les évaluateurs sélectionnés sont les seuls évaluateurs d’intérêt. Avec ce modèle, les résultats ne représentent que la fiabilité des évaluateurs spécifiques impliqués dans l’analyse de fiabilité. Ils ne peuvent pas être généralisés à d’autres évaluateurs, même si ces évaluateurs ont des caractéristiques similaires à celles des évaluateurs sélectionnés dans l’analyse de fiabilité. Le modèle à deux facteurs à effets mixtes est moins couramment utilisé dans les analyses de fiabilité entre évaluateurs.

Unité d’évaluation. Pour chacun de ces 3 modèles, la fiabilité peut être estimée pour une évaluation unique (single rating) ou pour la moyenne des k évaluation (average k ratings). Le choix entre “single” et “average” dépend de la manière dont le protocole de mesure sera effectué dans l’application réelle (Koo and Li 2016). Par exemple:

  • Si l’on envisage d’utiliser la valeur moyenne de k évaluateurs comme base de l’évaluation, le plan expérimental de l’étude de fiabilité doit impliquer 3 évaluateurs, et le type “moyenne de k évaluateurs” (average of k raters en anglais) doit être choisi.
  • Inversement, si l’on envisage d’utiliser la mesure d’un seul évaluateur comme base de la mesure réelle, le type “évaluateur unique” (single rater en anglais) doit être considéré même si l’analyse de concordance implique 2 évaluateurs ou plus.

Notez que, dans les prochaines sections, nous utiliserons les termes suivants:

  • ICC1, ICC2 et ICC3 pour préciser la fiabilité d’une analyse “single rating” (évaluation unique); et
  • ICC1k, ICC2K et ICC3K pour concevoir la fiabilité de la moyenne des k évaluateurs.

Cohérence ou accord absolu. Dans le modèle à un facteur, l’ICC est toujours une mesure de concordance absolue. Dans les modèles à deux-facteurs, il est possible de choisir entre deux types : Cohérence lorsque les différences systématiques entre les évaluateurs ne sont pas pertinentes, et concordance absolue lorsque les différences systématiques sont pertinentes. En d’autres termes, l’accord absolu mesure le dégré selon lequel différents évaluateurs attribuent la même note à un même individu. Inversement, le type “consistency” (cohérence, concordance) concerne le fait que les notes des évaluateurs pour le même groupe de sujets sont corrélées de manière additive (Koo and Li 2016).

Il est à noter que le modèle mixte à deux facteurs et la concordance absolue sont recommandés pour les études de fiabilité test-retest et intra-évaluation (Koo et al., 206).

Interprétation de l’ICC

Koo et Li (2016) donnent la suggestion suivante pour interpréter l’ICC (Koo and Li 2016):

  • en dessous de 0,50 : faible
  • entre 0,50 et 0,75 : moyenne
  • entre 0,75 et 0,90 : bon
  • au-dessus de 0,90 : excellent

Exemple de données

Nous utiliserons les données sur l’anxiété [irr package], qui contiennent les évaluations de l’anxiété de 20 individus, notées par 3 évaluateurs. Les valeurs vont de 1 (pas du tout anxieux) à 6 (extrêmement anxieux).

data("anxiety", package = "irr")
head(anxiety, 4)
##   rater1 rater2 rater3
## 1      3      3      2
## 2      3      6      1
## 3      3      4      4
## 4      4      6      4

Nous voulons calculer l’accord inter-évaluateurs en utilisant l’ICC2.

Calcul de l’ICC dans R

Il existe de nombreuses fonctions et packages R pour calculer les ICC. Si, nous allons considérer la fonction icc() [package irr] et la fonction ICC() [package psych].

Utilisation du package irr

Rappelons qu’il existe différents modes de calcul de l’ICC. Lorsqu’il s’agit de déterminer quelle forme d’ICC est appropriée pour un jeu de données, on doit prendre plusieurs décisions (Shrout and Fleiss 1979):

  1. Seuls les individus doivent-ils être considérés comme des effets aléatoires (modèle a un facteur (“oneway”)) ou sont-ils des individus et des évaluateurs choisis au hasard parmi un plus grand nombre de personnes (modèle à deux facteurs (“twoway”)) ?.
  2. Si la question d’intérêt concerne les différences dans les évalutions moyennes des juges, alors il faut calculer l’accord (“agreement”) entre les évaluateurs au lieu de l’uniformité (“consistency”).
  3. Si l’unité d’analyse est une moyenne de plusieurs évaluations, l’unité doit être remplacée par “average”. Dans la plupart des cas, cependant, les valeurs individuelles (unit = ‘single’) sont considérées.

Vous pouvez spécifier les différents paramètres comme suit:

library("irr")
icc(
  anxiety, model = "twoway", 
  type = "agreement", unit = "single"
  )
##  Single Score Intraclass Correlation
## 
##    Model: twoway 
##    Type : agreement 
## 
##    Subjects = 20 
##      Raters = 3 
##    ICC(A,1) = 0.198
## 
##  F-Test, H0: r0 = 0 ; H1: r0 > 0 
##  F(19,39.7) = 1.83 , p = 0.0543 
## 
##  95%-Confidence Interval for ICC Population Values:
##   -0.039 < ICC < 0.494

Utilisation du package psych

Si vous utilisez la fonction ICC(), vous n’avez pas besoin de spécifier quoi que ce soit. R calculera tous les types possibles et vous n’aurez qu’à sélectionner le bon.

Le résultat sera sous cette forme:

# install.packages("psych")
library(psych)
ICC(anxiety)
## Call: ICC(x = anxiety)
## 
## Intraclass correlation coefficients 
##                          type  ICC   F df1 df2     p lower bound upper bound
## Single_raters_absolute   ICC1 0.18 1.6  19  40 0.094      -0.077        0.48
## Single_random_raters     ICC2 0.20 1.8  19  38 0.056      -0.039        0.49
## Single_fixed_raters      ICC3 0.22 1.8  19  38 0.056      -0.046        0.52
## Average_raters_absolute ICC1k 0.39 1.6  19  40 0.094      -0.275        0.74
## Average_random_raters   ICC2k 0.43 1.8  19  38 0.056      -0.127        0.75
## Average_fixed_raters    ICC3k 0.45 1.8  19  38 0.056      -0.153        0.77
## 
##  Number of subjects = 20     Number of Judges =  3

Les lignes du tableau correspondent respectivement aux ICC suivants : ICC1, ICC2, ICC3, ICC1k, ICC2k et ICC3k. Dans notre exemple, nous allons considérer le type ICC2.

Notez que, par défaut, la fonction ICC() utilise la fonction `lmer’, qui peut gérer les données manquantes et les designs non équilibrés.

Rapporter

Le coefficient de corrélation intra-classe a été calculé pour évaluer l’accord entre trois médecins quant à l’évaluation des niveaux d’anxiété chez 20 personnes. Il y a une faible concordance absolue entre les trois médecins, en utilisant le modèle à deux facteurs à effets aléatoires et l’unité “évaluateur unique” (single rater en anglais), kappa = 0,2, p = 0,056.

Résumé

Ce chapitre explique les bases du coefficient de corrélation intra-classe (ou Intraclass Correlation Coefficient en anglais, ICC), qui peut être utilisé pour mesurer l’accord entre plusieurs évaluateurs sur une échelle ordinale ou continue. Nous montrons également comment calculer et interpréter les valeurs d’ICC à l’aide du logiciel R.

References

Koo, Terry, and Mae Li. 2016. “A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research.” Journal of Chiropractic Medicine 15 (March). doi:10.1016/j.jcm.2016.02.012.

Shrout, P.E., and J.L. Fleiss. 1979. “Intraclass Correlation: Uses in Assessing Rater Reliability.” Psychological Bulletin 86: 420–28.



Version: English

Kappa de Fleiss Dans R: Pour Plusieurs Variables Catégorielles (Prev Lesson)
(Next Lesson) Graphique de Concordance dans R
Back to Mesures de la Concordance Inter-Evaluateurs dans R

No Comments

Give a comment

Want to post an issue with R? If yes, please make sure you have read this: How to Include Reproducible R Script Examples in Datanovia Comments