Visualisation des Données à l’Aide de GGPlot2

Visualisation des Données à l’Aide de GGPlot2

Visualisation des Données à l’Aide de GGPlot2

Description du cours

La visualisation des données est un élément important de la science des données.

Ce cours présente l’essentiel de ggplot2 pour créer facilement de beaux graphiques dans R. GGPlot2 est un package R puissant et populaire pour la production de graphiques professionnels pièce par pièce.

A la fin de ce cours, vous serez familiarisé avec les concepts de ggplot2 qui vous permettront de créer efficacement des graphiques complexes. Vous apprendrez également comment combiner plusieurs ggplots en une seule figure.

Livre Apparenté

GGPLOT2 - L’Essentiel pour une Visualisation Magnifique des Données dans R

Principales caractéristiques de ce cours

Voici quelques-unes des principales caractéristiques de ce cours:

  • Couvre les fonctions graphiques les plus importantes
  • Chapitres courts et complets avec des exemples pratiques.

Quelques exemples de graphiques, décrits dans ce cours, sont présentés ci-dessous.

  • Créer des diagrammes de dispersion pour afficher la relation entre deux variables continues x et y

  • Utilisation de Box plots et d’alternatives pour visualiser les données groupées en fonction d’une variable catégorielle

  • Bar et Line Plots

  • Visualisation des barres d’erreur

  • Examen de la distribution d’une variable continue à l’aide de diagrammes de densité, histogrammes et alternatives

Installation des packages R requis

Installez les packages R suivants:

  • tidyverse des packages pour faciliter la manipulation et la visualisation des données.
  • ggpubr package, qui facilite, pour les débutants, la création de graphiques prêt-à-publication.
install.packages("tidyverse")
install.packages("ggpubr")

Jeu de données de démonstration

Nous utiliserons principalement les jeux de données de démonstration suivants disponibles dans R:

  • iris, qui donne les mesures en centimètres des variables longueur et largeur des sépales, longueur et largeur des pétales, respectivement, pour 50 fleurs de chacune des 3 espèces d’iris. Les espèces d’Iris sont setosa, versicolor et virginica.
  • ToothGrowth, qui donne l’effet de la vitamine C sur la croissance des dents chez les cobayes

Pour en savoir plus sur ces jeux de données, tapez ceci dans la console R:

?iris

?ToothGrowth

Version: English

Lessons

  1. Cet article présente les bases de ggplot2. Les fonctions graphiques clés de ggplot sont présentées. Vous apprendrez comment construire un ggplot morceau par morceau, ainsi que comment personnaliser et exporter le graphique.
  2. Cet article décrit comment créer des diagrammes de dispersion dans R en utilisant le package ggplot2. Vous apprendrez comment: 1) Colorer des points par groupes ; 2) Créer des graphiques à bulles ; 3) Ajouter une ligne de régression à un nuage de points
  3. Les boxplots sont utilisés pour visualiser la distribution d'une variable continue groupée à travers leurs quartiles. Vous apprendrez comment créer et personnaliser des boxplots en utilisant le package R ggplot2.
  4. Un Violin Plot est utilisé pour visualiser la distribution des données et leur densité de probabilité. Ce graphique est une combinaison d'un Box Plot et d'un Density Plot qui est tourné et placé de chaque côté, pour afficher la forme de la distribution des données. Un Violin Plot montre plus d'informations qu'un Box Plot. Par exemple, dans un violin plot, vous pouvez voir si la distribution des données est bimodale ou multimodale. Cet article décrit comment créer et personnaliser des violin plots à l'aide du package R ggplot2.
  5. Un Dot Plot est utilisé pour visualiser la distribution des données. Ce graphique crée des points empilés, où chaque point représente une observation. Des statistiques descriptives sont habituellement ajoutées aux Dot plots pour indiquer, par exemple, la médiane des données et l'écart interquartile. Cet article décrit comment créer et personnaliser des Dot Plots en utilisant le package R ggplot2.
  6. Les Stripcharts sont également connus sous le nom de diagrammes de dispersion unidimensionnels. Ces graphiques conviennent mieux que des box plots lorsque la taille de l'échantillon est petite. Cet article décrit comment créer et personnaliser des Stripcharts en utilisant le package R ggplot2.
  7. Dans un line plot, les observations sont ordonnées par la valeur x et reliées par une ligne. Cet article décrit comment créer un line plot à l'aide du package R ggplot2. Vous apprendrez comment : 1) Créer des line plots de base et groupés ; 2) Ajouter des points à un line plot ; 3) Modifier les types de lignes et les couleurs par groupe.
  8. Le Barplot est utilisé pour montrer des comparaisons entre des catégories. L'un des axes du graphique montre les catégories spécifiques comparées et l'autre axe représente une échelle de valeurs discrètes. Cet article décrit comment créer des bar plots en utilisant le package R ggplot2. Vous apprendrez comment : 1) Créer des barplots de base et groupés ; 2) Ajouter des étiquettes de texte à un barplot ; 3) Modifier la couleur des traits et la couleur de remplissage des barres par groupe.
  9. Les barres d'erreur sont utilisées pour visualiser la variabilité des données tracées. Les barres d'erreur peuvent être appliquées à des graphiques tels que les Dot Plots, Barplots ou les Line plots, afin de fournir une couche supplémentaire de détails sur les données présentées. Généralement, les barres d'erreur sont utilisées pour montrer soit l'écart-type, l'erreur-type, les intervalles de confiance ou l'écart interquartile. La longueur d'une barre d'erreur permet de révéler l'incertitude d'un point de données. Cet article décrit comment ajouter des barres d'erreur dans un graphique en utilisant le package R ggplot2. Vous apprendrez comment créer des bar plots et des line plots avec des barres d'erreur.
  10. Un graphe de densité est une alternative à l'histogramme utilisé pour visualiser la distribution d'une variable continue. Les pics d'un graphe de densité aident à identifier où les valeurs sont concentrées sur l'intervalle de la variable continue. Par rapport aux histogrammes, les diagrammes de densité sont plus aptes à trouver la forme de la distribution parce qu'ils ne sont pas affectés par le nombre de barre utilisés (chaque barre utilisée dans un histogramme typique). Cet article décrit comment créer des diagrammes de densité à l'aide du package R ggplot2.
  11. Un histogramme est une alternative au graphe de densité pour visualiser la distribution d'une variable continue. Ce graphique représente la distribution d'une variable continue en la divisant en groupe de valeurs et en comptant le nombre d'observations dans chaque groupe. Cet article décrit comment créer des d'histogrammes à l'aide du package R ggplot2.
  12. Un Quantile-quantile plot (ou QQPlot) est utilisé pour vérifier si une donnée suit une distribution normale. On suppose que les données sont normalement distribuées lorsque les points suivent approximativement la ligne de référence de 45 degrés (diagonale). Cet article décrit comment créer un qqplot dans R en utilisant le package ggplot2.
  13. ECDF (ou fonction de distribution cumulative empirique) fournit une visualisation alternative de la distribution. Il indique, pour un nombre donné, le pourcentage de cas qui se situent en dessous de ce seuil. Cet article décrit comment créer un ECDF dans R en utilisant la fonction stat_ecdf() du package ggplot2.
  14. Cet article décrit comment combiner plusieurs ggplots dans une figure. Vous apprendrez à utiliser : 1) les fonctions facettes de ggplot2 pour créer une figure à plusieurs pannels qui partagent les mêmes axes ; 2) la fonction ggarrange() [package ggpubr] pour combiner des ggplots indépendants.

Aucun commentaire

Give a comment

Teachers

No Ratings Yet

No ratings yet.

Please rate this

  • 1 Star
  • 2 Stars
  • 3 Stars
  • 4 Stars
  • 5 Stars