Un tutoriel approfondi sur dplyr, tidyr, et ggplot2
Apprenez à exploiter la puissance du tidyverse pour la science des données. Ce didacticiel présente en détail dplyr pour la manipulation des données, tidyr pour le rangement des données et ggplot2 pour la visualisation des données en R.
Le tidyverse est une collection de packages R qui partagent une philosophie de conception commune et sont adaptés à la science des données. Dans ce tutoriel, nous explorerons trois paquets principaux:
dplyr pour la manipulation des données,
tidyr pour la mise en ordre des données, et
ggplot2 pour la visualisation des données.
En maîtrisant ces outils, vous pouvez transformer, nettoyer et visualiser vos données à l’aide d’un code élégant et efficace. Que vous prépariez des données pour l’analyse ou que vous créiez des graphiques prêts à être publiés, le tidyverse offre des fonctions puissantes pour rationaliser votre flux de travail.
Utilisation de dplyr pour la manipulation des données
dplyr fournit un ensemble de fonctions intuitives pour filtrer, sélectionner, modifier et résumer les données.
Exemple : Filtrer et résumer avec dplyr
library(dplyr)# Utiliser le jeu de données intégré mtcarsdata("mtcars")# Filtrer les voitures, sélectionner les colonnes clés et résumer mtcars_summary <- mtcars %>%1filter(cyl >4) %>%2select(mpg, cyl, hp) %>%3group_by(cyl) %>%4summarize(avg_mpg =mean(mpg), avg_hp =mean(hp))
1
Filtrer les voitures de plus de 4 cylindres.
2
Sélectionner des colonnes spécifiques pour l’analyse.
3
Regrouper les données en fonction du nombre de cylindres.
4
Calculer la moyenne des miles par gallon (mpg) et la puissance (hp) pour chaque nombre de cylindres.
Cet exemple montre comment filtrer les données, sélectionner des colonnes spécifiques, grouper les données et calculer des statistiques sommaires dans un seul pipeline.
# Afficher les données récapitulativesprint(mtcars_summary)
tidyr est conçu pour vous aider à remodeler et à ordonner vos données, afin d’en faciliter l’analyse. Les tâches courantes incluent le pivotement des données du format large au format long et vice versa.
Exemple : Pivoter les données avec tidyr
library(tidyr)library(dplyr)# Créer un échantillon de données au format largewide_data <-data.frame(id =1:3,measure_A =c(10, 20, 30),measure_B =c(40, 50, 60))print(wide_data)
# Convertir les données du format large au format longlong_data <- wide_data %>%pivot_longer(cols =starts_with("measure"),names_to ="measure",values_to ="value")print(long_data)
Cet exemple montre comment mettre de l’ordre dans des données en les remodelant dans un format long plus convivial pour l’analyse.
Visualisation des données avec ggplot2
ggplot2 est un package polyvalent et puissant permettant de créer des visualisations de données de haute qualité dans R.
Exemple : Création d’un diagramme de dispersion avec ggplot2
library(ggplot2)# Utiliser le jeu de données intégré mtcarsdata("mtcars")# Créez un diagramme de dispersion de base de la consommation de carburant en fonction du poids, # Colorier en fonction du nombre de cylindresggplot(data = mtcars, aes(x = wt, y = mpg, color =factor(cyl))) +geom_point(size =3) +labs(title ="MPG vs. Car Weight",x ="Weight (1000 lbs)",y ="Miles per Gallon",color ="Cylinders") +theme_minimal()
Cet exemple illustre comment utiliser ggplot2 pour créer un nuage de points avec des étiquettes et des thèmes personnalisés.
Conclusion
Le tidyverse est une boîte à outils essentielle pour la science des données en R. En maîtrisant dplyr, tidyr, et ggplot2, vous pouvez manipuler, ordonner et visualiser efficacement les données. Ces outils ne simplifient pas seulement votre flux de travail mais vous aident également à écrire un code clair et reproductible. Expérimentez les exemples fournis et explorez d’autres options de personnalisation pour adapter tidyverse à vos besoins en matière d’analyse de données.
@online{kassambara2024,
author = {Kassambara, Alboukadel},
title = {Tidyverse pour la science des données},
date = {2024-02-10},
url = {https://www.datanovia.com/fr/learn/programming/r/advanced/tidyverse-for-data-science.html},
langid = {fr}
}