Tidyverse pour la science des données

Un tutoriel approfondi sur dplyr, tidyr, et ggplot2

Apprenez à exploiter la puissance du tidyverse pour la science des données. Ce didacticiel présente en détail dplyr pour la manipulation des données, tidyr pour le rangement des données et ggplot2 pour la visualisation des données en R.

Programmation
Auteur·rice
Affiliation
Date de publication

10 février 2024

Modifié

9 mai 2025

Mots clés

tidyverse tutorial, dplyr guide, tidyverse dans R, science des données tidyverse, R dplyr, R tidyr, ggplot2 tutorial

Introduction

Le tidyverse est une collection de packages R qui partagent une philosophie de conception commune et sont adaptés à la science des données. Dans ce tutoriel, nous explorerons trois paquets principaux:

  • dplyr pour la manipulation des données,
  • tidyr pour la mise en ordre des données, et
  • ggplot2 pour la visualisation des données.

En maîtrisant ces outils, vous pouvez transformer, nettoyer et visualiser vos données à l’aide d’un code élégant et efficace. Que vous prépariez des données pour l’analyse ou que vous créiez des graphiques prêts à être publiés, le tidyverse offre des fonctions puissantes pour rationaliser votre flux de travail.



Utilisation de dplyr pour la manipulation des données

dplyr fournit un ensemble de fonctions intuitives pour filtrer, sélectionner, modifier et résumer les données.

Exemple : Filtrer et résumer avec dplyr

library(dplyr)

# Utiliser le jeu de données intégré mtcars
data("mtcars")

# Filtrer les voitures, sélectionner les colonnes clés et résumer 
mtcars_summary <- mtcars %>%
1  filter(cyl > 4) %>%
2  select(mpg, cyl, hp) %>%
3  group_by(cyl) %>%
4  summarize(avg_mpg = mean(mpg), avg_hp = mean(hp))
1
Filtrer les voitures de plus de 4 cylindres.
2
Sélectionner des colonnes spécifiques pour l’analyse.
3
Regrouper les données en fonction du nombre de cylindres.
4
Calculer la moyenne des miles par gallon (mpg) et la puissance (hp) pour chaque nombre de cylindres.

Cet exemple montre comment filtrer les données, sélectionner des colonnes spécifiques, grouper les données et calculer des statistiques sommaires dans un seul pipeline.

# Afficher les données récapitulatives
print(mtcars_summary)
# A tibble: 2 × 3
    cyl avg_mpg avg_hp
  <dbl>   <dbl>  <dbl>
1     6    19.7   122.
2     8    15.1   209.

Ranger les données avec tidyr

tidyr est conçu pour vous aider à remodeler et à ordonner vos données, afin d’en faciliter l’analyse. Les tâches courantes incluent le pivotement des données du format large au format long et vice versa.

Exemple : Pivoter les données avec tidyr

library(tidyr)
library(dplyr)

# Créer un échantillon de données au format large
wide_data <- data.frame(
  id = 1:3,
  measure_A = c(10, 20, 30),
  measure_B = c(40, 50, 60)
)
print(wide_data)
  id measure_A measure_B
1  1        10        40
2  2        20        50
3  3        30        60
# Convertir les données du format large au format long
long_data <- wide_data %>%
  pivot_longer(cols = starts_with("measure"),
               names_to = "measure",
               values_to = "value")

print(long_data)
# A tibble: 6 × 3
     id measure   value
  <int> <chr>     <dbl>
1     1 measure_A    10
2     1 measure_B    40
3     2 measure_A    20
4     2 measure_B    50
5     3 measure_A    30
6     3 measure_B    60

Cet exemple montre comment mettre de l’ordre dans des données en les remodelant dans un format long plus convivial pour l’analyse.

Visualisation des données avec ggplot2

ggplot2 est un package polyvalent et puissant permettant de créer des visualisations de données de haute qualité dans R.

Exemple : Création d’un diagramme de dispersion avec ggplot2

library(ggplot2)

# Utiliser le jeu de données intégré mtcars
data("mtcars")

# Créez un diagramme de dispersion de base de la consommation de carburant en fonction du poids, 
# Colorier en fonction du nombre de cylindres
ggplot(data = mtcars, aes(x = wt, y = mpg, color = factor(cyl))) +
  geom_point(size = 3) +
  labs(title = "MPG vs. Car Weight",
       x = "Weight (1000 lbs)",
       y = "Miles per Gallon",
       color = "Cylinders") +
  theme_minimal()

Cet exemple illustre comment utiliser ggplot2 pour créer un nuage de points avec des étiquettes et des thèmes personnalisés.

Conclusion

Le tidyverse est une boîte à outils essentielle pour la science des données en R. En maîtrisant dplyr, tidyr, et ggplot2, vous pouvez manipuler, ordonner et visualiser efficacement les données. Ces outils ne simplifient pas seulement votre flux de travail mais vous aident également à écrire un code clair et reproductible. Expérimentez les exemples fournis et explorez d’autres options de personnalisation pour adapter tidyverse à vos besoins en matière d’analyse de données.

Plus d’informations

Bon codage, et profitez de la puissance de tidyverse pour vos projets de science des données!

Sujets avancés et exploration plus approfondie

Explorer d’autres articles

Note

Voici d’autres articles de la même catégorie pour vous aider à approfondir le sujet.

placeholder

placeholder
Aucun article correspondant
Retour au sommet

Réutilisation

Citation

BibTeX
@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Tidyverse pour la science des données},
  date = {2024-02-10},
  url = {https://www.datanovia.com/fr/learn/programming/r/advanced/tidyverse-for-data-science.html},
  langid = {fr}
}
Veuillez citer ce travail comme suit :
Kassambara, Alboukadel. 2024. “Tidyverse pour la science des données.” February 10, 2024. https://www.datanovia.com/fr/learn/programming/r/advanced/tidyverse-for-data-science.html.