Ein ausführliches Tutorial zu dplyr, tidyr und ggplot2
Lernen Sie, wie Sie die Leistung der tidyverse für Datenwissenschaft nutzen können. Dieses Tutorial bietet einen detaillierten Einblick in dplyr für die Datenmanipulation, tidyr für die Datenbereinigung und ggplot2 für die Datenvisualisierung in R.
Das tidyverse ist eine Sammlung von R-Paketen, die eine gemeinsame Design-Philosophie haben und auf die Datenwissenschaft zugeschnitten sind. In diesem Tutorial werden wir drei Kernpakete untersuchen:
dplyr für die Datenmanipulation,
tidyr für die Datenbereinigung, und
ggplot2 für die Datenvisualisierung.
Wenn Sie diese Werkzeuge beherrschen, können Sie Ihre Daten mit elegantem und effizientem Code transformieren, bereinigen und visualisieren. Ganz gleich, ob Sie Daten für die Analyse vorbereiten oder publikationsreife Grafiken erstellen, tidyverse bietet leistungsstarke Funktionen zur Rationalisierung Ihres Arbeitsablaufs.
Verwendung von dplyr zur Datenmanipulation
dplyr bietet eine Reihe von intuitiven Funktionen zum Filtern, Auswählen, Verändern und Zusammenfassen von Daten.
Beispiel: Filtern und Zusammenfassen mit dplyr
library(dplyr)# Verwenden Sie den eingebauten mtcars-Datensatzdata("mtcars")# Autos filtern, Schlüsselspalten auswählen und zusammenfassen mtcars_summary <- mtcars %>%1filter(cyl >4) %>%2select(mpg, cyl, hp) %>%3group_by(cyl) %>%4summarize(avg_mpg =mean(mpg), avg_hp =mean(hp))
1
Autos mit mehr als 4 Zylindern filtern.
2
Bestimmte Spalten für die Analyse auswählen.
3
Gruppieren von Daten nach der Anzahl der Zylinder.
4
Berechnen des durchschnittlichen Benzinverbrauchs und der Pferdestärken (PS) für jede Zylinderzahl.
Dieses Beispiel zeigt, wie man Daten filtert, bestimmte Spalten auswählt, Daten gruppiert und zusammenfassende Statistiken berechnet - alles in einer einzigen Pipeline.
# Anzeige der zusammengefassten Datenprint(mtcars_summary)
tidyr hilft Ihnen dabei, Ihre Daten umzugestalten und aufzuräumen, damit sie leichter analysiert werden können. Zu den üblichen Aufgaben gehört das Pivotieren von Daten vom Breit- ins Langformat und umgekehrt.
Beispiel: Pivotierung von Daten mit tidyr
library(tidyr)library(dplyr)# Erstellen eines Beispieldatenrahmens im Breitformatwide_data <-data.frame(id =1:3,measure_A =c(10, 20, 30),measure_B =c(40, 50, 60))print(wide_data)
# Konvertieren der Daten vom Breitformat in das Langformatlong_data <- wide_data %>%pivot_longer(cols =starts_with("measure"),names_to ="measure",values_to ="value")print(long_data)
Dieses Beispiel zeigt, wie man Daten aufräumt, indem man sie in ein analysefreundlicheres Langformat umformt.
Visualisierung der Daten mit ggplot2
ggplot2 ist ein vielseitiges und leistungsstarkes Paket zur Erstellung hochwertiger Datenvisualisierungen in R.
Beispiel: Erstellen eines Streudiagramms mit ggplot2
library(ggplot2)# Verwenden Sie den eingebauten mtcars-Datensatzdata("mtcars")# Erstellen eines einfachen Streudiagramms von Benzinverbrauch und Gewicht, # Einfärben nach der Anzahl der Zylinderggplot(data = mtcars, aes(x = wt, y = mpg, color =factor(cyl))) +geom_point(size =3) +labs(title ="MPG vs. Car Weight",x ="Weight (1000 lbs)",y ="Miles per Gallon",color ="Cylinders") +theme_minimal()
Dieses Beispiel zeigt, wie ggplot2 verwendet wird, um ein Streudiagramm mit benutzerdefinierten Beschriftungen und Themen zu erstellen.
Schlussfolgerung
tidyverse ist ein wichtiges Toolkit für die Datenwissenschaft in R. Wenn Sie dplyr, tidyr und ggplot2 beherrschen, können Sie Daten effizient manipulieren, aufräumen und visualisieren. Diese Werkzeuge vereinfachen nicht nur Ihren Arbeitsablauf, sondern helfen Ihnen auch, klaren und reproduzierbaren Code zu schreiben. Experimentieren Sie mit den mitgelieferten Beispielen und erkunden Sie weitere Anpassungsoptionen, um tidyverse an Ihre Bedürfnisse bei der Datenanalyse anzupassen.