Tidyverse für die Datenwissenschaft

Ein ausführliches Tutorial zu dplyr, tidyr und ggplot2

Lernen Sie, wie Sie die Leistung der tidyverse für Datenwissenschaft nutzen können. Dieses Tutorial bietet einen detaillierten Einblick in dplyr für die Datenmanipulation, tidyr für die Datenbereinigung und ggplot2 für die Datenvisualisierung in R.

Programmierung
Autor:in
Zugehörigkeit
Veröffentlichungsdatum

10. Februar 2024

Geändert

29. April 2025

Schlüsselwörter

tidyverse Lehrgang, dplyr Anleitung, tidyverse in R, Datenwissenschaft tidyverse, R dplyr, R tidyr, ggplot2 Tutorium

Einführung

Das tidyverse ist eine Sammlung von R-Paketen, die eine gemeinsame Design-Philosophie haben und auf die Datenwissenschaft zugeschnitten sind. In diesem Tutorial werden wir drei Kernpakete untersuchen:

  • dplyr für die Datenmanipulation,
  • tidyr für die Datenbereinigung, und
  • ggplot2 für die Datenvisualisierung.

Wenn Sie diese Werkzeuge beherrschen, können Sie Ihre Daten mit elegantem und effizientem Code transformieren, bereinigen und visualisieren. Ganz gleich, ob Sie Daten für die Analyse vorbereiten oder publikationsreife Grafiken erstellen, tidyverse bietet leistungsstarke Funktionen zur Rationalisierung Ihres Arbeitsablaufs.



Verwendung von dplyr zur Datenmanipulation

dplyr bietet eine Reihe von intuitiven Funktionen zum Filtern, Auswählen, Verändern und Zusammenfassen von Daten.

Beispiel: Filtern und Zusammenfassen mit dplyr

library(dplyr)

# Verwenden Sie den eingebauten mtcars-Datensatz
data("mtcars")

# Autos filtern, Schlüsselspalten auswählen und zusammenfassen 
mtcars_summary <- mtcars %>%
1  filter(cyl > 4) %>%
2  select(mpg, cyl, hp) %>%
3  group_by(cyl) %>%
4  summarize(avg_mpg = mean(mpg), avg_hp = mean(hp))
1
Autos mit mehr als 4 Zylindern filtern.
2
Bestimmte Spalten für die Analyse auswählen.
3
Gruppieren von Daten nach der Anzahl der Zylinder.
4
Berechnen des durchschnittlichen Benzinverbrauchs und der Pferdestärken (PS) für jede Zylinderzahl.

Dieses Beispiel zeigt, wie man Daten filtert, bestimmte Spalten auswählt, Daten gruppiert und zusammenfassende Statistiken berechnet - alles in einer einzigen Pipeline.

# Anzeige der zusammengefassten Daten
print(mtcars_summary)
# A tibble: 2 × 3
    cyl avg_mpg avg_hp
  <dbl>   <dbl>  <dbl>
1     6    19.7   122.
2     8    15.1   209.

Aufräumen von Daten mit tidyr

tidyr hilft Ihnen dabei, Ihre Daten umzugestalten und aufzuräumen, damit sie leichter analysiert werden können. Zu den üblichen Aufgaben gehört das Pivotieren von Daten vom Breit- ins Langformat und umgekehrt.

Beispiel: Pivotierung von Daten mit tidyr

library(tidyr)
library(dplyr)

# Erstellen eines Beispieldatenrahmens im Breitformat
wide_data <- data.frame(
  id = 1:3,
  measure_A = c(10, 20, 30),
  measure_B = c(40, 50, 60)
)
print(wide_data)
  id measure_A measure_B
1  1        10        40
2  2        20        50
3  3        30        60
# Konvertieren der Daten vom Breitformat in das Langformat
long_data <- wide_data %>%
  pivot_longer(cols = starts_with("measure"),
               names_to = "measure",
               values_to = "value")

print(long_data)
# A tibble: 6 × 3
     id measure   value
  <int> <chr>     <dbl>
1     1 measure_A    10
2     1 measure_B    40
3     2 measure_A    20
4     2 measure_B    50
5     3 measure_A    30
6     3 measure_B    60

Dieses Beispiel zeigt, wie man Daten aufräumt, indem man sie in ein analysefreundlicheres Langformat umformt.

Visualisierung der Daten mit ggplot2

ggplot2 ist ein vielseitiges und leistungsstarkes Paket zur Erstellung hochwertiger Datenvisualisierungen in R.

Beispiel: Erstellen eines Streudiagramms mit ggplot2

library(ggplot2)

# Verwenden Sie den eingebauten mtcars-Datensatz
data("mtcars")

# Erstellen eines einfachen Streudiagramms von Benzinverbrauch und Gewicht, 
# Einfärben nach der Anzahl der Zylinder
ggplot(data = mtcars, aes(x = wt, y = mpg, color = factor(cyl))) +
  geom_point(size = 3) +
  labs(title = "MPG vs. Car Weight",
       x = "Weight (1000 lbs)",
       y = "Miles per Gallon",
       color = "Cylinders") +
  theme_minimal()

Dieses Beispiel zeigt, wie ggplot2 verwendet wird, um ein Streudiagramm mit benutzerdefinierten Beschriftungen und Themen zu erstellen.

Schlussfolgerung

tidyverse ist ein wichtiges Toolkit für die Datenwissenschaft in R. Wenn Sie dplyr, tidyr und ggplot2 beherrschen, können Sie Daten effizient manipulieren, aufräumen und visualisieren. Diese Werkzeuge vereinfachen nicht nur Ihren Arbeitsablauf, sondern helfen Ihnen auch, klaren und reproduzierbaren Code zu schreiben. Experimentieren Sie mit den mitgelieferten Beispielen und erkunden Sie weitere Anpassungsoptionen, um tidyverse an Ihre Bedürfnisse bei der Datenanalyse anzupassen.

Weiterführende Literatur

Viel Spaß beim Programmieren und bei der Nutzung der Möglichkeiten von tidyverse für Ihre Datenwissenschaft-Projekte!

Fortgeschrittene Themen und weitere Erkundung

Weitere Artikel erkunden

Hinweis

Hier finden Sie weitere Artikel aus derselben Kategorie, die Ihnen helfen, tiefer in das Thema einzutauchen.

placeholder

placeholder
Keine Treffer
Zurück nach oben

Wiederverwendung

Zitat

Mit BibTeX zitieren:
@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Tidyverse für die Datenwissenschaft},
  date = {2024-02-10},
  url = {https://www.datanovia.com/de/learn/programming/r/advanced/tidyverse-for-data-science.html},
  langid = {de}
}
Bitte zitieren Sie diese Arbeit als:
Kassambara, Alboukadel. 2024. “Tidyverse für die Datenwissenschaft.” February 10, 2024. https://www.datanovia.com/de/learn/programming/r/advanced/tidyverse-for-data-science.html.