Tidyverse für die Datenwissenschaft

Einführung

Das tidyverse ist eine Sammlung von R-Paketen, die eine gemeinsame Design-Philosophie haben und auf die Datenwissenschaft zugeschnitten sind. In diesem Tutorial werden wir drei Kernpakete untersuchen:

dplyr für die Datenmanipulation,
tidyr für die Datenbereinigung, und
ggplot2 für die Datenvisualisierung.

Wenn Sie diese Werkzeuge beherrschen, können Sie Ihre Daten mit elegantem und effizientem Code transformieren, bereinigen und visualisieren. Ganz gleich, ob Sie Daten für die Analyse vorbereiten oder publikationsreife Grafiken erstellen, tidyverse bietet leistungsstarke Funktionen zur Rationalisierung Ihres Arbeitsablaufs.

Verwendung von dplyr zur Datenmanipulation

dplyr bietet eine Reihe von intuitiven Funktionen zum Filtern, Auswählen, Verändern und Zusammenfassen von Daten.

Beispiel: Filtern und Zusammenfassen mit dplyr

library(dplyr)

# Verwenden Sie den eingebauten mtcars-Datensatz
data("mtcars")

# Autos filtern, Schlüsselspalten auswählen und zusammenfassen 
mtcars_summary <- mtcars %>%
1  filter(cyl > 4) %>%
2  select(mpg, cyl, hp) %>%
3  group_by(cyl) %>%
4  summarize(avg_mpg = mean(mpg), avg_hp = mean(hp))

1: Autos mit mehr als 4 Zylindern filtern.
2: Bestimmte Spalten für die Analyse auswählen.
3: Gruppieren von Daten nach der Anzahl der Zylinder.
4: Berechnen des durchschnittlichen Benzinverbrauchs und der Pferdestärken (PS) für jede Zylinderzahl.

Dieses Beispiel zeigt, wie man Daten filtert, bestimmte Spalten auswählt, Daten gruppiert und zusammenfassende Statistiken berechnet - alles in einer einzigen Pipeline.

# Anzeige der zusammengefassten Daten
print(mtcars_summary)

# A tibble: 2 × 3
    cyl avg_mpg avg_hp
  <dbl>   <dbl>  <dbl>
1     6    19.7   122.
2     8    15.1   209.

Aufräumen von Daten mit tidyr

tidyr hilft Ihnen dabei, Ihre Daten umzugestalten und aufzuräumen, damit sie leichter analysiert werden können. Zu den üblichen Aufgaben gehört das Pivotieren von Daten vom Breit- ins Langformat und umgekehrt.

Beispiel: Pivotierung von Daten mit tidyr

library(tidyr)
library(dplyr)

# Erstellen eines Beispieldatenrahmens im Breitformat
wide_data <- data.frame(
  id = 1:3,
  measure_A = c(10, 20, 30),
  measure_B = c(40, 50, 60)
)
print(wide_data)

  id measure_A measure_B
1  1        10        40
2  2        20        50
3  3        30        60

# Konvertieren der Daten vom Breitformat in das Langformat
long_data <- wide_data %>%
  pivot_longer(cols = starts_with("measure"),
               names_to = "measure",
               values_to = "value")

print(long_data)

# A tibble: 6 × 3
     id measure   value
  <int> <chr>     <dbl>
1     1 measure_A    10
2     1 measure_B    40
3     2 measure_A    20
4     2 measure_B    50
5     3 measure_A    30
6     3 measure_B    60

Dieses Beispiel zeigt, wie man Daten aufräumt, indem man sie in ein analysefreundlicheres Langformat umformt.

Visualisierung der Daten mit ggplot2

ggplot2 ist ein vielseitiges und leistungsstarkes Paket zur Erstellung hochwertiger Datenvisualisierungen in R.

Beispiel: Erstellen eines Streudiagramms mit ggplot2

library(ggplot2)

# Verwenden Sie den eingebauten mtcars-Datensatz
data("mtcars")

# Erstellen eines einfachen Streudiagramms von Benzinverbrauch und Gewicht, 
# Einfärben nach der Anzahl der Zylinder
ggplot(data = mtcars, aes(x = wt, y = mpg, color = factor(cyl))) +
  geom_point(size = 3) +
  labs(title = "MPG vs. Car Weight",
       x = "Weight (1000 lbs)",
       y = "Miles per Gallon",
       color = "Cylinders") +
  theme_minimal()

Dieses Beispiel zeigt, wie ggplot2 verwendet wird, um ein Streudiagramm mit benutzerdefinierten Beschriftungen und Themen zu erstellen.

Schlussfolgerung

tidyverse ist ein wichtiges Toolkit für die Datenwissenschaft in R. Wenn Sie dplyr, tidyr und ggplot2 beherrschen, können Sie Daten effizient manipulieren, aufräumen und visualisieren. Diese Werkzeuge vereinfachen nicht nur Ihren Arbeitsablauf, sondern helfen Ihnen auch, klaren und reproduzierbaren Code zu schreiben. Experimentieren Sie mit den mitgelieferten Beispielen und erkunden Sie weitere Anpassungsoptionen, um tidyverse an Ihre Bedürfnisse bei der Datenanalyse anzupassen.

Weiterführende Literatur

Viel Spaß beim Programmieren und bei der Nutzung der Möglichkeiten von tidyverse für Ihre Datenwissenschaft-Projekte!

Fortgeschrittene Themen und weitere Erkundung

Wiederverwendung

CC BY-NC-SA 4.0

Zitat

Mit BibTeX zitieren:

@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Tidyverse für die Datenwissenschaft},
  date = {2024-02-10},
  url = {https://www.datanovia.com/de/learn/programming/r/advanced/tidyverse-for-data-science.html},
  langid = {de}
}

Bitte zitieren Sie diese Arbeit als:

Kassambara, Alboukadel. 2024. “Tidyverse für die Datenwissenschaft.” February 10, 2024. https://www.datanovia.com/de/learn/programming/r/advanced/tidyverse-for-data-science.html.

Tidyverse für die Datenwissenschaft

Einführung

Verwendung von dplyr zur Datenmanipulation

Beispiel: Filtern und Zusammenfassen mit dplyr

Aufräumen von Daten mit tidyr

Beispiel: Pivotierung von Daten mit tidyr

Visualisierung der Daten mit ggplot2

Beispiel: Erstellen eines Streudiagramms mit ggplot2

Schlussfolgerung

Weiterführende Literatur

Fortgeschrittene Themen und weitere Erkundung

Weitere Artikel erkunden

Funktionale Programmierung in R

Effizienten R-Code schreiben: Vektorisierungstricks

Fehlersuche in R: Techniken und Werkzeuge

Entwickeln und Veröffentlichen von R-Paketen

Fehlerbehandlung in R

Parallele Verarbeitung in R mit furrr

Paralleles Rechnen in R