Datenverarbeitung mit dplyr

Transformieren und Zusammenfassen von Daten mit dplyr in R

Lernen Sie, wie man Daten mit dplyr effizient manipuliert und transformiert. Dieses Tutorial behandelt Schlüsselfunktionen wie filter(), select(), mutate(), group_by() und summarize(), um Ihre Datenverarbeitungsaufgaben in R zu rationalisieren.

Programmierung
Autor:in
Zugehörigkeit
Veröffentlichungsdatum

10. Februar 2024

Geändert

29. April 2025

Schlüsselwörter

dplyr Tutorium, Datenmanipulation in R, tidyverse Datenmanipulation, R dplyr, Datentransformation in R

Einführung

dplyr ist eines der Kernpakete in tidyverse, das die Datenmanipulation in R sowohl schnell als auch intuitiv macht. Mit seiner einfachen Syntax und seinen leistungsstarken Verben ermöglicht dplyr das Filtern, Auswählen, Verändern, Gruppieren und Zusammenfassen von Daten mit minimalem Code. In diesem Tutorial lernen Sie, wie Sie mit dplyr Datensätze umwandeln und zusammenfassen können, und erhalten praktische Beispiele zur Veranschaulichung seiner Möglichkeiten.



Wichtige dplyr Funktionen

dplyr bietet eine Reihe von Funktionen - oft als ‘Verben’ bezeichnet -, die die Grundlage für die Datenverarbeitung in R bilden. Hier sind einige der wichtigsten Operationen:

  • filter(): Zeilen auf der Grundlage von Bedingungen zusammenfassen.
  • select(): Spalten anhand von Namen oder Mustern auswählen.
  • mutate(): Neue Spalten erstellen oder vorhandene Spalten ändern.
  • group_by(): Gruppieren der Daten für Zusammenfassungsoperationen.
  • summarize(): Berechnen von zusammenfassenden Statistiken für gruppierte Daten.

Praktische Beispiele

Beispiel 1: Filtern und Auswählen von Daten

Verwenden wir den eingebauten mtcars-Datensatz, um nach Autos mit mehr als 6 Zylindern zu filtern und nur die Meilen-pro-Gallone-Spalten (mpg), number of cylinders (cyl), and horsepower (hp) auszuwählen.

library(dplyr)

# Filtern Sie den Datensatz nach Fahrzeugen mit mehr als 6 Zylindern und wählen Sie bestimmte Spalten aus
filtered_data <- mtcars %>%
  filter(cyl > 6) %>%
  select(mpg, cyl, hp)

print(filtered_data)
                     mpg cyl  hp
Hornet Sportabout   18.7   8 175
Duster 360          14.3   8 245
Merc 450SE          16.4   8 180
Merc 450SL          17.3   8 180
Merc 450SLC         15.2   8 180
Cadillac Fleetwood  10.4   8 205
Lincoln Continental 10.4   8 215
Chrysler Imperial   14.7   8 230
Dodge Challenger    15.5   8 150
AMC Javelin         15.2   8 150
Camaro Z28          13.3   8 245
Pontiac Firebird    19.2   8 175
Ford Pantera L      15.8   8 264
Maserati Bora       15.0   8 335

Beispiel 2: Mutieren und Zusammenfassen von Daten

In diesem Beispiel fügen wir eine neue Spalte hinzu, die das Leistungsgewicht berechnet, und fassen dann die Daten zusammen, indem wir sie nach der Anzahl der Zylinder gruppieren.

library(dplyr)

# Fügen Sie eine neue Spalte für das Leistungsgewicht hinzu und fassen Sie den durchschnittlichen Benzinverbrauch nach Zylinderzahl zusammen
summary_data <- mtcars %>%
  mutate(power_to_weight = hp / wt) %>%
  group_by(cyl) %>%
  summarize(
    avg_mpg = mean(mpg),
    avg_power_to_weight = mean(power_to_weight)
  )

print(summary_data)
# A tibble: 3 × 3
    cyl avg_mpg avg_power_to_weight
  <dbl>   <dbl>               <dbl>
1     4    26.7                37.9
2     6    19.7                39.9
3     8    15.1                53.9

Beispiel 3: Verkettung mehrerer dplyr Verben

Dieses Beispiel zeigt, wie man mehrere dplyr-Operationen verketten kann, um eine umfassende Datentransformation durchzuführen.

library(dplyr)

# Verkettung mehrerer Operationen: Filtern, Auswählen und Ändern
transformed_data <- mtcars %>%
  filter(mpg > 20) %>%
  select(mpg, cyl, disp, hp) %>%
  mutate(efficiency = mpg / disp)

print(transformed_data)
                mpg cyl  disp  hp efficiency
Mazda RX4      21.0   6 160.0 110 0.13125000
Mazda RX4 Wag  21.0   6 160.0 110 0.13125000
Datsun 710     22.8   4 108.0  93 0.21111111
Hornet 4 Drive 21.4   6 258.0 110 0.08294574
Merc 240D      24.4   4 146.7  62 0.16632584
Merc 230       22.8   4 140.8  95 0.16193182
Fiat 128       32.4   4  78.7  66 0.41168996
Honda Civic    30.4   4  75.7  52 0.40158520
Toyota Corolla 33.9   4  71.1  65 0.47679325
Toyota Corona  21.5   4 120.1  97 0.17901749
Fiat X1-9      27.3   4  79.0  66 0.34556962
Porsche 914-2  26.0   4 120.3  91 0.21612635
Lotus Europa   30.4   4  95.1 113 0.31966351
Volvo 142E     21.4   4 121.0 109 0.17685950

Best Practices

  • Verwenden Sie den Pipe-Operator %>%:
    Dieser Operator hilft bei der Verkettung mehrerer Operationen und macht Ihren Code lesbarer.

  • Schreiben Sie klaren, beschreibenden Code:
    Verwenden Sie aussagekräftige Variablennamen und fügen Sie bei Bedarf Kommentare hinzu.

  • Inkrementell testen:
    Erstellen Sie Ihre Datentransformationen Schritt für Schritt und überprüfen Sie die Zwischenergebnisse, um sicherzustellen, dass Ihr Code wie erwartet funktioniert.

Schlussfolgerung

dplyr vereinfacht den Prozess der Datenumwandlung in R und ermöglicht es Ihnen, Datensätze mit minimalem und intuitivem Code umzuwandeln und zusammenzufassen. Wenn Sie die Kernfunktionen - Filtern, Auswählen, Mutieren, Gruppieren und Zusammenfassen - beherrschen, können Sie Ihre Datenvorbereitungs-Workflows rationalisieren und Ihre Daten effektiv für weitere Analysen oder Visualisierungen vorbereiten.

Weiterführende Literatur

Viel Spaß beim Programmieren und bei der Umwandlung Ihrer Daten mit dplyr!

Weitere Artikel erkunden

Hinweis

Hier finden Sie weitere Artikel aus derselben Kategorie, die Ihnen helfen, tiefer in das Thema einzutauchen.

Zurück nach oben

Wiederverwendung

Zitat

Mit BibTeX zitieren:
@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Datenverarbeitung mit dplyr},
  date = {2024-02-10},
  url = {https://www.datanovia.com/de/learn/programming/r/data-science/data-wrangling-with-dplyr.html},
  langid = {de}
}
Bitte zitieren Sie diese Arbeit als:
Kassambara, Alboukadel. 2024. “Datenverarbeitung mit dplyr.” February 10, 2024. https://www.datanovia.com/de/learn/programming/r/data-science/data-wrangling-with-dplyr.html.