Transformieren und Zusammenfassen von Daten mit dplyr in R
Lernen Sie, wie man Daten mit dplyr effizient manipuliert und transformiert. Dieses Tutorial behandelt Schlüsselfunktionen wie filter(), select(), mutate(), group_by() und summarize(), um Ihre Datenverarbeitungsaufgaben in R zu rationalisieren.
dplyr ist eines der Kernpakete in tidyverse, das die Datenmanipulation in R sowohl schnell als auch intuitiv macht. Mit seiner einfachen Syntax und seinen leistungsstarken Verben ermöglicht dplyr das Filtern, Auswählen, Verändern, Gruppieren und Zusammenfassen von Daten mit minimalem Code. In diesem Tutorial lernen Sie, wie Sie mit dplyr Datensätze umwandeln und zusammenfassen können, und erhalten praktische Beispiele zur Veranschaulichung seiner Möglichkeiten.
Wichtige dplyr Funktionen
dplyr bietet eine Reihe von Funktionen - oft als ‘Verben’ bezeichnet -, die die Grundlage für die Datenverarbeitung in R bilden. Hier sind einige der wichtigsten Operationen:
filter(): Zeilen auf der Grundlage von Bedingungen zusammenfassen.
select(): Spalten anhand von Namen oder Mustern auswählen.
mutate(): Neue Spalten erstellen oder vorhandene Spalten ändern.
group_by(): Gruppieren der Daten für Zusammenfassungsoperationen.
summarize(): Berechnen von zusammenfassenden Statistiken für gruppierte Daten.
Praktische Beispiele
Beispiel 1: Filtern und Auswählen von Daten
Verwenden wir den eingebauten mtcars-Datensatz, um nach Autos mit mehr als 6 Zylindern zu filtern und nur die Meilen-pro-Gallone-Spalten (mpg), number of cylinders (cyl), and horsepower (hp) auszuwählen.
library(dplyr)# Filtern Sie den Datensatz nach Fahrzeugen mit mehr als 6 Zylindern und wählen Sie bestimmte Spalten ausfiltered_data <- mtcars %>%filter(cyl >6) %>%select(mpg, cyl, hp)print(filtered_data)
In diesem Beispiel fügen wir eine neue Spalte hinzu, die das Leistungsgewicht berechnet, und fassen dann die Daten zusammen, indem wir sie nach der Anzahl der Zylinder gruppieren.
library(dplyr)# Fügen Sie eine neue Spalte für das Leistungsgewicht hinzu und fassen Sie den durchschnittlichen Benzinverbrauch nach Zylinderzahl zusammensummary_data <- mtcars %>%mutate(power_to_weight = hp / wt) %>%group_by(cyl) %>%summarize(avg_mpg =mean(mpg),avg_power_to_weight =mean(power_to_weight) )print(summary_data)
Verwenden Sie den Pipe-Operator %>%:
Dieser Operator hilft bei der Verkettung mehrerer Operationen und macht Ihren Code lesbarer.
Schreiben Sie klaren, beschreibenden Code:
Verwenden Sie aussagekräftige Variablennamen und fügen Sie bei Bedarf Kommentare hinzu.
Inkrementell testen:
Erstellen Sie Ihre Datentransformationen Schritt für Schritt und überprüfen Sie die Zwischenergebnisse, um sicherzustellen, dass Ihr Code wie erwartet funktioniert.
Schlussfolgerung
dplyr vereinfacht den Prozess der Datenumwandlung in R und ermöglicht es Ihnen, Datensätze mit minimalem und intuitivem Code umzuwandeln und zusammenzufassen. Wenn Sie die Kernfunktionen - Filtern, Auswählen, Mutieren, Gruppieren und Zusammenfassen - beherrschen, können Sie Ihre Datenvorbereitungs-Workflows rationalisieren und Ihre Daten effektiv für weitere Analysen oder Visualisierungen vorbereiten.