import pandas as pd
import numpy as np
Einführung
Data Wrangling ist ein entscheidender Schritt im Data-Science-Workflow - er wandelt unstrukturierte Rohdaten in ein sauberes, organisiertes Format um, das für die Analyse und Modellierung bereit ist. In diesem Tutorial erfahren Sie, wie Sie Pandas, eine leistungsstarke Python-Bibliothek, verwenden können, um Daten effizient zu importieren, zu bereinigen und verschiedene Datenmanipulationsaufgaben durchzuführen. Diese Techniken wurden speziell für Data-Science-Anwendungen entwickelt und helfen Ihnen, Ihre Datensätze für weitere Analysen und maschinelles Lernen vorzubereiten.
Voraussetzungen
Erforderliche Pakete importieren
Für dieses Tutorial können Sie einen synthetischen Datensatz generieren, um diesem zu folgen. Wenn Sie bereits einen Datensatz haben, können Sie diesen Abschnitt überspringen.
Den Code zur Erstellung von Demodaten anzeigen’
# Setzen des Seeds für die Reproduzierbarkeit
42)
np.random.seed(
# Synthetische Daten für Demozwecke erstellen
= {
data "id": np.arange(1, 101),
"name": [f"Item {i}" for i in range(1, 101)],
"price": np.random.uniform(10, 100, 100).round(2),
"category": np.random.choice(["A", "B", "C"], 100),
"date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}
= pd.DataFrame(data)
df "demo_data.csv", index=False) df.to_csv(
Daten importieren
Pandas macht es einfach, Daten aus verschiedenen Dateiformaten zu lesen. Eine der häufigsten Operationen ist das Lesen von Daten aus einer CSV-Datei.
Beispiel: Lesen einer CSV-Datei
# Lesen von Daten aus der Demo-CSV-Datei
= pd.read_csv("demo_data.csv")
df
# Anzeige der ersten Zeilen des DataFrame
print(df.head())
id name price category date
0 1 Item 1 43.71 C 2024-01-01
1 2 Item 2 95.56 C 2024-01-02
2 3 Item 3 75.88 A 2024-01-03
3 4 Item 4 63.88 A 2024-01-04
4 5 Item 5 24.04 B 2024-01-05
Dieser Code lädt die Daten in einen DataFrame - eine zweidimensionale Datenstruktur, die das Rückgrat der Pandas-Operationen bildet.
Datenbereinigung
Sobald die Daten importiert sind, müssen sie oft bereinigt werden, um fehlende Werte zu behandeln, Datentypen zu korrigieren und Duplikate zu entfernen. Pandas bietet eine Vielzahl von Funktionen, um diese Probleme zu lösen.
Beispiel: Bereinigung eines DataFrame
# Laden der Daten
= pd.read_csv("demo_data.csv")
df
# Zeilen mit fehlenden Werten entfernen
= df.dropna()
df_clean
# Konvertieren Sie die Spalte 'Preis' in einen numerischen Wert (falls erforderlich)
'price'] = pd.to_numeric(df_clean['price'], errors='coerce')
df_clean[
# Doppelte Zeilen entfernen
= df_clean.drop_duplicates()
df_clean
# Anzeige der bereinigten Daten
print(df_clean.head())
In diesem Beispiel entfernen wir Zeilen mit fehlenden Daten, konvertieren die Spalte ‘Preis’ in einen numerischen Typ und eliminieren doppelte Zeilen.
Daten Manipulation
Nachdem Sie die Daten bereinigt haben, können Sie sie manipulieren, um Erkenntnisse zu gewinnen. Zu den üblichen Aufgaben gehören das Filtern, Gruppieren und Aggregieren von Daten.
Beispiel: Gruppieren und Aggregieren von Daten
# Laden und Bereinigen der Daten
= pd.read_csv("demo_data.csv").dropna().drop_duplicates()
df
# Daten nach der Spalte 'Kategorie' gruppieren und den Durchschnittspreis für jede Gruppe berechnen
= df.groupby("category")["price"].mean()
grouped
print("Average price by category:")
print(grouped)
Average price by category:
category
A 54.332222
B 50.723548
C 51.612727
Name: price, dtype: float64
In diesem Beispiel werden die Daten nach Kategorien gruppiert und der Durchschnittspreis für jede Gruppe berechnet, um zu zeigen, wie Pandas zur Zusammenfassung und Analyse von Daten verwendet werden kann.
Schlussfolgerung
Datenverarbeitung mit Pandas ist unerlässlich für die Umwandlung von Rohdaten in ein strukturiertes Format, das die Analyse und Entscheidungsfindung unterstützt. Wenn Sie die Techniken für Datenimport, -bereinigung und -manipulation beherrschen, können Sie Ihren Data-Science-Workflow rationalisieren und sich auf die Gewinnung aussagekräftiger Erkenntnisse konzentrieren. Experimentieren Sie mit diesen Beispielen und passen Sie sie an Ihre eigenen Datensätze an, um die Leistungsfähigkeit von Pandas voll auszuschöpfen.
Weiterführende Literatur
- Datenvisualisierung mit Matplotlib
- Datenvisualisierung mit Seaborn
- Maschinelles Lernen mit Scikit-Learn
Viel Spaß beim Programmieren und bei der Umwandlung Ihrer Daten mit Pandas!
Weitere Artikel erkunden
Hier finden Sie weitere Artikel aus derselben Kategorie, die Ihnen helfen, tiefer in das Thema einzutauchen.
Wiederverwendung
Zitat
@online{kassambara2024,
author = {Kassambara, Alboukadel},
title = {Datenverarbeitung mit Pandas},
date = {2024-02-07},
url = {https://www.datanovia.com/de/learn/programming/python/data-science/data-wrangling-with-pandas.html},
langid = {de}
}