Datenverarbeitung mit Pandas

Einführung

Data Wrangling ist ein entscheidender Schritt im Data-Science-Workflow - er wandelt unstrukturierte Rohdaten in ein sauberes, organisiertes Format um, das für die Analyse und Modellierung bereit ist. In diesem Tutorial erfahren Sie, wie Sie Pandas, eine leistungsstarke Python-Bibliothek, verwenden können, um Daten effizient zu importieren, zu bereinigen und verschiedene Datenmanipulationsaufgaben durchzuführen. Diese Techniken wurden speziell für Data-Science-Anwendungen entwickelt und helfen Ihnen, Ihre Datensätze für weitere Analysen und maschinelles Lernen vorzubereiten.

Voraussetzungen

Erforderliche Pakete importieren

import pandas as pd
import numpy as np

Für dieses Tutorial können Sie einen synthetischen Datensatz generieren, um diesem zu folgen. Wenn Sie bereits einen Datensatz haben, können Sie diesen Abschnitt überspringen.

Den Code zur Erstellung von Demodaten anzeigen’

# Setzen des Seeds für die Reproduzierbarkeit
np.random.seed(42)

# Synthetische Daten für Demozwecke erstellen
data = {
    "id": np.arange(1, 101),
    "name": [f"Item {i}" for i in range(1, 101)],
    "price": np.random.uniform(10, 100, 100).round(2),
    "category": np.random.choice(["A", "B", "C"], 100),
    "date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}

df = pd.DataFrame(data)
df.to_csv("demo_data.csv", index=False)

Daten importieren

Pandas macht es einfach, Daten aus verschiedenen Dateiformaten zu lesen. Eine der häufigsten Operationen ist das Lesen von Daten aus einer CSV-Datei.

Beispiel: Lesen einer CSV-Datei

# Lesen von Daten aus der Demo-CSV-Datei
df = pd.read_csv("demo_data.csv")

# Anzeige der ersten Zeilen des DataFrame
print(df.head())

   id    name  price category        date
0   1  Item 1  43.71        C  2024-01-01
1   2  Item 2  95.56        C  2024-01-02
2   3  Item 3  75.88        A  2024-01-03
3   4  Item 4  63.88        A  2024-01-04
4   5  Item 5  24.04        B  2024-01-05

Dieser Code lädt die Daten in einen DataFrame - eine zweidimensionale Datenstruktur, die das Rückgrat der Pandas-Operationen bildet.

Datenbereinigung

Sobald die Daten importiert sind, müssen sie oft bereinigt werden, um fehlende Werte zu behandeln, Datentypen zu korrigieren und Duplikate zu entfernen. Pandas bietet eine Vielzahl von Funktionen, um diese Probleme zu lösen.

Beispiel: Bereinigung eines DataFrame

# Laden der Daten
df = pd.read_csv("demo_data.csv")

# Zeilen mit fehlenden Werten entfernen
df_clean = df.dropna()

# Konvertieren Sie die Spalte 'Preis' in einen numerischen Wert (falls erforderlich)
df_clean['price'] = pd.to_numeric(df_clean['price'], errors='coerce')

# Doppelte Zeilen entfernen
df_clean = df_clean.drop_duplicates()

# Anzeige der bereinigten Daten
print(df_clean.head())

In diesem Beispiel entfernen wir Zeilen mit fehlenden Daten, konvertieren die Spalte ‘Preis’ in einen numerischen Typ und eliminieren doppelte Zeilen.

Daten Manipulation

Nachdem Sie die Daten bereinigt haben, können Sie sie manipulieren, um Erkenntnisse zu gewinnen. Zu den üblichen Aufgaben gehören das Filtern, Gruppieren und Aggregieren von Daten.

Beispiel: Gruppieren und Aggregieren von Daten

# Laden und Bereinigen der Daten
df = pd.read_csv("demo_data.csv").dropna().drop_duplicates()

# Daten nach der Spalte 'Kategorie' gruppieren und den Durchschnittspreis für jede Gruppe berechnen
grouped = df.groupby("category")["price"].mean()

print("Average price by category:")
print(grouped)

Average price by category:
category
A    54.332222
B    50.723548
C    51.612727
Name: price, dtype: float64

In diesem Beispiel werden die Daten nach Kategorien gruppiert und der Durchschnittspreis für jede Gruppe berechnet, um zu zeigen, wie Pandas zur Zusammenfassung und Analyse von Daten verwendet werden kann.

Schlussfolgerung

Datenverarbeitung mit Pandas ist unerlässlich für die Umwandlung von Rohdaten in ein strukturiertes Format, das die Analyse und Entscheidungsfindung unterstützt. Wenn Sie die Techniken für Datenimport, -bereinigung und -manipulation beherrschen, können Sie Ihren Data-Science-Workflow rationalisieren und sich auf die Gewinnung aussagekräftiger Erkenntnisse konzentrieren. Experimentieren Sie mit diesen Beispielen und passen Sie sie an Ihre eigenen Datensätze an, um die Leistungsfähigkeit von Pandas voll auszuschöpfen.

Weiterführende Literatur

Viel Spaß beim Programmieren und bei der Umwandlung Ihrer Daten mit Pandas!

Wiederverwendung

CC BY-NC-SA 4.0

Zitat

Mit BibTeX zitieren:

@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Datenverarbeitung mit Pandas},
  date = {2024-02-07},
  url = {https://www.datanovia.com/de/learn/programming/python/data-science/data-wrangling-with-pandas.html},
  langid = {de}
}

Bitte zitieren Sie diese Arbeit als:

Kassambara, Alboukadel. 2024. “Datenverarbeitung mit Pandas.” February 7, 2024. https://www.datanovia.com/de/learn/programming/python/data-science/data-wrangling-with-pandas.html.