Maschinelles Lernen mit Scikit-Learn

Einführung

Scikit-Learn ist eine der beliebtesten Python-Bibliotheken für maschinelles Lernen und bietet eine breite Palette von Tools für Data Mining, Datenanalyse und Modellerstellung. In diesem Tutorial zeigen wir Ihnen, wie Sie mit Scikit-Learn einfache Modelle für maschinelles Lernen erstellen und auswerten können. Ganz gleich, ob Sie neu im Bereich des maschinellen Lernens sind oder Ihre Kenntnisse auffrischen möchten, dieser Leitfaden wird Ihnen helfen, den Prozess des Modelltrainings, der Vorhersage und der Bewertung zu verstehen - und das alles innerhalb eines Datenwissenschaft Workflows.

Erstellen eines einfachen Modells für maschinelles Lernen

Eine der grundlegenden Aufgaben beim maschinellen Lernen besteht darin, ein Modell zu erstellen, das aus Daten lernen und Vorhersagen machen kann. In diesem Abschnitt gehen wir die Schritte durch, die zur Erstellung eines einfachen linearen Regressionsmodells erforderlich sind.

Beispiel: Lineare Regression

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Erstellen eines synthetischen Datensatzes
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X.flatten() + np.random.randn(100)

# Aufteilen der Daten in Trainings- und Testsätze
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanziieren und trainieren Sie das lineare Regressionsmodell
model = LinearRegression()
model.fit(X_train, y_train)

# Machen Sie Vorhersagen für die Testmenge
y_pred = model.predict(X_test)

# Bewerten Sie das Modell anhand des mittleren quadratischen Fehlers (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

Mean Squared Error: 0.6536995137170021

In diesem Beispiel wird gezeigt, wie man einen synthetischen Datensatz erstellt, ein lineares Regressionsmodell trainiert und dessen Leistung mithilfe der Metrik des mittleren quadratischen Fehlers bewertet.

Evaluierung Ihres Modells

Sobald Ihr Modell erstellt ist, ist es wichtig, seine Leistung zu bewerten, um sicherzustellen, dass es sich gut auf neue Daten verallgemeinern lässt. Die wichtigsten Auswertungsschritte sind:

Daten aufteilen:
Verwenden Sie Techniken wie Train/Test-Split oder Kreuzvalidierung zur Partitionierung Ihres Datensatzes.
Leistungsmetriken:
Verwenden Sie je nach Modelltyp geeignete Metriken wie Genauigkeit, Präzision und Wiedererkennung für die Klassifizierung oder den mittleren quadratischen Fehler und R² für die Regression.
Validierung:
Validieren Sie die Vorhersagen Ihres Modells anhand ungesehener Daten, um seine Effektivität zu bewerten.

Schlussfolgerung

Das Erstellen von Modellen für maschinelles Lernen mit Scikit-Learn ist ein unkomplizierter und dennoch leistungsstarker Prozess. Wenn Sie die in diesem Tutorial beschriebenen Schritte - Datenvorbereitung, Modelltraining, Vorhersage und Auswertung - befolgen, können Sie Modelle erstellen, die wertvolle Erkenntnisse aus Ihren Daten gewinnen. Experimentieren Sie mit verschiedenen Algorithmen und Bewertungsmetriken, um Ihre Modelle weiter zu verfeinern.

Weiterführende Literatur

Viel Spaß beim Programmieren und beim Erstellen Ihrer Modelle für maschinelles Lernen mit Scikit-Learn!

Wiederverwendung

CC BY-NC-SA 4.0

Zitat

Mit BibTeX zitieren:

@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Maschinelles Lernen mit Scikit-Learn},
  date = {2024-02-07},
  url = {https://www.datanovia.com/de/learn/programming/python/data-science/machine-learning-with-scikit-learn.html},
  langid = {de}
}

Bitte zitieren Sie diese Arbeit als:

Kassambara, Alboukadel. 2024. “Maschinelles Lernen mit Scikit-Learn.” February 7, 2024. https://www.datanovia.com/de/learn/programming/python/data-science/machine-learning-with-scikit-learn.html.