Traitement des données avec Pandas

Introduction

Le traitement des données est une étape critique dans le flux de travail de la science des données - il transforme les données brutes et non structurées en un format propre et organisé, prêt pour l’analyse et la modélisation. Dans ce tutoriel, nous allons explorer comment utiliser Pandas, une puissante bibliothèque Python, pour importer efficacement des données, les nettoyer et effectuer diverses tâches de manipulation de données. Ces techniques sont conçues spécifiquement pour les applications de science des données et vous aident à préparer vos ensembles de données pour une analyse plus poussée et l’apprentissage automatique.

Prérequis

Importation des paquets requis

import pandas as pd
import numpy as np

Pour ce tutoriel, vous pouvez générer un ensemble de données synthétiques pour suivre le cours. Si vous disposez déjà d’un ensemble de données, n’hésitez pas à sauter cette section.

« Afficher le code de création des données de démonstration »

# Définir la graine pour la reproductibilité
np.random.seed(42)

# Créer des données synthétiques à des fins de démonstration
data = {
    "id": np.arange(1, 101),
    "name": [f"Item {i}" for i in range(1, 101)],
    "price": np.random.uniform(10, 100, 100).round(2),
    "category": np.random.choice(["A", "B", "C"], 100),
    "date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}

df = pd.DataFrame(data)
df.to_csv("demo_data.csv", index=False)

Importation de données

Pandas simplifie la lecture de données à partir de différents formats de fichiers. L’une des opérations les plus courantes consiste à lire les données d’un fichier CSV.

Exemple : Lecture d’un fichier CSV

# Lire les données du fichier CSV de démonstration
df = pd.read_csv("demo_data.csv")

# Afficher les premières lignes du DataFrame
print(df.head())

   id    name  price category        date
0   1  Item 1  43.71        C  2024-01-01
1   2  Item 2  95.56        C  2024-01-02
2   3  Item 3  75.88        A  2024-01-03
3   4  Item 4  63.88        A  2024-01-04
4   5  Item 5  24.04        B  2024-01-05

Ce code charge les données dans un DataFrame, une structure de données bidimensionnelle qui constitue l’épine dorsale des opérations Pandas.

Nettoyage de données

Une fois les données importées, elles doivent souvent être nettoyées pour traiter les valeurs manquantes, corriger les types de données et supprimer les doublons. Pandas offre une variété de fonctions pour résoudre ces problèmes.

Exemple : Nettoyage d’un DataFrame

# Charger les données
df = pd.read_csv("demo_data.csv")

# Supprimer les lignes avec des valeurs manquantes
df_clean = df.dropna()

# Convertir la colonne 'prix' en numérique (si nécessaire)
df_clean['price'] = pd.to_numeric(df_clean['price'], errors='coerce')

# Supprimer les lignes en double
df_clean = df_clean.drop_duplicates()

# Afficher les données nettoyées
print(df_clean.head())

Dans cet exemple, nous supprimons les lignes avec des données manquantes, convertissons la colonne ‘prix’ en un type numérique et éliminons les lignes en double.

Manipulation de données

Après avoir nettoyé les données, vous pouvez les manipuler pour en extraire des informations. Les tâches courantes comprennent le filtrage, le regroupement et l’agrégation des données.

Exemple : Grouper et agréger des données

# Charger et nettoyer les données
df = pd.read_csv("demo_data.csv").dropna().drop_duplicates()

# Regroupez les données en fonction de la colonne 'catégorie' et calculez le prix moyen pour chaque groupe
grouped = df.groupby("category")["price"].mean()

print("Average price by category:")
print(grouped)

Average price by category:
category
A    54.332222
B    50.723548
C    51.612727
Name: price, dtype: float64

Cet exemple regroupe les données par catégorie et calcule le prix moyen pour chaque groupe, démontrant comment Pandas peut être utilisé pour résumer et analyser les données.

Conclusion

Le traitement des données avec Pandas est essentiel pour transformer les données brutes en un format structuré qui facilite l’analyse et la prise de décision. En maîtrisant les techniques d’importation, de nettoyage et de manipulation des données, vous pouvez rationaliser votre flux de travail de science des données et vous concentrer sur l’extraction d’informations significatives. Expérimentez ces exemples et adaptez-les à vos propres ensembles de données pour exploiter pleinement la puissance de Pandas.

Plus d’informations

Bon codage et bonne transformation de vos données avec Pandas!

Explorer d’autres articles

Note

Voici d’autres articles de la même catégorie pour vous aider à approfondir le sujet.

Apprentissage automatique avec Scikit-Learn

Construire et évaluer des modèles ML simples en Python

Alboukadel Kassambara, 2024-02-07, in Programmation

Apprenez à construire et à évaluer des modèles simples d'apprentissage automatique en utilisant Scikit-Learn en Python. Ce tutoriel fournit des exemples pratiques et des techniques pour la…