import pandas as pd
import numpy as np
Introduction
Le traitement des données est une étape critique dans le flux de travail de la science des données - il transforme les données brutes et non structurées en un format propre et organisé, prêt pour l’analyse et la modélisation. Dans ce tutoriel, nous allons explorer comment utiliser Pandas, une puissante bibliothèque Python, pour importer efficacement des données, les nettoyer et effectuer diverses tâches de manipulation de données. Ces techniques sont conçues spécifiquement pour les applications de science des données et vous aident à préparer vos ensembles de données pour une analyse plus poussée et l’apprentissage automatique.
Prérequis
Importation des paquets requis
Pour ce tutoriel, vous pouvez générer un ensemble de données synthétiques pour suivre le cours. Si vous disposez déjà d’un ensemble de données, n’hésitez pas à sauter cette section.
« Afficher le code de création des données de démonstration »
# Définir la graine pour la reproductibilité
42)
np.random.seed(
# Créer des données synthétiques à des fins de démonstration
= {
data "id": np.arange(1, 101),
"name": [f"Item {i}" for i in range(1, 101)],
"price": np.random.uniform(10, 100, 100).round(2),
"category": np.random.choice(["A", "B", "C"], 100),
"date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}
= pd.DataFrame(data)
df "demo_data.csv", index=False) df.to_csv(
Importation de données
Pandas simplifie la lecture de données à partir de différents formats de fichiers. L’une des opérations les plus courantes consiste à lire les données d’un fichier CSV.
Exemple : Lecture d’un fichier CSV
# Lire les données du fichier CSV de démonstration
= pd.read_csv("demo_data.csv")
df
# Afficher les premières lignes du DataFrame
print(df.head())
id name price category date
0 1 Item 1 43.71 C 2024-01-01
1 2 Item 2 95.56 C 2024-01-02
2 3 Item 3 75.88 A 2024-01-03
3 4 Item 4 63.88 A 2024-01-04
4 5 Item 5 24.04 B 2024-01-05
Ce code charge les données dans un DataFrame, une structure de données bidimensionnelle qui constitue l’épine dorsale des opérations Pandas.
Nettoyage de données
Une fois les données importées, elles doivent souvent être nettoyées pour traiter les valeurs manquantes, corriger les types de données et supprimer les doublons. Pandas offre une variété de fonctions pour résoudre ces problèmes.
Exemple : Nettoyage d’un DataFrame
# Charger les données
= pd.read_csv("demo_data.csv")
df
# Supprimer les lignes avec des valeurs manquantes
= df.dropna()
df_clean
# Convertir la colonne 'prix' en numérique (si nécessaire)
'price'] = pd.to_numeric(df_clean['price'], errors='coerce')
df_clean[
# Supprimer les lignes en double
= df_clean.drop_duplicates()
df_clean
# Afficher les données nettoyées
print(df_clean.head())
Dans cet exemple, nous supprimons les lignes avec des données manquantes, convertissons la colonne ‘prix’ en un type numérique et éliminons les lignes en double.
Manipulation de données
Après avoir nettoyé les données, vous pouvez les manipuler pour en extraire des informations. Les tâches courantes comprennent le filtrage, le regroupement et l’agrégation des données.
Exemple : Grouper et agréger des données
# Charger et nettoyer les données
= pd.read_csv("demo_data.csv").dropna().drop_duplicates()
df
# Regroupez les données en fonction de la colonne 'catégorie' et calculez le prix moyen pour chaque groupe
= df.groupby("category")["price"].mean()
grouped
print("Average price by category:")
print(grouped)
Average price by category:
category
A 54.332222
B 50.723548
C 51.612727
Name: price, dtype: float64
Cet exemple regroupe les données par catégorie et calcule le prix moyen pour chaque groupe, démontrant comment Pandas peut être utilisé pour résumer et analyser les données.
Conclusion
Le traitement des données avec Pandas est essentiel pour transformer les données brutes en un format structuré qui facilite l’analyse et la prise de décision. En maîtrisant les techniques d’importation, de nettoyage et de manipulation des données, vous pouvez rationaliser votre flux de travail de science des données et vous concentrer sur l’extraction d’informations significatives. Expérimentez ces exemples et adaptez-les à vos propres ensembles de données pour exploiter pleinement la puissance de Pandas.
Plus d’informations
- Visualisation de données avec Matplotlib
- Visualisation des données avec Seaborn
- Machine Learning with Scikit-Learn
Bon codage et bonne transformation de vos données avec Pandas!
Explorer d’autres articles
Voici d’autres articles de la même catégorie pour vous aider à approfondir le sujet.
Réutilisation
Citation
@online{kassambara2024,
author = {Kassambara, Alboukadel},
title = {Traitement des données avec Pandas},
date = {2024-02-07},
url = {https://www.datanovia.com/fr/learn/programming/python/data-science/data-wrangling-with-pandas.html},
langid = {fr}
}