import pandas as pd
import numpy as np
Introducción
La manipulación de datos es un paso fundamental en el flujo de trabajo de la ciencia de datos, ya que transforma los datos sin estructurar en un formato limpio y organizado, listo para su análisis y modelado. En este tutorial, exploraremos cómo utilizar Pandas, una potente biblioteca de Python, para importar datos de forma eficiente, limpiarlos y realizar diversas tareas de manipulación de datos. Estas técnicas están diseñadas específicamente para aplicaciones de ciencia de datos, lo que le ayuda a preparar sus conjuntos de datos para su posterior análisis y aprendizaje automático.
Requisitos previos
Importación de paquetes necesarios
Para este tutorial, puede generar un conjunto de datos sintéticos para seguir los pasos. Si ya tiene un conjunto de datos, puede omitir esta sección.
«Mostrar el código de creación de datos de demostración»
# Establecer la semilla para la reproducibilidad
42)
np.random.seed(
# Crear datos sintéticos con fines de demostración
= {
data "id": np.arange(1, 101),
"name": [f"Item {i}" for i in range(1, 101)],
"price": np.random.uniform(10, 100, 100).round(2),
"category": np.random.choice(["A", "B", "C"], 100),
"date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}
= pd.DataFrame(data)
df "demo_data.csv", index=False) df.to_csv(
Importación de datos
Pandas facilita la lectura de datos de varios formatos de archivo. Una de las operaciones más comunes es leer datos de un archivo CSV.
Ejemplo: Lectura de un archivo CSV
# Leer datos del archivo CSV de demostración
= pd.read_csv("demo_data.csv")
df
# Mostrar las primeras filas del DataFrame
print(df.head())
id name price category date
0 1 Item 1 43.71 C 2024-01-01
1 2 Item 2 95.56 C 2024-01-02
2 3 Item 3 75.88 A 2024-01-03
3 4 Item 4 63.88 A 2024-01-04
4 5 Item 5 24.04 B 2024-01-05
Este código carga los datos en un DataFrame, una estructura de datos bidimensional que constituye la columna vertebral de las operaciones de Pandas.
Limpieza de datos
Una vez importados los datos, a menudo es necesario limpiarlos para tratar los valores que faltan, corregir los tipos de datos y eliminar los duplicados. Pandas ofrece una variedad de funciones para abordar estos problemas.
Ejemplo: Limpiar un DataFrame
# Cargar los datos
= pd.read_csv("demo_data.csv")
df
# Eliminar filas con valores perdidos
= df.dropna()
df_clean
# Convierte la columna «precio» a numérica (si es necesario)
'price'] = pd.to_numeric(df_clean['price'], errors='coerce')
df_clean[
# Eliminar filas duplicadas
= df_clean.drop_duplicates()
df_clean
# Mostrar los datos limpios
print(df_clean.head())
En este ejemplo, eliminamos las filas con datos faltantes, convertimos la columna «precio» a un tipo numérico y eliminamos las filas duplicadas.
Manipulación de Datos
Después de limpiar los datos, puede manipularlos para extraer información. Las tareas más comunes incluyen filtrar, agrupar y agregar datos.
Ejemplo: agrupación y agregación de datos
# Cargar y limpiar los datos
= pd.read_csv("demo_data.csv").dropna().drop_duplicates()
df
# Agrupe los datos por la columna «categoría» y calcule el precio medio de cada grupo
= df.groupby("category")["price"].mean()
grouped
print("Average price by category:")
print(grouped)
Average price by category:
category
A 54.332222
B 50.723548
C 51.612727
Name: price, dtype: float64
Este ejemplo agrupa los datos por categoría y calcula el precio medio de cada grupo, lo que demuestra cómo se puede utilizar Pandas para resumir y analizar datos.
Conclusión
El procesamiento de datos con Pandas es esencial para transformar datos sin procesar en un formato estructurado que impulse el análisis y la toma de decisiones. Al dominar las técnicas de importación, limpieza y manipulación de datos, podrá optimizar su flujo de trabajo de ciencia de datos y centrarse en extraer información significativa. Experimenta con estos ejemplos y adáptalos a tus propios conjuntos de datos para aprovechar al máximo el potencial de Pandas.
Lecturas adicionales
- Visualización de datos con Matplotlib
- Visualización de datos con Seaborn
- Aprendizaje automático con Scikit‑Learn
Feliz programación y disfruta transformando tus datos con Pandas!
Explorar más artículos
Aquí hay más artículos de la misma categoría para ayudarte a profundizar en el tema.
Reutilización
Cómo citar
@online{kassambara2024,
author = {Kassambara, Alboukadel},
title = {Manipulación de datos con Pandas},
date = {2024-02-07},
url = {https://www.datanovia.com/es/learn/programming/python/data-science/data-wrangling-with-pandas.html},
langid = {es}
}