Manipulación de datos con Pandas

Importación, limpieza y manipulación de datos para la ciencia de datos

Aprenda a importar, limpiar y manipular datos de forma eficiente con Pandas en Python. Este tutorial muestra técnicas prácticas para el procesamiento de datos dentro de un flujo de trabajo de ciencia de datos.

Programación
Autor/a
Afiliación
Fecha de publicación

7 de febrero de 2024

Fecha de modificación

9 de mayo de 2025

Palabras clave

Tutorial de Pandas, Manipulación de datos en Python, Limpieza de datos en Python, Manipulación de datos con Pandas, Ciencia de datos Pandas

Introducción

La manipulación de datos es un paso fundamental en el flujo de trabajo de la ciencia de datos, ya que transforma los datos sin estructurar en un formato limpio y organizado, listo para su análisis y modelado. En este tutorial, exploraremos cómo utilizar Pandas, una potente biblioteca de Python, para importar datos de forma eficiente, limpiarlos y realizar diversas tareas de manipulación de datos. Estas técnicas están diseñadas específicamente para aplicaciones de ciencia de datos, lo que le ayuda a preparar sus conjuntos de datos para su posterior análisis y aprendizaje automático.



Requisitos previos

Importación de paquetes necesarios

import pandas as pd
import numpy as np

Para este tutorial, puede generar un conjunto de datos sintéticos para seguir los pasos. Si ya tiene un conjunto de datos, puede omitir esta sección.

«Mostrar el código de creación de datos de demostración»
# Establecer la semilla para la reproducibilidad
np.random.seed(42)

# Crear datos sintéticos con fines de demostración
data = {
    "id": np.arange(1, 101),
    "name": [f"Item {i}" for i in range(1, 101)],
    "price": np.random.uniform(10, 100, 100).round(2),
    "category": np.random.choice(["A", "B", "C"], 100),
    "date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}

df = pd.DataFrame(data)
df.to_csv("demo_data.csv", index=False)

Importación de datos

Pandas facilita la lectura de datos de varios formatos de archivo. Una de las operaciones más comunes es leer datos de un archivo CSV.

Ejemplo: Lectura de un archivo CSV

# Leer datos del archivo CSV de demostración
df = pd.read_csv("demo_data.csv")

# Mostrar las primeras filas del DataFrame
print(df.head())
   id    name  price category        date
0   1  Item 1  43.71        C  2024-01-01
1   2  Item 2  95.56        C  2024-01-02
2   3  Item 3  75.88        A  2024-01-03
3   4  Item 4  63.88        A  2024-01-04
4   5  Item 5  24.04        B  2024-01-05

Este código carga los datos en un DataFrame, una estructura de datos bidimensional que constituye la columna vertebral de las operaciones de Pandas.

Limpieza de datos

Una vez importados los datos, a menudo es necesario limpiarlos para tratar los valores que faltan, corregir los tipos de datos y eliminar los duplicados. Pandas ofrece una variedad de funciones para abordar estos problemas.

Ejemplo: Limpiar un DataFrame

# Cargar los datos
df = pd.read_csv("demo_data.csv")

# Eliminar filas con valores perdidos
df_clean = df.dropna()

# Convierte la columna «precio» a numérica (si es necesario)
df_clean['price'] = pd.to_numeric(df_clean['price'], errors='coerce')

# Eliminar filas duplicadas
df_clean = df_clean.drop_duplicates()

# Mostrar los datos limpios
print(df_clean.head())

En este ejemplo, eliminamos las filas con datos faltantes, convertimos la columna «precio» a un tipo numérico y eliminamos las filas duplicadas.

Manipulación de Datos

Después de limpiar los datos, puede manipularlos para extraer información. Las tareas más comunes incluyen filtrar, agrupar y agregar datos.

Ejemplo: agrupación y agregación de datos

# Cargar y limpiar los datos
df = pd.read_csv("demo_data.csv").dropna().drop_duplicates()

# Agrupe los datos por la columna «categoría» y calcule el precio medio de cada grupo
grouped = df.groupby("category")["price"].mean()

print("Average price by category:")
print(grouped)
Average price by category:
category
A    54.332222
B    50.723548
C    51.612727
Name: price, dtype: float64

Este ejemplo agrupa los datos por categoría y calcula el precio medio de cada grupo, lo que demuestra cómo se puede utilizar Pandas para resumir y analizar datos.

Conclusión

El procesamiento de datos con Pandas es esencial para transformar datos sin procesar en un formato estructurado que impulse el análisis y la toma de decisiones. Al dominar las técnicas de importación, limpieza y manipulación de datos, podrá optimizar su flujo de trabajo de ciencia de datos y centrarse en extraer información significativa. Experimenta con estos ejemplos y adáptalos a tus propios conjuntos de datos para aprovechar al máximo el potencial de Pandas.

Lecturas adicionales

Feliz programación y disfruta transformando tus datos con Pandas!

Explorar más artículos

Nota

Aquí hay más artículos de la misma categoría para ayudarte a profundizar en el tema.

placeholder

placeholder
No hay resultados
Volver arriba

Reutilización

Cómo citar

BibTeX
@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Manipulación de datos con Pandas},
  date = {2024-02-07},
  url = {https://www.datanovia.com/es/learn/programming/python/data-science/data-wrangling-with-pandas.html},
  langid = {es}
}
Por favor, cita este trabajo como:
Kassambara, Alboukadel. 2024. “Manipulación de datos con Pandas.” February 7, 2024. https://www.datanovia.com/es/learn/programming/python/data-science/data-wrangling-with-pandas.html.