Manipulación de datos con Pandas

Introducción

La manipulación de datos es un paso fundamental en el flujo de trabajo de la ciencia de datos, ya que transforma los datos sin estructurar en un formato limpio y organizado, listo para su análisis y modelado. En este tutorial, exploraremos cómo utilizar Pandas, una potente biblioteca de Python, para importar datos de forma eficiente, limpiarlos y realizar diversas tareas de manipulación de datos. Estas técnicas están diseñadas específicamente para aplicaciones de ciencia de datos, lo que le ayuda a preparar sus conjuntos de datos para su posterior análisis y aprendizaje automático.

Requisitos previos

Importación de paquetes necesarios

import pandas as pd
import numpy as np

Para este tutorial, puede generar un conjunto de datos sintéticos para seguir los pasos. Si ya tiene un conjunto de datos, puede omitir esta sección.

«Mostrar el código de creación de datos de demostración»

# Establecer la semilla para la reproducibilidad
np.random.seed(42)

# Crear datos sintéticos con fines de demostración
data = {
    "id": np.arange(1, 101),
    "name": [f"Item {i}" for i in range(1, 101)],
    "price": np.random.uniform(10, 100, 100).round(2),
    "category": np.random.choice(["A", "B", "C"], 100),
    "date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}

df = pd.DataFrame(data)
df.to_csv("demo_data.csv", index=False)

Importación de datos

Pandas facilita la lectura de datos de varios formatos de archivo. Una de las operaciones más comunes es leer datos de un archivo CSV.

Ejemplo: Lectura de un archivo CSV

# Leer datos del archivo CSV de demostración
df = pd.read_csv("demo_data.csv")

# Mostrar las primeras filas del DataFrame
print(df.head())

   id    name  price category        date
0   1  Item 1  43.71        C  2024-01-01
1   2  Item 2  95.56        C  2024-01-02
2   3  Item 3  75.88        A  2024-01-03
3   4  Item 4  63.88        A  2024-01-04
4   5  Item 5  24.04        B  2024-01-05

Este código carga los datos en un DataFrame, una estructura de datos bidimensional que constituye la columna vertebral de las operaciones de Pandas.

Limpieza de datos

Una vez importados los datos, a menudo es necesario limpiarlos para tratar los valores que faltan, corregir los tipos de datos y eliminar los duplicados. Pandas ofrece una variedad de funciones para abordar estos problemas.

Ejemplo: Limpiar un DataFrame

# Cargar los datos
df = pd.read_csv("demo_data.csv")

# Eliminar filas con valores perdidos
df_clean = df.dropna()

# Convierte la columna «precio» a numérica (si es necesario)
df_clean['price'] = pd.to_numeric(df_clean['price'], errors='coerce')

# Eliminar filas duplicadas
df_clean = df_clean.drop_duplicates()

# Mostrar los datos limpios
print(df_clean.head())

En este ejemplo, eliminamos las filas con datos faltantes, convertimos la columna «precio» a un tipo numérico y eliminamos las filas duplicadas.

Manipulación de Datos

Después de limpiar los datos, puede manipularlos para extraer información. Las tareas más comunes incluyen filtrar, agrupar y agregar datos.

Ejemplo: agrupación y agregación de datos

# Cargar y limpiar los datos
df = pd.read_csv("demo_data.csv").dropna().drop_duplicates()

# Agrupe los datos por la columna «categoría» y calcule el precio medio de cada grupo
grouped = df.groupby("category")["price"].mean()

print("Average price by category:")
print(grouped)

Average price by category:
category
A    54.332222
B    50.723548
C    51.612727
Name: price, dtype: float64

Este ejemplo agrupa los datos por categoría y calcula el precio medio de cada grupo, lo que demuestra cómo se puede utilizar Pandas para resumir y analizar datos.

Conclusión

El procesamiento de datos con Pandas es esencial para transformar datos sin procesar en un formato estructurado que impulse el análisis y la toma de decisiones. Al dominar las técnicas de importación, limpieza y manipulación de datos, podrá optimizar su flujo de trabajo de ciencia de datos y centrarse en extraer información significativa. Experimenta con estos ejemplos y adáptalos a tus propios conjuntos de datos para aprovechar al máximo el potencial de Pandas.

Lecturas adicionales

Feliz programación y disfruta transformando tus datos con Pandas!

Explorar más artículos

Nota

Aquí hay más artículos de la misma categoría para ayudarte a profundizar en el tema.

Aprendizaje automático con Scikit-Learn

Crea y evalúa modelos simples de aprendizaje automático en Python

Alboukadel Kassambara, 2024-02-07, in Programación

Aprenda a crear y evaluar modelos sencillos de aprendizaje automático con Scikit-Learn en Python. Este tutorial ofrece ejemplos prácticos y técnicas para el entrenamiento, la predicción y la…

Manipulación de datos con Pandas

Importación, limpieza y manipulación de datos para la ciencia de datos

Python Ciencia de datos Pandas Manipulación de datos Principiante

Alboukadel Kassambara, 2024-02-07, in Programación

Aprenda a importar, limpiar y manipular datos de forma eficiente con Pandas en Python. Este tutorial muestra técnicas prácticas para el procesamiento de datos dentro de un flujo de trabajo de…

Visualización de datos con Seaborn

Técnicas avanzadas de visualización en Python

Python Ciencia de datos Seaborn Visualización de datos Avanzado

Alboukadel Kassambara, 2024-02-07, in Programación

Explore técnicas avanzadas de visualización de datos con Seaborn en Python. Este tutorial cubre la creación de gráficos complejos, la personalización y las visualizaciones estadísticas adaptadas a…

Visualización de datos con Matplotlib

Creación de gráficos y diagramas dinámicos en Python

Python Ciencia de datos Matplotlib Visualización de datos Principiante

Alboukadel Kassambara, 2024-02-07, in Programación

Aprenda a crear diversos gráficos y diagramas con Matplotlib en Python. Este tutorial abarca técnicas esenciales de trazado, opciones de personalización y prácticas recomendadas para una…

Volver arriba

Reutilización

CC BY-NC-SA 4.0

Cómo citar

BibTeX

@online{kassambara2024,
  author = {Kassambara, Alboukadel},
  title = {Manipulación de datos con Pandas},
  date = {2024-02-07},
  url = {https://www.datanovia.com/es/learn/programming/python/data-science/data-wrangling-with-pandas.html},
  langid = {es}
}

Por favor, cita este trabajo como:

Kassambara, Alboukadel. 2024. “Manipulación de datos con Pandas.” February 7, 2024. https://www.datanovia.com/es/learn/programming/python/data-science/data-wrangling-with-pandas.html.