Organização de dados com Pandas

Introdução

A organização de dados é uma etapa crítica no fluxo de trabalho da ciência de dados — ela transforma dados brutos e não estruturados em um formato limpo e organizado, pronto para análise e modelagem. Neste tutorial, exploraremos como usar o Pandas, uma poderosa biblioteca Python, para importar dados com eficiência, limpá-los e realizar várias tarefas de manipulação de dados. Essas técnicas foram projetadas especificamente para aplicações de ciência de dados, ajudando você a preparar seus conjuntos de dados para análises mais aprofundadas e aprendizado de máquina.

Pré-requisitos

Importando pacotes necessários

import pandas as pd
import numpy as np

Para este tutorial, você pode gerar um conjunto de dados sintético para acompanhar. Se você já tem um conjunto de dados, fique à vontade para pular esta seção.

“Mostrar o código de criação dos dados de demonstração”

# Definir a semente para reprodutibilidade
np.random.seed(42)

# Criar dados sintéticos para fins de demonstração
data = {
    "id": np.arange(1, 101),
    "name": [f"Item {i}" for i in range(1, 101)],
    "price": np.random.uniform(10, 100, 100).round(2),
    "category": np.random.choice(["A", "B", "C"], 100),
    "date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}

df = pd.DataFrame(data)
df.to_csv("demo_data.csv", index=False)

Importação de dados

Pandas simplifica a leitura de dados de vários formatos de arquivo. Uma das operações mais comuns é ler dados de um arquivo CSV.

Exemplo: leitura de um arquivo CSV

# Leia os dados do arquivo CSV de demonstração
df = pd.read_csv("demo_data.csv")

# Exibir as primeiras linhas do DataFrame
print(df.head())

   id    name  price category        date
0   1  Item 1  43.71        C  2024-01-01
1   2  Item 2  95.56        C  2024-01-02
2   3  Item 3  75.88        A  2024-01-03
3   4  Item 4  63.88        A  2024-01-04
4   5  Item 5  24.04        B  2024-01-05

Este código carrega os dados em um DataFrame — uma estrutura de dados bidimensional que forma a espinha dorsal das operações do Pandas.

Limpeza de dados

Depois que os dados são importados, geralmente precisam ser limpos para lidar com valores ausentes, corrigir tipos de dados e remover duplicatas. O Pandas oferece uma variedade de funções para resolver esses problemas.

Exemplo: Limpeza de um DataFrame

# Carregar os dados
df = pd.read_csv("demo_data.csv")

# Exclua linhas com valores ausentes
df_clean = df.dropna()

# Converta a coluna “preço” para numérica (se necessário)
df_clean['price'] = pd.to_numeric(df_clean['price'], errors='coerce')

# Remova linhas duplicadas
df_clean = df_clean.drop_duplicates()

# Exiba os dados limpos
print(df_clean.head())

Neste exemplo, removemos linhas com dados ausentes, convertemos a coluna “preço” para um tipo numérico e eliminamos linhas duplicadas.

Manipulação de dados

Depois de limpar os dados, você pode manipulá-los para extrair insights. Tarefas comuns incluem filtrar, agrupar e agregar dados.

Exemplo: agrupamento e agregação de dados

# Carregue e limpe os dados
df = pd.read_csv("demo_data.csv").dropna().drop_duplicates()

# Agrupe os dados pela coluna “categoria” e calcule o preço médio para cada grupo
grouped = df.groupby("category")["price"].mean()

print("Average price by category:")
print(grouped)

Average price by category:
category
A    54.332222
B    50.723548
C    51.612727
Name: price, dtype: float64

Este exemplo agrupa os dados por categoria e calcula o preço médio para cada grupo, demonstrando como o Pandas pode ser usado para resumir e analisar dados.

Conclusão

A organização de dados com Pandas é essencial para transformar dados brutos em um formato estruturado que impulsiona a análise e a tomada de decisões. Ao dominar técnicas de importação, limpeza e manipulação de dados, você pode otimizar seu fluxo de trabalho de ciência de dados e se concentrar na extração de insights significativos. Experimente estes exemplos e adapte-os aos seus próprios conjuntos de dados para aproveitar ao máximo o poder do Pandas.

Leitura adicional

Boa programação e aproveite para transformar seus dados com o Pandas!

Explore mais artigos

Nota

Aqui estão mais artigos da mesma categoria para ajudá-lo a se aprofundar no tópico.

Aprendizado de máquina com Scikit-Learn

Construa e avalie modelos simples de ML em Python

Alboukadel Kassambara, 2024-02-07, in Programação

Aprenda a construir e avaliar modelos simples de aprendizado de máquina usando o Scikit-Learn em Python. Este tutorial fornece exemplos práticos e técnicas para treinamento, previsão e avaliação de…

Leia mais