import pandas as pd
import numpy as np
Introdução
A organização de dados é uma etapa crítica no fluxo de trabalho da ciência de dados — ela transforma dados brutos e não estruturados em um formato limpo e organizado, pronto para análise e modelagem. Neste tutorial, exploraremos como usar o Pandas, uma poderosa biblioteca Python, para importar dados com eficiência, limpá-los e realizar várias tarefas de manipulação de dados. Essas técnicas foram projetadas especificamente para aplicações de ciência de dados, ajudando você a preparar seus conjuntos de dados para análises mais aprofundadas e aprendizado de máquina.
Pré-requisitos
Importando pacotes necessários
Para este tutorial, você pode gerar um conjunto de dados sintético para acompanhar. Se você já tem um conjunto de dados, fique à vontade para pular esta seção.
“Mostrar o código de criação dos dados de demonstração”
# Definir a semente para reprodutibilidade
42)
np.random.seed(
# Criar dados sintéticos para fins de demonstração
= {
data "id": np.arange(1, 101),
"name": [f"Item {i}" for i in range(1, 101)],
"price": np.random.uniform(10, 100, 100).round(2),
"category": np.random.choice(["A", "B", "C"], 100),
"date": pd.date_range(start="2024-01-01", periods=100, freq="D")
}
= pd.DataFrame(data)
df "demo_data.csv", index=False) df.to_csv(
Importação de dados
Pandas simplifica a leitura de dados de vários formatos de arquivo. Uma das operações mais comuns é ler dados de um arquivo CSV.
Exemplo: leitura de um arquivo CSV
# Leia os dados do arquivo CSV de demonstração
= pd.read_csv("demo_data.csv")
df
# Exibir as primeiras linhas do DataFrame
print(df.head())
id name price category date
0 1 Item 1 43.71 C 2024-01-01
1 2 Item 2 95.56 C 2024-01-02
2 3 Item 3 75.88 A 2024-01-03
3 4 Item 4 63.88 A 2024-01-04
4 5 Item 5 24.04 B 2024-01-05
Este código carrega os dados em um DataFrame — uma estrutura de dados bidimensional que forma a espinha dorsal das operações do Pandas.
Limpeza de dados
Depois que os dados são importados, geralmente precisam ser limpos para lidar com valores ausentes, corrigir tipos de dados e remover duplicatas. O Pandas oferece uma variedade de funções para resolver esses problemas.
Exemplo: Limpeza de um DataFrame
# Carregar os dados
= pd.read_csv("demo_data.csv")
df
# Exclua linhas com valores ausentes
= df.dropna()
df_clean
# Converta a coluna “preço” para numérica (se necessário)
'price'] = pd.to_numeric(df_clean['price'], errors='coerce')
df_clean[
# Remova linhas duplicadas
= df_clean.drop_duplicates()
df_clean
# Exiba os dados limpos
print(df_clean.head())
Neste exemplo, removemos linhas com dados ausentes, convertemos a coluna “preço” para um tipo numérico e eliminamos linhas duplicadas.
Manipulação de dados
Depois de limpar os dados, você pode manipulá-los para extrair insights. Tarefas comuns incluem filtrar, agrupar e agregar dados.
Exemplo: agrupamento e agregação de dados
# Carregue e limpe os dados
= pd.read_csv("demo_data.csv").dropna().drop_duplicates()
df
# Agrupe os dados pela coluna “categoria” e calcule o preço médio para cada grupo
= df.groupby("category")["price"].mean()
grouped
print("Average price by category:")
print(grouped)
Average price by category:
category
A 54.332222
B 50.723548
C 51.612727
Name: price, dtype: float64
Este exemplo agrupa os dados por categoria e calcula o preço médio para cada grupo, demonstrando como o Pandas pode ser usado para resumir e analisar dados.
Conclusão
A organização de dados com Pandas é essencial para transformar dados brutos em um formato estruturado que impulsiona a análise e a tomada de decisões. Ao dominar técnicas de importação, limpeza e manipulação de dados, você pode otimizar seu fluxo de trabalho de ciência de dados e se concentrar na extração de insights significativos. Experimente estes exemplos e adapte-os aos seus próprios conjuntos de dados para aproveitar ao máximo o poder do Pandas.
Leitura adicional
- Visualização de dados com Matplotlib
- Visualização de dados com Seaborn
- Aprendizado de máquina com Scikit‑Learn
Boa programação e aproveite para transformar seus dados com o Pandas!
Explore mais artigos
Aqui estão mais artigos da mesma categoria para ajudá-lo a se aprofundar no tópico.
Reuso
Citação
@online{kassambara2024,
author = {Kassambara, Alboukadel},
title = {Organização de dados com Pandas},
date = {2024-02-07},
url = {https://www.datanovia.com/pt/learn/programming/python/data-science/data-wrangling-with-pandas.html},
langid = {pt}
}