Aprenda a manipular e transformar dados com eficiência usando dplyr. Este tutorial abrange funções essenciais, como filter(), select(), mutate(), group_by() e summarize(), para otimizar suas tarefas de manipulação de dados no R.
dplyr é um dos pacotes principais do tidyverse que torna a manipulação de dados no R rápida e intuitiva. Com sua sintaxe direta e verbos poderosos, dplyr permite filtrar, selecionar, mutar, agrupar e resumir seus dados com o mínimo de código. Neste tutorial, você aprenderá como transformar e resumir conjuntos de dados usando dplyr, juntamente com exemplos práticos para ilustrar seus recursos.
Funções-chave dplyr
dplyr fornece um conjunto de funções — frequentemente chamadas de “verbos” — que formam a base da manipulação de dados no R. Aqui estão alguns dos mais importantes:
filter(): Subconjunto de linhas com base em condições.
select(): Escolha colunas com base em nomes ou padrões.
mutate(): Crie novas colunas ou modifique as existentes.
group_by(): Agrupe os dados para operações de resumo.
summarize(): Calcule estatísticas resumidas para dados agrupados.
Exemplos práticos
Exemplo 1: Filtragem e seleção de dados
Vamos usar o conjunto de dados mtcars integrado para filtrar carros com mais de 6 cilindros e selecionar apenas as colunas de milhas por galão (mpg), number of cylinders (cyl), and horsepower (hp).
library(dplyr)# Filtre o conjunto de dados para carros com mais de 6 cilindros e selecione colunas específicasfiltered_data <- mtcars %>%filter(cyl >6) %>%select(mpg, cyl, hp)print(filtered_data)
Neste exemplo, adicionaremos uma nova coluna que calcula a relação potência/peso e, em seguida, resumiremos os dados agrupando-os com base no número de cilindros.
library(dplyr)# Adicione uma nova coluna para a relação potência/peso e resuma a média de mpg por número de cilindrossummary_data <- mtcars %>%mutate(power_to_weight = hp / wt) %>%group_by(cyl) %>%summarize(avg_mpg =mean(mpg),avg_power_to_weight =mean(power_to_weight) )print(summary_data)
Use o operador pipe %>%:
Este operador ajuda a encadear várias operações, tornando seu código mais legível.
Escreva código claro e descritivo:
Use nomes de variáveis significativos e adicione comentários quando necessário.
Teste incrementalmente:
Crie suas transformações de dados passo a passo e verifique os resultados intermediários para garantir que seu código funcione conforme o esperado.
Conclusão
O dplyr simplifica o processo de manipulação de dados no R, permitindo que você transforme e resuma conjuntos de dados com um código mínimo e intuitivo. Ao dominar as funções principais — filter, select, mutate, group_by e summarize —, você pode otimizar seus fluxos de trabalho de preparação de dados e preparar seus dados de maneira eficaz para análise ou visualização posterior.
@online{kassambara2024,
author = {Kassambara, Alboukadel},
title = {Organização de dados com dplyr},
date = {2024-02-10},
url = {https://www.datanovia.com/pt/learn/programming/r/data-science/data-wrangling-with-dplyr.html},
langid = {pt}
}