Aprenda a manipular y transformar datos de forma eficiente utilizando dplyr. Este tutorial cubre funciones clave como filter(), select(), mutate(), group_by() y summarize() para agilizar las tareas de manipulación de datos en R.
dplyr es uno de los paquetes centrales del tidyverse que hace que la manipulación de datos en R sea rápida e intuitiva. Con su sintaxis sencilla y sus potentes verbos, dplyr le permite filtrar, seleccionar, mutar, agrupar y resumir sus datos con un código mínimo. En este tutorial, aprenderá a transformar y resumir conjuntos de datos utilizando dplyr, junto con ejemplos prácticos para ilustrar sus capacidades.
Funciones clave de dplyr
dplyr proporciona un conjunto de funciones -a menudo denominadas ‘verbos’- que constituyen la base de la manipulación de datos en R. Éstas son algunas de las más importantes:
filter(): Subconjunto de filas basado en condiciones.
select(): Elija columnas basándose en nombres o patrones.
mutate(): Crear nuevas columnas o modificar las existentes.
group_by(): Agrupar los datos para operaciones de resumen.
summarize(): Calcule estadísticas de resumen para datos agrupados.
Ejemplos prácticos
Ejemplo 1. Filtrar y seleccionar datos Filtrado y selección de datos
Utilicemos el conjunto de datos incorporado mtcars para filtrar los coches con más de 6 cilindros y seleccionar sólo las columnas de millas por galón (mpg), number of cylinders (cyl), and horsepower (hp).
library(dplyr)# Filtrar el conjunto de datos para coches con más de 6 cilindros y seleccionar columnas específicasfiltered_data <- mtcars %>%filter(cyl >6) %>%select(mpg, cyl, hp)print(filtered_data)
En este ejemplo, añadiremos una nueva columna que calcule la relación potencia-peso y, a continuación, resumiremos los datos agrupándolos en función del número de cilindros.
library(dplyr)# Añadir una nueva columna para la relación potencia-peso y ummarize mpg promedio por número de cilindrossummary_data <- mtcars %>%mutate(power_to_weight = hp / wt) %>%group_by(cyl) %>%summarize(avg_mpg =mean(mpg),avg_power_to_weight =mean(power_to_weight) )print(summary_data)
Utilice el operador de tubería %>%:
Este operador ayuda a encadenar múltiples operaciones, haciendo que su código sea más legible.
Escribir código claro y descriptivo:
Utilice nombres de variables significativos y añada comentarios cuando sea necesario.
Prueba incremental:
Construya sus transformaciones de datos paso a paso y compruebe los resultados intermedios para asegurarse de que su código funciona como se esperaba.
Conclusión
dplyr simplifica el proceso de manipulación de datos en R, permitiéndole transformar y resumir conjuntos de datos con un código mínimo e intuitivo. Si domina las funciones básicas (filtrar, seleccionar, mutar, agrupar por y resumir), podrá agilizar los flujos de trabajo de preparación de datos y preparar los datos de forma eficaz para su posterior análisis o visualización.
@online{kassambara2024,
author = {Kassambara, Alboukadel},
title = {Manejo de Datos con dplyr},
date = {2024-02-10},
url = {https://www.datanovia.com/es/learn/programming/r/data-science/data-wrangling-with-dplyr.html},
langid = {es}
}