Un tutorial en profundidad sobre dplyr, tidyr y ggplot2
Aprenda a aprovechar la potencia del tidyverse para la ciencia de datos. Este tutorial proporciona una mirada en profundidad a dplyr para la manipulación de datos, tidyr para la ordenación de datos, y ggplot2 para la visualización de datos en R.
El tidyverse es una colección de paquetes de R que comparten una filosofía de diseño común y están adaptados para la ciencia de datos. En este tutorial, exploraremos tres paquetes básicos:
dplyr para la manipulación de datos,
tidyr para la ordenación de datos, y
ggplot2 para la visualización de datos.
Si dominas estas herramientas, podrás transformar, limpiar y visualizar tus datos con un código elegante y eficiente. Tanto si prepara datos para su análisis como si crea gráficos listos para su publicación, tidyverse ofrece potentes funciones para agilizar su flujo de trabajo.
Uso de dplyr para la manipulación de datos
dplyr proporciona un conjunto de funciones intuitivas para filtrar, seleccionar, mutar y resumir datos.
Ejemplo: Filtrado y resumen con dplyr
library(dplyr)# Utilizar el conjunto de datos incorporado mtcarsdata("mtcars")# Filtrar coches, seleccionar columnas clave y resumir mtcars_summary <- mtcars %>%1filter(cyl >4) %>%2select(mpg, cyl, hp) %>%3group_by(cyl) %>%4summarize(avg_mpg =mean(mpg), avg_hp =mean(hp))
1
Filtrar coches con más de 4 cilindros.
2
Seleccionar columnas específicas para el análisis.
3
Agrupar datos por el número de cilindros.
4
Calcule el promedio de millas por galón (mpg) y caballos de fuerza (hp) para cada cilindrada.
Este ejemplo demuestra cómo filtrar datos, seleccionar columnas específicas, agrupar datos y calcular estadísticas de resumen, todo en una tubería.
# Visualizar los datos resumidosprint(mtcars_summary)
tidyr está diseñado para ayudarle a remodelar y ordenar sus datos, facilitando su análisis. Las tareas más comunes incluyen la conversión de datos de formato ancho a formato largo y viceversa.
Ejemplo: Pivotar datos con tidyr
library(tidyr)library(dplyr)# Crear un marco de datos de muestra en formato anchowide_data <-data.frame(id =1:3,measure_A =c(10, 20, 30),measure_B =c(40, 50, 60))print(wide_data)
# Convertir los datos de formato ancho a formato largolong_data <- wide_data %>%pivot_longer(cols =starts_with("measure"),names_to ="measure",values_to ="value")print(long_data)
Este ejemplo muestra cómo ordenar los datos dándoles una nueva forma en un formato largo más fácil de analizar.
Visualización de datos con ggplot2
ggplot2 es un paquete versátil y potente para crear visualizaciones de datos de alta calidad en R.
Ejemplo: Creación de un gráfico de dispersión con ggplot2
library(ggplot2)# Utilizar el conjunto de datos incorporado mtcarsdata("mtcars")# Crear un gráfico de dispersión básico de mpg vs. peso, # Colorear según el número de cilindrosggplot(data = mtcars, aes(x = wt, y = mpg, color =factor(cyl))) +geom_point(size =3) +labs(title ="MPG vs. Car Weight",x ="Weight (1000 lbs)",y ="Miles per Gallon",color ="Cylinders") +theme_minimal()
Este ejemplo ilustra cómo utilizar ggplot2 para crear un gráfico de dispersión con etiquetas y temas personalizados.
Conclusión
El tidyverse es un conjunto de herramientas esencial para la ciencia de datos en R. Si domina dplyr, tidyr y ggplot2, podrá manipular, ordenar y visualizar datos de forma eficaz. Estas herramientas no sólo simplifican su flujo de trabajo, sino que también le ayudan a escribir código claro y reproducible. Experimente con los ejemplos proporcionados y explore otras opciones de personalización para adaptar tidyverse a sus necesidades de análisis de datos.