Tidyverse para Ciencia de Datos

Introducción

El tidyverse es una colección de paquetes de R que comparten una filosofía de diseño común y están adaptados para la ciencia de datos. En este tutorial, exploraremos tres paquetes básicos:

dplyr para la manipulación de datos,
tidyr para la ordenación de datos, y
ggplot2 para la visualización de datos.

Si dominas estas herramientas, podrás transformar, limpiar y visualizar tus datos con un código elegante y eficiente. Tanto si prepara datos para su análisis como si crea gráficos listos para su publicación, tidyverse ofrece potentes funciones para agilizar su flujo de trabajo.

Uso de dplyr para la manipulación de datos

dplyr proporciona un conjunto de funciones intuitivas para filtrar, seleccionar, mutar y resumir datos.

Ejemplo: Filtrado y resumen con dplyr

library(dplyr)

# Utilizar el conjunto de datos incorporado mtcars
data("mtcars")

# Filtrar coches, seleccionar columnas clave y resumir 
mtcars_summary <- mtcars %>%
1  filter(cyl > 4) %>%
2  select(mpg, cyl, hp) %>%
3  group_by(cyl) %>%
4  summarize(avg_mpg = mean(mpg), avg_hp = mean(hp))

1: Filtrar coches con más de 4 cilindros.
2: Seleccionar columnas específicas para el análisis.
3: Agrupar datos por el número de cilindros.
4: Calcule el promedio de millas por galón (mpg) y caballos de fuerza (hp) para cada cilindrada.

Este ejemplo demuestra cómo filtrar datos, seleccionar columnas específicas, agrupar datos y calcular estadísticas de resumen, todo en una tubería.

# Visualizar los datos resumidos
print(mtcars_summary)

# A tibble: 2 × 3
    cyl avg_mpg avg_hp
  <dbl>   <dbl>  <dbl>
1     6    19.7   122.
2     8    15.1   209.

Ordenación de datos con tidyr

tidyr está diseñado para ayudarle a remodelar y ordenar sus datos, facilitando su análisis. Las tareas más comunes incluyen la conversión de datos de formato ancho a formato largo y viceversa.

Ejemplo: Pivotar datos con tidyr

library(tidyr)
library(dplyr)

# Crear un marco de datos de muestra en formato ancho
wide_data <- data.frame(
  id = 1:3,
  measure_A = c(10, 20, 30),
  measure_B = c(40, 50, 60)
)
print(wide_data)

  id measure_A measure_B
1  1        10        40
2  2        20        50
3  3        30        60

# Convertir los datos de formato ancho a formato largo
long_data <- wide_data %>%
  pivot_longer(cols = starts_with("measure"),
               names_to = "measure",
               values_to = "value")

print(long_data)

# A tibble: 6 × 3
     id measure   value
  <int> <chr>     <dbl>
1     1 measure_A    10
2     1 measure_B    40
3     2 measure_A    20
4     2 measure_B    50
5     3 measure_A    30
6     3 measure_B    60

Este ejemplo muestra cómo ordenar los datos dándoles una nueva forma en un formato largo más fácil de analizar.

Visualización de datos con ggplot2

ggplot2 es un paquete versátil y potente para crear visualizaciones de datos de alta calidad en R.

Ejemplo: Creación de un gráfico de dispersión con ggplot2

library(ggplot2)

# Utilizar el conjunto de datos incorporado mtcars
data("mtcars")

# Crear un gráfico de dispersión básico de mpg vs. peso, 
# Colorear según el número de cilindros
ggplot(data = mtcars, aes(x = wt, y = mpg, color = factor(cyl))) +
  geom_point(size = 3) +
  labs(title = "MPG vs. Car Weight",
       x = "Weight (1000 lbs)",
       y = "Miles per Gallon",
       color = "Cylinders") +
  theme_minimal()

Este ejemplo ilustra cómo utilizar ggplot2 para crear un gráfico de dispersión con etiquetas y temas personalizados.

Conclusión

El tidyverse es un conjunto de herramientas esencial para la ciencia de datos en R. Si domina dplyr, tidyr y ggplot2, podrá manipular, ordenar y visualizar datos de forma eficaz. Estas herramientas no sólo simplifican su flujo de trabajo, sino que también le ayudan a escribir código claro y reproducible. Experimente con los ejemplos proporcionados y explore otras opciones de personalización para adaptar tidyverse a sus necesidades de análisis de datos.

Lecturas adicionales

Feliz codificación, y disfrutar de aprovechar el poder de la tidyverse para sus proyectos de ciencia de datos!

Temas avanzados y exploración adicional

Explorar más artículos

Nota

Aquí hay más artículos de la misma categoría para ayudarte a profundizar en el tema.

Programación funcional en R

Aprovechamiento de Funciones de Aplicación y Operaciones Vectorizadas