2025

Análisis de ventas y precios de aguacates en EE. UU. (2015–2020)

R

Análisis exploratorio y modelado de datos de ventas de aguacate (orgánicos y convencionales) en múltiples mercados de EE. UU. utilizando R. El proyecto incluye detección de outliers, análisis de correlaciones, cálculo de elasticidades precio-ventas y predicción de precios mediante modelos de series temporales.

Análisis de ventas y precios de aguacates en EE. UU. (2015–2020)

Introducción

En este proyecto realizo un análisis de datos centrado en los precios del aguacate en EE. UU. (2015–2020), como caso de aplicación de técnicas de Business Intelligence. El objetivo es generar insights relevantes a partir de datos reales, equilibrando el enfoque comercial con el rigor técnico. La metodología incluye un análisis exploratorio de datos (EDA), el cálculo de elasticidades precio-ventas y la implementación de un modelo de predicción de precios.

Dataset

Para el análisis he utilizado el dataset Avocado Prices 2020 de Kaggle, que contiene información semanal sobre ventas de aguacate en EE. UU. La muestra incluye 33.045 registros completos, con variables categóricas como fecha, región, tipo de aguacate y año, así como variables numéricas como precio promedio, volumen de ventas, códigos de producto y formatos de empaque.

El precio promedio fue de $1,38, con un mínimo de $0,44 y un máximo de $3,25; el tercer cuartil se sitúa en $1,62, lo que indica la presencia de valores atípicos superiores. En cuanto al volumen semanal de ventas, el promedio fue de 968.400 unidades, con una alta dispersión (Q3 ≈ 505.828, máximo ≈ 63.716.144), lo que confirma la existencia de outliers significativos. Estas métricas sirvieron como base para un análisis detallado de los patrones de precios y comportamiento del mercado.

Análisis exploratorio

En la fase exploratoria utilicé funciones de R como summary(), boxplot() y el paquete dplyr para examinar las variables clave. Los diagramas de caja evidenciaron una gran cantidad de outliers, especialmente en el caso de los aguacates orgánicos.

Al calcular las correlaciones, observé una relación inversa pero débil entre precio y volumen de ventas. Para los orgánicos, la covarianza fue de −3,027 y la correlación de −0,047; en los convencionales, los valores fueron −122,979 y −0,092, respectivamente. Esto sugiere que los precios altos afectan más negativamente las ventas de aguacates convencionales, mientras que en los orgánicos podrían intervenir otros factores como la percepción de valor o la segmentación del consumidor.

Además, comparé precios medios entre regiones, destacando Albany ($1,684) y Boston ($1,743), lo cual aporta información relevante para la formulación de estrategias de precios locales.

Elasticidad precio-ventas

Para medir la sensibilidad de las ventas al precio, desarrollé modelos de regresión lineal utilizando la función lm() en R. Ajusté modelos logarítmicos por separado, que indicaron una elasticidad precio-ventas de −1,32 en aguacates convencionales (un aumento del 10 % en el precio reduce las ventas en un 13,2 %) y −0,767 en aguacates orgánicos (reducción del 7,67 %). Estos resultados sugieren que los consumidores de productos orgánicos son menos sensibles a incrementos de precio, priorizando factores como la calidad y la sostenibilidad.

Predicción con series temporales

He analizado la serie temporal de precios promedios de aguacates orgánicos en Albany usando un objeto ts en R. Después de descomponer la serie con la función decompose(), realicé un pronóstico a 12 semanas empleando modelos ARIMA y suavizado exponencial. Las proyecciones, obtenidas con forecast sugieren precios estables sin fluctuaciones abruptas, proporcionando información valiosa para la planificación comercial.

Conclusiones

El análisis arroja tres conclusiones principales:

  1. La alta variabilidad del mercado requiere monitorización continua para anticipar cambios.
  2. La menor elasticidad en orgánicos permite márgenes más elevados, mientras que los convencionales requieren estrategias de optimización más rigurosas.
  3. La estabilidad prevista en Albany sugiere una buena oportunidad para la gestión de compras e inventarios.

Este proyecto me ha permitido demostrar cómo el análisis de datos genera recomendaciones comerciales sólidas y orientadas a la toma de decisiones.

Herramientas utilizadas

He realizado el análisis utilizando R dentro del entorno RStudio, empleando los siguientes paquetes y funciones clave para la manipulación, visualización y modelado de datos:

  • readr (tidyverse): para la lectura de datos CSV.
  • dplyr (tidyverse): para manipulación y filtrado de datos.
  • ggplot2: para la creación de visualizaciones gráficas.
  • Funciones estadísticas básicas: para el cálculo de estadísticas descriptivas y correlaciones.
  • Modelo de regresión lineal (lm()): para el análisis de elasticidad precio-ventas.
  • stats / decompose(): para descomposición de series temporales.
  • forecast: para la generación de predicciones de precios.