El problema
TikTok tiene más de mil millones de usuarios activos al mes. Una canción puede pasar de cero a diez millones de visualizaciones en 48 horas. Pero esa visibilidad no garantiza ni un solo stream en Spotify.
Había mucha narrativa alrededor de TikTok y la música, pero muy poca evidencia cuantitativa. Nadie había medido con precisión cuánto impacta realmente la viralidad en TikTok sobre el rendimiento sostenido en Spotify, ni si ese impacto funciona igual para todos los artistas.
Ese fue el punto de partida de este proyecto.
El enfoque
Diseñé un pipeline de análisis completo de tres fases encadenadas, desde la recopilación de datos hasta la visualización estratégica.
FASE 1
Python
Preparación de Datos
Enriquecimiento con Spotify API y Last.fm API. Limpieza y feature engineering.
Output
Dataset limpio + variables derivadas
FASE 2
R
Análisis Estadístico
Correlaciones entre viralidad y éxito comercial. Clustering de perfiles.
Output
Modelos + clusters + hallazgos estadísticos
FASE 3
Power BI
Visualización
Dashboard con 4 vistas (Resumen, Artistas, Géneros, Canciones), filtros sincronizados y panel de ayuda contextual.
Output
Dashboard interactivo con KPIs y filtros
Fase 1 · Preparación de datos — Python
Partí del dataset público "Most Streamed Spotify Songs 2024" de Kaggle (4.601 canciones) y lo enriquecí mediante las APIs de Spotify y Last.fm para incorporar géneros musicales, metadatos de artistas y métricas adicionales de engagement. Apliqué limpieza estructural, normalización Unicode, filtrado por percentiles para eliminar canciones sin señal estadística, imputación de valores anómalos, y construí un conjunto de variables derivadas propias: un índice compuesto de viralidad, ratios de conversión entre plataformas, y métricas de engagement normalizadas. El dataset final fue de 4.143 canciones limpias y enriquecidas.
Fase 2 · Análisis estadístico — R
Con el dataset limpio realicé cuatro análisis encadenados: correlaciones logarítmicas entre métricas de TikTok y Spotify, comparativa sistemática entre dos perfiles de artistas (Nuevo Pop vs. Tradicional), clustering k-means para identificar arquetipos de éxito, y un modelo de regresión lineal múltiple con validación cruzada para cuantificar el poder predictivo de TikTok sobre Spotify. Todo el código está documentado y es reproducible.
Fase 3 · Visualización — Power BI
Construí un dashboard interactivo con cuatro vistas: Resumen general, Artistas, Géneros y Canciones, con filtros dinámicos y KPIs accionables, diseñados para un usuario de negocio no técnico.
Los hallazgos
Hallazgo 1 · TikTok sí predice el éxito en Spotify — pero no del modo que esperaba
El modelo de regresión con validación cruzada explica el 35% de la varianza del rendimiento en Spotify (R²=0,35). En marketing y comportamiento de consumo, donde intervienen miles de variables no observables, este resultado es estadísticamente sólido.
Los dos predictores más fuertes son:
- Engagement compuesto de TikTok · β = +0,73 · Principal impulsor del éxito en Spotify
- Conversión streams/vista · β = +0,67 · La eficiencia de retención lo es todo
- Año de lanzamiento · β = −0,30 · Cada año reciente dificulta el éxito (saturación creciente)
Esto confirma que TikTok predice Spotify, y que un índice compuesto de métricas supera a cualquier métrica individual. Pero el coeficiente más revelador es el negativo del año de lanzamiento: el mercado está saturado, y los lanzamientos recientes parten en desventaja estructural.
Hallazgo 2 · Dos caminos al éxito, no uno
El análisis de clustering k-means identificó dos arquetipos bien diferenciados:
Canciones con lanzamiento medio en 2019, audiencia consolidada y conversión estable de 0,92 streams por vista. Es el modelo de éxito tradicional: acumulativo, predecible, menos dependiente de la viralidad.
Canciones más recientes (media 2023), que se hacen virales gracias a tendencias específicas. Menor engagement de base, pero eficiencia de conversión más del doble: 2,05 streams por vista. Son canciones que convierten la atención en escucha de manera muy eficiente cuando conectan.
El resultado tiene implicaciones estratégicas claras: una canción del Clúster 1 necesita construir audiencia con paciencia. Una del Clúster 2 necesita maximizar su ventana viral en los primeros días. Confundir las dos estrategias es ineficiente.
Hallazgo 3 · La paradoja del Nuevo Pop
Este fue el hallazgo más sorprendente del proyecto, y el que más valor analítico aporta.
El Nuevo Pop — artistas emergentes post-2018 con alta dependencia de TikTok como Sabrina Carpenter, Chappell Roan u Olivia Rodrigo — domina claramente en TikTok. Mayor like rate (0,152 vs 0,118), mediana de views muy superior (364M vs 211M). Era lo esperado.
Pero cuando analizo la conversión a Spotify, ocurre lo contrario: los artistas tradicionales convierten un 42% mejor en términos de streams por visualización (1,255 vs 0,703). Los streams totales en Spotify son prácticamente iguales entre ambos grupos.
Eso significa que el Nuevo Pop genera mucho ruido en TikTok pero no lo transforma en escucha habitual con la misma eficiencia. A esto lo llamo la paradoja del Nuevo Pop: posición táctica ventajosa en visibilidad, vulnerabilidad estratégica en conversión.
El Nuevo Pop ha resuelto el problema de ser visto. Todavía no ha resuelto el problema de ser escuchado de forma sostenida.
Hallazgo 4 · Géneros y estacionalidad: el factor invisible del éxito
De los 98 géneros identificados en el dataset emergen tres arquetipos claros:
- TikTok-centric — speedcore, neoperreo, hyperpop: alta viralidad nativa, baja conversión a streaming sostenido
- Spotify-centric — pop mainstream, R&B clásico: flujo de reproducciones estable, menor dependencia viral
- Híbridos — country rap, dark pop: los más eficientes estratégicamente, porque combinan viralidad con conversión
Además, el calendario importa. Los lanzamientos se concentran en el primer semestre del año (Q1: 1.155 · Q2: 1.165 vs Q3: 905 · Q4: 918), lo que refleja ciclos de la industria ligados a premios y picos de consumo post-Navidad. El calendario también es estrategia.
La conclusión
La industria musical lleva años obsesionada con la viralidad como objetivo. Este proyecto demuestra cuantitativamente que la viralidad es condición necesaria pero no suficiente. El verdadero indicador de éxito sostenible es lo que llamo viralidad eficiente: la capacidad de convertir atención efímera en hábito de consumo.
Para artistas, sellos y managers, esto cambia la conversación estratégica. No basta con optimizar para TikTok. Hay que optimizar para la conversión.
El dashboard
El proyecto incluye un dashboard interactivo construido en Power BI con cuatro vistas operativas diseñadas para un usuario de negocio:
Vista Resumen · KPIs globales (streams, views, engagement, conversión), impacto por era musical (CD, Internet MP3, Streaming, Algorítmica viral), Top 5 canciones más virales, artistas Nuevo Pop vs. Tradicionales y tarjeta de la canción más viral
Vista Artistas · Top 10 artistas con selector de métrica (streams, views, likes, posts, engagement, viralidad, conversión), comparativa Nuevo Pop vs. Tradicional y tabla de detalle por artista
Vista Géneros · Treemap de géneros virales, comparativa de consumo Spotify vs. TikTok, scatter plot de conversión vs. viralidad, tabla de detalle por género
Vista Canciones · Top 10 canciones, tabla de detalle por canción (título, artista, duración, streams, views, conversión, engagement, popularidad, viralidad) y scatter plot posicional coloreado por clúster (Alto Rendimiento vs. Impulsadas por TikTok) con tamaño proporcional al índice de viralidad
Adicionalmente, el dashboard incluye un panel de filtros desplegable con búsqueda integrada (por era musical, año, artista, género o clúster) sincronizado en todas las páginas, y un botón de ayuda contextual que explica las variables clave y las limitaciones del análisis.
Stack y metodología
| Herramienta | Uso en el proyecto |
|---|---|
| Python 3 · pandas, requests, numpy | Limpieza, enriquecimiento con APIs, feature engineering |
| Spotify API + Last.fm API | Metadatos de artistas, géneros musicales, duraciones e imágenes |
| R · tidyverse, cluster, caret | Correlaciones logarítmicas, clustering k-means, regresión lineal con validación cruzada |
| Power BI · DAX | Dashboard interactivo con 4 vistas, filtros sincronizados y modelo en copo de nieve |
| Kaggle Dataset (Nelgiriyewithana, 2024) | Fuente de datos base |
Dataset: 4.143 canciones · 98 géneros · Variables derivadas propias
Modelo: Regresión lineal múltiple · Validación cruzada · R² = 0,35
Clustering: K-means · K=2 determinado por método del codo y análisis de silueta