Construyendo un recomendador de películas en Python: de los datos al modelo

Introducción

Los sistemas de recomendación están presentes en muchas plataformas digitales: streaming, e-commerce, música, formación online o personalización de contenidos. Su objetivo es ayudar al usuario a descubrir elementos relevantes dentro de catálogos cada vez más grandes.

En este proyecto he desarrollado CineMatch AI, un sistema de recomendación de películas basado en filtrado colaborativo por ítems. La idea principal es sencilla: dada una película de referencia, el sistema recomienda otras películas similares a partir de los patrones históricos de valoración de los usuarios.

El objetivo no era construir una solución empresarial completa, sino un prototipo funcional, reproducible y bien estructurado que permitiera trabajar un flujo completo de Data Science: análisis de datos, preprocesamiento, construcción del sistema de recomendación, evaluación exploratoria y presentación mediante una interfaz sencilla.

Dataset utilizado

Para el proyecto he utilizado el dataset MovieLens, una referencia habitual para trabajar con sistemas de recomendación.

El conjunto de datos incluye información sobre películas, usuarios y valoraciones. En este caso, el trabajo se ha centrado principalmente en dos archivos:

ratings.csv
movies.csv

Tras el proceso de filtrado, el sistema trabaja con:

446.702 ratings finales
3.728 películas
4.356 usuarios activos
una matriz usuario-película con una densidad aproximada del 2,75%

Este último punto es importante, porque en los sistemas de recomendación es habitual trabajar con matrices muy dispersas: muchos usuarios han valorado solo una pequeña parte del catálogo total.

Proceso seguido

El flujo del proyecto se divide en varias fases.

Primero se realizó la carga y exploración inicial de los datos, revisando el volumen de registros, la distribución de ratings y la información disponible sobre las películas.

Después se aplicaron filtros para mejorar la calidad de las recomendaciones:

películas con al menos 20 valoraciones.
usuarios con al menos 10 valoraciones.

Este filtrado reduce ruido y evita que el sistema se base en películas o usuarios con muy poca información histórica.

A continuación se construyó una matriz usuario-película, donde cada fila representa un usuario, cada columna una película y cada valor corresponde a la puntuación asignada. A partir de esta matriz, el sistema compara películas entre sí usando similitud del coseno.

La lógica es la siguiente: si dos películas han sido valoradas de forma parecida por muchos usuarios, el sistema interpreta que existe cierta similitud entre ellas.

Sistema de recomendación

El recomendador está basado en filtrado colaborativo por ítems. En lugar de comparar usuarios entre sí, compara películas a partir de los patrones de valoración.

Este enfoque tiene varias ventajas:

es fácil de explicar.
funciona bien cuando existen suficientes valoraciones.
permite generar recomendaciones interpretables.
puede adaptarse a otros dominios como productos, canciones, cursos o contenidos digitales.

Además del análisis en notebook, el proyecto incluye una pequeña aplicación con Streamlit, pensada para probar el sistema de forma visual. Desde la interfaz se puede buscar una película, seleccionar una coincidencia del catálogo y obtener un top 5 o top 10 de recomendaciones con su score de similitud.

También se incluye una API básica con FastAPI como demostración complementaria de cómo podría exponerse la lógica del recomendador.

Resultados

El sistema genera recomendaciones coherentes, especialmente para películas con suficientes valoraciones históricas.

Algunos resultados principales del análisis fueron:

matriz usuario-película de 4.356 usuarios por 3.728 películas.
446.702 ratings utilizados tras el filtrado.
similitud media top-N de 0,5662.
consistencia media de géneros del 81,5%.
94 de 100 películas evaluadas con una consistencia de géneros superior al 50%.

Por ejemplo, para una película como Scarface (1983), el sistema recomienda títulos relacionados con géneros como crimen, drama, thriller o acción, lo que muestra una cierta coherencia temática en las recomendaciones.

Limitaciones

Como ocurre en muchos sistemas de recomendación, el proyecto también tiene limitaciones.

La más importante es el problema de cold start: si una película o usuario no tiene valoraciones suficientes, el sistema no dispone de información histórica para generar recomendaciones fiables.

Además, el filtrado por popularidad mejora la calidad de las recomendaciones, pero reduce la cobertura total del catálogo. También hay que tener en cuenta que el sistema recomienda a partir de patrones históricos de valoración, no por una comprensión semántica profunda del contenido de las películas.

Por último, la evaluación realizada es exploratoria. No debe interpretarse como una evaluación supervisada definitiva, ya que no se ha aplicado una separación train/test ni métricas de ranking como Precision@K, Recall@K o NDCG, habituales en la evaluación de sistemas de recomendación.

Aprendizajes

Este proyecto me ha servido para entender mejor cómo se estructura un sistema de recomendación desde una perspectiva práctica.

Más allá de la técnica de similitud, una parte importante del trabajo ha estado en preparar los datos, tomar decisiones de filtrado, construir una estructura reproducible y presentar los resultados de forma clara.

También me ha parecido especialmente interesante comprobar cómo una técnica relativamente sencilla, como la similitud del coseno, puede generar recomendaciones razonables cuando los datos están bien tratados.

Próximos pasos

Algunas mejoras naturales para futuras versiones serían:

combinar ratings y géneros en un sistema híbrido.
incorporar técnicas de factorización matricial como SVD o NMF.
mejorar la evaluación offline con métricas de ranking.
guardar la matriz de similitud precomputada para acelerar la demo.
desplegar la aplicación para facilitar su uso externo.

Repositorio

El código completo del proyecto está disponible en GitHub:

https://github.com/evolve-space/Proyecto-Master-DataScience-Evolve-AlbertoMartinez

Podeis contactarme en mi LinkedIn:
https://www.linkedin.com/in/albertomartinezsanchez

Proyecto desarrollado durante el Máster en Data Science & Desarrollo de IA de Evolve.

推荐订阅源

DEV Community