Modelo predictivo de precio de vehículos usados - Proyecto de Data Science, IA y Machine Learning

ID Bootcamps

2 Aug 202413:52

Summary

TLDREl proyecto 'Modelo Predictivo de Precio de Vehículos Usados' busca desarrollar un modelo de Machine Learning para estimar el valor de coches en el mercado. Utilizando datos de wallapop, el equipo se enfrentó a desafíos como la obtención de datos y la limpieza de información inexacta. El análisis incluyó características del vehículo y algoritmos de ML, resultando en una herramienta útil para la compra y venta de vehículos. Ex Boost se destacó como el modelo más efectivo, destacando la potencia y el kilometraje como factores clave. Las conclusiones sugieren mejoras en la interfaz de usuario y la obtención de datos para un modelo más eficiente.

Takeaways

😀 Proyecto 'Modelo predictivo de precio de vehículos utilizados' busca analizar precios del sector de coches usados y desarrollar un modelo de Machine Learning para estimar el valor de los vehículos.
🔍 Se utilizaron algoritmos de Machine Learning para crear una herramienta que facilite la compra y venta de coches usados, basándose en características de los coches y tendencias de precios.
🌐 Dataset obtenido de la fuente wallapop, utilizando técnicas de web scraping con las librerías Beautiful Pandas y Selenium para manejar la página de scroll infinito.
🛠️ Se enfrentó a problemas de datos inservibles y repetidos, lo que redujo la cantidad de datos útiles al 30-40% de los aproximadamente 200,000 registros iniciales.
🔧 Se realizó una limpieza intensiva de datos, incluyendo el tratamiento de texto para estandarizar marcas y modelos de coches, y la eliminación de outliers como coches con más de un millón de kilómetros o potencias extremas.
📊 Se utilizó Power BI para crear un dashboard con datos limpios, mostrando información como la cantidad de coches por tipo de combustible, marcas más ofertadas y rangos de precios.
🏆 El modelo de Machine Learning elegido fue XGBoost, destacando parámetros importantes como potencia, año de fabricación y kilometraje del coche.
📈 Se analizaron los errores del modelo, identificando factores que influían en la precisión de las predicciones, como la calidad de los datos introducidos por los usuarios.
🔧 Se sugieren mejoras futuras como crear una interfaz de usuario amigable, integrar datos de fuentes adicionales y optimizar el proceso de obtención de datos para mejorar la eficiencia.
👥 El proyecto fue realizado por Martín y Mario, quienes destacaron la lentitud del proceso de web scraping y la dificultad debido a la mala calidad y redacción de los anuncios de wallapop.
🔄 Se destaca la importancia de la consistencia en la programación y la adaptación continua a cambios en el formato HTML de la página web, que influye en la estabilidad del modelo.

Q & A

¿Cuál es el objetivo principal del proyecto 'Modelo predictivo de precio de vehículos usados'?
-El objetivo principal del proyecto es desarrollar un modelo de Machine Learning que ofrezca una estimación precisa del valor de los vehículos usados en el mercado.
¿Qué fuente utilizan para obtener el dataset de vehículos usados?
-El dataset se obtiene de la página web Wallapop, utilizando técnicas de web scraping con las librerías Beautiful Pandas y Selenium.
¿Cuál fue una de las dificultades principales durante el proceso de obtención del dataset?
-Una de las dificultades fue la lentitud en la obtención de datos debido a la necesidad de utilizar Selenium para navegar en la página web dinámica de Wallapop y extraer información de cada anuncio de vehículo.
¿Cuáles son algunos de los factores que influyeron en los precios de los vehículos usados que analizaron?
-Los factores que influyeron en los precios incluyen características de los coches como el año de fabricación, la potencia, el kilometraje y las marcas, modelos y tipos de combustible.
¿Cómo abordaron el problema de los anuncios repetidos en Wallapop?
-Durante el proceso de limpieza del dataset, identificaron y trataron de eliminar los anuncios repetidos, que representaban aproximadamente un 30% de los anuncios, como una estrategia de marketing de los concesionarios.
¿Qué técnicas de Machine Learning utilizaron para el modelo predictivo?
-Utilizaron algoritmos de Machine Learning como XGBoost, Random Forest y otra técnica no especificada en el script, para crear el modelo predictivo.
¿Qué herramienta utilizaron para la visualización y análisis de datos?
-Utilizaron Power BI para la visualización de datos y el análisis de resultados, creando un dashboard con los datos limpios del dataset.
¿Cuál fue el porcentaje de datos útiles después de la limpieza del dataset?
-Después de la limpieza del dataset, los datos útiles representaban aproximadamente el 30 al 40% de los registros originales.
¿Qué variables nuevas crearon para mejorar el rendimiento del modelo?
-Crearon variables nuevas como 'Camperizado' para vehículos convertidos y una columna para coches con problemas como 'avería' o 'siniestro', para diferenciarlos de los coches normales.
¿Qué conclusiones extrajeron del análisis de errores en el modelo predictivo?
-Descubrieron que ciertos factores, como el tipo de combustible o la potencia, influyen más en el error de predicción. También identificaron problemas de entrada de datos por parte de los usuarios que afectaban la precisión.
¿Qué mejoras sugieren para el futuro del modelo?
-Sugirieron crear una interfaz de usuario amigable, obtener datos de fuentes diferentes y optimizar el método de obtención de datos para mejorar la velocidad y eficiencia del modelo.