Modelo predictivo de precio de vehículos usados - Proyecto de Data Science, IA y Machine Learning

ID Bootcamps
2 Aug 202413:52

Summary

TLDREl proyecto 'Modelo Predictivo de Precio de Vehículos Usados' busca desarrollar un modelo de Machine Learning para estimar el valor de coches en el mercado. Utilizando datos de wallapop, el equipo se enfrentó a desafíos como la obtención de datos y la limpieza de información inexacta. El análisis incluyó características del vehículo y algoritmos de ML, resultando en una herramienta útil para la compra y venta de vehículos. Ex Boost se destacó como el modelo más efectivo, destacando la potencia y el kilometraje como factores clave. Las conclusiones sugieren mejoras en la interfaz de usuario y la obtención de datos para un modelo más eficiente.

Takeaways

  • 😀 Proyecto 'Modelo predictivo de precio de vehículos utilizados' busca analizar precios del sector de coches usados y desarrollar un modelo de Machine Learning para estimar el valor de los vehículos.
  • 🔍 Se utilizaron algoritmos de Machine Learning para crear una herramienta que facilite la compra y venta de coches usados, basándose en características de los coches y tendencias de precios.
  • 🌐 Dataset obtenido de la fuente wallapop, utilizando técnicas de web scraping con las librerías Beautiful Pandas y Selenium para manejar la página de scroll infinito.
  • 🛠️ Se enfrentó a problemas de datos inservibles y repetidos, lo que redujo la cantidad de datos útiles al 30-40% de los aproximadamente 200,000 registros iniciales.
  • 🔧 Se realizó una limpieza intensiva de datos, incluyendo el tratamiento de texto para estandarizar marcas y modelos de coches, y la eliminación de outliers como coches con más de un millón de kilómetros o potencias extremas.
  • 📊 Se utilizó Power BI para crear un dashboard con datos limpios, mostrando información como la cantidad de coches por tipo de combustible, marcas más ofertadas y rangos de precios.
  • 🏆 El modelo de Machine Learning elegido fue XGBoost, destacando parámetros importantes como potencia, año de fabricación y kilometraje del coche.
  • 📈 Se analizaron los errores del modelo, identificando factores que influían en la precisión de las predicciones, como la calidad de los datos introducidos por los usuarios.
  • 🔧 Se sugieren mejoras futuras como crear una interfaz de usuario amigable, integrar datos de fuentes adicionales y optimizar el proceso de obtención de datos para mejorar la eficiencia.
  • 👥 El proyecto fue realizado por Martín y Mario, quienes destacaron la lentitud del proceso de web scraping y la dificultad debido a la mala calidad y redacción de los anuncios de wallapop.
  • 🔄 Se destaca la importancia de la consistencia en la programación y la adaptación continua a cambios en el formato HTML de la página web, que influye en la estabilidad del modelo.

Q & A

  • ¿Cuál es el objetivo principal del proyecto 'Modelo predictivo de precio de vehículos usados'?

    -El objetivo principal del proyecto es desarrollar un modelo de Machine Learning que ofrezca una estimación precisa del valor de los vehículos usados en el mercado.

  • ¿Qué fuente utilizan para obtener el dataset de vehículos usados?

    -El dataset se obtiene de la página web Wallapop, utilizando técnicas de web scraping con las librerías Beautiful Pandas y Selenium.

  • ¿Cuál fue una de las dificultades principales durante el proceso de obtención del dataset?

    -Una de las dificultades fue la lentitud en la obtención de datos debido a la necesidad de utilizar Selenium para navegar en la página web dinámica de Wallapop y extraer información de cada anuncio de vehículo.

  • ¿Cuáles son algunos de los factores que influyeron en los precios de los vehículos usados que analizaron?

    -Los factores que influyeron en los precios incluyen características de los coches como el año de fabricación, la potencia, el kilometraje y las marcas, modelos y tipos de combustible.

  • ¿Cómo abordaron el problema de los anuncios repetidos en Wallapop?

    -Durante el proceso de limpieza del dataset, identificaron y trataron de eliminar los anuncios repetidos, que representaban aproximadamente un 30% de los anuncios, como una estrategia de marketing de los concesionarios.

  • ¿Qué técnicas de Machine Learning utilizaron para el modelo predictivo?

    -Utilizaron algoritmos de Machine Learning como XGBoost, Random Forest y otra técnica no especificada en el script, para crear el modelo predictivo.

  • ¿Qué herramienta utilizaron para la visualización y análisis de datos?

    -Utilizaron Power BI para la visualización de datos y el análisis de resultados, creando un dashboard con los datos limpios del dataset.

  • ¿Cuál fue el porcentaje de datos útiles después de la limpieza del dataset?

    -Después de la limpieza del dataset, los datos útiles representaban aproximadamente el 30 al 40% de los registros originales.

  • ¿Qué variables nuevas crearon para mejorar el rendimiento del modelo?

    -Crearon variables nuevas como 'Camperizado' para vehículos convertidos y una columna para coches con problemas como 'avería' o 'siniestro', para diferenciarlos de los coches normales.

  • ¿Qué conclusiones extrajeron del análisis de errores en el modelo predictivo?

    -Descubrieron que ciertos factores, como el tipo de combustible o la potencia, influyen más en el error de predicción. También identificaron problemas de entrada de datos por parte de los usuarios que afectaban la precisión.

  • ¿Qué mejoras sugieren para el futuro del modelo?

    -Sugirieron crear una interfaz de usuario amigable, obtener datos de fuentes diferentes y optimizar el método de obtención de datos para mejorar la velocidad y eficiencia del modelo.

Outlines

00:00

😀 Introducción al Proyecto de Predicción de Precios de Vehículos Usados

El primer párrafo introduce el proyecto de un modelo predictivo de precios para el mercado de vehículos usados. Los creadores, Martín y Mario, explican que se centra en el estudio de los precios y el desarrollo de un modelo de Machine Learning para estimar el valor de los vehículos. Utilizan algoritmos para facilitar la compra y venta de coches, incluyendo un flujo de trabajo y herramientas como web scraping, pandas, geop, y Power BI. Destacan los problemas encontrados en la obtención de datos a través de wallapop, incluyendo la limitación de la página de scroll infinito y la necesidad de manejar datos en bruto y repetidos.

05:02

🔍 Análisis y Limpieza de Datos para el Modelo Predictivo

El segundo párrafo se enfoca en los desafíos de la limpieza y análisis de datos. Se menciona la necesidad de tratar la mala redacción en los anuncios, la agrupación de marcas y el manejo de datos atípicos como vehículos con más de un millón de kilómetros. Se destaca la importancia de la corrección de marcas y la eliminación de anuncios repetidos y la reducción significativa del dataset debido a la cantidad de datos no útiles, resaltando la importancia de la calidad de los datos en el rendimiento del modelo.

10:07

🛠 Desarrollo y Optimización del Modelo Predictivo

El tercer párrafo cubre el proceso de desarrollo del modelo predictivo, incluyendo la preparación de los datos y la elección de las variables más influyentes en el precio de los vehículos. Se describen las decisiones tomadas sobre la inclusión de comentarios y la creación de nuevas columnas para mejorar la precisión del modelo. Además, se discuten los tres modelos principales evaluados y se selecciona el modelo XG Boost por su rendimiento. Se analiza el error en las predicciones y se identifican los factores que más influyen en él, concluyendo con las dificultades encontradas y las posibles mejoras futuras, como la creación de una interfaz de usuario y la optimización del método de obtención de datos.

Mindmap

Keywords

💡Modelo predictivo

Un modelo predictivo es un sistema de inteligencia artificial que se utiliza para predecir resultados futuros basándose en datos históricos. En el video, el modelo predictivo se refiere a un sistema desarrollado para estimar el valor de vehículos usados, lo cual es central para el proyecto descrito.

💡Machine learning

Machine learning es una rama de la inteligencia artificial que permite a las máquinas aprender y mejorar a través de la experiencia sin ser explícitamente programadas. En el contexto del video, se utiliza para crear el modelo predictivo de precios de vehículos.

💡Web scraping

El web scraping es la práctica de extraer información de sitios web mediante programas informáticos. En el video, se menciona el uso de bibliotecas como Beautiful Pandas y Selenium para obtener datos de la página de Wallapop para el análisis de precios de vehículos.

💡Dataset

Un dataset es una colección de datos que se utiliza para el análisis estadístico. En el script, el dataset se obtiene a través del web scraping y es fundamental para el desarrollo del modelo predictivo de precios de vehículos.

💡Limpieza de datos

La limpieza de datos es el proceso de mejorar la calidad de los datos para su uso en el análisis. En el video, se destaca la importancia de limpiar el dataset debido a la presencia de datos nulos y la necesidad de tratar texto para estandarizar marcas y modelos de vehículos.

💡Dashboard

Un dashboard es una herramienta de visualización de datos que permite presentar información de una manera clara y fácil de entender. En el script, se utiliza Power BI para crear un dashboard con los datos limpios, lo cual es esencial para la toma de decisiones y la presentación de resultados.

💡Algoritmos de Machine learning

Los algoritmos de machine learning son métodos utilizados para entrenar modelos predictivos. En el video, se mencionan diferentes algoritmos como XGBoost, RandomForest y otra técnica 'j' para encontrar el modelo que mejor se ajuste a los datos de precios de vehículos.

💡Características del coche

Las características de un coche son los atributos que definen las propiedades y el rendimiento de un vehículo. En el script, se destacan características como el año de fabricación, la potencia, el kilometraje y la marca como factores clave para estimar el precio de los vehículos usados.

💡Error predictivo

El error predictivo se refiere a la diferencia entre la predicción hecha por el modelo y el valor real. En el video, se analiza el error para entender por qué ciertos vehículos tienen una predicción menos precisa y se identifican factores que influyen en este error.

💡Optimización del modelo

La optimización del modelo implica mejorar el rendimiento de un modelo predictivo ajustando sus parámetros. En el script, se menciona la elección de XGBoost como el modelo principal debido a su rendimiento y se discuten parámetros clave como la importancia de las características del vehículo.

💡Interfaces de usuario

Una interfaz de usuario (UI) es el medio por el cual los usuarios interactúan con un sistema. En el video, se sugiere la creación de una interfaz de usuario amigable para el modelo predictivo, lo que permitiría a los usuarios ingresar datos y obtener predicciones de manera más sencilla.

Highlights

Proyecto de modelo predictivo de precio de vehículos usados para facilitar la compra y venta.

Análisis de tendencias de precios y factores que afectan a los mismos, centrándose en características de los coches.

Uso de algoritmos de Machine Learning para estimar el valor de vehículos en el mercado.

Diagrama de flujo presentado para mostrar el timing y herramientas utilizadas en el proyecto.

Obtención de datos a través de web scraping de la página wallapop con bibliotecas como beautiful pandas y selenium.

Desafío de manejar un dataset de gran volumen con errores y datos repetidos.

Limpieza de datos con herramientas como Power BI, enfrentando problemas de nulos y repetidos.

Detección de que alrededor del 30% de los anuncios son repetidos, lo que indica una estrategia de marketing.

Tratamiento de texto para agrupar marcas de coches y normalizar la información.

Eliminación de datos irrelevantes y creación de nuevas variables para mejorar el rendimiento del modelo.

Selección de modelos de Machine Learning basados en métricas de entrenamiento y prueba.

Uso de XGBoost como modelo principal por su rendimiento en la predicción de precios.

Análisis de errores en la predicción y su correlación con características específicas de los vehículos.

Identificación de factores que influyen en el error de predicción, como la potencia y el año de fabricación.

Dificultades encontradas en el web scraping debido a la dinámica de la página y la calidad de los anuncios.

Propuestas de mejoras futuras, incluyendo la creación de una interfaz de usuario amigable y la obtención de datos de fuentes adicionales.

Optimización del modelo de obtención de datos para incrementar la velocidad y eficiencia del proceso.

Conclusión del proyecto, destacando la importancia de cada línea de código y las batallas enfrentadas durante el desarrollo.

Transcripts

play00:00

buenos días a todos chicos este trabajo

play00:02

lo hemos hecho Martín yo y Mario vale Y

play00:06

el proyecto se llama modelo predictivo

play00:09

de precio de vehículos utilizados

play00:11

vale Qué buscamos con este proyecto lo

play00:14

que nos lleva a este proyecto

play00:15

básicamente es centrarnos en estudiar

play00:18

los precios del sector de coches usados

play00:20

y desarrollar un modelo de Machine

play00:22

learning que proporcione una estimación

play00:24

precisa del valor de los vehículos del

play00:26

mercado hemos analizado Pues tendenci de

play00:29

precios y los factores que los afectan

play00:31

que serían básicamente pues las

play00:32

características de los coches Vale y

play00:34

hemos utilizado una serie de algoritmos

play00:36

para crear una herramienta que facilite

play00:38

la compra y venta de coches

play00:41

usados vale con este diagrama de flujo

play00:43

lo que os enseñamos es el timing y las

play00:46

herramientas que hemos utilizado para

play00:47

cada una de las partes del proyecto vale

play00:50

comenzamos con la obtención del dataset

play00:52

que hemos utilizado de fuente wallapop

play00:55

la parte de coches Vale y la librería

play00:58

web scrapping beautiful pandas y

play01:01

selenium para en cuanto análisis y la

play01:03

limpieza pues las librerías típicas como

play01:08

pandas geop etcétera y la herramienta de

play01:11

visualización Power bi en cuanto a la

play01:13

búsqueda del mejor modelo las librerías

play01:15

de Machine learning vale como sonen autl

play01:19

y j y en cuanto análisis de resultados

play01:22

pues las mismas librerías que antes y

play01:24

además la herramienta de

play01:26

Power con el datas ya limpio Vale y Lu

play01:30

una parte de conclusiones finales Pues

play01:31

que la comentaremos al final de la al

play01:34

final de la

play01:35

presentación vale la primera parte que

play01:38

sería el tema de la obtención del

play01:39

dataset vale eh hemos utilizado selenio

play01:43

Vale gracias a esta librería ya que

play01:45

wallapop es una página de scroll

play01:46

infinito hemos podido realizar una

play01:48

función que realice Este scroll vale y

play01:51

vaya cargando pues nuevos anuncios de

play01:53

vehículos hasta aproximadamente una

play01:55

cantidad de unos 8040 eh anuncios vale

play02:00

al llegar ese número la página suele

play02:02

crase nos da un error y nos dice que

play02:04

algo ha fallado y la función que

play02:07

teníamos para obtener los link de los

play02:08

coches Nos daba error vale por eso uno

play02:11

de los principales problemas que hemos

play02:12

tenido al final ha sido reunir una gran

play02:16

cantidad

play02:17

de de datos vale lo que hemos hecho ha

play02:20

sido unos rangos de precios de 1000

play02:23

valea una cantidad de 500.000 por cada

play02:26

1000 que sería un Rango hemos buscado

play02:28

aproximadamente una de unos 3000 coches

play02:31

esto en bruto vale luego ya veremos Cómo

play02:34

cómo los trabajamos y lo que comentaba

play02:37

antes vale gracias a la web dinámica

play02:39

hemos podido utilizar selenium esta

play02:41

parte la va a comentar Martín que es la

play02:44

parte web

play02:45

scrapping Vale pues bueno una vez Ob

play02:49

teníamos todos los enlaces a los

play02:50

diferentes coches pues debíamos entrar

play02:53

uno por uno a cada página de coche y

play02:55

extraer los datos al tratarse también de

play02:59

una web dinámica pues alguno de los

play03:01

datos no cargaban si no teníamos la web

play03:04

cargada por lo que teníamos que usar

play03:06

selenium y al final esto ralentizó

play03:09

bastante el hecho de obtener datas set

play03:12

digamos que obtenían unos 1000 datos

play03:14

pora de búsqueda siempre en el caso que

play03:17

no gras seara el algoritmo porque a

play03:19

veces el formato de html cambiaba

play03:21

ligeramente y teníamos que estar

play03:23

continuamente creando

play03:25

excepciones y bueno Y como se puede la

play03:28

imagen los cuadrito rojo remarcamos pues

play03:31

todas las variables que obtuvimos

play03:32

algunas numéricas muy importantes como

play03:35

el año fabricación del coche la potencia

play03:38

el kilometraje y algunas categorías como

play03:41

la marca modelo y especial menciona a la

play03:45

del comentario que luo nos sería muy

play03:47

útil para para establecer patrones Y

play03:50

obtener variables nuevas que no nos da

play03:52

la

play03:54

página y una vez con con todos estos

play03:57

datos extraídos tenemos un ejemplo de

play03:59

este inicial en bruto donde teníamos

play04:01

nueve nueve numéricas siete categóricas

play04:05

y una que la calificamos como texto En

play04:07

referencia al

play04:10

comentario en cuanto a limpieza del

play04:12

dataset aquí hubo bastante trabajo

play04:15

debido a que había una gran cantidad de

play04:17

nulos debido a que los

play04:19

usuarios más bien no rellenan las fichas

play04:22

de los coches por lo que al final

play04:23

teníamos un montón de filas inservibles

play04:25

y aquí igual faltaba pues la potencia el

play04:28

kilometraje del coche

play04:30

etcétera y también hemos Resaltar

play04:33

negrita a lo que nos dimos eh cuenta a

play04:36

mitad de la ación de los datos es que

play04:38

había gran cantidad de anuncios

play04:40

repetidos con diferentes ubicaciones que

play04:42

por lo visto es una estrategia de

play04:44

marketing de los concesionarios para

play04:46

darse mucha visibilidad porque igual

play04:48

podíamos tener hasta 10 15 veces el

play04:50

mismo coche pero con diferente

play04:53

ubicación Así que como curiosidad más o

play04:56

menos el 30% de este anuncio son de este

play04:58

tipo Así que la oferta que te publicita

play05:02

wallapop de coches es muy muy inferior a

play05:04

la

play05:05

realidad otra otro enfrentamos es a la

play05:10

mala redacción que tiene la gente pues

play05:12

aunque estuvieran todos los valores pues

play05:14

la gente pone en el campo de los

play05:15

kilómetros la potencia La potencia de

play05:17

año escribir más las marcas por lo que

play05:20

al final teníamos que tratar hacer un

play05:23

tratamiento intenso del texto entre las

play05:27

cosas que no se veo fue la agrupación de

play05:28

las marcas mediante tratamiento de texto

play05:32

para crear para que las marcas

play05:35

estuvieran todas el mismo formato y en

play05:37

un futuro a la creación de los damis

play05:39

para el modelo ayudaría bastante en el

play05:41

rendimiento y finalmente el tratamiento

play05:44

de ers para datos extraños como coches

play05:48

de más de un millón de kilómetros

play05:49

potencia super a 500 coches de los años

play05:52

50 etcétera que en conclusión al final

play05:55

de todo dat tacet en bruto los datos

play05:58

útiles eran en torno al del 30

play06:02

40% y algún ejemplo de cómo tratamos

play06:06

estos s lers especialmente la Gráfica de

play06:09

abajo d tenemos el precio de los coches

play06:12

según su año y tipo de motor vemos que a

play06:15

partir del antes del año 2000 tenemos

play06:18

datos muy muy erráticos que causaban

play06:20

mucho ruido en el modelo por lo que hay

play06:23

una métrica a fue a partir del año

play06:25

2000 empezamos a los coches dond

play06:28

ahí vemos que la gráfica a estabilizarse

play06:30

y a seguir un patrón normal y ahora m

play06:33

Pues nos va a comentar las conclusiones

play06:35

de dataset una vez realizadas todas

play06:36

estas funciones de

play06:38

limpieza eso es aquí hemos utilizado

play06:41

Power bi vale para crear un dashboard Eh

play06:45

ya con los datos del dataset totalmente

play06:47

limpios vale justo por lo que ha dicho

play06:50

lo que ha comentado Martin tema

play06:52

corrección de sobre todo de marcas eso

play06:54

es lo que lo que más programado vale nos

play06:57

sale una cantidad total de 354 coches

play07:01

con un precio medio de

play07:04

19112 vale Parece que son muchos coches

play07:07

los 50.000 pero es es lo que ha dicho

play07:10

Martín vale es un un 30 40% de lo que

play07:13

teníamos porque sacamos algo más de

play07:16

200.000 registros vale e luego en el

play07:20

primer gráfico vale que tenemos con con

play07:22

la gran parte verde en este nos está

play07:25

diciendo que la mayor cantidad de coches

play07:27

que hay ofertados son de diésel vale del

play07:29

tipo de combustible diésel y los que

play07:31

menos es el eléctrico pues tiene todo el

play07:34

sentido del mundo vale básicamente

play07:36

porque diésel lleva muchísimo más años

play07:39

en el mercado que el eléctrico vale en

play07:41

el siguiente gráfico que sería el

play07:42

superior derecho nos muestra un top 10

play07:44

de las marcas más ofertadas donde

play07:46

Volkswagen BMW y Mercedes son las marcas

play07:50

que más anuncios tienen y esto para un

play07:52

comprador pues le puede decir que estos

play07:54

coches son los que mejor funcionamiento

play07:56

o duración tienen con el paso de los

play07:58

años vale

play08:00

También tenemos un gráfico de barras que

play08:01

sería el de abajo a la izquierda que nos

play08:04

muestra el recuento de vehículos por

play08:05

Rango de precio recordamos que son de

play08:08

1000 en 1000 eur Vale y donde vemos los

play08:10

precios medios que sería 19,000 es donde

play08:13

ronda Esta media del dataset Y por

play08:15

último el tipo de coche más que más hay

play08:18

en wallapop vale que es curioso uno de

play08:20

los dos tipos es el pequeño y el 4 por4

play08:23

que esto nos llamó la atención que se

play08:25

vendieran tantos todoterrenos en

play08:27

wallapop y el que menos sería el Coupe

play08:29

que es el típico coche deportivo de de

play08:31

dos plazas ahora toda la parte del

play08:33

modelo la Comenta Mario Bueno una vez

play08:38

limpios y analizados los datos hay que

play08:40

empezar a preparar el modelo y tenemos

play08:41

que tomar decisiones sobre creación o

play08:43

volum no hemos utilizado la columna de

play08:46

comentarios para buscar palabras clave y

play08:48

crear un par de columnas en una de ellas

play08:50

buscamos palabras como Camper o

play08:52

camperizado para crear una columna de

play08:55

vehículos camperizados dimos cuenta que

play08:57

afectaba bastante sobre todo en

play08:58

furgoneta y otra columna buscando

play09:01

palabras como avería siniestro

play09:03

reparación roto etcétera para tratar de

play09:06

crear una columna que nos diferenciara

play09:08

esos coches de de los coches normales

play09:10

porque acepta el en el precio también

play09:13

agrupamos determinadas marcas más caras

play09:16

o más

play09:17

exclusivas para ayudar al al modelo y

play09:20

finalmente hicimos los damis para la

play09:23

variable de marca tipo de vehículo

play09:24

combustible y cambio TR probar bastante

play09:27

eh

play09:29

eliminamos todas las columnas que tenían

play09:31

que ver con los datos de del vendedor

play09:33

valoraciones etcétera y decidimos

play09:36

eliminar el modelo del coche en un

play09:39

principio estábamos dudando pero eh Por

play09:43

un lado al hacer los damis nos quedaban

play09:45

unas 2000 columnas Y eso nos ralentizado

play09:47

muchísimo el entrenamiento del modelo y

play09:50

por otro lado nos dimos cuenta que

play09:51

tampoco afectaba demasiado con el

play09:53

resultado final porque al final con el

play09:55

tipo de coche y la potencia queda un

play09:57

resultado similar un datas inicial de 17

play10:00

columnas y acabamos con uno de

play10:06

75 bueno tras realizar varios modelos

play10:10

nos quedamos con estos tres

play10:12

principales aquí los veis con su

play10:15

métricas en el training test tras hacer

play10:17

sus respectivos research y de los tres

play10:20

nos quedamos con ex Boost porque nos da

play10:23

poco verf en los otros vemos que hay un

play10:26

Quiz un poquito más y como

play10:29

característica a destacar los parámetros

play10:31

más importantes son iguales en los tres

play10:34

modelos pero cambia la cambia el orden

play10:36

de importancia no quedándose en el Boost

play10:38

potencia más importante que que año y

play10:41

kilometraje y abajo hemos puesto un

play10:43

pequeño ejemplo de los los mejores H

play10:45

parámetros que encontramos para el exost

play10:47

y vemos un poco el número de árboles

play10:49

máxima profundidad etctera me vo a meter

play10:52

mucho en

play10:55

eso bueno este gráfico nos pareció

play10:58

interesante porque como veis arriba en

play11:00

el título son los factores que influyen

play11:02

en el error una vez que hicimos el

play11:04

modelo analizamos el el error la

play11:06

diferencia entre la predicción y y el

play11:08

precio del anuncio para ver qué pasaba

play11:11

con con aquellos coches que tenían un

play11:13

error mayor algunos era bastante mayor

play11:15

también creamos una columna de error

play11:17

absoluto porque nos daba igual al final

play11:19

que fuera por arriba o por abajo

play11:20

queríamos analizar esos coches y vimos

play11:22

que gran parte de ellos era un problema

play11:25

de El que el usuario había introducido

play11:27

más los datos no de más o algún cero de

play11:30

menos hicimos una pequeña limpieza de

play11:32

esos de esos valores así más outliers y

play11:35

luego pues nos quedó esto y nos nos

play11:38

quedó este gráfico donde se puede ver

play11:41

que estas son las variables que más

play11:42

influyen en el en el error no si escamp

play11:45

pero si es por pues provoca un mayor

play11:47

error en en la

play11:52

predicción y bueno como conclusiones

play11:55

finales eh nos hemos dado cuenta de la

play11:58

lentitud del web scraping O al menos

play11:59

como lo hemos hecho nosotros que como ha

play12:01

comentado Martín pues teníamos que

play12:03

entrar en cada anuncio Y eso nos

play12:04

ralentizado bastante la mala calidad de

play12:07

los anuncios de wallapop eh Por lo que

play12:09

hemos comentado igual la redacción de

play12:11

del usuario wallapop te da bastante

play12:13

libertad a la hora de publicar un

play12:15

anuncio Y eso pues hace que la gente

play12:17

escriba mal con caracteres erróneos o

play12:21

metiendo el modelo en la columna de de

play12:23

la marca etcétera Y eso nos ha

play12:25

dificultado un poco la la limpieza

play12:27

también nos hemos dado cuenta que

play12:28

comentaba antes que el modelo de los

play12:30

vehículos no tiene una gran influencia

play12:31

en el modelo predictivo eh que parece

play12:35

curioso y para finalizar pues destacar

play12:38

que cada línea de código es una batalla

play12:40

Empezando por el web scrapping tirando

play12:42

por las funciones

play12:44

etcétera cosas que funcionaban al día

play12:46

siguiente ya dejaban de funcionar y ha

play12:48

sido una batalla bastante al queríamos

play12:50

destacar y como mejoras a futuro del

play12:53

modelo Pues bueno Ahí tengo unas cuantas

play12:56

como crear una interfaz para hacer una

play12:59

aplicación un poco más user friendly no

play13:01

que sea más que no sea tan crudo como el

play13:03

código y que le permita al usuario Pues

play13:05

no sé mediante un desplegable o algo

play13:06

meter datos del coche obtener datos de

play13:09

fuentes diferentes Como por ejemplo he

play13:11

puesto ahí coche.net que es el mayor

play13:13

portal de coche de segunda mano para

play13:15

tratar de tener un mayoro y que el

play13:17

modelo funcione mejor y optimizar el

play13:19

modelo de obtención de datos para

play13:21

intentar convertirlo a una especie de

play13:23

buscador o de comparador que sea más más

play13:26

rápido y no tan lento estábamos más o

play13:28

menos a un ritmo 1000 1000 coches en

play13:31

bruto por hora del cual se nos quedaba a

play13:33

lo mejor el 30 al 40% Entonces se queda

play13:36

bastante lento optimizar ese método Pues

play13:38

sería una mejora bastante importante a

play13:40

futuro

play13:42

y

play13:44

ya vale Este sería el trabajo chicos

play13:47

Esperamos que os haya gustado mucho y

play13:49

gracias por escucharnos

Rate This

5.0 / 5 (0 votes)

関連タグ
Modelo PredictivoPrecios UsadosVehículosMachine LearningAnálisis DatosWeb ScrapingSeleniumPower BIDashBoardEstimación Precios
英語で要約が必要ですか?