Modelos predictivos Machine Learning - Tutorial en español | Matlab
Summary
TLDREn esta clase práctica de ciencia de datos, se enseña a predecir la calificación crediticia de nuevos clientes usando machine learning con MATLAB, sin necesidad de conocimientos previos. Se utiliza una base de datos de ratios financieros de empresas y se demuestra cómo importar y clasificar estos datos para predecir si un cliente es buen pagador. El ejercicio muestra paso a paso cómo entrenar y validar modelos de clasificación, destacando la importancia de datos precisos y cómo interpretar los resultados para aplicarlos en negocios.
Takeaways
- 📊 Hoy realizaremos un ejercicio práctico de ciencia de datos o aprendizaje automático, sin necesidad de conocimientos previos.
- 🏢 El ejemplo se basa en una empresa que ofrece créditos a otras empresas y utiliza datos financieros para evaluar a sus clientes.
- 📈 Los datos incluyen ratios financieros como capital de trabajo, utilidad retenida y utilidad antes de impuestos.
- 🔍 El objetivo es predecir la calificación de nuevos clientes usando estos datos para determinar su probabilidad de pago.
- 💾 Importamos la base de datos en MATLAB y preparamos los datos para el modelo de clasificación.
- 🛠️ Usamos MATLAB para clasificar los clientes en categorías (AAA, AA, C) según sus datos financieros.
- 📊 Utilizamos modelos de clasificación como árboles de decisión para entrenar y evaluar nuestro modelo.
- 🔄 La validación cruzada se usa para asegurar que el modelo sea preciso al predecir con datos nuevos.
- 📈 Elegimos el modelo con mayor precisión, en este caso, un árbol de decisión con 87% de precisión.
- 🔍 El modelo nos permite predecir la categoría de un nuevo cliente basándonos en sus datos financieros.
- 💡 Los datos reales y de calidad son cruciales, ya que 'basura dentro, basura fuera' afecta la precisión del modelo.
- 📊 La matriz de confusión y la curva ROC son herramientas importantes para evaluar el rendimiento del modelo.
- 📋 Podemos ajustar y probar el modelo con diferentes datos de clientes para mejorar su precisión.
- 📝 Es fundamental entender y aplicar estos conceptos a sus propios negocios para predecir comportamientos de clientes.
Q & A
¿Qué tipo de ejercicio práctico se realizará en el video?
-Se realizará un ejercicio práctico de ciencia de datos o aprendizaje automático para predecir la calificación de crédito de empresas basándose en sus ratios financieros.
¿Es necesario tener conocimientos previos de machine learning para realizar este ejercicio?
-No, el ejercicio está diseñado para que no sea necesario tener conocimiento previo sobre machine learning.
¿Qué tipo de información se utiliza para clasificar a los clientes según su calificación de crédito?
-Se utilizan ratios financieros como el capital de trabajo, la utilidad retenida sobre activos totales y la utilidad antes de impuestos para dar una calificación de cliente.
¿Cuál es la importancia de tener datos reales y precisos en el aprendizaje automático?
-Los datos reales y precisos son cruciales porque si se alimenta al modelo con datos incorrectos o 'basura', el modelo producirá resultados inútiles o 'basura'.
¿Qué software se utiliza para importar y manipular la base de datos en el ejemplo?
-Se utiliza MATLAB para importar y manipular la base de datos en el ejemplo.
¿Qué es el 'cross-validation' y cómo se aplica en el ejercicio?
-El cross-validation es una técnica para evaluar el rendimiento de un modelo de aprendizaje automático, tomando un subconjunto de los datos para entrenamiento y otro para pruebas, iterando este proceso varias veces.
¿Qué modelo de aprendizaje automático se utiliza en el ejemplo para clasificar a los clientes?
-Se utiliza un modelo de árboles de decisión para clasificar a los clientes según su calificación de crédito.
¿Cómo se calcula la precisión del modelo en el ejemplo?
-La precisión del modelo se calcula automáticamente por MATLAB después de entrenar el modelo, y se mide en porcentaje.
¿Qué es una 'matriz de confusión' y cómo se utiliza en el análisis del modelo?
-Una matriz de confusión es una herramienta estadística que muestra la efectividad del modelo, comparando las predicciones con los valores reales, y ayuda a entender el rendimiento del modelo.
¿Cómo se exporta y utiliza el modelo entrenado para hacer predicciones sobre nuevos clientes?
-Después de entrenar el modelo, se exporta y se guarda con un nombre específico. Luego, se utiliza la fórmula del modelo para hacer predicciones en una nueva tabla de datos con características de nuevos clientes.
¿Cómo se puede aplicar lo aprendido en el video a un negocio real?
-Se pueden tomar datos de clientes de un negocio real, como ingresos, estado civil, porcentaje de deuda, y utilizar un modelo de aprendizaje automático para predecir y asignar categorías que sean relevantes para el negocio.
Outlines
📊 Ejercicio práctico de Ciencia de Datos para predecir créditos
El primer párrafo introduce un ejercicio práctico de Ciencia de Datos y Aprendizaje Automático, enfocado en la predicción de créditos para empresas. Se destaca que no se requiere conocimiento previo en Machine Learning. Se menciona un ejemplo de una empresa que clasifica a sus clientes en diferentes categorías basadas en índices financieros, y el objetivo es usar esta información para predecir el tipo de cliente nuevo. Se enfatiza la importancia de usar datos reales y la frase 'si metemos basura, saldrá basura' para resaltar la calidad de los datos. Se describe el proceso de importación de una base de datos en MATLAB y se menciona la necesidad de seleccionar variables numéricas relevantes para el análisis.
🔧 Uso de MATLAB para modelado de clasificación de créditos
El segundo párrafo detalla el uso de MATLAB para crear un modelo de clasificación. Se describe el proceso de selección de variables categóricas y numéricas, y se enfatiza la relevancia de la variable 'rating' como la variable de interés. Se utiliza la herramienta de clasificación en MATLAB para entrenar el modelo, eligiendo entre diferentes tipos de modelos y utilizando validación cruzada para evaluar la precisión del modelo. Se presenta el uso de una matriz de confusión y la curva ROC para medir la efectividad del modelo, y se destaca que el modelo seleccionado tiene una precisión del 87%. Finalmente, se explica cómo exportar el modelo entrenado y cómo usarlo para predecir la categoría de nuevos clientes.
📝 Aplicación del modelo de Machine Learning a nuevos clientes
El tercer párrafo se enfoca en la aplicación del modelo de Aprendizaje Automático a nuevos clientes. Se describe cómo crear una nueva tabla en MATLAB y cómo usar la fórmula del modelo para predecir la categoría de un cliente sin una calificación previa. Se ilustra cómo el modelo puede ser ajustado y probado con diferentes valores de variables financieras para predecir el tipo de cliente. Se sugiere jugar con diferentes escenarios para entender cómo los cambios en los ratios financieros afectan la predicción del modelo. Se concluye con la idea de que los participantes han aprendido sobre Machine Learning y cómo aplicarlo a sus negocios, tomando datos de sus clientes para predecir categorías deseadas.
Mindmap
Keywords
💡Ciencia de Datos
💡Aprendizaje Automático
💡Machine Learning
💡Base de Datos
💡Calificación de Cliente
💡Modelo
💡Cross-Validation
💡Árboles de Decisión
💡Precisión
💡Matriz de Confusión
💡Curva ROC
Highlights
Ejercicio práctico de ciencia de datos o aprendizaje automático sin necesidad de conocimiento previo.
Contexto: predecir la calificación de crédito de empresas usando ratios financieros.
Importancia de datos reales y la frase 'si metemos basura, saldrá basura' en el modelo de aprendizaje automático.
Uso de MATLAB para importar y manejar la base de datos de créditos.
Selección de variables numéricas relevantes para el modelo de clasificación.
Aplicación de técnicas de aprendizaje automático en MATLAB para clasificar clientes.
Uso de cross-validation para evaluar el rendimiento del modelo de aprendizaje.
Selección del modelo con mayor precisión y análisis de la matriz de confusión.
Exportación del modelo entrenado para su aplicación en futuras predicciones.
Creación de una nueva tabla para probar la predicción del modelo con datos nuevos.
Uso de la fórmula del modelo para predecir la calificación de un nuevo cliente.
Manipulación de datos de ejemplo para entender cómo afecta la predicción del modelo.
Importancia de ajustar los ratios financieros para predecir correctamente la calificación de crédito.
Aprendizaje de machine learning aplicado a negocios sin conocimiento previo.
Invitación a los asistentes a utilizar los datos de sus clientes para predecir categorías deseadas.
Conclusión del ejercicio práctico y llamado a la acción para aplicar los conceptos aprendidos.
Transcripts
bueno ahora con todos hoy vamos a hacer
un ejercicio práctico de ciencia de
datos o aprendizaje automático cabe
destacar que no necesitan ningún
conocimiento previo sobre machine
learning para este ejercicio y esto les
servirá mucho para su negocio vamos a
poner en contexto lo que haremos por
ejemplo aquí tenemos una base de datos
que ustedes tranquilamente la pueden
hacer en este caso es de una empresa que
se dedica a dar créditos a otras
empresas entonces ellos tienen los
ratios de las empresas de sus clientes
tienen una base de datos enorme el
capital de trabajo de la utilidad
retenida sobre activos totales de la
utilidad antes de impuestos y mediante
esta información le dan una calificación
de cliente tipo a es un buen cliente
triple-a es el mejor cliente
y cliente triples son de los peores
clientes entonces qué es lo que hacemos
en base a toda esta información
nosotros queremos predecir a un nuevo
cliente que venga qué sé yo el cliente
comida
por acá vamos al último es una gran
cantidad de datos que ustedes deberían
empezar a tomar datos de su empresa
digamos bien otro cliente y me dan todas
estas características y yo tengo que
predecir qué tipo de cliente va a ser
para ver si me va a pagar o no bueno
esto es muy fácil tienen que hacerlo con
matarla
obviamente sus datos tienen que estar
muy bien hechos o sea tienen que ser
datos reales porque hay una frase que
dice si le metemos basura en crash out
atrás si le metemos basura a nuestro
modelo nuestro modelo nos sacará basura
entonces tenga mucho cuidado con eso ya
que tenemos abierto matlab importamos
esa base de datos
la buscamos la tenemos por acá
crédito si no me equivoco es esta
la abrimos
y esperamos que cargue aquí el
importador de bases de datos de matlab
esto lo podemos cerrar
obviamente guardemos
y aquí tenemos la tabla dejamos tal como
nos selecciona aquí significa que las
las filas ya tienen títulos entonces
importamos le damos en importar
con lo que es lo mismo aquí importar
datos bueno esto ya lo podemos cerrar y
aquí se nos acaba importar la tabla
luego lo que tenemos que hacer es irnos
a la parte de aplicaciones y como esto
es un modelo de clasificación porque
nosotros tenemos datos numéricos
volvamos al excel
tenemos datos numéricos
si ven todos estos datos numéricos y les
estamos dando una categoría de acuerdo a
esos datos entonces lo que vamos a hacer
aquí es clasificar datos de acuerdo a la
categoría en este caso triple a doble a
triple c entonces nos vamos nos vamos a
clasificación y lerner que es parte de
machine lerner
o aprendizaje automático
ya que abre esto suele demorar un poco
nos vamos aquí en nueva sesión
importar desde el espacio de trabajo sea
la tabla que ya acabamos de importar
y nos la va a cargar aquí a la tabla si
ven aquí está la tabla si tuvieron más
tablas se desplegarán aquí pero la
nuestra es la acredita igual
y automáticamente más lava nos dice que
el rating es la variable categórica no
es de número sino de categoría triple a
doble a lo que sea el líder como no es
una variable que nos importa porque solo
es el identificador del cliente es el
industria y la industria que si bien
está en números pero también está
categorizando no nos va a influir en los
datos no la tomamos sólo tomamos las
variables que tengan
números ósea porcentajes números pero
números sólo números aquí es números
pero son números que están categorizando
digamos el 1 es es en la industria 15 en
la industria 5 y así en cambio ventas si
son valores con decimales patrimonio
también espero que me entiendan esto
para que ustedes hagan en su propio en
su propio modelo luego si este cross
validation lo que dice es que va a tomar
un poco de estos datos para hacer un
entrenamiento del modelo y una pequeña
parte en cada lado la va a usar para
testear a ver si el modelo es correcto o
no pero eso ya lo vamos a entender más
acá y dejémoslo con gross validation de
cinco formas que está bien
le damos start station iniciar la sesión
y aquí hay ustedes pueden escoger el que
gusten aquí en este en estos tipos de
modelos
esperamos que cargue un poco pero pueden
escoger el que más les guste
aquí ya nos acaba de clasificar esto es
clasificar si nosotros ampliamos aquí
tenemos clasificados los datos según
su categoría aquí están las categorías
que nos acaba de clasificar si ven aquí
están los datos datos de los clientes
tipos de los clientes tipo wv veo uno
triple aaa doble a los clientes tipo y
aquí nosotros escogemos cualquiera al
que en mano más nos guste yo voy a
escoger en mi caso los árboles de
decisión son términos estadísticos pero
eso lo pueden ver en otro vídeo aquí le
pongo que todos los árboles me los
entren extraño le damos aquí
y el modelo automáticamente los entrena
o sea analiza toda esta tabla de datos y
dice y hace clientes que van con estas
categorías son los ve entonces los
nuevos clientes que se aproximen a estas
categorías
yo les voy a dar una calificación
automáticamente entonces aquí
la precisión aquí no salía de 72.9 por
ciento y ya matlab nos dice cuál tiene
mayor precisión en nuestro caso es el
tri el médium tri ya entonces siempre
escogemos el que tenga mayor precisión
que más la había nuestro mundo
selecciona para los que son economistas
o saben estadística aquí ustedes tienen
una matriz de confusión que no voy a
confundirlos
valga la redundancia pero en sí mide la
efectividad o un rendimiento del modelo
también está la curva la curva rock que
es muy importante si sabe en estadística
también en otras palabras para que lo
entiendan mientras más área tiene la
curva sea mientras más se acerca al 1
así es más precisa es más perfecta lo
perfecto sería que esté totalmente
pegado a uno
pero no hay la perfección en ningún
modelo pero este modelo tiene un 87% lo
que significa que es bueno
porque tiene una buena área con eso
contenten se bueno seleccionamos el
modelo que queremos le damos a exportar
aquí y exportar modelo
aquí nos dice un nombre nosotros
podemos ponerle el nombre que queramos
modelo
modelo modelo 1
y aquí le damos ok
ya con esto hemos exportado el modelo
volvemos a matlab a la ventana principal
y aquí ya nos está dando una fórmula de
predicción es la que vamos a tener que
usar acá pero antes de eso tenemos que
hacer una prueba para que nos prediga
cogemos la tabla original la abrimos con
doble clic seleccionamos cualquier
columna fila perdón cualquier fila
completamente y aquí en nueva sección
desde nueva tabla
desde esta nueva tabla le damos aquí y
nos acaba de crear una nueva tabla esta
otra tabla se llama crédito y vol 1 como
lo pueden ver y aquí vamos a ponerle por
ejemplo solo borramos el rate para que
el modelo nos predica
pongámosle un defines sin valor
indefinido como idea no teníamos vamos a
poner el 0 como también no tenemos
industria vamos a ponerle 0 listo ya
está lista está esta tabla que se va
guardando automáticamente la cerramos a
ésta la cerramos a la otra copiamos esta
es la fórmula del modelo para predecir
entonces lo que estamos haciendo control
uve aquí en vez de te ponemos el nombre
de la tabla crédito table table uno se
llama la nueva tabla que es la que nos
va a predecir esa es la que se entrenó
la acredita y bold y la grieta y
volúmenes con los datos que nosotros
vamos a entrenar
y volvemos le damos enter y
efectivamente ya nos predijo que era un
tipo y así podemos jugar con cualquiera
por ejemplo
cojamos los valores de este cliente
nosotros ya por ejemplo es triple c ya
sabemos que es triple c
pero supongamos que es un nuevo cliente
que nos viene con estas características
o sea un mal pagador
copiamos esto veamos si lo podemos pegar
directamente en la crédito y vol 1 en
matlab doble clic
y me parece que control v sí sí se pegó
si bien es un nuevo cliente yo no le
estoy diciendo qué tipo de cliente es lo
que quiero que es que el modelo él sólo
me diga qué clientes voy a hacer un poco
más acá donde tengo la información
supongamos que esta es la información de
un nuevo cliente todavía puedo saber si
me va a pagar o no hago lo mismo copio
esta fórmula control se pegó aquí
y aquí pongo crédito de word 1 que es la
tabla esta tabla que estamos aquí
listo luego sólo le damos enter
y efectivamente ya el modelo nos predice
tipo c
aquí nosotros podríamos jugar ya para
terminar ponerle cualquier valor o
digamos capital del trabajo tienen 0.5
qué utilidad tiene 0.75 que en esta
utilidad tenga qué sé yo 0.01 que en el
patrimonio tengas
0 punto venga un nuevo cliente con el
20% de este ratio financiero y en ventas
que tengas 0.40 por ejemplo solo me
inventé estos datos supongamos que este
es un nuevo cliente si yo cojo y ya se
guardó la tabla si bien si yo cojo hago
lo mismo aquí
hoy control v y aquí voy a poner crédito
table
aquí el día del modelo nos dirá que
clientes
yo pienso porque le puse ratios altos
que debe ser un triple entonces vamos a
ver si no me equivoco
si ven este cliente es un triple porque
por aquí había una utilidad antes de
impuestos bajas ventas altas pero
por aquí yo creo que es la utilidad
retenida le puse súper alta lo que me le
baja la categoría si yo le bajara esto
agregamos
le bajará esto no a 75% sino a 0.1 por
ciento a 10 obtuvo se guarda la tabla y
copiamos de nuevo a esta fórmula que es
la misma con dulce control v
e igual este ratio lo que nos hizo es
bajarlo bajarle la categoría si le bajó
aún más todavía
0.01 por ejemplo
aquí pego
igual este valor no influye más bien es
el modelo el que en base a una
ponderación de todos estos valores me va
prediciendo
qué cliente va a hacer y cómo lo vimos
aquí
nosotros ya sabíamos qué tipo de cliente
era triple c y el modelo no no le
dijimos que era triple c pero el modelo
ya nos predijo que era un cliente tipo
triple ce y así podemos hacer con los
nuevos clientes bueno en esta clase han
aprendido un poco de machine learning
sin absolutamente ningún conocimiento
previo esto es muy fácil lo que lo único
que quería es que me entiendan y como lo
pueden aplicar a sus negocios así que
desde ahora ustedes ya van a tener que
tomar datos de sus clientes qué sé yo
aquí pueden hacer una tabla de el
cliente los ingresos mensuales si es
casado divorciado bueno aunque éstas son
categóricas podríamos poner
el porcentaje de deuda que tiene qué sé
yo ustedes pueden sacar mucha
información de sus clientes y con eso
predecir una categoría que ustedes
quieren que ustedes quieran asignar
eso es todo cualquier cosa déjennos en
los comentarios que estaremos gustosos
de atenderlos chau
Browse More Related Video
Como fazer amostragem de dados com Python
🐍 Crear registros con PYTHON y TKINTER [07]
COMO CREAR un ALGORITMO para calcular el área de un triángulo y programar en PSeInt.
Cómo crear tablas y relaciones en Microsoft Access
Cómo CONECTAR un FORMULARIO con una BASE de DATOS en NOTION
Varianza, Desviación Estándar y Coeficiente de Variación | Datos agrupados en intervalos
5.0 / 5 (0 votes)