El proceso decisional en los árboles de decisión

AddKw
12 Jun 202015:00

Summary

TLDREl video explica cómo usamos árboles de decisión para tomar decisiones diarias y cómo las empresas los utilizan en sistemas predictivos y aprendizaje de máquina. Describe cómo los árboles de decisión ayudan a maximizar la satisfacción o el valor esperado al elegir una opción, y cómo se construyen jerárquicamente para predecir resultados. También aborda las diferencias entre problemas de clasificación y regresión, y la importancia de la homogeneidad y entropía en el particionamiento de datos. Finalmente, menciona algunos algoritmos de división de datos utilizados en este proceso.

Takeaways

  • 🌳 Usamos árboles de decisión para tomar decisiones en la vida diaria, como decidir qué hacer el fin de semana.
  • ☔ Las decisiones pueden depender de variables como el clima o la disponibilidad de amigos.
  • 🏠 La decisión que ofrezca mayor satisfacción personal es la que generalmente se elige.
  • 💼 Las empresas utilizan este modelo para sistemas predictivos basados en árboles de decisión y aprendizaje de máquina.
  • 🔍 Los problemas de predicción pueden ser de clasificación (variables categóricas) o regresión (variables numéricas continuas).
  • 🤖 Los árboles de decisión son un método de aprendizaje supervisado ampliamente utilizado en inteligencia artificial.
  • 📚 En el aprendizaje supervisado, la variable que se desea predecir supervisa el proceso de aprendizaje.
  • 🔢 En el aprendizaje no supervisado, no hay una variable de predicción y los conocimientos se forman a partir de relaciones encontradas en los datos.
  • 🌱 El proceso de particionamiento recursivo se usa para dividir datos de entrada en grupos más homogéneos.
  • 🏃‍♂️ La homogeneidad de los datos en los subconjuntos formados aumenta la precisión de las predicciones.

Q & A

  • ¿Qué son los árboles de decisión y cómo se utilizan en la vida diaria?

    -Los árboles de decisión son estructuras que ayudan a tomar decisiones basadas en una serie de condiciones y consecuencias. En la vida diaria, se utilizan para decidir acciones como qué hacer el fin de semana, dependiendo de factores como el clima y la disponibilidad de amigos.

  • ¿Cómo se relaciona la toma de decisiones con el clima en el ejemplo del fin de semana?

    -En el ejemplo, la decisión del fin de semana depende del clima. Si llueve, se opta por salir a comer con amigos o ir al cine, mientras que si el clima es soleado, se considera ir al campo o quedarse en casa viendo videos en familia.

  • ¿Qué es el nivel de satisfacción y cómo se relaciona con la toma de decisiones?

    -El nivel de satisfacción es un criterio para determinar qué decisión ofrece el mayor valor esperado o satisfacción. Se establece para evaluar qué acción tomar en función de las condiciones presentadas, como el clima y la disponibilidad de amigos.

  • ¿Cómo los árboles de decisión se han utilizado en el ámbito empresarial?

    -Los árboles de decisión han servido a las empresas como modelo para sistemas predictivos, basándose en la idea de que una decisión es el producto de un conjunto de eventos y decisiones previas que maximizan el retorno o satisfacción.

  • ¿Qué son los problemas de predicción en el aprendizaje de máquina y cómo se relacionan con los árboles de decisión?

    -Los problemas de predicción son tareas en las que se busca predecir un valor basado en datos previos. Los árboles de decisión son una herramienta utilizada en aprendizaje de máquina para resolver problemas de clasificación y regresión, dependiendo de si se trata de variables categóricas o numéricas continuas.

  • ¿Qué es la clasificación y cómo se realiza en los árboles de decisión?

    -La clasificación es un tipo de problema de predicción donde se predice una variable de tipo categórica. En los árboles de decisión, se dividen los datos en ramas hasta alcanzar un nivel de homogeneidad que permita predecir la clase o categoría deseada.

  • ¿Qué es la regresión y cómo se aplica en los árboles de decisión?

    -La regresión es un problema de predicción donde se predice una variable numérica continua. En los árboles de decisión, se utiliza para predecir valores como volúmenes de ventas o precios de bienes, dividiendo los datos para aumentar la precisión de la predicción.

  • ¿Qué es el aprendizaje supervisado y cómo se diferencia del aprendizaje no supervisado?

    -El aprendizaje supervisado es un tipo de aprendizaje en el que la variable que se desea predecir supervisa y detalla el proceso de aprendizaje hasta alcanzar un valor óptimo. Se diferencia del aprendizaje no supervisado, donde no hay una variable de predicción que supervise el aprendizaje y los conocimientos surgen de relaciones en los datos.

  • ¿Cómo se lleva a cabo el proceso de partición de datos en los árboles de decisión?

    -El proceso de partición de datos, también conocido como particionamiento recursivo, consiste en dividir los datos de entrada en grupos homogéneos, utilizando variables como el sexo, la edad o la raza, para aumentar la precisión de la variable predecir.

  • ¿Qué es la entropía y cómo se relaciona con la homogeneidad de los datos en un árbol de decisión?

    -La entropía es un indicador que mide el nivel de desorden o incertidumbre de los datos. Un bajo nivel de entropía indica una mayor homogeneidad, lo que significa que los datos son más previsibles y la variable predecir es más uniforme dentro de un subconjunto de datos.

  • ¿Cuáles son algunos algoritmos de división de datos comunes utilizados en los árboles de decisión?

    -Algunos algoritmos de división de datos comunes en los árboles de decisión incluyen el índice Gini, el cálculo del chi-cuadrado, la ganancia de la información y la reducción de la varianza.

Outlines

00:00

🌳 Árboles de Decisión en la Vida Diaria y Negocios

El primer párrafo introduce el concepto de los árboles de decisión como herramienta utilizada inconscientemente en la toma de decisiones cotidianas, como decidir qué hacer el fin de semana basándose en el clima y la disponibilidad de amigos. Se describe cómo se construye mentalmente un árbol de decisiones jerárquicas para maximizar la satisfacción personal. Además, se explica cómo este proceso se ha adoptado en empresas para sistemas predictivos y aprendizaje automático, enfocándose en la predicción de eventos y decisiones que maximizan el retorno o satisfacción. Se mencionan los problemas de predicción como clasificación y regresión, y cómo los árboles de decisión son una técnica de aprendizaje supervisado en inteligencia artificial.

05:04

🎓 Aprendizaje Supervisado vs. No Supervisado

El segundo párrafo compara el aprendizaje supervisado con el no supervisado, destacando que en el primero hay una variable que supervisa y detiene el proceso de aprendizaje cuando alcanza un valor óptimo, mientras que en el segundo, el conocimiento surge de relaciones en grupos de datos sin una variable de supervisión. Se describen aplicaciones de aprendizaje supervisado en sistemas de carros inteligentes, estimación del ciclo de vida del cliente y modelos de predicción de deserción. El proceso de aprendizaje comienza con la partición de datos y se profundiza en el particionamiento recursivo para crear un árbol de decisiones, buscando maximizar la homogeneidad de los grupos de datos y, por ende, la precisión de la predicción.

10:05

📊 Procesamiento de Datos y Algoritmos de División en Árboles de Decisión

El tercer párrafo se centra en el proceso de división de datos y la importancia de la homogeneidad en los subconjuntos para la precisión de las predicciones. Se discute la elección de variables para la división, como sexo, edad y raza, y cómo estos criterios aumentan la pureza de los datos a medida que se va descendiendo en el árbol. Se introduce el concepto de entropía como indicador de desorden de los datos y se da un ejemplo de cómo la homogeneidad puede variar en diferentes contextos, como la aceptación de un menú vegetariano en función de la edad de los clientes. Finalmente, se mencionan diferentes algoritmos de división de datos utilizados en árboles de decisión, como el índice Gini, el cálculo delCCI (Chi-cuadrado), la ganancia de información y la reducción de la varianza.

Mindmap

Keywords

💡Árbol de decisión

El árbol de decisión es una herramienta utilizada tanto en la toma de decisiones cotidianas como en sistemas predictivos y aprendizaje automático. Es una estructura de ramificación que permite evaluar secuencialmente diferentes opciones hasta llegar a una decisión óptima. En el video, se ilustra cómo construir un árbol de decisión para planificar actividades de fin de semana basándose en el clima y la disponibilidad de amigos, lo que demuestra su utilidad en la vida diaria.

💡Satisfacción esperada

La satisfacción esperada es un concepto que se refiere a la valoración de una decisión basada en la probabilidad de obtener una mayor satisfacción personal. En el guion, se menciona que al tomar decisiones, como quedarse a ver videos en casa debido a la lluvia y la indisponibilidad de amigos, se busca la ruta de decisión que ofrezca una mayor satisfacción esperada.

💡Aprendizaje de máquina

El aprendizaje de máquina es un campo de la inteligencia artificial que permite a las computadoras aprender y mejorar a través de la experiencia sin ser programadas explícitamente. En el video, se describe cómo los árboles de decisión son una técnica de aprendizaje de máquina que se utiliza para construir modelos predictivos basados en una secuencia de decisiones.

💡Partición de datos

La partición de datos es el proceso de dividir los datos de entrada en grupos para facilitar su análisis y predicción. En el script, se menciona que el aprendizaje comienza con la partición de los datos y que este proceso se repite continuamente a través del particionamiento recursivo para alcanzar condiciones óptimas.

💡Particionamiento recursivo

El particionamiento recursivo es un proceso iterativo que se utiliza en los árboles de decisión para dividir los datos en subconjuntos más homogéneos. El script explica que este proceso continúa hasta que se alcanzan los subconjuntos óptimos, es decir, donde la variable a predecir sea lo más predecible posible.

💡Homogeneidad

La homogeneidad se refiere a la uniformidad de los datos dentro de un conjunto, lo que permite una predicción más precisa. En el guion, se utiliza como criterio para el particionamiento de datos, buscando aumentar la homogeneidad para mejorar la precisión de las predicciones.

💡Entropía

La entropía es un indicador de la imprevision o desorden en los datos. En el video, se describe cómo la entropía mide el nivel de desorden y se utiliza para evaluar la homogeneidad de los datos, siendo un factor clave en la toma de decisiones y en el diseño de modelos predictivos.

💡Aprendizaje supervisado

El aprendizaje supervisado es un tipo de aprendizaje de máquina donde los resultados se conocen de antemano y se utiliza esta información para entrenar al modelo. En el script, se menciona como un método donde la variable a predecir supervisa y regula el proceso de aprendizaje hasta alcanzar un valor óptimo.

💡Aprendizaje no supervisado

El aprendizaje no supervisado es otro enfoque del aprendizaje de máquina donde no se proporcionan resultados previamente conocidos. En el video, se contrasta con el aprendizaje supervisado, señalando que en este último no hay una variable de predicción que supervise el aprendizaje, y los conocimientos surgen de las relaciones encontradas en los datos.

💡Algoritmos de división de datos

Los algoritmos de división de datos son métodos utilizados para segmentar los datos en árboles de decisión. En el script, se mencionan varios de estos algoritmos, como el índice Gini, el cálculo del CCI (cuarteto de correlación), la ganancia de información y la reducción de la varianza, que son fundamentales para la creación de nodos y la toma de decisiones en los árboles de decisión.

Highlights

Los árboles de decisión son utilizados diariamente para tomar decisiones sin notarlo, como decidir qué hacer el fin de semana dependiendo del clima.

La construcción mental de un árbol de decisiones jerárquico y secuencial es esencial para maximizar la satisfacción personal en las decisiones.

Los sistemas predictivos basados en árboles de decisión y aprendizaje de máquina buscan maximizar el retorno o satisfacción posible.

La decisión óptima para una empresa es aquella que ofrece el mayor valor, basado en eventos y decisiones previas.

Los problemas de predicción se clasifican en clasificación, cuando se predice una variable categórica, y regresión, para variables numéricas continuas.

Los árboles de decisión son un proceso de aprendizaje supervisado, donde la variable a predecir supervisa los resultados del aprendizaje.

El aprendizaje no supervisado no tiene una variable de predicción que supervise el aprendizaje, y se basa en relaciones encontradas en grupos de datos.

El aprendizaje supervisado se aplica en áreas como el reconocimiento de peatones en vehículos inteligentes y la estimación del ciclo de vida del cliente.

El proceso de aprendizaje comienza con la partición de datos de entrada, conocido como partición ambiental inicial.

La partición recursiva es un proceso repetitivo que busca crear grupos de datos más homogéneos en relación a la variable a predecir.

La homogeneidad se mide por la calidad de los grupos, indicando una menor variabilidad y mayor uniformidad de los datos.

El proceso de inducción top-down de los árboles de decisión es un algoritmo de árboles de decisión comúnmente utilizado.

La división de los datos en árboles de decisión es fundamental y afecta la precisión de la variable a predecir.

Los algoritmos de división de datos son importantes para el particionamiento recursivo y difieren entre árboles de clasificación y regresión.

La entropía es un indicador de la homogeneidad de los datos, midiendo el nivel de desorden y la imprevisibilidad de los mismos.

La elección de variables para dividir los datos es crítica para el modelo de predicción optimizado.

Los algoritmos de división de datos establecen criterios y atributos para segmentar los datos y crear nodos en el árbol.

Algunos algoritmos de división comunes incluyen el índice Gini, el cálculo del CCI (cuadrado de la chi), la ganancia de información y la reducción de la varianza.

Transcripts

play00:06

[Música]

play00:11

seguramente todos nosotros empleamos los

play00:14

árboles de decisión para tomar

play00:16

decisiones en la vida diaria casi sin

play00:18

darnos cuenta por ejemplo para decidir

play00:22

qué hacer el fin de semana nuestra

play00:24

decisión puede depender de cómo estará

play00:26

el clima de modo que si llueve podremos

play00:28

elegir si salimos con amigos a comer a

play00:31

un restaurante o si nuestros amigos

play00:34

están disponibles podremos decidir ir al

play00:36

cine en caso contrario si estos no están

play00:40

disponibles podremos quedarnos en casa

play00:42

ver vídeos

play00:44

si el clima es soleado de otro lado

play00:46

podremos decidir ir al campo o también

play00:49

quedarnos en casa a ver vídeos en

play00:51

familia

play00:54

para tomar esta decisión debemos

play00:56

construir mentalmente un árbol

play00:57

jerárquico y secuencial de decisiones

play01:01

en este caso por la naturaleza de la

play01:03

edición para obtener un resultado sobre

play01:05

qué hacer el fin de semana deberíamos

play01:08

establecer un nivel de satisfacción para

play01:10

cada decisión que tomamos así podríamos

play01:13

decir por el camino que nos daría el

play01:15

mayor valor esperado o la mayor

play01:18

satisfacción esperada

play01:20

suponiendo que elijamos quedarnos en

play01:22

casa a ver videos debido a que lloverá

play01:24

no estarán libres y disponibles mis

play01:27

amigos debemos hacerlo siempre que esta

play01:31

ruta de decisión sea la que ofrezca una

play01:34

mayor satisfacción personal este proceso

play01:38

de decisión sobre una acción a realizar

play01:42

en el futuro ha servido a las empresas

play01:44

como modelo para los sistemas

play01:46

predictivos basados en árboles de

play01:48

decisión y aprendizaje de máquina y se

play01:52

fundamenta en que una decisión es

play01:55

producto de un conjunto de eventos y

play01:57

decisiones previas que maximizan el

play02:00

retorno o proporcionar la mayor

play02:02

satisfacción posible como hemos visto en

play02:05

el caso anterior

play02:07

esta decisión como se ha visto no es

play02:10

única ya que dependiendo de las

play02:12

condiciones del clima podríamos haber

play02:15

elegido ir al cine oa comer a un

play02:17

restaurante o al campo pero esta

play02:20

decisión es la que ofrece un mayor valor

play02:23

para la empresa este valor es el que

play02:27

debemos predecir y que será el criterio

play02:29

principal para la elección de una

play02:33

decisión

play02:35

el concepto de los árboles de decisión

play02:38

en el aprendizaje de máquina es el mismo

play02:41

y se basa en construir un árbol con un

play02:44

conjunto de decisiones secuenciales y

play02:46

jerárquicas programadas en un computador

play02:49

que arrojan al final una valoración de

play02:53

un conjunto de decisiones a tomar esta

play02:56

valoración es consecuencia de una

play02:58

predicción del mejor valor que se podría

play03:02

esperar al elegir una decisión

play03:04

[Música]

play03:06

dependiendo de lo que uno desea predecir

play03:08

los problemas de predicción pueden ser

play03:11

de clasificación cuando se va a predecir

play03:13

las variables de tipo categoría o

play03:16

problemas de regresión cuando se va a

play03:19

predecir una variable de tipo numérica

play03:22

continua por ejemplo problemas de

play03:25

clasificación pueden ser saber qué hacer

play03:28

el próximo fin de semana es decir si

play03:31

iremos al cine a comer a un restaurante

play03:33

o al campo etcétera otro problema de

play03:37

clasificación es predecir si un cliente

play03:40

de un banco pagará o no las cuotas de su

play03:43

préstamo o finalmente un problema de

play03:47

clasificación también podría ser

play03:48

predecir si un paciente va a ser

play03:51

afectado o no por la enfermedad de la

play03:54

diabetes

play03:56

problemas de la agresión pueden ser

play03:59

predecir los volúmenes de ventas de mi

play04:01

negocio el próximo año también podrían

play04:04

ser predecir los precios de las casas de

play04:08

una localidad o región o finalmente

play04:13

también podría corresponder a los

play04:17

problemas referidos a determinar cuál

play04:19

sería el mejor precio posible de mi

play04:22

producto para mi próxima campaña de

play04:24

venta

play04:26

los árboles de decisión son uno de los

play04:29

procesos de aprendizaje supervisado más

play04:30

utilizados en inteligencia artificial

play04:34

se conocen como algoritmos de

play04:36

aprendizaje supervisados por el hecho

play04:38

que la variable que se desea predecir

play04:40

supervisa los resultados del proceso de

play04:42

aprendizaje continuamente y detiene el

play04:45

proceso cuando esta variable ha

play04:47

alcanzado un valor óptimo haciendo un

play04:50

símil es como un maestro que debe lograr

play04:54

una alta calificación

play04:57

que en este caso en la variable predecir

play04:59

en los estudiantes de su sección o aula

play05:03

esta variable supervisa el aprendizaje

play05:08

de sus estudiantes

play05:10

en el caso que esta calificación

play05:14

alcancé un determinado valor el proceso

play05:18

de aprendizaje se detiene

play05:23

en el aprendizaje no supervisado no hay

play05:25

una variable de predicción que supervisa

play05:28

el aprendizaje del modelo y los

play05:30

conocimientos son producto de las

play05:32

relaciones encontradas en los diversos

play05:34

grupos o clusters de datos que se forman

play05:38

es como si un grupo de estudiantes

play05:41

aprenden cada uno de una manera

play05:43

independiente encontrando conocimiento

play05:46

diverso que después deberá ser

play05:48

organizado en grupos o clusters de

play05:50

conocimiento aquí no interviene ninguna

play05:53

variable como en el caso anterior la

play05:56

calificación

play05:57

para supervisar y detener el proceso de

play06:00

aprendizaje

play06:04

y el aprendizaje supervisado es

play06:06

utilizado en diversas aplicaciones como

play06:09

en los carros inteligentes para

play06:11

reconocer a los peatones y objetos

play06:13

también es usado para

play06:16

poder estimar el ciclo de vida del

play06:18

cliente en las empresas o finalmente se

play06:21

empleada en los modelos de predicción de

play06:23

las tasas de deserción de clientes

play06:26

el aprendizaje comienza con la partición

play06:29

o subdivisión de los datos de entrada

play06:31

proceso que se conoce como partición

play06:35

ambiente inicial y que será repetido

play06:37

continuamente este proceso de

play06:40

posicionamiento continuo se conoce como

play06:43

particionamiento recursivo y se realiza

play06:46

hasta que se alcance las condiciones

play06:48

óptimas el criterio de posicionamiento

play06:51

se basa en crear grupos de datos donde

play06:53

la variable predecir sea más homogénea o

play06:56

determinada es decir menos aleatoria

play06:59

veamos de qué cosa se trata

play07:03

por ejemplo si en un colegio deseamos

play07:05

predecir cuál es el deporte preferido de

play07:07

un estudiante lo primero que deberíamos

play07:10

hacer es dividir los datos de entrada

play07:12

formando grupos homogéneos que me

play07:14

indiquen qué tipo de deporte preferirían

play07:18

la primera división la hacemos tomando

play07:20

la variable sexo separando a los varones

play07:24

de las mujeres formando dos grupos

play07:26

homogéneos la calidad de homogéneo

play07:28

indica que un conjunto de datos es más

play07:31

predecible con respecto a la variable

play07:33

objetivo y es verdad ya que los hombres

play07:37

y las mujeres tienen preferencias desde

play07:39

bordes más uniformes como grupos

play07:42

independientes que en el caso que

play07:45

estuvieran todos juntas

play07:48

él particionamiento recursivo debe

play07:51

continuar para ir construyendo el árbol

play07:53

de decisiones la segunda variable que

play07:56

podría ayudarme es la edad

play07:58

de esta manera dividimos a los

play08:01

estudiantes jóvenes y adolescentes y los

play08:03

separamos de los estudiantes niños

play08:07

estos nuevos grupos formados serán aún

play08:10

más homogéneos ya que estudiantes

play08:13

jóvenes o adolescentes por un lado y de

play08:16

otro lado estudiantes niños tienen

play08:18

preferencias de deportes más definidas

play08:20

como sus grupos que si estuvieran todos

play08:23

juntos puedo continuar con él

play08:27

particionamiento recursivo buscando

play08:29

grupos aún más homogéneos como por

play08:31

ejemplo dividiendo el árbol por raza y

play08:34

así sucesivamente buscando la

play08:36

homogeneidad de los grupos lo que se

play08:39

pretende es encontrar subgrupos donde

play08:42

sea más predecible determinar una

play08:44

preferencia de deporte la recursividad

play08:48

termina cuando en un subconjunto

play08:52

inferior todos los estudiantes tienen

play08:54

una única preferencia de deportes o

play08:56

cuando la partición ya no agrega valor a

play09:00

las predicciones

play09:02

este proceso de inducción top-down de

play09:04

los árboles de decisión es un ejemplo de

play09:07

un algoritmo horas y es con mucho el

play09:10

método más común para el proceso de

play09:13

aprendizaje en los árboles de decisión

play09:16

la división de los datos de entrada en

play09:19

ramas en los árboles de decisión es

play09:21

fundamental y afecta a la precisión de

play09:24

la variable predecir como entonces

play09:27

podemos decidir qué es un conjunto de

play09:29

datos e ir creando cuáles serían las

play09:32

variables que usaremos para dividir

play09:35

nuestros datos

play09:36

y el aprendizaje de máquina y los

play09:39

algoritmos de división de los datos son

play09:41

muy importantes para el proceso de

play09:43

particionamiento recursivo y en el caso

play09:46

de los algoritmos de división éstos

play09:49

difieren para los árboles de

play09:50

clasificación y los de regresión

play09:53

recordemos que los árboles de

play09:55

clasificación crediticia y variables de

play09:58

tipo categorías como por ejemplo si un

play10:01

cliente de un banco tomara un préstamo

play10:03

sí o no

play10:05

en tanto los árboles de la versión

play10:08

predicen variables numéricas continuas

play10:10

como por ejemplo cuál será el volumen de

play10:13

ventas de mi negocio el próximo año

play10:17

los árboles de decisión dividen los

play10:21

datos de atrás seleccionando la variable

play10:22

que ofrece subconjunto de datos más

play10:25

homogéneos con relación a la variable

play10:27

predecir en nuestro ejemplo anterior

play10:31

fueron tres las variables que ayudaron a

play10:33

la división de los datos el sexo la edad

play10:35

y la raza pero que cose la homogeneidad

play10:41

la homogeneidad se entiende como la

play10:44

menor variabilidad o mayor uniformidad

play10:47

de los datos en un subconjunto de datos

play10:50

determinado

play10:52

por ejemplo si no ando camps estudia la

play10:55

introducción de un nuevo menú

play10:57

vegetariano y tiene dos grupos de

play10:59

clientes identificados por edades el

play11:02

primero de 15 a 40 años y el segundo los

play11:06

clientes mayores de 40 años es muy

play11:08

probable que el grupo de clientes

play11:12

mayores de 40 años sea el más homogéneo

play11:15

predecible con relación a la aceptación

play11:17

del menú vegetariano porque porque hay

play11:21

una mayor probabilidad que un cliente al

play11:24

azar de este grupo acepte el menú

play11:26

vegetariano por razones de salud en

play11:30

tanto el grupo de clientes de 15 40 años

play11:33

es más heterogéneo si lo comparamos con

play11:37

las preferencias o la aceptación del

play11:41

menú vegetariano

play11:43

ya que un cliente al azar de este grupo

play11:46

no puede ser identificado con precisión

play11:49

sobre su preferencia con relación al

play11:51

menú vegetariano como lo acabamos de

play11:54

mencionar

play11:56

los árboles de decisión clasifican los

play11:59

datos en sus conjuntos cada subconjunto

play12:02

de datos conforme se va descendiendo en

play12:04

el árbol a través de las ramas aumenta

play12:07

su nivel de homogeneidad es decir

play12:10

aumenta la pureza o precisión con

play12:12

relación a la variable predecir en este

play12:15

punto debemos definir la variable

play12:18

entropía que es un indicador asociado a

play12:22

la mujer a la homogeneidad y que mide el

play12:25

nivel de desorden de los datos en el

play12:27

sentido que éstos no son previsibles

play12:29

homogéneos

play12:32

veamos un ejemplo si comparamos a los

play12:35

alumnos de la universidad pública de

play12:36

california eeuu y a los alumnos de la

play12:39

universidad de chicago que es una de las

play12:41

más caras en eeuu y los comparamos con

play12:45

relación al nivel de ingreso de sus

play12:46

familias veríamos que existe una mayor

play12:49

uniformidad y homogeneidad en los

play12:52

niveles de ingreso de las familias de

play12:54

los alumnos de la universidad de chicago

play12:56

que en los de la universidad de

play12:59

california dicho de otra manera si yo

play13:03

extraigo al azar a un alumno de la

play13:06

universidad de chicago puedo predecir

play13:08

con mayor precisión el nivel económico

play13:10

de su familia en comparación con un

play13:14

alumno que tomo al azar de la

play13:17

universidad de california donde las

play13:19

familias son de una gran diversidad de

play13:22

orígenes

play13:24

este nivel de heterogeneidad de los

play13:28

ingresos familiares de los

play13:31

estudiantes de la universidad de

play13:33

california se conoce como entropía la

play13:36

mayor incertidumbre mayor entropía en

play13:41

este punto debemos reflexionar sobre el

play13:44

proceso crítico de particionamiento de

play13:47

datos para poder obtener un modelo de

play13:49

predicción optimizado estos procesos

play13:52

denominados algoritmos de división de

play13:54

datos de los árboles de decisión

play13:57

establecen los criterios y deciden los

play13:59

atributos o variables necesarios para

play14:02

segmentar los datos y crear los nodos

play14:05

del árbol

play14:07

algunos algoritmos de división de datos

play14:10

más comunes para el particionamiento son

play14:13

el índice gini

play14:18

el cálculo del cci cuadrado la ganancia

play14:22

de la información y finalmente en la

play14:24

reducción de la varianza los algoritmos

play14:28

de división serán desarrollados en

play14:31

sesiones posteriores

play14:34

[Música]

Rate This

5.0 / 5 (0 votes)

相关标签
Árboles de decisiónAprendizaje supervisadoMachine learningIAPredicciónClasificaciónRegresiónDatosAlgoritmosHomogeneidad
您是否需要英文摘要?