Modelización de datos en Big Data

Mundo Valor, el canal de la valuación
4 Oct 202109:51

Summary

TLDREl script explora la modelización de datos en el contexto de Big Data, enfocándose en la transformación de grandes volúmenes de datos en información útil para el negocio. Se discuten técnicas de modelado como el aprendizaje supervisado y no supervisado, y se destaca la importancia de la métrica de evaluación para medir la efectividad del modelo. La fase crítica de modelización implica entrenar y evaluar modelos para generalizar patrones y evitar el sobreentrenamiento, con el objetivo de construir un modelo analítico que pueda estimar, por ejemplo, el valor de una vivienda.

Takeaways

  • 📈 El script habla sobre la importancia de la modelización de datos en big data para transformar grandes volúmenes de datos en información útil para el negocio.
  • 🔍 Se menciona que el análisis de datos incluye la inspección, limpieza, transformación y modelación de datos para construir modelos analíticos.
  • 🏠 Un modelo analítico es una fórmula matemática que toma datos y devuelve un resultado, como estimar el valor de una vivienda.
  • 📚 Se describen las etapas de modelización, incluyendo conocer técnicas de modelado, definir métricas de evaluación, entrenar modelos y evaluar el modelo final.
  • 🤖 Se agrupan las técnicas de modelado en aprendizaje supervisado y no supervisado, donde el primero se basa en datos con 'pistas' y el segundo busca patrones sin ellas.
  • 🔍📊 Se destacan métricas de evaluación como el porcentaje de aciertos, la cantidad de radar y áreas bajo curvas para comparar modelos.
  • 🔧 Se menciona la necesidad de evitar el overfitting o sobreentrenamiento al construir modelos, asegurándose de que los patrones sean generalizables.
  • 🔄 Se describe el proceso de entrenamiento de modelos, que implica dividir los datos en conjuntos de entrenamiento, validación y prueba.
  • 🏆 Se resalta la importancia de elegir el mejor modelo usando el conjunto de validación y una métrica de evaluación adecuada.
  • 📉 Se discuten los desafíos de decidir entre modelos interpretables (caja blanca) y no interpretables (caja negra), y cómo esto afecta la comprensión de los patrones y decisiones del modelo.
  • 📝 Se enfatiza la importancia de la fase de modelado para extraer conocimiento de los datos y mejorar la solución y resolución del problema, requiriendo un sólido conocimiento en estadística y machine learning.

Q & A

  • ¿Qué es Big Data y cómo ayuda en la transformación de datos en información útil para el negocio?

    -Big Data se refiere a la gran cantidad de datos que se pueden procesar para obtener información valiosa. Ayuda a transformar grandes volúmenes de datos en información útil para el negocio a través del análisis de datos, que incluye la inspección, limpieza, transformación y modelación de los datos.

  • ¿Cuál es el objetivo de la fase de modelización de datos en el análisis de Big Data?

    -El objetivo de la fase de modelización es construir un modelo analítico a partir del conjunto de datos generado, que pueda devolver un resultado, como por ejemplo estimar el valor aproximado de una vivienda conociendo su superficie y características.

  • ¿Cuáles son las dos tipologías principales de técnicas de modelado mencionadas en el guion?

    -Las dos tipologías principales de técnicas de modelado son el aprendizaje supervisado y el aprendizaje no supervisado.

  • ¿Qué problemas se abordan en el aprendizaje no supervisado y cómo se diferencia de los problemas de aprendizaje supervisado?

    -En el aprendizaje no supervisado, no se tienen muchos datos y se pide al algoritmo que encuentre o identifique patrones sin darle ninguna pista. En cambio, el aprendizaje supervisado se basa en datos existentes y se proporciona pistas al algoritmo para que pueda aprender.

  • ¿Qué es el overfitting y cómo se evita en el proceso de modelado?

    -El overfitting, o sobreentrenamiento, ocurre cuando el modelo aprende patrones específicos de los datos de entrenamiento en lugar de patrones generalizables. Se evita utilizando una metodología de entrenamiento que divide los datos en conjuntos de entrenamiento, validación y prueba.

  • ¿Cuáles son algunos ejemplos de algoritmos de aprendizaje no supervisado?

    -Algunos ejemplos de algoritmos de aprendizaje no supervisado incluyen k-means, clustering jerárquico y TSM (Modelado de Series de Tiempo por Métodos de Segmentación).

  • ¿Cuáles son algunos ejemplos de algoritmos de aprendizaje supervisado?

    -Algunos ejemplos de algoritmos de aprendizaje supervisado incluyen la regresión lineal, la regresión logística, los árboles de decisión y las redes neuronales.

  • ¿Qué es una métrica de evaluación y cómo se utiliza en el proceso de modelado?

    -Una métrica de evaluación es una medida que permite medir la capacidad del modelo. Se utiliza para comparar distintos modelos y elegir el mejor, basándose en su rendimiento en conjuntos de validación y prueba.

  • ¿Qué es el objetivo de utilizar el conjunto de validación en el proceso de entrenamiento de modelos?

    -El objetivo del conjunto de validación es calcular la métrica de evaluación con datos que el modelo no ha visto, lo que permite comparar y seleccionar el modelo que ha aprendido mejor y evitar el overfitting.

  • ¿Qué es la interpretabilidad de un modelo y por qué es importante elegir entre modelos interpretables o no interpretables?

    -La interpretabilidad de un modelo se refiere a la capacidad de entender los motivos por los que el modelo toma ciertas decisiones. Es importante elegir entre modelos interpretables (caja blanca) o no interpretables (caja negra) dependiendo de si se necesita entender los patrones aprendidos o si se prioriza la complejidad y el rendimiento del modelo.

  • ¿Qué retos se enfrentan en la fase de modelado y cómo se abordan estos desafíos?

    -En la fase de modelado, los retos incluyen decidir entre modelos interpretables o no interpretables, encontrar una métrica de evaluación adecuada al problema, y asegurarse de tener suficientes datos con los patrones de comportamiento necesarios. Se abordan estos desafíos con un conocimiento robusto de estadística y machine learning, y adaptando la metodología de entrenamiento y evaluación de los modelos.

Outlines

00:00

📊 Modelización de Datos en Big Data

El primer párrafo introduce el concepto de modelización de datos dentro del contexto de Big Data. Se resalta cómo Big Data transforma grandes volúmenes de datos en información útil para el negocio a través del análisis de datos. Se describe el proceso de modelización, que incluye la construcción de un modelo analítico a partir de un conjunto de datos, utilizando técnicas como la aprendizaje supervisado y no supervisado. Se mencionan ejemplos de algoritmos y se destaca la importancia de evitar el overfitting para garantizar que los patrones encontrados sean generalizables.

05:02

🔍 Metodología de Entrenamiento y Evaluación de Modelos

El segundo párrafo se enfoca en la metodología de entrenamiento y evaluación de modelos. Se explica la división de los datos en tres conjuntos: entrenamiento, validación y prueba. Se discute el uso del conjunto de validación para comparar y seleccionar el mejor modelo, y el conjunto de prueba para evaluar su rendimiento con datos nuevos. Se menciona la importancia de la interpretabilidad de los modelos y la elección de una métrica de evaluación adecuada según el problema, destacando la diferencia entre modelos interpretables (caja blanca) y modelos no interpretables (caja negra). Además, se señala la complejidad de esta fase y la necesidad de un sólido conocimiento en estadística y machine learning.

Mindmap

Keywords

💡Modelización de datos

La modelización de datos es el proceso de crear un modelo analítico a partir de grandes volúmenes de datos, con el fin de transformar la información en conocimiento útil para la toma de decisiones empresariales. En el video, se resalta cómo la modelización es una fase crítica en el análisis de big data, donde se construye un modelo matemático que toma datos como entrada y devuelve un resultado, como estimar el valor de una vivienda.

💡Big Data

Big Data se refiere a conjuntos de datos extremadamente grandes y complejos que, gracias a la tecnología moderna, se pueden procesar para obtener información valiosa. En el contexto del video, big data es fundamental para la modelización, ya que es a partir de este gran volumen de información que se extrae la información útil para el negocio.

💡Aprendizaje supervisado

El aprendizaje supervisado es un tipo de aprendizaje automático donde el algoritmo recibe datos etiquetados para 'aprender' patrones y luego predecir resultados. En el video, se menciona que este tipo de aprendizaje se basa en datos existentes que proporcionan 'pistas' al algoritmo, como en el caso de clasificar a los estudiantes en función de su desempeño académico.

💡Aprendizaje no supervisado

El aprendizaje no supervisado implica que el algoritmo busca patrones en los datos sin tener una 'pista' previa o etiquetas. Es utilizado cuando no se tienen datos etiquetados y se desea que el algoritmo identifique relaciones o estructuras por sí mismo, como agrupar personas basándose en similitudes en sus características.

💡Métricas de evaluación

Las métricas de evaluación son herramientas utilizadas para medir la precisión y el rendimiento de un modelo de aprendizaje automático. El script menciona varias métricas, desde las sencillas como el porcentaje de aciertos hasta las más complejas como el área bajo la curva ROC, y resalta la importancia de elegir una métrica adecuada para comparar y seleccionar el mejor modelo.

💡Sobreajuste (Overfitting)

El sobreajuste ocurre cuando un modelo se ajusta demasiado bien a los datos de entrenamiento y pierde la capacidad de generalizar para nuevos datos. En el video, se da como ejemplo el problema de que el modelo aprenda patrones específicos de datos limitados, lo que puede llevar a predicciones incorrectas en contextos más amplios.

💡Conjunto de entrenamiento

El conjunto de entrenamiento es una parte de los datos que se utiliza para enseñarle a un modelo a identificar patrones y hacer predicciones. Es fundamental en el proceso de modelización, como se describe en el video, para que el modelo aprenda a partir de una base de conocimientos representativa.

💡Conjunto de validación

El conjunto de validación es otro subconjunto de datos que se utiliza para ajustar los parámetros del modelo y seleccionar el modelo más adecuado durante el entrenamiento. En el video, se resalta su importancia para calcular la métrica de evaluación y comparar los modelos para elegir el mejor.

💡Conjunto de test

El conjunto de test es el último subconjunto de datos que no ha sido visto por el modelo durante el entrenamiento y se utiliza para evaluar su rendimiento final. El script menciona que este conjunto permite medir el acierto del modelo con nuevos datos y es crucial para determinar su efectividad en escenarios reales.

💡Cajas negras

Las 'caja negras' se refieren a modelos de aprendizaje automático que son complejos y no fácilmente interpretables, a diferencia de los modelos interpretables o 'caja blanca'. El video discute la elección entre estos dos tipos de modelos, dependiendo de si se valora más la capacidad de entender los patrones aprendidos o la complejidad y potencia del modelo.

💡Interpretabilidad

La interpretabilidad de un modelo se refiere a la facilidad con la que se pueden entender las razones detrás de sus decisiones. Es un tema clave en el video, donde se debate entre la elección de modelos más sencillos y explicativos frente a modelos más complejos que pueden tener una mayor capacidad de aprendizaje pero son menos claros en sus procesos.

Highlights

La voz del tasador presenta una oportunidad para escuchar sobre el mundo de la evaluación.

Big Data ayuda a transformar grandes volúmenes de datos en información útil para el negocio.

El análisis de datos es el proceso de inspeccionar, limpiar, transformar y modelar datos.

Se expondrá la fase de modelización de datos, que consiste en construir un modelo analítico.

Un modelo analítico es una fórmula matemática que toma datos y devuelve resultados, como estimar el valor de una vivienda.

Se conocerán las etapas de modelización: conocer técnicas de modelado, métricas de evaluación, entrenar modelos y evaluar el modelo final.

Las técnicas de modelado se agrupan en aprendizaje supervisado y no supervisado.

Aprendizaje no supervisado implica encontrar patrones sin pistas, mientras que el supervisado se basa en datos existentes.

Ejemplos de algoritmos no supervisados incluyen k-means, jerárquico y clustering.

Ejemplos de algoritmos supervisados incluyen regresión lineal, logística, árboles de decisión y redes neuronales.

La métrica de evaluación es crucial para medir la capacidad del modelo y comparar diferentes modelos.

Se debe evitar el overfitting, asegurándose de que los patrones sean generalizables.

El entrenamiento de modelos utiliza conjuntos de entrenamiento, validación y test para asegurar su efectividad.

La evaluación del modelo ganador se realiza en el conjunto de test para medir su acierto frente a nuevos datos.

La fase de modelado es crítica, donde se extrae el conocimiento y se mejora la comprensión del problema.

El científico de datos aporta valor en la fase de modelado al conocer mejor el problema y las variables relacionadas.

Se debe decidir entre modelos interpretables (caja blanca) y no interpretables (caja negra) según la necesidad.

La elección de la métrica de evaluación debe ser adecuada al problema, considerando el tipo de errores permitidos.

Es importante tener claro si se dispone de suficientes datos que describan los patrones de comportamiento.

La fase de modelado es compleja y requiere conocimientos robustos de estadística y machine learning.

Transcripts

play00:00

la voz del tasador una oportunidad para

play00:04

escuchar todo lo que acontece en el

play00:07

mundo de la evaluación otro proyecto

play00:10

comunicacional de miguel' camacaro

play00:13

ediciones y mundo valor el canal de los

play00:17

avalúos hoy se presenta modelización de

play00:21

datos en big data

play00:24

big data ayuda a transformar un gran

play00:28

volumen de datos en información útil

play00:31

para el desarrollo del negocio a través

play00:34

del análisis de datos que es el proceso

play00:38

de inspeccionar limpiar

play00:41

transformar y modelar los datos en este

play00:45

audio se expondrá la fase de

play00:48

modelización siendo su objetivo

play00:51

construir un modelo analítico a partir

play00:55

del tablón de datos que ya se haya

play00:58

generado un modelo analítico es en

play01:01

esencia una fórmula matemática a la que

play01:05

se le introducen los datos y devolverá

play01:08

un resultado por ejemplo estimar el

play01:12

valor aproximado de una vivienda

play01:14

conociendo su superficie y sus

play01:17

características vamos a ver una

play01:21

introducción a todas las etapas de esta

play01:24

fase de modelización que son las

play01:26

siguientes conocer la tipología de

play01:29

técnicas de modelado

play01:30

y la métrica de evaluación que se va a

play01:34

utilizar entrenar o construir los

play01:38

modelos evaluar el modelo final

play01:40

inicialmente se comenta las técnicas de

play01:44

modelado que se agrupan en tipologías

play01:47

siendo las más importantes 2 el

play01:50

aprendizaje supervisado y el aprendizaje

play01:53

no supervisado los problemas de

play01:56

aprendizaje no supervisados son aquellos

play01:58

donde no se tienen muchísimos datos y se

play02:02

le pide al algoritmo que encuentre o

play02:04

identifique patrones sin darle ninguna

play02:08

pista en cambio en el aprendizaje

play02:10

supervisado sí que se entrega esas

play02:13

pistas basadas en datos existentes en

play02:17

los cuales el algoritmo aprenderá en

play02:20

cambio en el aprendizaje supervisado sí

play02:23

que se entrega esas pistas basadas en

play02:25

datos existentes con los cuales el

play02:28

algoritmo aprenderá por ejemplo si se

play02:32

desea clasificar a los salud un curso se

play02:35

podría simplemente entregarle al

play02:38

algoritmo todos los datos de los alumnos

play02:40

clasificados sin mayor información eso

play02:43

sería un aprendizaje no supervisado lo

play02:47

que hará el algoritmo será agrupar

play02:49

personas detectando similitudes en sus

play02:53

características ejemplos de algoritmos

play02:56

no supervisados serían acá medias

play03:00

jerárquico byc clustering

play03:02

tsm sin embargo si se desea que el

play03:06

algoritmo entregue la probabilidad de

play03:08

que un alumno apruebe con un curso se

play03:11

puede usar los datos de alumnos

play03:13

anteriores incluyendo se aprobaron o no

play03:16

el mismo curso para entrenarlo buscando

play03:19

patrones similares a quienes aprobaron o

play03:22

no el mismo curso previamente entonces

play03:25

esto constituye un aprendizaje

play03:28

supervisado ejemplos de algoritmos

play03:31

supervisados serían regresión lineal

play03:34

regresión logística

play03:36

árboles de decisión y redes neuronales

play03:39

una vez clara la tipología de

play03:41

aprendizaje se tiene que definir la

play03:43

métrica de evaluación que permite medir

play03:46

la capacidad del modelo hay muchas

play03:48

métricas algunas sencillas como el

play03:51

porcentaje de aciertos o la cantidad de

play03:53

rada y otras más complejas como el área

play03:57

bajo la curva rock el ais el beige el

play04:01

rms etcétera lo importante es elegir una

play04:06

que permita comparar distintos modelos

play04:09

a continuación se realiza la

play04:11

construcción de modelos se cuenta con

play04:14

muchos datos y se tienen algoritmos por

play04:17

lo que se pueden construir modelos un

play04:20

objetivo habitual en la construcción de

play04:22

modelo es que hay que asegurarse que los

play04:25

patrones que encuentren los algoritmos

play04:27

sean generalizables por ejemplo que a

play04:30

mayor altura se suele tener más peso y

play04:33

no casos particulares específicos por

play04:35

ejemplo si en los datos sólo hay una

play04:38

persona llamada isabel que tiene 35 años

play04:41

y el modelo aprende que todas las

play04:44

personas llamadas tiene 35 años entonces

play04:47

tendríamos un problema este problema se

play04:50

conoce como over sitting o sobre

play04:53

entrenamiento y es algo que hay que

play04:56

evitar para conseguir esto se utiliza

play04:58

una metodología de entrenamiento de

play05:02

modelos que consiste en dividir de forma

play05:05

aleatoria el tablón de modelado es decir

play05:08

los datos en tres

play05:10

subconjuntos que se llaman conjunto de

play05:13

entrenamiento conjunto de validación y

play05:17

conjunto de tests el conjunto de

play05:19

entrenamiento se utiliza como base de

play05:22

conocimiento para que los modelos

play05:24

aprendan patrones en este punto es

play05:27

habitual utilizar muchos algoritmos que

play05:30

entren en muchos modelos para

play05:32

seleccionar aquel que ha aprendido más

play05:34

para esto se utiliza el conjunto de

play05:37

validación con estos datos que no conoce

play05:40

el modelo se calcula la métrica de

play05:42

evaluación que va a permitir compararlos

play05:45

y poder elegir el mejor de ellos que

play05:48

será el modelo ganador por último

play05:51

evaluar el modelo ganador se utiliza la

play05:54

métrica de evaluación en el conjunto de

play05:56

test así se conocerá cuál va a ser el

play05:59

acierto del modelo cuando se enfrente a

play06:01

nuevos datos de los que no ha aprendido

play06:04

se quiere está carnal frase de samuel

play06:06

carling que decía que el propósito de

play06:10

los modelos no es ajustarse a los datos

play06:13

sino afinar o adecuar las preguntas la

play06:16

fase de modelado en la fase más crítica

play06:18

ya que es donde se extrae el

play06:20

conocimiento en forma de modelo pero en

play06:23

ese proceso es donde el científico de

play06:25

datos aporta mayor valor dado que este

play06:29

proceso ayuda a conocer mejor el

play06:31

problema

play06:32

identificar cuáles son las variables que

play06:35

están relacionadas entender cómo se

play06:38

relacionan entre sí y cómo se hacen las

play06:41

predicciones en esta fase es donde se

play06:44

extrae el conocimiento por lo que el

play06:46

modelo no sólo es el objetivo es el

play06:50

vehículo para aprender tanto el

play06:52

conocimiento que tienen los datos y

play06:55

mejorar el plan ya miento y resolución

play06:58

del problema en esta fase hay muchos

play07:01

retos que asumir el primero es decidir

play07:03

entre utilizar modelos interpreta bless

play07:06

también llamados cada blancas o modelos

play07:09

no interpreta bless también llamados

play07:13

cajas negras las cajas blancas son

play07:16

aquellos algoritmos que tienen una

play07:19

fórmula sencilla que permite entender

play07:21

los motivos por los que decide el modelo

play07:24

y los patrones aprendidos mientras que

play07:27

las cajas negras son algoritmos más

play07:30

complejos pero que no son fácilmente

play07:33

interpreta bless por lo que no siempre

play07:35

se conocen los patrones aprendidos ni

play07:38

los motivos por lo que toman las

play07:40

decisiones aunque por lo general al ser

play07:43

más complejos aprenden más patrones

play07:46

según quien sea el interlocutor y cómo

play07:50

se vaya a utilizar se tendrá que decidir

play07:52

si se utilizan modelos más interpreta

play07:55

bless o modelos más

play07:58

además se tiene que intentar buscar una

play08:01

métrica de evaluación adecuada al

play08:03

problema y en algunos casos se querrá

play08:05

centrarse en el acierto pero en otros

play08:08

puede ser que lo que interesa sea

play08:11

focalizarse en la reducción de los

play08:13

fallos del modelo por ejemplo en el caso

play08:16

de un modelo de diagnóstico de cáncer no

play08:19

es igualmente importante que el modelo

play08:21

se equivoque indicándole a un paciente

play08:23

que el test es negativo y realmente

play08:26

tenía cáncer que el test sea positivo y

play08:30

realmente no tuviese cannes aunque los

play08:33

dos errores son muy importantes en este

play08:35

caso el más delicado es el segundo y por

play08:39

lo tanto habrá que elegir la métrica de

play08:42

evaluación que elija el modelo que

play08:45

reduzca al máximo este segundo caso

play08:48

también es importante tener claro si se

play08:51

dispone de suficientes datos que

play08:53

contengan los patrones de

play08:55

comportamientos y variables que lo

play08:57

describan o por el contrario se tiene

play09:00

que recomendar capturas de más

play09:02

información en esta fase de modelado en

play09:06

la fase más compleja de todas por la

play09:09

necesidad de tener unos conocimientos

play09:10

muy robustos de estadística y machine

play09:14

learning dado que la fase en la que se

play09:18

extrae el conocimiento de los datos

play09:21

[Música]

Rate This

5.0 / 5 (0 votes)

Related Tags
Big DataModelizaciónAnálisis de DatosValoraciónNegociosAprendizaje SupervisadoAprendizaje No SupervisadoAlgoritmosMétricas de EvaluaciónCiencia de DatosMachine Learning
Do you need a summary in English?