El impacto del Bigdata y el Smartdata en Gestión de Riesgos

EALDE Business School
27 May 202058:16

Summary

TLDREl seminario discute el impacto del Big Data y Smart Data en la gestión de riesgos, aclarando que no es un curso básico sino una presentación avanzada. Expone la importancia de la información y el conocimiento en contexto para tomar decisiones. Aborda el valor de los datos y su relación con la acción y la decisión, destacando la necesidad de una visión y un uso claros. Presenta el concepto de Big Data como estrategias y tecnologías para manejar velocidad, volumen y variedad de datos, y Smart Data como el análisis de estos datos para obtener valor. El seminario también explora técnicas como el data mining, el machine learning y diferentes enfoques de aprendizaje automático para predecir y explicar eventos, así como su aplicación en la gestión de riesgos y la mejora continua de procesos.

Takeaways

  • 📚 El seminario no es un curso de big data ni de smart data, sino una presentación para aclarar conceptos y habilidades requeridas en el ámbito de la gestión de riesgos.
  • 🔍 Se enfatiza la importancia del dato en el contexto de la toma de decisiones y cómo este, al convertirse en información y conocimiento, puede llegar a ser sabiduría y acción.
  • 📈 La relación entre big data, smart data y la gestión de riesgos es destacada, con el big data manejando volumen, velocidad y variedad, y el smart data agregando valor a través del análisis.
  • 🌐 Se describe big data como un conjunto de estrategias, tecnologías y sistemas para gestionar conjuntos de datos complejos, enfocándose en la capacidad de procesamiento y análisis de grandes volúmenes de información.
  • 🤖 El aprendizaje automático o machine learning es presentado como una herramienta clave dentro del big data para la clasificación, predicción y detección de patrones en grandes conjuntos de datos.
  • 👥 Se menciona la importancia de los científicos de datos y cómo su papel es entender y dirigir el proceso de transformación de datos en conocimiento aplicado y acciones estratégicas.
  • 🕵️‍♂️ El data mining es descrito como el proceso de exploración de datos para descubrir patrones y comportamientos ocultos, utilizando técnicas de inteligencia artificial.
  • 📊 Se discuten los tipos de aprendizaje automático: supervisado, no supervisado y por refuerzo, cada uno con aplicaciones específicas en el análisis de datos y la toma de decisiones.
  • 🛡️ Big data y machine learning son utilizados en la gestión de riesgos para explicar y predecir eventos, detectar causas ocultas y oportunidades, y prever eventos inusuales o nunca antes vistos.
  • 🏢 Se destaca la importancia de la pregunta correcta en el análisis de datos, y cómo esta puede ser guiada por el conocimiento de las herramientas y recursos disponibles para la toma de decisiones.
  • 📝 Se enfatiza la importancia de la ética y la gobernanza de datos, especialmente en contextos de toma de decisiones críticas como en el caso de los vehículos autónomos.

Q & A

  • ¿Qué es el propósito del seminario sobre Big Data y Smart Data en gestión de riesgos?

    -El seminario no es un curso de Big Data o Smart Data, sino que busca aclarar y contrastar los conceptos y habilidades requeridas para utilizar técnicas y aprovechar las características de estos enfoques en la gestión de riesgos.

  • ¿Cómo se define el dato en el contexto de la comunicación y la información?

    -El dato, una vez establecido en un contexto, nos da información. Al dotar al dato de significado y contexto, obtenemos conocimiento, que a su vez, al integrarlo con visión y acción, se convierte en sabiduría.

  • ¿Cómo se relaciona la sabiduría con la toma de decisiones y la acción?

    -La sabiduría, entendida como conocimiento aplicado, es la base para la toma de decisiones y la acción. La acción, expresada como decisión, permite mejorar ciclos y modelos de gestión de riesgos.

  • ¿Qué ventajas competitivas pueden proporcionar los datos valiosos y raros según Frank Rothermel?

    -Los datos valiosos y raros pueden proporcionar una ventaja competitiva sostenible, ya que son difíciles de imitar y capturar, lo que puede llevar a una ventaja competitiva duradera.

  • ¿Qué es Big Data y qué elementos clave gestiona?

    -Big Data es un conjunto de estrategias, tecnologías y sistemas para almacenar, procesar, analizar y visualizar conjuntos de datos complejos, gestionando principalmente velocidad, volumen y variedad.

  • ¿Cómo se relaciona Big Data con Smart Data y cómo se diferencian?

    -Big Data se convierte en Smart Data cuando se analiza para obtener valor, es decir, cuando se utiliza el conocimiento de gran volumen y variedad de datos para predecir y explicar eventos y tendencias.

  • ¿Qué tipos de datos componen el Big Data y cómo se diferencian?

    -El Big Data compone datos estructurados, no estructurados y semiestructurados. Los datos estructurados siguen un formato preestablecido, los no estructurados no tienen un orden preestablecido ni reglas de almacenamiento, y los semiestructurados tienen cierta estructura, como etiquetas en HTML o XML.

  • ¿Cómo se recopilan los datos a gran escala y a alta velocidad?

    -Los datos se recopilan a través de dispositivos como sensores, cámaras, PLCs, selectores micros y ordenadores, así como soluciones de captura automática de datos en general.

  • ¿Qué son las APIs y cómo se utilizan en el contexto de Big Data?

    -Las APIs, o Application Programming Interfaces, son aplicaciones que permiten acceder a otras aplicaciones para realizar acciones específicas, como acceder a bases de datos o realizar búsquedas en sitios web y redes sociales.

  • ¿Qué es el data mining y cómo se relaciona con el aprendizaje automático o machine learning?

    -El data mining es la exploración de datos para descubrir patrones en grandes volúmenes de información. El machine learning es un subcampo de la inteligencia artificial que crea algoritmos con capacidades de aprendizaje a partir de datos, lo que se utiliza en el data mining para analizar y predecir comportamientos.

  • ¿Cómo se relaciona la gestión de riesgos con el uso de Big Data y Smart Data?

    -La gestión de riesgos se relaciona con Big Data y Smart Data en la medida en que estos pueden ayudar a explicar y predecir eventos y tendencias, reduciendo la incertidumbre y permitiendo tomar decisiones más informadas.

  • ¿Qué es el análisis de componentes principales y cómo se utiliza en el contexto de Big Data?

    -El análisis de componentes principales es una técnica de reducción de dimensionalidad que se utiliza para identificar cuáles variables son las más esenciales en un conjunto de datos, lo que ayuda a simplificar y enfocar el análisis en las características más relevantes.

  • ¿Cómo se pueden utilizar los datos no estructurados en la gestión de riesgos?

    -Los datos no estructurados, como los correos electrónicos o los documentos PDF, pueden ser analizados mediante técnicas de aprendizaje automático para detectar patrones o anomalías que puedan ser relevantes en la gestión de riesgos, como el fraude interno o la evaluación de contratos.

  • ¿Qué es la Moral Machine y cómo se relaciona con la toma de decisiones en IA?

    -La Moral Machine es un proyecto que busca establecer un modelo de ética o moral colectiva a través de un juego en línea donde los participantes toman decisiones difíciles sobre situaciones hipotéticas. Se relaciona con la toma de decisiones en IA al explorar cómo los algoritmos podrían manejar escenarios éticos complejos.

Outlines

00:00

📚 Introducción al seminario sobre Big Data y Smart Data

El seminario comienza con una introducción al tema principal, Big Data y Smart Data en la gestión de riesgos. Se aclara que el seminario no es un curso sobre big data o smart data, sino que busca explicar y contextualizar estos conceptos en 40 a 45 minutos. El ponente, Daniel Romero, enfatiza la importancia de entender los datos y cómo estos pueden ser utilizados para mejorar la toma de decisiones y la gestión de riesgos. Se menciona la teoría de la comunicación y cómo los datos, al ser contextualizados, se convierten en información y conocimiento, y eventualmente en sabiduría y acción. Se introduce la idea de que los datos valiosos pueden ser una fuente de ventaja competitiva sostenible.

05:03

🌐 Teoría del dato y su valor en la gestión de riesgos

Se profundiza en la teoría del dato, explicando cómo los datos adquieren valor y rareza, y cómo esto puede traducirse en una ventaja competitiva. Se discute la importancia de la acción y la decisión como expresión del conocimiento aplicado, y cómo estos elementos están íntimamente relacionados con la gestión de riesgos. Se introduce el concepto de big data como un conjunto de estrategias, tecnologías y sistemas para manejar grandes volúmenes de datos que presentan velocidad, variedad y veracidad. Además, se menciona el concepto de smart data, que implica incluir el valor en el análisis de datos para poder explicar y predecir comportamientos y eventos.

10:03

🔍 Big Data y Smart Data en la captura y análisis de información

Este párrafo se enfoca en las acciones específicas relacionadas con big data y smart data, como la recopilación, captura, almacenamiento, extracción, visualización, preparación y modelado de datos. Se destaca que hay especialistas en diferentes áreas de big data, desde la captura y almacenamiento hasta el análisis. El científico de datos es presentado como una figura que comprende y coordina estos procesos para apoyar la toma de decisiones en una organización. Se menciona la importancia de comprender el tipo de información que compone el big data, incluyendo datos estructurados, no estructurados y semiestructurados, y cómo se recopilan estos datos a través de diferentes dispositivos y técnicas.

15:04

🛠️ Técnicas de recopilación de datos y desafíos asociados

Se discuten técnicas específicas para la recopilación de datos, como las APIs (Application Programming Interfaces), que permiten el acceso a bases de datos y motores de búsqueda, y se mencionan ejemplos de cómo se utilizan en diferentes contextos, como redes sociales y sistemas financieros. También se introduce el concepto de web scraping y web crawling como métodos para obtener datos de páginas web de forma sistemática. Se destaca la complejidad y el desafío de almacenar e indexar la información, y se menciona el uso de sistemas de archivos distribuidos como solución a este problema.

20:05

📈 Análisis de datos y técnicas de Data Mining

El párrafo se centra en el análisis de datos y cómo se ha evolucionado con el tiempo, pasando de trabajar con muestras pequeñas a manejar poblaciones y muestras masivas en tiempo real. Se introduce el concepto de data mining, la minería de datos, como el proceso de exploración de grandes volúmenes de datos para descubrir patrones y comportamientos. Se menciona el uso de inteligencia artificial y aprendizaje automático, también conocido como machine learning, para clasificar datos y mejorar la precisión de los algoritmos a través del tiempo.

25:05

🤖 Aprendizaje supervisado, no supervisado y por refuerzo

Se explican los tres grandes grupos de aprendizaje en machine learning: supervisado, no supervisado y por refuerzo. El aprendizaje supervisado se utiliza para problemas de clasificación y predicción, como el diagnóstico de enfermedades o la detección de fraudes. El aprendizaje no supervisado se centra en encontrar patrones ocultos en los datos, útil en el marketing para agrupar a las personas por características compartidas. El aprendizaje por refuerzo es utilizado para situaciones en las que no se conoce si un evento ha ocurrido o no, y se basa en el aprendizaje por ensayo y error. Se destacan ejemplos prácticos de cómo se aplican estos métodos en diferentes contextos.

30:06

🛡️ Big Data y Machine Learning en la gestión de riesgos

Este párrafo discute cómo se pueden utilizar big data y machine learning en la gestión de riesgos. Se describe el proceso de establecer objetivos y planificar acciones para alcanzarlos, y cómo el análisis de datos puede ayudar a reducir la incertidumbre y predecir resultados. Se mencionan ejemplos de cómo se pueden detectar causas ocultas de eventos no deseados y oportunidades, y cómo se pueden prever eventos que nunca antes han ocurrido. Se enfatiza la importancia de saber qué se puede hacer con big data y machine learning y cómo estos herramientas complementan la intuición y el conocimiento humano en la toma de decisiones.

35:08

📊 Conocimiento y preparación en Data Science para la gestión de riesgos

Se aborda la importancia de definir objetivos y ser consciente de los recursos disponibles al abordar un proyecto de big data en el contexto de la gestión de riesgos. Se sugiere que es fundamental comprender qué datos se tienen, qué datos se pueden obtener y cuánto podría costar obtenerlos. Además, se enfatiza la necesidad de invertir en el análisis de los datos adquiridos y de reconocer que los datos y el machine learning son herramientas que complementan la toma de decisiones, en lugar de sustituir la intuición y el juicio humano.

40:11

🕵️‍♂️ La importancia de hacer la pregunta correcta en Data Science

El ponente reflexiona sobre la esencia del data science y cómo está en hacer la pregunta correcta que permita tomar decisiones que aporten y retengan valor en las organizaciones. Destaca que el data science es más que simplemente estadísticas y computación; es sobre integrar el conocimiento pasado y la capacidad de hacer preguntas que lleven a soluciones útiles. Se enfatiza que no se pueden hacer grandes avances de la noche a la mañana, sino que es un proceso que requiere tiempo y esfuerzo.

45:11

🤔 Hacia la formulación de preguntas correctas en el ámbito del big data

Se discute la importancia de conocer las herramientas y posibilidades disponibles para poder hacer preguntas correctas en el ámbito del big data. Se sugiere que al conocer todas las herramientas y sus capacidades, se pueden generar nuevas preguntas y soluciones infinitas. Se menciona la necesidad de aprender a hacer preguntas útiles y relevantes, y se comparte la experiencia personal del ponente en relación a esto. Se habla de la publicación inminente de un libro sobre la formulación de preguntas y casos de éxito en big data, y se dan ejemplos de cómo se pueden utilizar las preguntas correctas para mejorar servicios y eficiencia en empresas como UPS.

50:13

🏭 Aplicaciones prácticas del big data en diferentes sectores

Se presentan ejemplos de cómo el big data se ha aplicado en diferentes sectores, como el sector energético con el análisis de datos de vientos en torres de alta tensión, y cómo se ha utilizado para optimizar rutas y garantizar entregas en el sector de envíos. Se menciona el uso del análisis de componentes principales para reducir la dimensionalidad de grandes conjuntos de datos y cómo se ha beneficiado a empresas de todo tipo con la implementación de big data.

55:15

🏢 Big data en la detección de fraude y en el sector público

Se habla sobre el uso del big data en la detección de fraude fiscal a nivel gubernamental y cómo se está utilizando en el sector público para captar datos y ponerlos a disposición del público a través de plataformas de open data. Se mencionan ejemplos de información que se

Mindmap

Keywords

💡Big Data

Big Data se refiere a un conjunto de estrategias, tecnologías y sistemas diseñados para almacenar, procesar, analizar y visualizar grandes volúmenes de datos complejos. En el video, se asocia con la capacidad de gestionar velocidad, volumen y variedad de información, lo que es fundamental para la toma de decisiones en la gestión de riesgos y para la transformación de datos en valor añadido.

💡Smart Data

Smart Data implica la inclusión de valor a través del análisis de grandes conjuntos de datos (Big Data), para obtener información que pueda ser utilizada estratégicamente. En el contexto del video, Smart Data se relaciona con la capacidad de explicar y predecir comportamientos, patrones y eventos futuros, lo que es crucial para la gestión de riesgos y la toma de decisiones informadas.

💡Gestión de Riesgos

La Gestión de Riesgos es el proceso de identificación, evaluación y control de los riesgos que pueden afectar a los objetivos de una organización. En el video, se discute cómo el Big Data y el Smart Data pueden utilizarse para reducir la incertidumbre y predecir eventos, ayudándonos a gestionar y mitigar riesgos de manera más efectiva.

💡Data Mining

Data Mining, o minería de datos, es el proceso de exploración y análisis de grandes volúmenes de datos para descubrir patrones y relaciones no evidentes. En el video, se menciona como una técnica clave en el análisis de Big Data, que permite la extracción de información valiosa y la generación de conocimiento que puede ser aplicado en la toma de decisiones.

💡Machine Learning

Machine Learning es un subcampo de la inteligencia artificial que se centra en el desarrollo de algoritmos capaces de aprender y mejorar con la experiencia sin ser explícitamente programados. En el video, se destaca como una herramienta para el análisis de datos, permitiendo a las máquinas identificar patrones y realizar predicciones basadas en grandes volúmenes de información.

💡Análisis de Componentes Principales (ACP)

El Análisis de Componentes Principales es una técnica estadística utilizada para reducir la dimensionalidad de los datos, buscando encontrar un conjunto más pequeño de variables que puedan explicar la mayoría de la variabilidad en los datos. En el video, se describe como una forma de identificar las variables más esenciales en una base de datos de datos no estructurados, lo que es crucial para la simplificación de modelos y la mejora de la comprensión de los datos.

💡Datos No Estructurados

Datos No Estructurados se refiere a cualquier tipo de información que no sigue un formato predefinido o un esquema de almacenamiento. En el video, se discute cómo se pueden aplicar técnicas de análisis, como el Análisis de Componentes Principales y la minería de datos, para extraer información útil de estos tipos de datos, lo que es especialmente importante en contextos donde la información no se encuentra en forma de números o texto estructurado.

💡Inteligencia Artificial

La Inteligencia Artificial (IA) es un campo de la informática que se centra en la creación de sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como la percepción, el aprendizaje, la toma de decisiones y la comprensión del lenguaje. En el video, la IA se menciona en el contexto del Machine Learning y su aplicación para el análisis y el procesamiento de grandes volúmenes de datos (Big Data).

💡Estadística Descriptiva

Estadística Descriptiva es el área de la estadística que se centra en resumir y describir los datos, buscando entender las características de una población o muestra a través de medidas como la media, la mediana, la moda y la varianza. En el video, se relaciona con el proceso de transformación de Big Data en Smart Data, donde se busca explicar y predecir comportamientos y patrones a través del análisis de datos.

💡Gestión del Riesgo

La Gestión del Riesgo es el proceso sistemático de identificación, evaluación y control de los riesgos en un proyecto, negocio o actividad. En el video, se discute cómo el Big Data y el Smart Data pueden ser utilizados para mejorar la gestión del riesgo al proporcionar información más precisa y oportuna, lo que permite a las organizaciones tomar decisiones más informadas y estratégicas.

Highlights

El seminario busca aclarar conceptos de Big Data y Smart Data en el contexto de la gestión de riesgos.

Se enfatiza que el seminario no es un curso básico de Big Data sino una discusión de sus aplicaciones prácticas.

Se presenta la pirámide del conocimiento del dato, desde el dato hasta la sabiduría y la acción.

El valor de los datos radica en su contexto, significado y uso en decisiones.

Se discute la importancia de la acción y la decisión como componentes finales del conocimiento.

Se establece la relación entre la gestión de riesgos y la importancia de la información y conocimiento.

El seminario aborda la distinción entre Big Data, Smart Data y su relevancia en la toma de decisiones.

Se define Big Data como un conjunto de estrategias, tecnologías y sistemas para manejar datos complejos.

Smart Data se presenta como el análisis de Big Data para obtener valor y conocimiento.

La gestión de riesgos se vincula con la capacidad de explicar y predecir a través de Big Data y Smart Data.

Se menciona la importancia de la veracidad y valor en la conversión de Big Data en Smart Data.

Se discute el tipo de información que compone el Big Data, incluyendo datos estructurados y no estructurados.

Se explora cómo se obtienen datos a través de APIs y técnicas de web scraping y web crawling.

Se presenta Data Mining como el proceso de exploración de datos para descubrir patrones.

Se explica el Machine Learning como un subcampo de Inteligencia Artificial para el aprendizaje a partir de datos.

Se discuten los tres grandes grupos de aprendizaje: supervisado, no supervisado y por refuerzo.

Se habla sobre la importancia de hacer preguntas correctas y cómo las herramientas de Data Science pueden ayudar.

Se enfatiza la necesidad de comprender el valor de los datos y su relación con la gestión de riesgos.

Se sugiere que los profesionales de riesgo se centren en la labor del data scientist y en la formulación de preguntas adecuadas.

Se menciona el proyecto Moral Machine, una herramienta para establecer un modelo de ética en toma de decisiones.

Se concluye destacando que Data Science es estadística con informática y que la esencia está en la formulación de preguntas que aporten valor.

Transcripts

play00:09

muchísimas gracias y muy buenos días

play00:11

tardes noches dependiendo dónde se

play00:13

encuentre en cada uno de ustedes

play00:15

bienvenidos a este seminario de impacto

play00:17

el big data y smart data en gestión de

play00:19

riesgos

play00:21

no obstante tampoco con el título y

play00:24

tanto por explicar primero me gustaría

play00:26

decir que este este seminario no

play00:28

pretende para nada ser un curso de big

play00:30

data ni de smart data ni nada parecido

play00:33

lo que sí que son las que por

play00:35

experiencia y por lo que voy viendo

play00:37

últimamente que hay infinidad de cursos

play00:39

de conviertas en un profesional de big

play00:42

data y del máxim learning y de la

play00:44

ciencia de datos y bueno pues la idea es

play00:47

que vamos comentarlas con la mucha

play00:48

desinformación y un poco es poner blanco

play00:52

sobre negro en una ponencia de 40 a 45

play00:54

minutos todos estos conceptos para que

play00:57

se entienda un poco pues sólo de qué

play00:58

estamos hablando que qué habilidades se

play01:00

requieren para utilizar las técnicas

play01:02

otras o para aprovechar una de las otras

play01:05

características dicho esto vamos a

play01:07

empezar con algo muy simple qué es

play01:10

perdón el explicar que es el dato bueno

play01:14

de se refería por cierto se me oye bien

play01:16

supongo si alguien puede indicar me que

play01:19

el sonido es el correcto de minicross

play01:23

ok daniel romero muchísimas gracias pues

play01:25

seguimos con esto y empezamos como decía

play01:28

con un poco de definición de el dato en

play01:31

el para qué queremos el dato y hacia

play01:33

dónde queremos llegar esto del dato

play01:35

desde que hay teoría de la comunicación

play01:38

que se trabaja y básicamente lo que me

play01:41

gustaría es que se conociera desde aquí

play01:44

perdón que el dato cuando cuando lo

play01:47

establecemos en un contexto nos da

play01:49

información es decir si yo tengo 35 es

play01:52

un dato si digo 35 grados celsius o 35

play01:56

grados de temperatura estoy poniendo en

play01:59

contexto y está dando una información

play02:00

creando temperatura

play02:02

esta esta información cuando la dotó de

play02:05

significado obtengo un conocimiento y

play02:08

hablamos por conocimiento como una

play02:10

información en contexto que me permite

play02:13

inferir inferir cualquier cosa a partir

play02:17

de aquí cuando yo tengo este dato

play02:19

convertido en información y pasado a

play02:21

conocimiento en el momento en que

play02:24

incorporó la visión de ese conocimiento

play02:26

obtengo lo que se quiera denominar en la

play02:28

pirámide del conocimiento del dato la

play02:29

sabiduría entendida la sabiduría como un

play02:32

conocimiento aplicado llamémoslo de esta

play02:34

manera

play02:35

a partir de que empieza a trabajarse

play02:37

todo lo que se impartan intacta es marga

play02:39

está esta pirámide que toda la vida ha

play02:42

venido siendo de esta manera de alguna

play02:43

manera empieza a evolucionar y se

play02:45

empieza a dar importancia a algo más que

play02:48

la sabiduría por sabiduría y es

play02:51

al uso que se hace de esa sabiduría al

play02:54

uso que se le da a ese conocimiento con

play02:57

visión y ese uso no deja ser más que la

play02:59

acción y la acción pues expresiva

play03:01

explicitada como decisión al final la

play03:05

idea es que los datos nos estamos

play03:07

convirtiendo en valor a partir de

play03:10

dotarlos de contexto significado visión

play03:12

uso en y

play03:14

en el uso como acción mediante la

play03:17

decisión que me permite de alguna manera

play03:19

mejorar el ciclo

play03:21

como idea podríamos decir que se plantea

play03:23

esta pirámide como un símil de conocer

play03:24

el pasado para mejorar el futuro es

play03:26

parte de una transformación de un

play03:27

conocimiento basado para modelar un

play03:29

presente que viene a ser lo que lo que

play03:32

yo obtengo como sabiduría y me para

play03:35

permitirme o para buscar mejorar ese

play03:37

futuro como mediante la decisión pero

play03:39

destacando y la importancia del dato al

play03:42

final hoy en día de la información del

play03:45

conocimiento de la sabiduría es la

play03:46

acción la decisión y esto pues como

play03:48

comprenderán está intimissimi e

play03:50

íntimamente relacionado con el riesgo y

play03:52

la gestión del riesgo por eso he querido

play03:54

hacer esta pequeña esta pequeña intro

play03:56

otra cosa muy importante hemos tenemos

play03:58

hablado un poco esto de que es el dato

play04:00

vale el dato porque si no vale nada ya

play04:02

lo hemos visto aquí en el dato como dato

play04:04

y aunque tenga contexto y significado si

play04:07

no lo dotó de visión y uso tampoco lo

play04:09

puedo considerar como como de valor el

play04:12

dato como tal cuando completa digamos

play04:14

esta pirámide es un activo y es un

play04:16

activo cada vez más valioso está estas

play04:19

flores en el diagrama de frank rothermel

play04:21

que es un teórico del mundo la del ciclo

play04:24

del tacto y de la gobernanza del dato

play04:26

viene a decir bueno pues cuando cuando

play04:28

un dato al final es valioso es raro es

play04:31

caro de imitar y se puede capturar

play04:33

podemos obtener el valor que contiene

play04:35

ese dato eso nos va a llevar intermedia

play04:38

realmente a una ventaja competitiva

play04:39

sostenible

play04:41

hasta llegar allí y podemos ir cayendo

play04:43

en diferentes opciones pues si el gato

play04:46

no es valioso y lo utilizo realmente

play04:49

decidido en base a ese dato tengo una

play04:50

desventaja competitiva si es valioso

play04:53

pero no es raro es muy común pues tengo

play04:55

una paridad competitiva estoy pues

play04:57

utilizando lo mismo que todo el cuerpo

play04:58

si es raro y encima es caro y no es caro

play05:02

limitar es decir que no lo puedo obtener

play05:04

yo fácilmente

play05:06

bueno tengo una ventaja competitiva

play05:07

temporal cuando lo tengo soy el primero

play05:09

que lo tiene tengo esa ventaja pero

play05:11

realmente es cuando puedo

play05:13

cuando cuando tengo ese dato caro

play05:15

limitar y además lo capturó como valor

play05:17

que ya no solo me da una ventaja

play05:19

competitiva temporal sino que me lleva

play05:20

ventaja

play05:21

sostenible esto es la parte más de

play05:23

teoría del dato y de la información y un

play05:27

poco el ciclo de vida de

play05:29

he introducido esto por más que nada

play05:31

para que se sepa que cuando alguien

play05:33

quiere entrar en el mundo de big data

play05:35

smart data y business intelligence in

play05:38

learning y todos estos conceptos

play05:40

vamos a trabajar pues con olmert

play05:42

básicamente con esto la la idea es que

play05:45

quiero pasar de un dato a un a un activo

play05:48

con valor de acuerdo y para pasar desde

play05:50

aquí abajo hasta aquí arriba pues ahí

play05:52

hay mucho cambio no dejo para todos

play05:56

ustedes el ejercicio de que utilizo el

play05:58

que intentará hacer esta pirámide de

play06:00

cómo en el periodismo más tradicional

play06:02

más de los inicios no se pasaba desde el

play06:05

dato de la fuente de la información a la

play06:08

sabiduría en el conocimiento la

play06:10

sabiduría mediante puestos los medios

play06:12

más habituales por ejemplo la prensa de

play06:14

acuerdo imagínense cómo un periodista

play06:16

iba a buscar el dato para acabar con

play06:19

con una sabiduría colectiva el buscar la

play06:23

verdad no es que sea matas a la tanto en

play06:26

periodismo pues bien vamos ahora linda k

play06:28

big data por infinidad de definiciones

play06:31

que hay al final no es más que un

play06:33

conjunto de estrategias tecnologías y

play06:35

sistemas para almacenar procesar

play06:37

analizar y visualizar conjuntos de datos

play06:40

complejos es decir big data es un

play06:43

conjunto de estrategias y tecnologías

play06:45

estrategias herramientas es un conjunto

play06:47

de y diría yo hasta de disciplinas se

play06:51

conviene y se habla mucho de las tres

play06:53

uves de garner en algunos sitios lo

play06:55

veréis evolucionado como las cinco urbes

play06:56

de gartner pero al final lo que te viene

play06:58

a decidir las tres uves quedan quedan

play07:00

muy claras es que el big data gestiona

play07:03

velocidad volumen y variedad esto sí que

play07:06

es imprescindible es trabajar con muchos

play07:08

datos a mucha velocidad y de muchos

play07:10

tipos diferentes la velocidad y la

play07:15

perdón la verdad la veracidad y el valor

play07:17

son esas dos nubes y demás que a veces

play07:20

componen lo que se llama el big data

play07:22

en mi opinión y por lo que ha ido

play07:25

leyendo insisto aquí hay pues como en

play07:27

todo lo que lo que trabaja con

play07:29

definiciones y pasa en el mundo en

play07:31

riesgo no desde definir riesgo nos puede

play07:34

llevar varias clases teóricas en el en

play07:36

el máster pues con el big data pasaría

play07:37

algo similar desde mi perspectiva la

play07:39

veracidad y el valor es lo que convierte

play07:41

el big data en smart data es al final lo

play07:43

que lo que no está es ese conocimiento

play07:46

de sabiduría porque hay velocidad y hay

play07:49

valor es lo que me permite pues de

play07:51

alguna manera es pasar de big data es

play07:53

lógica

play07:54

muy bien

play07:56

voy a hablar rápido cómo están viendo

play07:58

porque es mucho el material de todas

play08:01

formas como como ya les han indicado

play08:03

recibirá en el vídeo y podrán repasar

play08:05

aquellas partes que consideren pues

play08:07

poder pueden quedar más más cortas en

play08:10

cuanto a explicación en smart data es

play08:12

cuando incluimos como digo el valor

play08:14

mediante el proceso de análisis al final

play08:16

si yo tengo muchos datos mucho volumen

play08:19

mucha velocidad mucha variedad y los

play08:20

analizó para obtener ese valor escalo en

play08:23

la pirámide que hemos visto al principio

play08:24

hacia arriba es cuando empiezo a hacer

play08:25

espaldas

play08:27

que persiguen big data y smart data

play08:29

estamos en la en una parte muy

play08:32

introductoria pero vamos centrando la

play08:34

idea al final de green data y smart data

play08:36

no es más que explicar y predecir es

play08:39

explicar por qué pasaron las cosas como

play08:41

por qué pasan las cosas como pasan y

play08:43

predecir cómo van a pasar o cómo van a

play08:46

suceder las cosas o qué consecuencias

play08:47

pueden tener las cosas dependiendo de

play08:50

cómo sucedan es lo mismo que ha

play08:52

pretendido la estadística descriptiva

play08:56

inferencial de toda la vida álex

play08:58

tenística descriptiva ha pretendido

play08:59

explicar y la inferencia de alguna

play09:02

manera predecir el cómo es el todo a

play09:05

partir de un poco cuando tenemos acceso

play09:08

a ese todo es la estadística de las

play09:10

muestras a partir de aquí big data y

play09:13

smart data buscar lo mismo eso es una

play09:14

estadística digo yo con datos a lo

play09:17

bestia y aprovechando de que de que se

play09:20

dispone de recursos y de herramientas

play09:23

tecnológicos ya no hablamos sólo de

play09:25

software y hardware sino de procesos de

play09:27

programación y de conocimiento para

play09:29

poder encontrar estos patrones

play09:31

la idea es que explicar y predecir qué

play09:34

digo comportamientos patrones anomalías

play09:36

tendencias eventos futuros como estáis

play09:39

viendo cómo pueden todos observar lo que

play09:42

persigue dictada smart data vuelve a

play09:44

estar íntimamente relacionado con la

play09:47

gestión del riesgo y al final cuando

play09:49

veamos todo la implementación en riesgo

play09:51

nos daremos cuenta pero al final el

play09:53

riesgo es también es la gestión de la

play09:56

incertidumbre y la gestión de la

play09:57

incertidumbre está impregnada por la

play09:59

teoría de la decisión y por lo tanto

play10:01

pues de alguna manera la pirámide del

play10:03

dato y lo que pretende el big data y el

play10:05

smart data pues están íntimamente

play10:07

relacionados con este con este riesgo

play10:09

como proceso completo al final lo que

play10:11

decimos es que big data y smart data lo

play10:13

que hacen es recopilar capturar obtener

play10:15

datos almacenar extraer visualizar

play10:18

preparar modelar interpretar estas son

play10:21

son verbos son son acciones que forman

play10:24

parte del día a día del trabajo del big

play10:26

data del smart data

play10:28

pocos profesionales hacen hacen todo es

play10:31

decir aquí hay hay especialidades para

play10:34

dar y vender aquí cada uno es

play10:37

especialista pues en capturar en

play10:39

almacenar y analizar etcétera entonces

play10:41

el científico de datos o el datacenter

play10:45

está al final es es una persona que sabe

play10:49

qué es lo que se puede hacer en cada una

play10:51

de estas cajas digamos que no es ultra

play10:53

especialista en ninguna de ellas pero

play10:56

tiene una misión que sí que es digamos

play10:59

que es lo que para mí hace hace que el

play11:02

dato esa mente

play11:03

ese interés tenga más sentido que es que

play11:06

sabe identificar el problema tiene

play11:09

comprensión de la organización o del

play11:11

sistema al que pretende asistir en la

play11:15

acción y tiene muy claro que lo que se

play11:18

busca persigue una decisión final es

play11:20

decir tiene muy claro que a partir de la

play11:22

pregunta que se haga va a obtener un

play11:25

valor un dato tratado trabajado como

play11:28

sabiduría que va a convertirse en un

play11:29

activo para esa organización o para ese

play11:31

sistema

play11:32

dicho esto qué tipo de información

play11:35

compone el big data cuando hemos dicho

play11:37

que big data es un volumen y variedad

play11:39

nos referíamos a la variedad en que los

play11:41

datos pueden estar pues en infinidad de

play11:44

formas y formatos los datos que se han

play11:49

recopilado de forma estructurada que son

play11:52

los que vemos aquí y que sean de alguna

play11:53

manera se han almacenado pues mediante

play11:55

unas reglas concretas son los que

play11:57

encontramos en bases de datos en hojas

play11:59

de cal

play11:59

en archivos de texto en tepic existe el

play12:01

csv o un formato o jason que es un

play12:05

formato para almacenamiento de datos muy

play12:06

utilizado también en minería de datos y

play12:10

en estadística ahora hoy en día está

play12:12

esté aplicado los datos estructurados al

play12:14

final no son más que conjuntos de datos

play12:16

que han sido de alguna manera

play12:18

almacenados siguiendo unas reglas y por

play12:21

otro están los datos no estructurados no

play12:23

pensemos que los datos son simplemente

play12:25

datos simples y puestos en hojas de

play12:28

cálculo o numeritos o letras sino que

play12:31

una imagen sonido un vídeo no deja de

play12:33

ser un dato y es un dato estructurado

play12:36

cuando hablamos de datos no

play12:37

estructurados hay perdones las son datos

play12:39

nuestros platos cuando hablamos de

play12:40

nuestro curados hablamos de imágenes

play12:41

videos sms correos electrónicos tweets

play12:43

es decir contienen información sin un

play12:47

orden preestablecido y sin unas reglas

play12:49

completas

play12:50

de almacenamiento y finalmente tenemos

play12:53

datos semi estructurados datos en

play12:55

estructurados son datos que no no es que

play12:58

estén estructurados como en el excel o

play13:00

en un access pero sí que tienen cierta

play13:03

cierta estructura que me permite

play13:06

encontrarlos dentro de toda la maria que

play13:08

son los datos que están asociados a

play13:11

etiquetas y es muy propio de html xml de

play13:15

todos estos lenguajes en los que cuando

play13:16

yo entro en una página web si le doy a

play13:19

ver código fuente mediante las etiquetas

play13:23

puedo ir diferenciando qué es lo que

play13:25

hace cada conjunto de datos y dónde está

play13:27

cada conjunto de datos dicho esto pensar

play13:29

que el big data al final de lo que se

play13:30

encarga de recoger todo esto de aquí

play13:32

todos estos tipos de datos a velocidades

play13:35

en tiempo real y con los volúmenes

play13:38

cosmos

play13:39

bestiales

play13:42

y dónde está toda esta información pues

play13:44

cómo se pueden imaginar y esto es desde

play13:46

redes sociales páginas web teléfonos

play13:48

móviles en cualquier sitio al final los

play13:51

datos están en todos sitios cómo se

play13:54

obtiene esta información en bruto

play13:57

pues bueno lo que antes se hacía a

play13:58

recopilar a mano ir apuntando y crear

play14:00

tablas pues hoy en día los datos se

play14:03

recopilan a una velocidad impresionante

play14:05

por un motivo porque disponemos de

play14:08

dispositivos para capturar y almacenar

play14:10

dichos datos están los sensores cámaras

play14:12

plc selectores micros ordenadores

play14:15

soluciones de captura automática de

play14:16

datos en general bueno

play14:18

lo que decía alguien cuando parando un

play14:20

poco con el periodismo tradicional no

play14:22

donde antes tenía que ir el periodista

play14:23

con su libretita y fútbol y su lapicero

play14:25

y apuntar pues ahora tenemos miles

play14:28

cientos de miles de millones de

play14:29

periodistas apuntando con sus lapiceros

play14:31

en todas las partes del mundo y sobre

play14:33

cualquier cosa observable

play14:37

y ahí viene el problema e imagínense

play14:39

estos cientos de miles de millones de

play14:40

periodistas apuntando todo el observable

play14:42

pues como éste almacena google es de los

play14:45

primeros que el primero con mucha

play14:47

diferencia que se da cuenta de que hay

play14:49

un problema es incapaz de poder indexar

play14:51

la web al nivel que exige el mercado y

play14:54

necesitaba buscar una solución no podía

play14:57

tener todo en el mismo sitio

play14:59

entonces se centra en una idea de

play15:00

generar un sistema de archivos

play15:02

distribuidos que se llama que hacen y

play15:04

que hace suyo evidentemente el lema

play15:05

divide y vencerás la idea es bueno voy a

play15:09

hacer

play15:11

trocitos de toda la información

play15:12

repartidos por miles de millones de

play15:14

sitios y que cuando alguien requiera una

play15:17

información concreta pues vaya cogiendo

play15:19

como piezas del puzzle de los diferentes

play15:21

sitios para hacer su publicidad de

play15:22

acuerdo esto es una forma muy muy rápida

play15:24

de decirlo pero bueno la idea es que que

play15:26

se queden con que no es sencillo ni

play15:29

almacenar ni indexar la información y a

play15:31

partir de 2006 hacen pública y a partir

play15:35

de aquí las comunidades opensource se

play15:36

empiezan a trabajar lo que hoy en día es

play15:38

apache es parco haddock y al final son

play15:41

sistemas de almacenamiento de sistema de

play15:44

archivos distribuidos quedense

play15:46

simplemente con esto que sepan que la

play15:47

información no puede estar toda

play15:49

físicamente en un solo sitio y tiene que

play15:52

utilizar un sistema de este tipo

play15:56

y cómo podemos obtener esta información

play15:57

desde stones desde nuestro ordenador

play15:59

todo esto estado está recopilado pero

play16:02

qué hago yo

play16:03

básicamente hay infinidad de técnicas

play16:06

pero vamos a hablar de las apis por

play16:08

ejemplo application programming

play16:09

interface estas apps son aplicaciones

play16:12

que te permiten acceder a otras

play16:14

aplicaciones para determinar para

play16:16

realizar determinadas acciones

play16:17

básicamente son aplicaciones que te

play16:20

permiten acceder a bases de datos que ya

play16:23

tienen incorporados motores de búsqueda

play16:25

le déjenme que lo diga de esta manera si

play16:27

aquí hay algún súper especialista en big

play16:30

data smart data me perdone estas

play16:31

imprecisiones pero la idea de estar

play16:34

webinar es puramente divulgativa y que

play16:37

se acabe entendiendo que qué bueno que

play16:39

es todo este toda esta palabrería y cómo

play16:43

moverme entre ella al final estas aves

play16:46

pueden ser públicas privadas son el

play16:47

partenariado

play16:49

si ustedes quieren investigar y quieren

play16:52

leer simplemente introduzcan en internet

play16:55

en mayúscula y lo que quieran desde bbb

play16:57

a twitter a kraft de facebook etcétera y

play17:01

lo que verán es que estas aves no dejan

play17:03

de ser pues un sitio al que ustedes

play17:05

pueden acudir digamos que lo que te

play17:08

piden es que les lances un mensaje

play17:09

diciendo oiga quiero acceder a su base

play17:11

de datos para hacer determinadas

play17:13

consultas ellos te devolverán otro

play17:15

mensaje y diciendo oiga aquí tiene la

play17:17

clave para poder acceder a diaby que son

play17:19

nombres raros también con sus toques y

play17:21

sus historias pero al final es esto son

play17:23

dos mensajes y cuando ya tengo permiso

play17:25

para acceder dependiendo de ese tipo del

play17:27

permiso que se me haya concedido pues

play17:28

puedo hacer determinadas búsquedas en

play17:30

twitter por ejemplo pues puedo buscar

play17:33

y los 150 últimos tweets que hayan

play17:36

hablado sobre un tema sobre otro o puedo

play17:38

hacer análisis de opinión o puedo hacer

play17:41

en facebook puedo hacer grafos sobre las

play17:44

relaciones de una persona con un grupo

play17:46

de personas y de esas personas

play17:48

adaptables a su vez con otros grupos de

play17:50

personas las apis de bmw por ejemplo y

play17:53

de otras entidades financieras me

play17:54

permiten pues conocer todas las

play17:57

transacciones que se han hecho con

play17:58

tarjeta de crédito en comercios de una

play18:01

zona concreta de una ciudad del mundo

play18:04

estamos hablando de verdaderas

play18:07

barbaridades de conocimiento en el que

play18:10

evidentemente como más valor más activo

play18:12

tiene ese conocimiento pues más probable

play18:15

es que para poder acceder y trabajar con

play18:17

esa a pipo se tenga que pagar y ahí está

play18:19

pues la es el negocio del dato

play18:22

y por otro lado hay digamos otra forma

play18:25

de trabajar lo que es la captura de

play18:27

datos desde el ordenador que esto ya no

play18:30

es el otro también el acceso a las apis

play18:32

al final requiere de ciertos

play18:34

conocimientos de programación no no hace

play18:36

falta ser programador pero sí entender

play18:37

un poquito cómo funciona y aquí sí que

play18:40

ya requiere un poco más de programación

play18:43

que son el web scraping y el web cloud y

play18:46

al final son dos técnicas que más o

play18:47

menos le hacen lo mismo es decir es

play18:50

acudir a páginas web de forma

play18:53

sistemática y mediante un programita que

play18:56

he diseñado y hacerlo de forma

play18:59

recurrente bajarme los datos que yo le

play19:02

he pedido al programita que me baje y

play19:03

guardarlos en una base de datos

play19:05

imaginemos que yo quiero hacer pues un

play19:07

roller de brawn araña que cada día me

play19:11

vaya a la página de la bolsa de madrid

play19:14

hito de la bolsa de amsterdam y me

play19:17

descargué el precio del ibex-35 o del

play19:21

dax xetra de frankfurt y me lo almacene

play19:23

en

play19:24

en una base de datos porque yo puedo

play19:25

programar una ramita que se llama un

play19:28

crawler de estos que vayan a esa página

play19:31

cada día a la hora que yo diga coja ese

play19:34

dato lo lea y me lo almacén de el webs

play19:36

cupping es un poco meses es similar al

play19:39

final lo que lo que hace el web serafín

play19:40

es ir a la página web identificar en el

play19:44

código fuente donde están los datos que

play19:47

a mí realmente me interesan y

play19:48

descargarlos o llamar para que los

play19:50

descarguen los copio y - por gandhi base

play19:52

de datos quédense con esto es

play19:54

básicamente que la información digamos

play19:56

esta grande y que poder generando

play19:58

grandes bases de datos básicamente está

play20:00

en las apis hay apis públicas en casi

play20:03

todos los gobiernos y en casi todas las

play20:05

organizaciones internacionales y luego

play20:07

lo otro ya es modestos para ir

play20:09

para proyectos más personales digamos

play20:12

pero que se puede hacer dicho esto al

play20:15

final lo que decimos lo que es el

play20:16

análisis vamos a un poco de recopilación

play20:19

lo que es el análisis ya es la

play20:20

estadística de toda la vida pasa es que

play20:22

en vez de con muestras de 2000 pues con

play20:25

muestras de 2000 millones pero al final

play20:28

de las poblaciones obtenemos muestras

play20:30

que evidentemente con con la tecnología

play20:34

lo que se permite es que la muestra sea

play20:37

muchísimo mayor de lo que lo que era

play20:40

antes y a partir de estas muestras pues

play20:42

obtenemos o realizamos lo que veníamos

play20:44

realizando hasta una estadística

play20:45

descriptiva inferencial como he dicho al

play20:47

final o en definitiva estadística

play20:49

aplicada si a todas estas poblaciones y

play20:52

muestras les les doy la consideración de

play20:55

big data es decir que estas poblaciones

play20:56

son analizadas de forma en tiempo real y

play21:00

con gran variedad de características a

play21:03

medir y estas muestras se van cogiendo

play21:05

repetidamente también a la velocidad

play21:07

real a cabo pues con lo que se denomina

play21:09

el data mining

play21:11

veremos lo que es al final no es más que

play21:14

datos y analizarlos en el intentar

play21:17

subir en la pirámide que hemos visto al

play21:19

principio de todo y esto me lleva a lo

play21:22

que es el aprendizaje primero hablemos

play21:23

un poco muy muy rápidamente del data

play21:25

mining el data mining o la minería de

play21:27

datos es la exploración de datos es un

play21:29

campo de la estadística y las ciencias

play21:31

de la computación que se refiere al

play21:33

proceso que intenta descubrir patrones

play21:35

en grandes volúmenes de datos al final

play21:37

lo que voy a intentar yo es con toda la

play21:41

información que voy capturando al final

play21:42

lo que requerimos es ver cómo cómo se

play21:45

comporta esa información sea si hay

play21:47

datos que se parecen entre ellos si los

play21:48

puedo agrupar por características

play21:51

si los que comparten cierta

play21:53

característica es porque a su vez

play21:54

comparten muchas otras características

play21:57

eso es lo que al final del data mining

play21:59

te busca es decir bueno voy a intentar

play22:03

descubrir patrones en grandes volúmenes

play22:05

de datos y vamos a utilizar para ello

play22:08

para hacer data mining métodos como la

play22:09

inteligencia artificial o el aprendizaje

play22:12

automático os voy a poner ahora que el

play22:14

machín learning vamos a comentar un poco

play22:17

pero al final no es más que eso es es un

play22:18

sub campo de esta inteligencia

play22:20

artificial que pretende crear algoritmos

play22:23

con capacidades de aprendizaje a partir

play22:25

de datos y de los resultados buscados es

play22:28

decir al final lo que hace el máximo

play22:29

learning es los datos los

play22:32

clasifica de alguna manera los clasifica

play22:35

en función de las características que se

play22:37

consideran similares o que yo le he

play22:39

dicho que son las características que

play22:40

tiene que considerar y a partir de aquí

play22:43

dependiendo de cómo se van moviendo esos

play22:46

datos y que hace que se que al final el

play22:49

individuo

play22:51

pertenezca a un grupo u otro ese

play22:53

algoritmo se irá corrigiendo para dar

play22:55

más peso a las características que te

play22:57

hacen pertenecer a uno u otro

play22:59

otro grupo lo veremos ahora de forma muy

play23:02

muy clara lo que me gustaría que se

play23:04

quedaran ahora con la idea es que

play23:07

venimos de que los datos en gran volumen

play23:09

y a gran velocidad están en la red que

play23:12

los podemos descargar digamos garcía y

play23:16

de alguna manera consultar y que luego

play23:18

vamos a tener que hacer estadística con

play23:20

ellos no es más que por mucho que si

play23:22

pones machine learning esto lo que

play23:23

queramos pérez estadística con

play23:25

herramientas informáticas dicho esto

play23:28

vamos a hablar de los tres grandes

play23:30

grupos de aprendizaje que hay

play23:33

a ver cuando veamos otros ejemplos de

play23:35

rápidamente os dais cuenta de para qué

play23:37

sirve y sobre todo con los ejemplos

play23:38

finales lo que me gustaría es que

play23:40

primero en esta teoría tan rápida que

play23:42

estoy dando y me sabe mal tener que

play23:43

correr tanto puedan quedarse con la

play23:45

terminología el primero de ellos es

play23:47

aprendizaje supervisado ese aprendizaje

play23:50

al final es para es utilizado en

play23:52

problemas de clasificación cuando tengo

play23:54

que diagnosticar detectar fraude en una

play23:57

identidad predicciones metereológicas

play23:59

expectativas de vida etcétera a este a

play24:03

este tipo de aprendizaje lo que le doy

play24:05

primero a la herramienta para

play24:07

entendernos es un listado de individuos

play24:10

imagínense así que yo le doy un listado

play24:13

de diez mil individuos en el que al lado

play24:15

de cada individuo le indicó con un 0-1

play24:18

si han sufrido infarto de miocardio

play24:20

alguna vez en su vida en ceros y unos y

play24:23

por otro lado para cada individuo le doy

play24:26

también un valor de determinadas

play24:28

características por ejemplo la edad que

play24:30

tiene el sexo si es fumador no fumador

play24:33

lo siguiente que hago es decirle al a

play24:36

al ordenador es diseñar un algoritmo

play24:39

mediante modelos de regresión diseñar un

play24:41

algoritmo que de alguna manera me sepa

play24:43

predecir a partir de las características

play24:46

de un individuo nuevo si puedo decir que

play24:50

ha tenido o no infanto de infarto de

play24:51

miocardio es decir yo primero le doy una

play24:54

base de datos en la que etiquetó por eso

play24:56

se dice que es supervisado yo ya le digo

play24:57

quién ha sufrido y quién no un infarto

play25:00

de miocardio y le digo qué

play25:01

características han tenido los que han

play25:03

sufrido ese ataque de miocardio y él

play25:05

intenta mediante regresión ver cuáles de

play25:08

esas características son las que más

play25:09

condicionan que se haya acabado teniendo

play25:11

ese infarto de miocardio a partir de

play25:14

aquí cuando yo al algoritmo le dé un

play25:15

nuevo individuo del que no sé si ha

play25:18

sufrido un impacto de miocardio pero sé

play25:19

su edad si fuma el peso etcétera el

play25:22

ordenador me lo intentará clasificar

play25:23

como el potencial enfermo de infarto uno

play25:27

de acuerdo eso es el supervisado el no

play25:30

supervisado que se utiliza más para

play25:32

encontrar patrones ocultos y por eso es

play25:35

muy es muy propio del marketing la idea

play25:38

es que yo le doy el mismo listado que os

play25:41

he hablado antes de acción

play25:43

pero no le digo quién ha sufrido o no ha

play25:47

sufrido infarto de miocardio yo le digo

play25:49

a toda esta gente de aquí agrupa menos

play25:52

por características compartidas

play25:54

entonces el algoritmo lo que te acaba

play25:56

diciendo estamos encontrando un grupo de

play25:58

personas de mediana a alta edad obesos y

play26:02

con hipertensión y eso les da una

play26:04

etiqueta de acuerdo al final cuando yo

play26:07

le dé un nuevo individuo él los va a

play26:09

agrupar con esos individuos que tienen

play26:12

esas características y digamos que por

play26:13

inferencia acabará determinando que las

play26:16

cosas que les pasan a los de un grupo

play26:17

les pasan más o menos por igual a todos

play26:20

los miembros de ese grupo

play26:22

la idea es bueno eso es sin encontrar

play26:25

patrones ocultos básicamente en el los

play26:27

utilizadores y finalmente en el de por

play26:30

refuerzo es un tipo de aprendizaje por

play26:33

refuerzo

play26:35

y al final yo lo que pongo es lo que

play26:38

decían los mismos pacientes que antes no

play26:40

digo evidentemente tampoco aquí si han

play26:43

tenido o no han tenido infarto entonces

play26:45

le digo al algoritmo se diseñó un

play26:47

algoritmo que me intenté predecir si ha

play26:49

tenido si va a tener un infarto en el

play26:51

próximo año el algoritmo de entrada

play26:54

intentará predecir aleatoriamente a pues

play26:57

si yo cuando pase el año le diría al

play26:59

algoritmo y pues de todos los que me

play27:00

dijiste que si todos estos han sido que

play27:02

no y todo esto realmente han sido que si

play27:04

a partir de aquí él ya empieza a

play27:06

aprender y a decir pues tras estos es

play27:08

por eso se dice por refuerzo esto es que

play27:11

me ha dicho que si la próxima vez que no

play27:12

aparezcan voy a volver a decir que sí y

play27:15

así va aprendiendo es muy propio de lo

play27:17

que se conoce como inteligencia

play27:18

artificial en la inteligencia artificial

play27:20

son este tipo de otros juegos como se

play27:23

quieran llamar en el que se intenta que

play27:26

el ordenador aprenda por ensayo error

play27:28

son pequeños robots que aprenden a

play27:30

caminar solos pues a medida que cada vez

play27:33

que se mantiene en equilibrio tú le vas

play27:34

dando señales de que está ok y cuando se

play27:36

cae le das una señal de que lo ha hecho

play27:38

mal entonces a partir de ahí él

play27:40

para evitar las señales negativas es una

play27:43

especie de pablos para carros

play27:48

para que se vea aún más claro la

play27:50

diferencia entre aprendizaje supervisado

play27:52

y no supervisado imaginemos que yo tengo

play27:53

este conjunto de datos en el aprendizaje

play27:55

supervisado yo le doy etiquetas

play27:58

directamente así como decía antes

play27:59

enfermo no enfermo aquí puedo decir como

play28:02

etiquetas cuatro cuadrados es uno hay

play28:05

cuatro lados es un cuadrado tres lados

play28:07

es un triángulo y le meto todos los

play28:09

datos a partir de aquí el que me hace

play28:11

pues todo lo que tenga cuatro lados lo

play28:14

voy a poner como cuadrado y lo que tenga

play28:16

tres lados como triángulo también le

play28:17

puedo decir etiquetas o hielo que tenga

play28:19

esta longitud de onda es azul y lo que

play28:21

tenga está roja si le pongo etiquetas de

play28:24

lados y de luz es el menos va a ir

play28:26

agrupando en función de las etiquetas

play28:27

que yo le he dado cuando yo le diga un

play28:30

nuevo dato después del conjunto de datos

play28:32

él vea un nuevo dato que tenga cuatro

play28:34

lados y la longitud de onda

play28:36

correspondiente azul me lo pondrá y me

play28:38

lo agrupar a como un cuadrado

play28:40

en el no supervisado y yo simplemente el

play28:42

dentro del conjunto de datos y él no

play28:44

sabe por qué digámoslo así pero los

play28:47

clasifica por pues por atributos o por

play28:50

características parecidas él ve que éste

play28:52

y éste son iguales pues los problemas

play28:53

juntos que éste y éste

play28:57

y los cuadrados los pone más juntos que

play28:59

los triángulos la idea es estar sports

play29:01

por comparación

play29:03

bien con lo libre para obtener datos

play29:05

preparados y analizarlos lo que he dicho

play29:07

para hacer el workshop in one crawling

play29:09

todo el tema y al final hasta también

play29:11

para consultar a peace aunque ahora las

play29:13

apis no ahora un poco de descargarte

play29:15

archivos de seguro xls para excel lo

play29:18

normal es trabajar con lenguajes en

play29:20

código abierto como nro

play29:22

payton y por otro lado que se sepa que

play29:24

hay proyectos colaborativos como cabe el

play29:26

bid happy y repositorios de programas y

play29:30

de cantidad de información para trabajar

play29:34

complicada bien vamos a pasar ahora y

play29:36

voy a ver me quedan unos 10 minutos a la

play29:40

parte más digamos más más aplicada lo

play29:42

del big data land y todo esto la gestión

play29:44

del riesgo que pinta partimos de que el

play29:46

riesgo es el efecto de la incertidumbre

play29:48

sobre los objetivos al final pues

play29:50

el efecto de la incertidumbre sobre los

play29:52

objetivos lo que me lleva

play29:55

esa que yo parto de un tercero en el que

play29:58

generó unas expectativas ya puede ser un

play30:01

plan de ventas ya puede ser un viaje de

play30:03

vacaciones o un viaje de negocios yo

play30:05

genera unas expectativas

play30:07

defino ese objetivo y lo defino en base

play30:09

a lo que yo sé al conocimiento que yo

play30:12

tengo y esas expectativas plan ico y

play30:14

planifico las acciones necesarias para

play30:15

conseguir ese objetivo esto es una de

play30:17

las grandes cosas que todo científico de

play30:19

datos debe saber hacer el data mainero

play30:23

el analista de datos es alguien que va

play30:24

estar por aquí en medio el científico de

play30:26

datos se tiene que centrar en esto de

play30:28

aquí en saber a hacerle la pregunta que

play30:30

me permita planificar las acciones para

play30:32

conseguir el objetivo asignando los

play30:34

recursos necesarios verifico al final en

play30:37

un tiempo en el verificó el resultado

play30:38

obtenido y verificó si coincide o no con

play30:40

mi objetivo es decir con mis

play30:42

expectativas puede ser que coincida 100%

play30:45

puede ser que mejore sustancialmente mis

play30:46

expectativas o puede ser que se haya ido

play30:49

muy por debajo al final gestionar el

play30:51

riesgo es intentar que desde el tercero

play30:55

hasta el tn vaya lo más recto posible o

play30:58

lo más hacia arriba

play30:59

de acuerdo es decir es intentar eliminar

play31:02

el efecto de la incertidumbre esto que

play31:04

está abierto hacia el final es para que

play31:06

coja todo el rango del verde al rojo

play31:08

pero en realidad como más nos estamos

play31:11

acercando al de su pene más reducida es

play31:13

la incertidumbre digamos que al

play31:15

principio hay mucha incertidumbre porque

play31:16

yo no sé cómo será el final se puede ser

play31:19

tan rojo como verde pero a medida que me

play31:20

voy acercando y voy ejecutando mis

play31:23

acciones pues muy bien lo más claro que

play31:25

el resultado final se acercará pues a

play31:27

este tramo de aquí guays ajax

play31:30

lo que provocará que yo acabe en un lado

play31:34

o en otro van a ser las en eficiencias y

play31:36

en los eventos internos que falta que la

play31:38

palabra interna es decir las

play31:39

ineficiencias y los y los malos actos

play31:42

que dependan de mi permitirme que lo

play31:43

diga de esta manera y por otro lado en

play31:45

los eventos en general los hechos no

play31:47

deseados o eventos extremos o externos

play31:49

que yo no controlo el azar puro

play31:53

y evidentemente tanto unos como otros

play31:55

tienen unas causas en lo que es la

play31:58

teoría del riesgo que se definen como

play31:59

fuentes de peligro fuentes de riesgo

play32:01

etcétera aunque la nueva definición de

play32:03

riesgo miso 31.000 incluye dentro de lo

play32:05

que es el efecto la incertidumbre que el

play32:08

efecto final sobre el objetivo puede ser

play32:10

negativo pero también positiva por lo

play32:12

tanto tenemos causas de daño digamos

play32:16

así de seguridad pero tenemos causa de

play32:18

oportunidad está muy bien al final lo

play32:21

que yo hago y lo que me viene de fuera

play32:23

tiene unas consecuencias que va a hacer

play32:25

que mi objetivo final pues difieran más

play32:28

o menos de mis expectativas iniciales en

play32:30

base a lo que yo había planificado esto

play32:32

era una forma muy para mí muy

play32:34

interesante de ver el riesgo de iu que

play32:36

que va mucho más allá de lo que

play32:38

normalmente se explica como probabilidad

play32:40

de consecuencia que está bien pero

play32:42

estamos en en estar aquí entonces cómo

play32:45

podemos utilizar big data y machine

play32:47

learning gestión de riesgos pues

play32:48

básicamente para explicar y para

play32:50

predecir

play32:51

vamos a buscar reducir la incertidumbre

play32:52

asociada a nuestros objetivos como

play32:55

pues bueno vamos a detectar causas

play32:57

ocultas de eventos no deseados es decir

play32:59

yo ahora no antes no pero ahora puedo

play33:03

tener información suficiente como para

play33:06

saber cuáles son las peores semanas del

play33:08

año para hacer un safari instantánea por

play33:10

ejemplo si estoy hablando de pasar unas

play33:13

vacaciones en de safari fotográfico

play33:16

puedo básicamente trabajar para reducir

play33:19

la incertidumbre de que no me pase nada

play33:21

raro de las épocas de lluvias o

play33:23

cualquier cosa la detección de causas

play33:25

ocultas también puedo detectar la

play33:27

oportunidad de esos riesgos si lo hace

play33:28

la competencia puedo clasificar eventos

play33:31

por causa por lo clasifica en eventos

play33:32

por tipo y magnitud de consecuencia es

play33:34

decir aquellos eventos que siguen

play33:37

patrones ocultos que no son perceptibles

play33:38

a simple vista mediante el big data que

play33:43

trabajan como hemos visto con grandes

play33:45

volúmenes a gran velocidad y con gran

play33:46

variedad de datos puedo encontrar al

play33:48

final respuestas a preguntas que antes

play33:52

ni me hubiera hecho

play33:53

y puedo distinguir y estas son las

play33:55

claves para mí de las más importantes /

play33:57

ineficiencias y eventos de riesgo muchas

play34:00

veces hay cosas que salen mal no por

play34:02

mala suerte sino porque lo estamos

play34:03

haciendo mal y en proyectos que estoy

play34:06

trabajando actualmente con los

play34:08

relacionados digamos con el big data te

play34:10

das cuenta de que a veces los patrones

play34:12

que se acaban revelando son patrones de

play34:14

asociados hay deficiencias

play34:16

también puedo prever eventos que nunca

play34:18

antes han sucedido no en el sentido del

play34:21

cisne negro' en los pies negros o se

play34:22

pueden predecir pero sí que puedo

play34:24

intentar predecir comportamientos

play34:26

futuros pues bueno no contemplamos

play34:30

previamente

play34:32

vale sabemos lo que se puede hacer o sea

play34:34

imaginamos pero como hago todo esto

play34:37

y lo primero es saber que puedo hacer es

play34:40

una de las grandes cuestiones

play34:42

si alguien me recomendó yo trabajo en

play34:44

gestión de riesgos y quiero trabajar y

play34:46

quiero aprender en big data y imagine

play34:49

learning mucha gente me pregunta esto

play34:51

que por dónde empiezo empiezo con un

play34:53

curso de r por un tren o no

play34:55

y mi respuesta siempre empieza por saber

play34:57

qué se puede hacer y empieza por leer

play34:59

empieza por una dominar cómo está el

play35:02

saber que dónde está esa información

play35:05

cómo puedes bajar las herramientas ahí y

play35:07

básicamente cuál va a ser tu función

play35:11

dentro del mundo del data science y si

play35:13

tú lo que quieres es hacer la pregunta

play35:16

correcta y dirigir equipos para que

play35:19

obtengan la respuesta más oportuna o lo

play35:22

que quieren ser es una de esa parte del

play35:24

equipo que se dedica a programar el

play35:27

algoritmo que explique mejor un patrón

play35:29

determinado entonces esto melvin data es

play35:31

muy es muy amplio no no es decir pues

play35:33

que quiero ser experto en +100 learning

play35:35

o depende de qué quieres hacer

play35:37

y debemos definir objetivos pensando en

play35:39

la información disponible y en la que se

play35:41

puede llegar a tener esto es muy

play35:43

importante cuando se aborda un proyecto

play35:44

de big data es decir a ver qué datos

play35:46

tengo y qué datos puedo llegar a tener y

play35:48

más importante que me puede costar

play35:51

llegar a tener estos datos siguiente

play35:53

debemos saber qué información podría

play35:54

mejorar nuestras expectativas y dónde

play35:56

encontrarla o cómo obtenerla debemos ser

play35:58

conscientes de los recursos de los que

play36:00

disponemos debemos ser conscientes de

play36:02

que si invertimos en obtener datos

play36:03

deberemos invertir en analizarlos y esto

play36:06

que parece una obviedad sorprende es la

play36:08

cantidad de veces que pasan los recursos

play36:11

que se gastan para obtener datos que no

play36:13

se analizan es impresionante y debemos

play36:16

ser conscientes de que los datos y el

play36:17

machine learning son un complemento y no

play36:19

un sustituto esto lo comento porque a

play36:21

veces están trabajando decisión es

play36:23

exclusivamente vinculadas a modelos

play36:25

cuando la intuición

play36:28

no deja de ser el de los mejores modelos

play36:31

o de los mejores algoritmos matemáticos

play36:32

que ayuda a la intuición esa es la

play36:35

capacidad de un cerebro para integrar

play36:38

todo su conocimiento pasado entonces es

play36:40

mejor un algoritmo que este muchas veces

play36:43

no lo encontraremos para determinadas

play36:44

elecciones evidentemente bien diferentes

play36:48

escenarios diferentes opciones lo que

play36:50

pretendo es decir que qué tipo que es lo

play36:54

que pretendo buscar algo que sucede

play36:55

continuamente habitualmente

play36:56

ocasionalmente entre las ocasiones algo

play36:58

que no ha sucedido nunca sé qué efecto

play37:00

tiene o puede tener si sucede no sé qué

play37:03

efecto tendría pero puedo imaginármelo y

play37:06

a veces me pasa que no sé ni el efecto

play37:08

que puede tener me puedo llegar a

play37:09

imaginarme no todas estas combinaciones

play37:11

son lo que me lleva a intentar dar

play37:14

respuesta a todo esto mediante el big

play37:17

data en los términos en los que los

play37:19

explicado para convertirlo en un smart

play37:22

data es decir aplicando modelos de maxim

play37:25

learning de inteligencia artifical

play37:26

convertir todo ese volumen de datos en

play37:29

valor para la respuesta a todo esté aquí

play37:31

todo esto de aquí y poder tomar

play37:32

decisiones que al final es lo que hemos

play37:34

hemos hablado que es la decisión

play37:36

correcta la que me lleva a mantener el

play37:38

activo y finalmente comentar que hay

play37:41

veces que se habla del big data o muchas

play37:44

veces se habla mejor dicho de smart hay

play37:46

muy pocas veces del know data y el no

play37:48

data está más presente en nuestras vidas

play37:50

de lo que nos imaginamos a veces no por

play37:52

la no disponibilidad y el no

play37:54

almacenamiento sino por la no capacidad

play37:56

o los no recursos para acceder a dichos

play37:58

datos en ese entorno también tenemos que

play38:01

ser conscientes de que no tenemos datos

play38:02

bueno pues hay cosas que no han sucedido

play38:04

pero se espera que empiecen a suceder o

play38:06

que están sucediendo pero no soy capaz

play38:07

de analizar a partir de aquí tengo que

play38:09

empezar a diseñar y capturar datos y

play38:11

modelos de predisposición ese sería el

play38:14

mejor el mejor de las recomendaciones

play38:16

que no se puede hacer de la noche al día

play38:18

ni mucho menos no se pretendiendo eso

play38:21

pero de entrada quedémonos que data

play38:24

science al final es es una estadística

play38:27

con informática pero que esto es la

play38:31

parte más analítica es la parte más del

play38:34

informático la verdadera esencia del

play38:36

data science está en hacer

play38:38

pregunta que me permita tomar decisiones

play38:41

de que aporten y retengan valor en las

play38:44

organizaciones y yo creo que esa es la

play38:46

principal lección que ha aprendido con

play38:48

estos años que llevo trabajando en esto

play38:49

del hábitat y hasta aquí sin más la

play38:52

presentación disculpar

play38:58

y me dicen que ha perdido

play39:01

me están escuchando

play39:07

me podría indicar por favor si me

play39:09

escuchan

play39:17

es que he tenido ahora al entrar he

play39:20

visto que sí que se oía bien se escucha

play39:21

bien qué susto pensé que había estado

play39:24

hablando solo tres cuartos de hojas bien

play39:28

les agradecería ahora hasta aquí hemos

play39:31

llegado lo dicho disculpar por la

play39:34

velocidad del relato pero básicamente

play39:36

intentado poner en contexto de todo el

play39:38

mundo todo el mundo esté en el big data

play39:40

y de smart data a partir de aquí si

play39:43

tienen alguna alguna pregunta alguna

play39:46

cuestión que les gustaría que pudiera

play39:49

ampliar teniendo en cuenta eso de que no

play39:52

se puede no puede ser una una clase de

play39:55

big data si he conseguido con todo esto

play39:58

que hayan entendido la dimensión del

play40:02

concepto big data y que al final todo

play40:04

esto que se que se habla y que se

play40:07

escribe y con tantos anglicismos no son

play40:10

más que estadísticas mucho volumen y

play40:13

velocidad pues ya ya habremos conseguido

play40:15

mucho y lo que les recomendaría si su

play40:18

especialidad está dentro de la gestión

play40:19

del riesgo es que sobre todo se centren

play40:22

en la labor del datacenter es como el

play40:25

que sabe hacer preguntas y sabe dirigir

play40:27

equipos para poder obtener respuestas

play40:31

en mi caso personal aunque habría este

play40:34

estoy estudiando también programación y

play40:35

demás pero ya vengo con una formación

play40:37

anterior en estadística de gestión de

play40:39

riesgos

play40:40

para mí ahora mismo se llama pérdida de

play40:42

tiempo empezará a estudiar determinados

play40:45

lenguajes de programación al final lo

play40:47

que me interesa es saber qué se puede

play40:49

hacer con la informática y seguro que

play40:51

luego puede encontrar a alguien al que

play40:53

pedirle lo que necesito uno de los

play40:55

grandes problemas que hay con el big

play40:57

data en smart data es que están los

play40:59

ultra especialistas que saben manejarse

play41:01

con los códigos y con la estadística

play41:05

y por otro lado están los decisores o

play41:10

los que plantean estrategias que están a

play41:13

una distancia o aún con un gap para mí

play41:16

muy muy grande porque el estadístico

play41:18

sabe o el programador sabe lo que se

play41:20

puede hacer pero no tiene ni idea de lo

play41:23

que necesita el decisor y el decisor

play41:26

sabe en qué entorno va a tomar

play41:27

decisiones pero no tiene ni idea de cómo

play41:29

pedir ayuda entonces creo que una de las

play41:31

grandes aportaciones que pueden hacer

play41:33

estas bobinas y en la que la gente

play41:35

también podría llegar a formarse es el

play41:36

decir bueno a mí lo que nos interesa es

play41:38

saber pedir las cosas siempre lo he

play41:40

dicho no quiero saber hacer modelos de

play41:42

regresión los modelos lineales

play41:44

generalizados a un nivel de un

play41:46

estadístico o sea de su profesión pero

play41:48

sí que sí que es muy interesante el

play41:50

saber pedirle a un estadístico que me lo

play41:53

haga

play41:54

me preguntan con este tipo de

play41:56

herramientas cómo se pueden realizar

play41:57

preguntas que se deberían realizar en

play41:59

forma correcta

play42:01

a ver de alguna manera entiendo que se

play42:04

le está preguntando es como como utilizó

play42:06

los datos para hacerme preguntas por

play42:10

ejemplo una pregunta ahora que está en

play42:12

boga todo el tema de la ética y la

play42:13

gobernanza de datos

play42:14

imagínense los datos ahí los datos

play42:17

propios vehículos de conducción autónoma

play42:19

que conducen solos son vehículos que

play42:22

toman decisiones en base a datos de

play42:24

entrada grandes volúmenes de datos de

play42:25

entrada y algoritmos que los procesan de

play42:28

forma que si lo que entra es una

play42:30

longitud de onda correspondiente a al

play42:32

rojo cuando estoy enfocando a un objeto

play42:35

que tiene forma de semáforo el vehículo

play42:37

lo que hará es detenerse bien y puede

play42:41

pasar y es uno de los grandes preguntas

play42:42

que se están haciendo estas estas

play42:44

grandes estos grandes monstruos y

play42:47

corporaciones como google test la puede

play42:49

pasar que ellos l se revienten las las

play42:51

ruedas del vehículo y que el coche el

play42:54

vehículo tenga que tomar la decisión de

play42:56

estrellarse con una alta probabilidad de

play42:59

que muera el conductor y los ocupantes o

play43:01

atropellar un peatón

play43:03

me parece una barbaridad pero pero es

play43:05

algo

play43:07

que es muchísimo más interesante

play43:09

preguntarse como modelo de negocio y una

play43:12

vez yo sé que puedo crear algoritmos

play43:14

para leer semáforos es decir bueno para

play43:16

que luego me puedo encontrar con estas

play43:17

situaciones que imaginaros podrían tirar

play43:20

al traste pues años y años y cientos de

play43:23

miles de millones de recursos es un poco

play43:24

light la idea es a ese científico de

play43:27

datos y para eso perdón allí hay un

play43:29

proyecto interesantísimo que se llama

play43:31

moral moral machine si escriben en

play43:35

google lo encontraron rápidamente moral

play43:37

machine es un proyecto de límite y lo

play43:41

que intenta de alguna manera es a partir

play43:43

de una especie de encuesta juego donde

play43:45

es muy entretenido en el que te permite

play43:47

el que te te pide que tomes decisiones

play43:49

sobre sobre qué hacer y tienes que

play43:51

elegir ese es tan duro como que tienes

play43:53

que elegir entre la vida de un peatón o

play43:56

de otro peatón o entre tu vida y la del

play43:58

peatón en condiciones como que esté

play44:00

pasando en el semáforo en rojo o como

play44:03

que esté pasando en rojo pero vaya

play44:05

acompañado de un niño al final lo que

play44:07

intenta la moral machine o el proyecto

play44:09

este del mid es intentar y está muy bien

play44:12

explicado en su página

play44:13

establecer un modelo de ética o de moral

play44:16

colectiva de toda la humanidad es la

play44:18

salvajada

play44:19

pero como pero como preguntan lo que

play44:21

necesitan y con todo esto como me hago

play44:22

preguntas pues no estos llamados la

play44:24

pregunta

play44:26

y también

play44:28

quiero aprender a hacer la pregunta

play44:29

correcta para hacer la primera y la

play44:32

pregunta correcta primero tenemos que

play44:35

saber con qué herramientas podemos

play44:37

contar para las respuestas

play44:39

esa es la esa es la idea

play44:41

muchas veces no no hacemos preguntas

play44:44

correctas porque no sabemos que

play44:46

disponemos de herramientas para obtener

play44:48

la respuesta y esto nos pasa con la

play44:50

estadística nos pasa con las matemáticas

play44:51

en general nosotros pasar con la física

play44:53

o nos puede pasar al final con la

play44:55

psicología de acuerdo lo primero que hay

play44:57

que saber es de qué herramientas

play44:58

disponemos y qué son capaces de hacer

play45:00

esas herramientas cuando yo de alguna

play45:02

manera tengo en mi cabeza la cantidad de

play45:03

cosas que se pueden hacer empiezo a

play45:05

hacerme preguntas del tipo y si hiciera

play45:08

esto para esto y obtuviera esto también

play45:11

les digo y por experiencia personal que

play45:12

cuando conoces todas esas herramientas y

play45:14

conoces todas las posibilidades

play45:16

tendrás una especie de shock térmico

play45:18

dices dios mío las posibles son

play45:21

infinitas empiezas a hacerte preguntas a

play45:23

una cada milésima de segundo y al final

play45:26

te acabas creando tus propios a los

play45:28

mismos demás silver ni en la cabeza que

play45:30

te dicen que el 99% de las preguntas que

play45:32

te haces si pueden obtener respuesta

play45:35

pero no van a ser útiles aprender a

play45:37

hacerse preguntas correctas es eso es

play45:39

una labor muy tremenda yo creo que tenía

play45:42

que tener su propia carrera

play45:45

podrá publicar en muy breve en caso de

play45:47

punta a punta formulación datos a ver

play45:49

casos de éxito

play45:51

de big data y de cosas que se hacen allí

play45:54

a montones por ejemplo de que haya

play45:56

analizado hace poco pues para trabajos

play45:58

que tenían que hacer ups

play46:01

si entran en internet y ponen un ps la

play46:04

multinacional del mundo del envío y

play46:06

ponen ups big data

play46:07

además se han sido premiados en varias

play46:10

ocasiones esperan todo lo que han hecho

play46:12

en base a preguntas correctas para poder

play46:15

mejorar sus servicios ser más eficientes

play46:17

personalmente los mis proyectos como son

play46:20

proyectos para clientes pues tienen que

play46:22

ser tienen que ser los clientes los que

play46:24

los publiquen pero vamos muchos clientes

play46:28

si entra también por cualquier

play46:30

combinación que pongas big data y bmw ao

play46:33

big data y cocacola big data al ps

play46:36

encontrarán proyectos de este tipo que

play46:40

peritaje se debe proponer en juicios

play46:41

para casos de vic y smart data

play46:44

esto es muy complicado sí fijaros que

play46:47

una de las cosas que comentaba al

play46:49

principio es que dos de las grandes

play46:52

urbes son las dos subes que me hacen el

play46:54

big data smart data son el valor como

play46:56

hemos dicho pero sobre todo la veracidad

play46:58

esto es uno de los grandes problemas a

play47:00

los que nos enfrentamos

play47:01

de momento las bases de datos con las

play47:04

que se trabajan cuando son de

play47:06

instituciones y organizaciones públicas

play47:07

pues no cuentan con una presunción de

play47:09

veracidad de entrada pero se están

play47:11

empezando a ver ya repositorios de datos

play47:15

para forzar

play47:17

interpretaciones fake y eso va a ser

play47:19

también un gran campo de trabajo

play47:21

realmente luisa del carmen no sé

play47:24

responderte a cómo debería evitarse un

play47:26

proyecto este tipo en el caso de datos

play47:29

no estructurados aparte de la pregunta

play47:30

qué estrategia se debe seguir para

play47:32

emplearlos en el análisis de riesgos

play47:35

en un caso de dato no estructurado muy

play47:37

claro es un pdf entonces por ejemplo yo

play47:43

podría detectar correos electrónicos y

play47:47

yo puedo detectar fraude interno a

play47:49

partir de una lectura inteligente de una

play47:52

muestra de correos electrónicos de los

play47:54

trabajadores de la empresa por ejemplo

play47:56

en el supuesto de que se tuviera permiso

play47:59

para hacerlo y demás esto ya depende de

play48:00

cada legislación otro otro proyecto en

play48:03

el que puedo trabajar datos no

play48:04

estructurados es recopilación de los de

play48:09

escrituras de pisos

play48:11

en el que hay toda la información que no

play48:14

está estructurada porque no está en una

play48:15

base de datos pero ahí sí que tengo los

play48:17

metros cuadrados de la vivienda o el

play48:20

piso tengo el valor catastral de autor

play48:22

una serie de información que puedo

play48:24

enseñarle a la máquina a extraer y

play48:26

almacenar

play48:29

no hace falta transformar todos los

play48:32

datos no estructurados en un dato

play48:33

numérico puedo todo enseñar a la máquina

play48:37

leer un pdf ya sacarme el nombre del

play48:39

cliente de si tengo mil facturas en pdf

play48:43

y le digo que el nombre del cliente

play48:44

siempre sale en la misma posición y

play48:47

detrás de las letras de que conforma el

play48:49

cliente y dos puntos

play48:51

la máquina o queráis irme allí lo

play48:53

que hay ahí detrás y almacenarlo en un

play48:55

campo pues con un texto

play48:58

hay muchísimas preguntas a ver

play49:04

a ver alumno de máster una consulta

play49:06

programas como r en qué parte del big

play49:08

data lo puedes clasificar ere y pantón

play49:14

que básicamente y hasta donde yo he

play49:15

llegado que no soy un experto en muchos

play49:18

pero trabajado con los dos y sirven

play49:20

tanto para capturar como para analizar

play49:25

como para diseñar algoritmos de

play49:27

clasificación básicamente lo que hago

play49:29

con r es cargar bases de datos enormes

play49:34

buscar patrones en esas bases de datos

play49:36

buscar correlaciones o una de las cosas

play49:38

que más te trabajan en una de las

play49:40

técnicas estadísticas que más se trabaja

play49:41

cuando cuando coges posibilidad hace

play49:44

poco estaba con una base de datos que

play49:45

eran 33 millones de datos de registros

play49:50

claro cuando tienes 58 muy variables

play49:52

como era el caso imaginaros que yo lo

play49:55

que tengo es un 3 en este caso práctico

play49:58

eskenazi eran 33 torres de alta tensión

play50:00

en el que cada torre en la parte más

play50:04

alta tenía un anemómetro que medía la

play50:06

dirección y la intensidad del viento y

play50:08

yo iba tomando lecturas de por qué hoja

play50:11

existencia mente en los sensores iban

play50:13

tomando lecturas en cada uno de estas de

play50:14

cada una de estas tres torres como

play50:16

pueden ser también tres molinos de

play50:17

viento durante instantes pues durante

play50:21

cada cinco minutos durante un año

play50:22

entonces al final yo lo que tengo es la

play50:25

componente norte sur este oeste del

play50:27

viento en cada instante que tomó la

play50:30

medida el norte sur este oeste en oeste

play50:32

este por las 16 y aparte las

play50:35

intensidades en cada una de ellas

play50:37

esto me generaba para las tres torres

play50:39

durante todos los instantes de tiempo

play50:41

pues tenía 58 mil variables 58 mil

play50:44

variables

play50:47

un montón de registros ahora no recuerdo

play50:48

tantos pero el total eran 33 millones de

play50:51

registros pero analizar porque la idea

play50:54

al final camps que según explicó la idea

play50:56

de estos datos será ver qué patrón de

play51:00

vientos era el que me podía provocar un

play51:03

mayor daño en la estructura de esta

play51:05

torre de alta tensión de acuerdo

play51:06

entonces yo lo que tengo que analizar es

play51:08

los patrones de viento durante estos

play51:10

tres años y luego decirle al programa

play51:12

cuál de las estructuras estaba más

play51:14

dañada y cuál menos la idea es que

play51:17

dependiendo del patrón de vientos que

play51:19

haya en otra otra torre pueda

play51:22

determinarse acabará sufriendo el año

play51:23

sólo esto es un caso muy práctico

play51:26

pues bien uno de los de los primeros

play51:28

conocimientos que tú tienes que hacer tú

play51:29

no puedes trabajar con 58.000 variables

play51:31

tienes que hacer una reducción de

play51:32

dimensiones es decir tienes que poder

play51:34

predecir con una combinación de 50 de 60

play51:38

de 30 de 10 o hasta de 3 variables para

play51:41

eso se hace pues un procedimiento que se

play51:43

denomina análisis de componentes

play51:45

principales e intenta reducir las 58.000

play51:48

variables es decir la información que

play51:49

tienen las 58.000 variables le intentas

play51:52

condensar en unas pocas esto es uno de

play51:55

los grandes de las grandes cosas que se

play51:57

puede hacer con el refresco con la red

play51:58

se puede hacer de todo aparte de

play52:01

transporte

play52:03

de hacer modelos de regresión de hacer

play52:04

árboles de fallos de hacer clustering de

play52:07

todo tipo mucha técnica de clasificación

play52:12

si es importante para hacer un máster en

play52:14

gestión de riesgo es tal no lo que es

play52:16

importante es que existe un código

play52:18

opensource como r que me permite hacer

play52:21

estadística de grandes volúmenes de

play52:23

datos y que hay expertos en todo el

play52:25

mundo que dándole yo una base de datos

play52:27

muy grande me pueden devolver un excel o

play52:30

un informe o un pdf

play52:32

pues con unas conclusiones o con unas

play52:34

agrupaciones o con unos patrones que yo

play52:36

no soy capaz de identificar

play52:39

bien y voy a pasar ya a las dos últimas

play52:42

preguntas mil disculpas que no pueda

play52:45

hacer todas en el caso de datos no

play52:48

estructurados este tratado para ver cómo

play52:51

determinar las variables más esenciales

play52:53

en una base de datos pues precisamente

play52:54

como comentaba ahora una de las técnicas

play52:56

que hay es el de descomposición en

play52:59

valores singulares que se llama análisis

play53:01

de componentes principales el análisis

play53:03

de componentes principales al final lo

play53:04

que me dice desde todas las variables

play53:06

que tengo cuáles son las que le dan más

play53:08

peso a la respuesta dicho de otra manera

play53:10

imaginemos que yo tengo 5000 variables

play53:13

sobre 10 pacientes y quiero determinar

play53:17

si si pues pueden como decía antes

play53:20

padecer un infarto en el próximo año

play53:22

estas 5000 variables pueden hacer

play53:24

referencia a cuestiones de peso y edad

play53:27

sexo hábitos alimenticios pero también

play53:31

a cuestiones nada relacionas con el

play53:33

infarto pues como yo que sé

play53:36

la ciudad en el que viven o el pueblo o

play53:38

cuántos vecinos tiene o de imagineros de

play53:40

10.000 variantes muy bien al final la

play53:43

mayor fuente de variabilidad es decir el

play53:46

mayor peso en lo que determina que una

play53:48

persona cambio no cabe teniendo infarto

play53:50

estará solo en unas pocas de esas

play53:51

variables si acaso estará en la

play53:53

predisposición genética en el peso en el

play53:56

ser o no fumador y en el sexo de acuerdo

play54:00

el cómo reducir esas 10.000 variables a

play54:02

estas 45 es lo que me hace la técnica de

play54:05

análisis de componentes principales de

play54:07

alguna manera busca la relación de todas

play54:08

con todas y determina cuáles de ellas

play54:10

están más veces presentes cuando alguien

play54:13

ha tenido un infarto el dicho de una

play54:14

forma class que esto y para mí lo que sí

play54:16

que es muy importante si alguien quiere

play54:18

entrar en este mundo de big data y al

play54:20

igual que no es imprescindible

play54:21

para ser un buen gestor de riesgos tener

play54:23

una noción de estadística básica para

play54:27

mística es importante saber que hay una

play54:28

cosa que se llama análisis de

play54:29

componentes principales y que hay una

play54:31

cosa que se llama eso no la maldición de

play54:33

las dimensiones que hablamos es que

play54:36

bueno que a veces trabajamos con con

play54:37

cientos o con miles de variables

play54:40

y finalmente en tu experiencia que

play54:43

empresas han beneficiado más con big

play54:45

data pues bueno empresas de todo tipo en

play54:47

vic tapas que se ha utilizado en el

play54:49

sector sanitario pero como os he dicho

play54:51

si entráis por ejemplo en un ps que se

play54:54

ha hecho un proyecto bestial al respecto

play54:57

para optimizar las rutas y para

play54:58

garantizar entregas monitorizando el

play55:01

tráfico velocidades etcétera

play55:04

cualquier tipo de empresa por extraño

play55:07

que parezca se puede beneficiar de

play55:09

bitácoras o los recursos

play55:12

y se puede asumir producido el riesgo

play55:14

con la implementación de la factura

play55:16

electrónica y big data en detección de

play55:18

fraude fiscal a nivel gubernamental

play55:21

a ver claro el el big data desde el

play55:23

momento cuando digo big data es todo lo

play55:26

que es explicado ahora desde el momento

play55:28

en que yo puedo clasificar y de alguna

play55:30

manera encontrar patrones de este fraude

play55:33

pues me permite poner más el ojo en

play55:36

aquellos potenciales defraudadores

play55:39

hasta ahora estoy verde esto no es algo

play55:41

que sea que sea nuevo haciendo en españa

play55:44

en concreto es uno de los sistemas más

play55:45

digamos más efectivos a la hora de

play55:48

detectar fraude y ha trabajado siempre

play55:51

con modelos aleatorios y con y con

play55:54

modelos de inspección por decir con este

play55:56

año voy a sólo los que tengan

play55:58

según la vivienda al final a partir de

play56:02

la incidencia del fraude en base a las

play56:03

elecciones que hacían ellos acaban

play56:05

teniendo algoritmos en los que pueden

play56:07

predecir que es una persona tiene

play56:08

segunda vivienda tercer coche gana entre

play56:10

tanto y tanto y tal la probabilidad de

play56:12

que esté intentando defraudar es de

play56:14

tacto pues lo mismo para cualquier

play56:17

gobierno de cualquier país

play56:20

el uso de big data en el en el sector

play56:22

público se está utilizando muchísimo

play56:24

pero se utiliza más como el sector

play56:27

público está trabajando en big data más

play56:29

como fuente de captación de datos y de

play56:32

puesta a disposición del público en

play56:34

muchas ciudades del mundo ya tienen sus

play56:36

propios open data sus propias páginas en

play56:40

las que te dan acceso a información en

play56:43

tiempo real o en grandes bases de datos

play56:45

sobre datos de contaminación de tráfico

play56:48

de transeúntes de zonas de aparcamiento

play56:51

de

play56:53

de disponibilidad de restaurantes que

play56:56

hoy en día de arbolado público etc de

play57:00

zonas verdes lo que estoy viendo en esta

play57:03

administración pública está trabajando

play57:05

mucho en captar el dato y ponerlo a

play57:07

disposición de pues la gente que quiera

play57:09

trabajar

play57:11

y bueno hasta aquí hasta aquí podemos

play57:14

llegar porque el tiempo ha premiado y lo

play57:18

dicho no no era mi intención dar un

play57:20

curso de vida está simplemente ponerlos

play57:22

en contexto y a su disposición animarles

play57:26

también a que puedan asistir al evento

play57:28

de mañana en el que ocho profesionales

play57:31

del riesgo nos van a hacer ponencias

play57:33

cada una específicas en su ámbito sobre

play57:35

cómo están viendo el impacto en el cómic

play57:38

en todos los países de habla hispana y

play57:42

en el que yo pues inicialmente era bueno

play57:44

llevar la moderación y el gran pequeña

play57:46

presentación de los principales

play57:48

resultados que hemos acabado de una

play57:49

encuesta a profesionales de del riesgo

play57:52

de diferentes sectores de cómo han visto

play57:53

la la crisis a su disposición para lo

play57:57

que necesiten y hasta la próxima

Rate This

5.0 / 5 (0 votes)

Related Tags
Big DataSmart DataGestión de RiesgosAnálisis de DatosData MiningMachine LearningInteligencia ArtificialData ScienceTecnología de DatosRiesgo Competitivo
Do you need a summary in English?