El impacto del Bigdata y el Smartdata en Gestión de Riesgos
Summary
TLDREl seminario discute el impacto del Big Data y Smart Data en la gestión de riesgos, aclarando que no es un curso básico sino una presentación avanzada. Expone la importancia de la información y el conocimiento en contexto para tomar decisiones. Aborda el valor de los datos y su relación con la acción y la decisión, destacando la necesidad de una visión y un uso claros. Presenta el concepto de Big Data como estrategias y tecnologías para manejar velocidad, volumen y variedad de datos, y Smart Data como el análisis de estos datos para obtener valor. El seminario también explora técnicas como el data mining, el machine learning y diferentes enfoques de aprendizaje automático para predecir y explicar eventos, así como su aplicación en la gestión de riesgos y la mejora continua de procesos.
Takeaways
- 📚 El seminario no es un curso de big data ni de smart data, sino una presentación para aclarar conceptos y habilidades requeridas en el ámbito de la gestión de riesgos.
- 🔍 Se enfatiza la importancia del dato en el contexto de la toma de decisiones y cómo este, al convertirse en información y conocimiento, puede llegar a ser sabiduría y acción.
- 📈 La relación entre big data, smart data y la gestión de riesgos es destacada, con el big data manejando volumen, velocidad y variedad, y el smart data agregando valor a través del análisis.
- 🌐 Se describe big data como un conjunto de estrategias, tecnologías y sistemas para gestionar conjuntos de datos complejos, enfocándose en la capacidad de procesamiento y análisis de grandes volúmenes de información.
- 🤖 El aprendizaje automático o machine learning es presentado como una herramienta clave dentro del big data para la clasificación, predicción y detección de patrones en grandes conjuntos de datos.
- 👥 Se menciona la importancia de los científicos de datos y cómo su papel es entender y dirigir el proceso de transformación de datos en conocimiento aplicado y acciones estratégicas.
- 🕵️♂️ El data mining es descrito como el proceso de exploración de datos para descubrir patrones y comportamientos ocultos, utilizando técnicas de inteligencia artificial.
- 📊 Se discuten los tipos de aprendizaje automático: supervisado, no supervisado y por refuerzo, cada uno con aplicaciones específicas en el análisis de datos y la toma de decisiones.
- 🛡️ Big data y machine learning son utilizados en la gestión de riesgos para explicar y predecir eventos, detectar causas ocultas y oportunidades, y prever eventos inusuales o nunca antes vistos.
- 🏢 Se destaca la importancia de la pregunta correcta en el análisis de datos, y cómo esta puede ser guiada por el conocimiento de las herramientas y recursos disponibles para la toma de decisiones.
- 📝 Se enfatiza la importancia de la ética y la gobernanza de datos, especialmente en contextos de toma de decisiones críticas como en el caso de los vehículos autónomos.
Q & A
¿Qué es el propósito del seminario sobre Big Data y Smart Data en gestión de riesgos?
-El seminario no es un curso de Big Data o Smart Data, sino que busca aclarar y contrastar los conceptos y habilidades requeridas para utilizar técnicas y aprovechar las características de estos enfoques en la gestión de riesgos.
¿Cómo se define el dato en el contexto de la comunicación y la información?
-El dato, una vez establecido en un contexto, nos da información. Al dotar al dato de significado y contexto, obtenemos conocimiento, que a su vez, al integrarlo con visión y acción, se convierte en sabiduría.
¿Cómo se relaciona la sabiduría con la toma de decisiones y la acción?
-La sabiduría, entendida como conocimiento aplicado, es la base para la toma de decisiones y la acción. La acción, expresada como decisión, permite mejorar ciclos y modelos de gestión de riesgos.
¿Qué ventajas competitivas pueden proporcionar los datos valiosos y raros según Frank Rothermel?
-Los datos valiosos y raros pueden proporcionar una ventaja competitiva sostenible, ya que son difíciles de imitar y capturar, lo que puede llevar a una ventaja competitiva duradera.
¿Qué es Big Data y qué elementos clave gestiona?
-Big Data es un conjunto de estrategias, tecnologías y sistemas para almacenar, procesar, analizar y visualizar conjuntos de datos complejos, gestionando principalmente velocidad, volumen y variedad.
¿Cómo se relaciona Big Data con Smart Data y cómo se diferencian?
-Big Data se convierte en Smart Data cuando se analiza para obtener valor, es decir, cuando se utiliza el conocimiento de gran volumen y variedad de datos para predecir y explicar eventos y tendencias.
¿Qué tipos de datos componen el Big Data y cómo se diferencian?
-El Big Data compone datos estructurados, no estructurados y semiestructurados. Los datos estructurados siguen un formato preestablecido, los no estructurados no tienen un orden preestablecido ni reglas de almacenamiento, y los semiestructurados tienen cierta estructura, como etiquetas en HTML o XML.
¿Cómo se recopilan los datos a gran escala y a alta velocidad?
-Los datos se recopilan a través de dispositivos como sensores, cámaras, PLCs, selectores micros y ordenadores, así como soluciones de captura automática de datos en general.
¿Qué son las APIs y cómo se utilizan en el contexto de Big Data?
-Las APIs, o Application Programming Interfaces, son aplicaciones que permiten acceder a otras aplicaciones para realizar acciones específicas, como acceder a bases de datos o realizar búsquedas en sitios web y redes sociales.
¿Qué es el data mining y cómo se relaciona con el aprendizaje automático o machine learning?
-El data mining es la exploración de datos para descubrir patrones en grandes volúmenes de información. El machine learning es un subcampo de la inteligencia artificial que crea algoritmos con capacidades de aprendizaje a partir de datos, lo que se utiliza en el data mining para analizar y predecir comportamientos.
¿Cómo se relaciona la gestión de riesgos con el uso de Big Data y Smart Data?
-La gestión de riesgos se relaciona con Big Data y Smart Data en la medida en que estos pueden ayudar a explicar y predecir eventos y tendencias, reduciendo la incertidumbre y permitiendo tomar decisiones más informadas.
¿Qué es el análisis de componentes principales y cómo se utiliza en el contexto de Big Data?
-El análisis de componentes principales es una técnica de reducción de dimensionalidad que se utiliza para identificar cuáles variables son las más esenciales en un conjunto de datos, lo que ayuda a simplificar y enfocar el análisis en las características más relevantes.
¿Cómo se pueden utilizar los datos no estructurados en la gestión de riesgos?
-Los datos no estructurados, como los correos electrónicos o los documentos PDF, pueden ser analizados mediante técnicas de aprendizaje automático para detectar patrones o anomalías que puedan ser relevantes en la gestión de riesgos, como el fraude interno o la evaluación de contratos.
¿Qué es la Moral Machine y cómo se relaciona con la toma de decisiones en IA?
-La Moral Machine es un proyecto que busca establecer un modelo de ética o moral colectiva a través de un juego en línea donde los participantes toman decisiones difíciles sobre situaciones hipotéticas. Se relaciona con la toma de decisiones en IA al explorar cómo los algoritmos podrían manejar escenarios éticos complejos.
Outlines
📚 Introducción al seminario sobre Big Data y Smart Data
El seminario comienza con una introducción al tema principal, Big Data y Smart Data en la gestión de riesgos. Se aclara que el seminario no es un curso sobre big data o smart data, sino que busca explicar y contextualizar estos conceptos en 40 a 45 minutos. El ponente, Daniel Romero, enfatiza la importancia de entender los datos y cómo estos pueden ser utilizados para mejorar la toma de decisiones y la gestión de riesgos. Se menciona la teoría de la comunicación y cómo los datos, al ser contextualizados, se convierten en información y conocimiento, y eventualmente en sabiduría y acción. Se introduce la idea de que los datos valiosos pueden ser una fuente de ventaja competitiva sostenible.
🌐 Teoría del dato y su valor en la gestión de riesgos
Se profundiza en la teoría del dato, explicando cómo los datos adquieren valor y rareza, y cómo esto puede traducirse en una ventaja competitiva. Se discute la importancia de la acción y la decisión como expresión del conocimiento aplicado, y cómo estos elementos están íntimamente relacionados con la gestión de riesgos. Se introduce el concepto de big data como un conjunto de estrategias, tecnologías y sistemas para manejar grandes volúmenes de datos que presentan velocidad, variedad y veracidad. Además, se menciona el concepto de smart data, que implica incluir el valor en el análisis de datos para poder explicar y predecir comportamientos y eventos.
🔍 Big Data y Smart Data en la captura y análisis de información
Este párrafo se enfoca en las acciones específicas relacionadas con big data y smart data, como la recopilación, captura, almacenamiento, extracción, visualización, preparación y modelado de datos. Se destaca que hay especialistas en diferentes áreas de big data, desde la captura y almacenamiento hasta el análisis. El científico de datos es presentado como una figura que comprende y coordina estos procesos para apoyar la toma de decisiones en una organización. Se menciona la importancia de comprender el tipo de información que compone el big data, incluyendo datos estructurados, no estructurados y semiestructurados, y cómo se recopilan estos datos a través de diferentes dispositivos y técnicas.
🛠️ Técnicas de recopilación de datos y desafíos asociados
Se discuten técnicas específicas para la recopilación de datos, como las APIs (Application Programming Interfaces), que permiten el acceso a bases de datos y motores de búsqueda, y se mencionan ejemplos de cómo se utilizan en diferentes contextos, como redes sociales y sistemas financieros. También se introduce el concepto de web scraping y web crawling como métodos para obtener datos de páginas web de forma sistemática. Se destaca la complejidad y el desafío de almacenar e indexar la información, y se menciona el uso de sistemas de archivos distribuidos como solución a este problema.
📈 Análisis de datos y técnicas de Data Mining
El párrafo se centra en el análisis de datos y cómo se ha evolucionado con el tiempo, pasando de trabajar con muestras pequeñas a manejar poblaciones y muestras masivas en tiempo real. Se introduce el concepto de data mining, la minería de datos, como el proceso de exploración de grandes volúmenes de datos para descubrir patrones y comportamientos. Se menciona el uso de inteligencia artificial y aprendizaje automático, también conocido como machine learning, para clasificar datos y mejorar la precisión de los algoritmos a través del tiempo.
🤖 Aprendizaje supervisado, no supervisado y por refuerzo
Se explican los tres grandes grupos de aprendizaje en machine learning: supervisado, no supervisado y por refuerzo. El aprendizaje supervisado se utiliza para problemas de clasificación y predicción, como el diagnóstico de enfermedades o la detección de fraudes. El aprendizaje no supervisado se centra en encontrar patrones ocultos en los datos, útil en el marketing para agrupar a las personas por características compartidas. El aprendizaje por refuerzo es utilizado para situaciones en las que no se conoce si un evento ha ocurrido o no, y se basa en el aprendizaje por ensayo y error. Se destacan ejemplos prácticos de cómo se aplican estos métodos en diferentes contextos.
🛡️ Big Data y Machine Learning en la gestión de riesgos
Este párrafo discute cómo se pueden utilizar big data y machine learning en la gestión de riesgos. Se describe el proceso de establecer objetivos y planificar acciones para alcanzarlos, y cómo el análisis de datos puede ayudar a reducir la incertidumbre y predecir resultados. Se mencionan ejemplos de cómo se pueden detectar causas ocultas de eventos no deseados y oportunidades, y cómo se pueden prever eventos que nunca antes han ocurrido. Se enfatiza la importancia de saber qué se puede hacer con big data y machine learning y cómo estos herramientas complementan la intuición y el conocimiento humano en la toma de decisiones.
📊 Conocimiento y preparación en Data Science para la gestión de riesgos
Se aborda la importancia de definir objetivos y ser consciente de los recursos disponibles al abordar un proyecto de big data en el contexto de la gestión de riesgos. Se sugiere que es fundamental comprender qué datos se tienen, qué datos se pueden obtener y cuánto podría costar obtenerlos. Además, se enfatiza la necesidad de invertir en el análisis de los datos adquiridos y de reconocer que los datos y el machine learning son herramientas que complementan la toma de decisiones, en lugar de sustituir la intuición y el juicio humano.
🕵️♂️ La importancia de hacer la pregunta correcta en Data Science
El ponente reflexiona sobre la esencia del data science y cómo está en hacer la pregunta correcta que permita tomar decisiones que aporten y retengan valor en las organizaciones. Destaca que el data science es más que simplemente estadísticas y computación; es sobre integrar el conocimiento pasado y la capacidad de hacer preguntas que lleven a soluciones útiles. Se enfatiza que no se pueden hacer grandes avances de la noche a la mañana, sino que es un proceso que requiere tiempo y esfuerzo.
🤔 Hacia la formulación de preguntas correctas en el ámbito del big data
Se discute la importancia de conocer las herramientas y posibilidades disponibles para poder hacer preguntas correctas en el ámbito del big data. Se sugiere que al conocer todas las herramientas y sus capacidades, se pueden generar nuevas preguntas y soluciones infinitas. Se menciona la necesidad de aprender a hacer preguntas útiles y relevantes, y se comparte la experiencia personal del ponente en relación a esto. Se habla de la publicación inminente de un libro sobre la formulación de preguntas y casos de éxito en big data, y se dan ejemplos de cómo se pueden utilizar las preguntas correctas para mejorar servicios y eficiencia en empresas como UPS.
🏭 Aplicaciones prácticas del big data en diferentes sectores
Se presentan ejemplos de cómo el big data se ha aplicado en diferentes sectores, como el sector energético con el análisis de datos de vientos en torres de alta tensión, y cómo se ha utilizado para optimizar rutas y garantizar entregas en el sector de envíos. Se menciona el uso del análisis de componentes principales para reducir la dimensionalidad de grandes conjuntos de datos y cómo se ha beneficiado a empresas de todo tipo con la implementación de big data.
🏢 Big data en la detección de fraude y en el sector público
Se habla sobre el uso del big data en la detección de fraude fiscal a nivel gubernamental y cómo se está utilizando en el sector público para captar datos y ponerlos a disposición del público a través de plataformas de open data. Se mencionan ejemplos de información que se
Mindmap
Keywords
💡Big Data
💡Smart Data
💡Gestión de Riesgos
💡Data Mining
💡Machine Learning
💡Análisis de Componentes Principales (ACP)
💡Datos No Estructurados
💡Inteligencia Artificial
💡Estadística Descriptiva
💡Gestión del Riesgo
Highlights
El seminario busca aclarar conceptos de Big Data y Smart Data en el contexto de la gestión de riesgos.
Se enfatiza que el seminario no es un curso básico de Big Data sino una discusión de sus aplicaciones prácticas.
Se presenta la pirámide del conocimiento del dato, desde el dato hasta la sabiduría y la acción.
El valor de los datos radica en su contexto, significado y uso en decisiones.
Se discute la importancia de la acción y la decisión como componentes finales del conocimiento.
Se establece la relación entre la gestión de riesgos y la importancia de la información y conocimiento.
El seminario aborda la distinción entre Big Data, Smart Data y su relevancia en la toma de decisiones.
Se define Big Data como un conjunto de estrategias, tecnologías y sistemas para manejar datos complejos.
Smart Data se presenta como el análisis de Big Data para obtener valor y conocimiento.
La gestión de riesgos se vincula con la capacidad de explicar y predecir a través de Big Data y Smart Data.
Se menciona la importancia de la veracidad y valor en la conversión de Big Data en Smart Data.
Se discute el tipo de información que compone el Big Data, incluyendo datos estructurados y no estructurados.
Se explora cómo se obtienen datos a través de APIs y técnicas de web scraping y web crawling.
Se presenta Data Mining como el proceso de exploración de datos para descubrir patrones.
Se explica el Machine Learning como un subcampo de Inteligencia Artificial para el aprendizaje a partir de datos.
Se discuten los tres grandes grupos de aprendizaje: supervisado, no supervisado y por refuerzo.
Se habla sobre la importancia de hacer preguntas correctas y cómo las herramientas de Data Science pueden ayudar.
Se enfatiza la necesidad de comprender el valor de los datos y su relación con la gestión de riesgos.
Se sugiere que los profesionales de riesgo se centren en la labor del data scientist y en la formulación de preguntas adecuadas.
Se menciona el proyecto Moral Machine, una herramienta para establecer un modelo de ética en toma de decisiones.
Se concluye destacando que Data Science es estadística con informática y que la esencia está en la formulación de preguntas que aporten valor.
Transcripts
muchísimas gracias y muy buenos días
tardes noches dependiendo dónde se
encuentre en cada uno de ustedes
bienvenidos a este seminario de impacto
el big data y smart data en gestión de
riesgos
no obstante tampoco con el título y
tanto por explicar primero me gustaría
decir que este este seminario no
pretende para nada ser un curso de big
data ni de smart data ni nada parecido
lo que sí que son las que por
experiencia y por lo que voy viendo
últimamente que hay infinidad de cursos
de conviertas en un profesional de big
data y del máxim learning y de la
ciencia de datos y bueno pues la idea es
que vamos comentarlas con la mucha
desinformación y un poco es poner blanco
sobre negro en una ponencia de 40 a 45
minutos todos estos conceptos para que
se entienda un poco pues sólo de qué
estamos hablando que qué habilidades se
requieren para utilizar las técnicas
otras o para aprovechar una de las otras
características dicho esto vamos a
empezar con algo muy simple qué es
perdón el explicar que es el dato bueno
de se refería por cierto se me oye bien
supongo si alguien puede indicar me que
el sonido es el correcto de minicross
ok daniel romero muchísimas gracias pues
seguimos con esto y empezamos como decía
con un poco de definición de el dato en
el para qué queremos el dato y hacia
dónde queremos llegar esto del dato
desde que hay teoría de la comunicación
que se trabaja y básicamente lo que me
gustaría es que se conociera desde aquí
perdón que el dato cuando cuando lo
establecemos en un contexto nos da
información es decir si yo tengo 35 es
un dato si digo 35 grados celsius o 35
grados de temperatura estoy poniendo en
contexto y está dando una información
creando temperatura
esta esta información cuando la dotó de
significado obtengo un conocimiento y
hablamos por conocimiento como una
información en contexto que me permite
inferir inferir cualquier cosa a partir
de aquí cuando yo tengo este dato
convertido en información y pasado a
conocimiento en el momento en que
incorporó la visión de ese conocimiento
obtengo lo que se quiera denominar en la
pirámide del conocimiento del dato la
sabiduría entendida la sabiduría como un
conocimiento aplicado llamémoslo de esta
manera
a partir de que empieza a trabajarse
todo lo que se impartan intacta es marga
está esta pirámide que toda la vida ha
venido siendo de esta manera de alguna
manera empieza a evolucionar y se
empieza a dar importancia a algo más que
la sabiduría por sabiduría y es
al uso que se hace de esa sabiduría al
uso que se le da a ese conocimiento con
visión y ese uso no deja ser más que la
acción y la acción pues expresiva
explicitada como decisión al final la
idea es que los datos nos estamos
convirtiendo en valor a partir de
dotarlos de contexto significado visión
uso en y
en el uso como acción mediante la
decisión que me permite de alguna manera
mejorar el ciclo
como idea podríamos decir que se plantea
esta pirámide como un símil de conocer
el pasado para mejorar el futuro es
parte de una transformación de un
conocimiento basado para modelar un
presente que viene a ser lo que lo que
yo obtengo como sabiduría y me para
permitirme o para buscar mejorar ese
futuro como mediante la decisión pero
destacando y la importancia del dato al
final hoy en día de la información del
conocimiento de la sabiduría es la
acción la decisión y esto pues como
comprenderán está intimissimi e
íntimamente relacionado con el riesgo y
la gestión del riesgo por eso he querido
hacer esta pequeña esta pequeña intro
otra cosa muy importante hemos tenemos
hablado un poco esto de que es el dato
vale el dato porque si no vale nada ya
lo hemos visto aquí en el dato como dato
y aunque tenga contexto y significado si
no lo dotó de visión y uso tampoco lo
puedo considerar como como de valor el
dato como tal cuando completa digamos
esta pirámide es un activo y es un
activo cada vez más valioso está estas
flores en el diagrama de frank rothermel
que es un teórico del mundo la del ciclo
del tacto y de la gobernanza del dato
viene a decir bueno pues cuando cuando
un dato al final es valioso es raro es
caro de imitar y se puede capturar
podemos obtener el valor que contiene
ese dato eso nos va a llevar intermedia
realmente a una ventaja competitiva
sostenible
hasta llegar allí y podemos ir cayendo
en diferentes opciones pues si el gato
no es valioso y lo utilizo realmente
decidido en base a ese dato tengo una
desventaja competitiva si es valioso
pero no es raro es muy común pues tengo
una paridad competitiva estoy pues
utilizando lo mismo que todo el cuerpo
si es raro y encima es caro y no es caro
limitar es decir que no lo puedo obtener
yo fácilmente
bueno tengo una ventaja competitiva
temporal cuando lo tengo soy el primero
que lo tiene tengo esa ventaja pero
realmente es cuando puedo
cuando cuando tengo ese dato caro
limitar y además lo capturó como valor
que ya no solo me da una ventaja
competitiva temporal sino que me lleva
ventaja
sostenible esto es la parte más de
teoría del dato y de la información y un
poco el ciclo de vida de
he introducido esto por más que nada
para que se sepa que cuando alguien
quiere entrar en el mundo de big data
smart data y business intelligence in
learning y todos estos conceptos
vamos a trabajar pues con olmert
básicamente con esto la la idea es que
quiero pasar de un dato a un a un activo
con valor de acuerdo y para pasar desde
aquí abajo hasta aquí arriba pues ahí
hay mucho cambio no dejo para todos
ustedes el ejercicio de que utilizo el
que intentará hacer esta pirámide de
cómo en el periodismo más tradicional
más de los inicios no se pasaba desde el
dato de la fuente de la información a la
sabiduría en el conocimiento la
sabiduría mediante puestos los medios
más habituales por ejemplo la prensa de
acuerdo imagínense cómo un periodista
iba a buscar el dato para acabar con
con una sabiduría colectiva el buscar la
verdad no es que sea matas a la tanto en
periodismo pues bien vamos ahora linda k
big data por infinidad de definiciones
que hay al final no es más que un
conjunto de estrategias tecnologías y
sistemas para almacenar procesar
analizar y visualizar conjuntos de datos
complejos es decir big data es un
conjunto de estrategias y tecnologías
estrategias herramientas es un conjunto
de y diría yo hasta de disciplinas se
conviene y se habla mucho de las tres
uves de garner en algunos sitios lo
veréis evolucionado como las cinco urbes
de gartner pero al final lo que te viene
a decidir las tres uves quedan quedan
muy claras es que el big data gestiona
velocidad volumen y variedad esto sí que
es imprescindible es trabajar con muchos
datos a mucha velocidad y de muchos
tipos diferentes la velocidad y la
perdón la verdad la veracidad y el valor
son esas dos nubes y demás que a veces
componen lo que se llama el big data
en mi opinión y por lo que ha ido
leyendo insisto aquí hay pues como en
todo lo que lo que trabaja con
definiciones y pasa en el mundo en
riesgo no desde definir riesgo nos puede
llevar varias clases teóricas en el en
el máster pues con el big data pasaría
algo similar desde mi perspectiva la
veracidad y el valor es lo que convierte
el big data en smart data es al final lo
que lo que no está es ese conocimiento
de sabiduría porque hay velocidad y hay
valor es lo que me permite pues de
alguna manera es pasar de big data es
lógica
muy bien
voy a hablar rápido cómo están viendo
porque es mucho el material de todas
formas como como ya les han indicado
recibirá en el vídeo y podrán repasar
aquellas partes que consideren pues
poder pueden quedar más más cortas en
cuanto a explicación en smart data es
cuando incluimos como digo el valor
mediante el proceso de análisis al final
si yo tengo muchos datos mucho volumen
mucha velocidad mucha variedad y los
analizó para obtener ese valor escalo en
la pirámide que hemos visto al principio
hacia arriba es cuando empiezo a hacer
espaldas
que persiguen big data y smart data
estamos en la en una parte muy
introductoria pero vamos centrando la
idea al final de green data y smart data
no es más que explicar y predecir es
explicar por qué pasaron las cosas como
por qué pasan las cosas como pasan y
predecir cómo van a pasar o cómo van a
suceder las cosas o qué consecuencias
pueden tener las cosas dependiendo de
cómo sucedan es lo mismo que ha
pretendido la estadística descriptiva
inferencial de toda la vida álex
tenística descriptiva ha pretendido
explicar y la inferencia de alguna
manera predecir el cómo es el todo a
partir de un poco cuando tenemos acceso
a ese todo es la estadística de las
muestras a partir de aquí big data y
smart data buscar lo mismo eso es una
estadística digo yo con datos a lo
bestia y aprovechando de que de que se
dispone de recursos y de herramientas
tecnológicos ya no hablamos sólo de
software y hardware sino de procesos de
programación y de conocimiento para
poder encontrar estos patrones
la idea es que explicar y predecir qué
digo comportamientos patrones anomalías
tendencias eventos futuros como estáis
viendo cómo pueden todos observar lo que
persigue dictada smart data vuelve a
estar íntimamente relacionado con la
gestión del riesgo y al final cuando
veamos todo la implementación en riesgo
nos daremos cuenta pero al final el
riesgo es también es la gestión de la
incertidumbre y la gestión de la
incertidumbre está impregnada por la
teoría de la decisión y por lo tanto
pues de alguna manera la pirámide del
dato y lo que pretende el big data y el
smart data pues están íntimamente
relacionados con este con este riesgo
como proceso completo al final lo que
decimos es que big data y smart data lo
que hacen es recopilar capturar obtener
datos almacenar extraer visualizar
preparar modelar interpretar estas son
son verbos son son acciones que forman
parte del día a día del trabajo del big
data del smart data
pocos profesionales hacen hacen todo es
decir aquí hay hay especialidades para
dar y vender aquí cada uno es
especialista pues en capturar en
almacenar y analizar etcétera entonces
el científico de datos o el datacenter
está al final es es una persona que sabe
qué es lo que se puede hacer en cada una
de estas cajas digamos que no es ultra
especialista en ninguna de ellas pero
tiene una misión que sí que es digamos
que es lo que para mí hace hace que el
dato esa mente
ese interés tenga más sentido que es que
sabe identificar el problema tiene
comprensión de la organización o del
sistema al que pretende asistir en la
acción y tiene muy claro que lo que se
busca persigue una decisión final es
decir tiene muy claro que a partir de la
pregunta que se haga va a obtener un
valor un dato tratado trabajado como
sabiduría que va a convertirse en un
activo para esa organización o para ese
sistema
dicho esto qué tipo de información
compone el big data cuando hemos dicho
que big data es un volumen y variedad
nos referíamos a la variedad en que los
datos pueden estar pues en infinidad de
formas y formatos los datos que se han
recopilado de forma estructurada que son
los que vemos aquí y que sean de alguna
manera se han almacenado pues mediante
unas reglas concretas son los que
encontramos en bases de datos en hojas
de cal
en archivos de texto en tepic existe el
csv o un formato o jason que es un
formato para almacenamiento de datos muy
utilizado también en minería de datos y
en estadística ahora hoy en día está
esté aplicado los datos estructurados al
final no son más que conjuntos de datos
que han sido de alguna manera
almacenados siguiendo unas reglas y por
otro están los datos no estructurados no
pensemos que los datos son simplemente
datos simples y puestos en hojas de
cálculo o numeritos o letras sino que
una imagen sonido un vídeo no deja de
ser un dato y es un dato estructurado
cuando hablamos de datos no
estructurados hay perdones las son datos
nuestros platos cuando hablamos de
nuestro curados hablamos de imágenes
videos sms correos electrónicos tweets
es decir contienen información sin un
orden preestablecido y sin unas reglas
completas
de almacenamiento y finalmente tenemos
datos semi estructurados datos en
estructurados son datos que no no es que
estén estructurados como en el excel o
en un access pero sí que tienen cierta
cierta estructura que me permite
encontrarlos dentro de toda la maria que
son los datos que están asociados a
etiquetas y es muy propio de html xml de
todos estos lenguajes en los que cuando
yo entro en una página web si le doy a
ver código fuente mediante las etiquetas
puedo ir diferenciando qué es lo que
hace cada conjunto de datos y dónde está
cada conjunto de datos dicho esto pensar
que el big data al final de lo que se
encarga de recoger todo esto de aquí
todos estos tipos de datos a velocidades
en tiempo real y con los volúmenes
cosmos
bestiales
y dónde está toda esta información pues
cómo se pueden imaginar y esto es desde
redes sociales páginas web teléfonos
móviles en cualquier sitio al final los
datos están en todos sitios cómo se
obtiene esta información en bruto
pues bueno lo que antes se hacía a
recopilar a mano ir apuntando y crear
tablas pues hoy en día los datos se
recopilan a una velocidad impresionante
por un motivo porque disponemos de
dispositivos para capturar y almacenar
dichos datos están los sensores cámaras
plc selectores micros ordenadores
soluciones de captura automática de
datos en general bueno
lo que decía alguien cuando parando un
poco con el periodismo tradicional no
donde antes tenía que ir el periodista
con su libretita y fútbol y su lapicero
y apuntar pues ahora tenemos miles
cientos de miles de millones de
periodistas apuntando con sus lapiceros
en todas las partes del mundo y sobre
cualquier cosa observable
y ahí viene el problema e imagínense
estos cientos de miles de millones de
periodistas apuntando todo el observable
pues como éste almacena google es de los
primeros que el primero con mucha
diferencia que se da cuenta de que hay
un problema es incapaz de poder indexar
la web al nivel que exige el mercado y
necesitaba buscar una solución no podía
tener todo en el mismo sitio
entonces se centra en una idea de
generar un sistema de archivos
distribuidos que se llama que hacen y
que hace suyo evidentemente el lema
divide y vencerás la idea es bueno voy a
hacer
trocitos de toda la información
repartidos por miles de millones de
sitios y que cuando alguien requiera una
información concreta pues vaya cogiendo
como piezas del puzzle de los diferentes
sitios para hacer su publicidad de
acuerdo esto es una forma muy muy rápida
de decirlo pero bueno la idea es que que
se queden con que no es sencillo ni
almacenar ni indexar la información y a
partir de 2006 hacen pública y a partir
de aquí las comunidades opensource se
empiezan a trabajar lo que hoy en día es
apache es parco haddock y al final son
sistemas de almacenamiento de sistema de
archivos distribuidos quedense
simplemente con esto que sepan que la
información no puede estar toda
físicamente en un solo sitio y tiene que
utilizar un sistema de este tipo
y cómo podemos obtener esta información
desde stones desde nuestro ordenador
todo esto estado está recopilado pero
qué hago yo
básicamente hay infinidad de técnicas
pero vamos a hablar de las apis por
ejemplo application programming
interface estas apps son aplicaciones
que te permiten acceder a otras
aplicaciones para determinar para
realizar determinadas acciones
básicamente son aplicaciones que te
permiten acceder a bases de datos que ya
tienen incorporados motores de búsqueda
le déjenme que lo diga de esta manera si
aquí hay algún súper especialista en big
data smart data me perdone estas
imprecisiones pero la idea de estar
webinar es puramente divulgativa y que
se acabe entendiendo que qué bueno que
es todo este toda esta palabrería y cómo
moverme entre ella al final estas aves
pueden ser públicas privadas son el
partenariado
si ustedes quieren investigar y quieren
leer simplemente introduzcan en internet
en mayúscula y lo que quieran desde bbb
a twitter a kraft de facebook etcétera y
lo que verán es que estas aves no dejan
de ser pues un sitio al que ustedes
pueden acudir digamos que lo que te
piden es que les lances un mensaje
diciendo oiga quiero acceder a su base
de datos para hacer determinadas
consultas ellos te devolverán otro
mensaje y diciendo oiga aquí tiene la
clave para poder acceder a diaby que son
nombres raros también con sus toques y
sus historias pero al final es esto son
dos mensajes y cuando ya tengo permiso
para acceder dependiendo de ese tipo del
permiso que se me haya concedido pues
puedo hacer determinadas búsquedas en
twitter por ejemplo pues puedo buscar
y los 150 últimos tweets que hayan
hablado sobre un tema sobre otro o puedo
hacer análisis de opinión o puedo hacer
en facebook puedo hacer grafos sobre las
relaciones de una persona con un grupo
de personas y de esas personas
adaptables a su vez con otros grupos de
personas las apis de bmw por ejemplo y
de otras entidades financieras me
permiten pues conocer todas las
transacciones que se han hecho con
tarjeta de crédito en comercios de una
zona concreta de una ciudad del mundo
estamos hablando de verdaderas
barbaridades de conocimiento en el que
evidentemente como más valor más activo
tiene ese conocimiento pues más probable
es que para poder acceder y trabajar con
esa a pipo se tenga que pagar y ahí está
pues la es el negocio del dato
y por otro lado hay digamos otra forma
de trabajar lo que es la captura de
datos desde el ordenador que esto ya no
es el otro también el acceso a las apis
al final requiere de ciertos
conocimientos de programación no no hace
falta ser programador pero sí entender
un poquito cómo funciona y aquí sí que
ya requiere un poco más de programación
que son el web scraping y el web cloud y
al final son dos técnicas que más o
menos le hacen lo mismo es decir es
acudir a páginas web de forma
sistemática y mediante un programita que
he diseñado y hacerlo de forma
recurrente bajarme los datos que yo le
he pedido al programita que me baje y
guardarlos en una base de datos
imaginemos que yo quiero hacer pues un
roller de brawn araña que cada día me
vaya a la página de la bolsa de madrid
hito de la bolsa de amsterdam y me
descargué el precio del ibex-35 o del
dax xetra de frankfurt y me lo almacene
en
en una base de datos porque yo puedo
programar una ramita que se llama un
crawler de estos que vayan a esa página
cada día a la hora que yo diga coja ese
dato lo lea y me lo almacén de el webs
cupping es un poco meses es similar al
final lo que lo que hace el web serafín
es ir a la página web identificar en el
código fuente donde están los datos que
a mí realmente me interesan y
descargarlos o llamar para que los
descarguen los copio y - por gandhi base
de datos quédense con esto es
básicamente que la información digamos
esta grande y que poder generando
grandes bases de datos básicamente está
en las apis hay apis públicas en casi
todos los gobiernos y en casi todas las
organizaciones internacionales y luego
lo otro ya es modestos para ir
para proyectos más personales digamos
pero que se puede hacer dicho esto al
final lo que decimos lo que es el
análisis vamos a un poco de recopilación
lo que es el análisis ya es la
estadística de toda la vida pasa es que
en vez de con muestras de 2000 pues con
muestras de 2000 millones pero al final
de las poblaciones obtenemos muestras
que evidentemente con con la tecnología
lo que se permite es que la muestra sea
muchísimo mayor de lo que lo que era
antes y a partir de estas muestras pues
obtenemos o realizamos lo que veníamos
realizando hasta una estadística
descriptiva inferencial como he dicho al
final o en definitiva estadística
aplicada si a todas estas poblaciones y
muestras les les doy la consideración de
big data es decir que estas poblaciones
son analizadas de forma en tiempo real y
con gran variedad de características a
medir y estas muestras se van cogiendo
repetidamente también a la velocidad
real a cabo pues con lo que se denomina
el data mining
veremos lo que es al final no es más que
datos y analizarlos en el intentar
subir en la pirámide que hemos visto al
principio de todo y esto me lleva a lo
que es el aprendizaje primero hablemos
un poco muy muy rápidamente del data
mining el data mining o la minería de
datos es la exploración de datos es un
campo de la estadística y las ciencias
de la computación que se refiere al
proceso que intenta descubrir patrones
en grandes volúmenes de datos al final
lo que voy a intentar yo es con toda la
información que voy capturando al final
lo que requerimos es ver cómo cómo se
comporta esa información sea si hay
datos que se parecen entre ellos si los
puedo agrupar por características
si los que comparten cierta
característica es porque a su vez
comparten muchas otras características
eso es lo que al final del data mining
te busca es decir bueno voy a intentar
descubrir patrones en grandes volúmenes
de datos y vamos a utilizar para ello
para hacer data mining métodos como la
inteligencia artificial o el aprendizaje
automático os voy a poner ahora que el
machín learning vamos a comentar un poco
pero al final no es más que eso es es un
sub campo de esta inteligencia
artificial que pretende crear algoritmos
con capacidades de aprendizaje a partir
de datos y de los resultados buscados es
decir al final lo que hace el máximo
learning es los datos los
clasifica de alguna manera los clasifica
en función de las características que se
consideran similares o que yo le he
dicho que son las características que
tiene que considerar y a partir de aquí
dependiendo de cómo se van moviendo esos
datos y que hace que se que al final el
individuo
pertenezca a un grupo u otro ese
algoritmo se irá corrigiendo para dar
más peso a las características que te
hacen pertenecer a uno u otro
otro grupo lo veremos ahora de forma muy
muy clara lo que me gustaría que se
quedaran ahora con la idea es que
venimos de que los datos en gran volumen
y a gran velocidad están en la red que
los podemos descargar digamos garcía y
de alguna manera consultar y que luego
vamos a tener que hacer estadística con
ellos no es más que por mucho que si
pones machine learning esto lo que
queramos pérez estadística con
herramientas informáticas dicho esto
vamos a hablar de los tres grandes
grupos de aprendizaje que hay
a ver cuando veamos otros ejemplos de
rápidamente os dais cuenta de para qué
sirve y sobre todo con los ejemplos
finales lo que me gustaría es que
primero en esta teoría tan rápida que
estoy dando y me sabe mal tener que
correr tanto puedan quedarse con la
terminología el primero de ellos es
aprendizaje supervisado ese aprendizaje
al final es para es utilizado en
problemas de clasificación cuando tengo
que diagnosticar detectar fraude en una
identidad predicciones metereológicas
expectativas de vida etcétera a este a
este tipo de aprendizaje lo que le doy
primero a la herramienta para
entendernos es un listado de individuos
imagínense así que yo le doy un listado
de diez mil individuos en el que al lado
de cada individuo le indicó con un 0-1
si han sufrido infarto de miocardio
alguna vez en su vida en ceros y unos y
por otro lado para cada individuo le doy
también un valor de determinadas
características por ejemplo la edad que
tiene el sexo si es fumador no fumador
lo siguiente que hago es decirle al a
al ordenador es diseñar un algoritmo
mediante modelos de regresión diseñar un
algoritmo que de alguna manera me sepa
predecir a partir de las características
de un individuo nuevo si puedo decir que
ha tenido o no infanto de infarto de
miocardio es decir yo primero le doy una
base de datos en la que etiquetó por eso
se dice que es supervisado yo ya le digo
quién ha sufrido y quién no un infarto
de miocardio y le digo qué
características han tenido los que han
sufrido ese ataque de miocardio y él
intenta mediante regresión ver cuáles de
esas características son las que más
condicionan que se haya acabado teniendo
ese infarto de miocardio a partir de
aquí cuando yo al algoritmo le dé un
nuevo individuo del que no sé si ha
sufrido un impacto de miocardio pero sé
su edad si fuma el peso etcétera el
ordenador me lo intentará clasificar
como el potencial enfermo de infarto uno
de acuerdo eso es el supervisado el no
supervisado que se utiliza más para
encontrar patrones ocultos y por eso es
muy es muy propio del marketing la idea
es que yo le doy el mismo listado que os
he hablado antes de acción
pero no le digo quién ha sufrido o no ha
sufrido infarto de miocardio yo le digo
a toda esta gente de aquí agrupa menos
por características compartidas
entonces el algoritmo lo que te acaba
diciendo estamos encontrando un grupo de
personas de mediana a alta edad obesos y
con hipertensión y eso les da una
etiqueta de acuerdo al final cuando yo
le dé un nuevo individuo él los va a
agrupar con esos individuos que tienen
esas características y digamos que por
inferencia acabará determinando que las
cosas que les pasan a los de un grupo
les pasan más o menos por igual a todos
los miembros de ese grupo
la idea es bueno eso es sin encontrar
patrones ocultos básicamente en el los
utilizadores y finalmente en el de por
refuerzo es un tipo de aprendizaje por
refuerzo
y al final yo lo que pongo es lo que
decían los mismos pacientes que antes no
digo evidentemente tampoco aquí si han
tenido o no han tenido infarto entonces
le digo al algoritmo se diseñó un
algoritmo que me intenté predecir si ha
tenido si va a tener un infarto en el
próximo año el algoritmo de entrada
intentará predecir aleatoriamente a pues
si yo cuando pase el año le diría al
algoritmo y pues de todos los que me
dijiste que si todos estos han sido que
no y todo esto realmente han sido que si
a partir de aquí él ya empieza a
aprender y a decir pues tras estos es
por eso se dice por refuerzo esto es que
me ha dicho que si la próxima vez que no
aparezcan voy a volver a decir que sí y
así va aprendiendo es muy propio de lo
que se conoce como inteligencia
artificial en la inteligencia artificial
son este tipo de otros juegos como se
quieran llamar en el que se intenta que
el ordenador aprenda por ensayo error
son pequeños robots que aprenden a
caminar solos pues a medida que cada vez
que se mantiene en equilibrio tú le vas
dando señales de que está ok y cuando se
cae le das una señal de que lo ha hecho
mal entonces a partir de ahí él
para evitar las señales negativas es una
especie de pablos para carros
para que se vea aún más claro la
diferencia entre aprendizaje supervisado
y no supervisado imaginemos que yo tengo
este conjunto de datos en el aprendizaje
supervisado yo le doy etiquetas
directamente así como decía antes
enfermo no enfermo aquí puedo decir como
etiquetas cuatro cuadrados es uno hay
cuatro lados es un cuadrado tres lados
es un triángulo y le meto todos los
datos a partir de aquí el que me hace
pues todo lo que tenga cuatro lados lo
voy a poner como cuadrado y lo que tenga
tres lados como triángulo también le
puedo decir etiquetas o hielo que tenga
esta longitud de onda es azul y lo que
tenga está roja si le pongo etiquetas de
lados y de luz es el menos va a ir
agrupando en función de las etiquetas
que yo le he dado cuando yo le diga un
nuevo dato después del conjunto de datos
él vea un nuevo dato que tenga cuatro
lados y la longitud de onda
correspondiente azul me lo pondrá y me
lo agrupar a como un cuadrado
en el no supervisado y yo simplemente el
dentro del conjunto de datos y él no
sabe por qué digámoslo así pero los
clasifica por pues por atributos o por
características parecidas él ve que éste
y éste son iguales pues los problemas
juntos que éste y éste
y los cuadrados los pone más juntos que
los triángulos la idea es estar sports
por comparación
bien con lo libre para obtener datos
preparados y analizarlos lo que he dicho
para hacer el workshop in one crawling
todo el tema y al final hasta también
para consultar a peace aunque ahora las
apis no ahora un poco de descargarte
archivos de seguro xls para excel lo
normal es trabajar con lenguajes en
código abierto como nro
payton y por otro lado que se sepa que
hay proyectos colaborativos como cabe el
bid happy y repositorios de programas y
de cantidad de información para trabajar
complicada bien vamos a pasar ahora y
voy a ver me quedan unos 10 minutos a la
parte más digamos más más aplicada lo
del big data land y todo esto la gestión
del riesgo que pinta partimos de que el
riesgo es el efecto de la incertidumbre
sobre los objetivos al final pues
el efecto de la incertidumbre sobre los
objetivos lo que me lleva
esa que yo parto de un tercero en el que
generó unas expectativas ya puede ser un
plan de ventas ya puede ser un viaje de
vacaciones o un viaje de negocios yo
genera unas expectativas
defino ese objetivo y lo defino en base
a lo que yo sé al conocimiento que yo
tengo y esas expectativas plan ico y
planifico las acciones necesarias para
conseguir ese objetivo esto es una de
las grandes cosas que todo científico de
datos debe saber hacer el data mainero
el analista de datos es alguien que va
estar por aquí en medio el científico de
datos se tiene que centrar en esto de
aquí en saber a hacerle la pregunta que
me permita planificar las acciones para
conseguir el objetivo asignando los
recursos necesarios verifico al final en
un tiempo en el verificó el resultado
obtenido y verificó si coincide o no con
mi objetivo es decir con mis
expectativas puede ser que coincida 100%
puede ser que mejore sustancialmente mis
expectativas o puede ser que se haya ido
muy por debajo al final gestionar el
riesgo es intentar que desde el tercero
hasta el tn vaya lo más recto posible o
lo más hacia arriba
de acuerdo es decir es intentar eliminar
el efecto de la incertidumbre esto que
está abierto hacia el final es para que
coja todo el rango del verde al rojo
pero en realidad como más nos estamos
acercando al de su pene más reducida es
la incertidumbre digamos que al
principio hay mucha incertidumbre porque
yo no sé cómo será el final se puede ser
tan rojo como verde pero a medida que me
voy acercando y voy ejecutando mis
acciones pues muy bien lo más claro que
el resultado final se acercará pues a
este tramo de aquí guays ajax
lo que provocará que yo acabe en un lado
o en otro van a ser las en eficiencias y
en los eventos internos que falta que la
palabra interna es decir las
ineficiencias y los y los malos actos
que dependan de mi permitirme que lo
diga de esta manera y por otro lado en
los eventos en general los hechos no
deseados o eventos extremos o externos
que yo no controlo el azar puro
y evidentemente tanto unos como otros
tienen unas causas en lo que es la
teoría del riesgo que se definen como
fuentes de peligro fuentes de riesgo
etcétera aunque la nueva definición de
riesgo miso 31.000 incluye dentro de lo
que es el efecto la incertidumbre que el
efecto final sobre el objetivo puede ser
negativo pero también positiva por lo
tanto tenemos causas de daño digamos
así de seguridad pero tenemos causa de
oportunidad está muy bien al final lo
que yo hago y lo que me viene de fuera
tiene unas consecuencias que va a hacer
que mi objetivo final pues difieran más
o menos de mis expectativas iniciales en
base a lo que yo había planificado esto
era una forma muy para mí muy
interesante de ver el riesgo de iu que
que va mucho más allá de lo que
normalmente se explica como probabilidad
de consecuencia que está bien pero
estamos en en estar aquí entonces cómo
podemos utilizar big data y machine
learning gestión de riesgos pues
básicamente para explicar y para
predecir
vamos a buscar reducir la incertidumbre
asociada a nuestros objetivos como
pues bueno vamos a detectar causas
ocultas de eventos no deseados es decir
yo ahora no antes no pero ahora puedo
tener información suficiente como para
saber cuáles son las peores semanas del
año para hacer un safari instantánea por
ejemplo si estoy hablando de pasar unas
vacaciones en de safari fotográfico
puedo básicamente trabajar para reducir
la incertidumbre de que no me pase nada
raro de las épocas de lluvias o
cualquier cosa la detección de causas
ocultas también puedo detectar la
oportunidad de esos riesgos si lo hace
la competencia puedo clasificar eventos
por causa por lo clasifica en eventos
por tipo y magnitud de consecuencia es
decir aquellos eventos que siguen
patrones ocultos que no son perceptibles
a simple vista mediante el big data que
trabajan como hemos visto con grandes
volúmenes a gran velocidad y con gran
variedad de datos puedo encontrar al
final respuestas a preguntas que antes
ni me hubiera hecho
y puedo distinguir y estas son las
claves para mí de las más importantes /
ineficiencias y eventos de riesgo muchas
veces hay cosas que salen mal no por
mala suerte sino porque lo estamos
haciendo mal y en proyectos que estoy
trabajando actualmente con los
relacionados digamos con el big data te
das cuenta de que a veces los patrones
que se acaban revelando son patrones de
asociados hay deficiencias
también puedo prever eventos que nunca
antes han sucedido no en el sentido del
cisne negro' en los pies negros o se
pueden predecir pero sí que puedo
intentar predecir comportamientos
futuros pues bueno no contemplamos
previamente
vale sabemos lo que se puede hacer o sea
imaginamos pero como hago todo esto
y lo primero es saber que puedo hacer es
una de las grandes cuestiones
si alguien me recomendó yo trabajo en
gestión de riesgos y quiero trabajar y
quiero aprender en big data y imagine
learning mucha gente me pregunta esto
que por dónde empiezo empiezo con un
curso de r por un tren o no
y mi respuesta siempre empieza por saber
qué se puede hacer y empieza por leer
empieza por una dominar cómo está el
saber que dónde está esa información
cómo puedes bajar las herramientas ahí y
básicamente cuál va a ser tu función
dentro del mundo del data science y si
tú lo que quieres es hacer la pregunta
correcta y dirigir equipos para que
obtengan la respuesta más oportuna o lo
que quieren ser es una de esa parte del
equipo que se dedica a programar el
algoritmo que explique mejor un patrón
determinado entonces esto melvin data es
muy es muy amplio no no es decir pues
que quiero ser experto en +100 learning
o depende de qué quieres hacer
y debemos definir objetivos pensando en
la información disponible y en la que se
puede llegar a tener esto es muy
importante cuando se aborda un proyecto
de big data es decir a ver qué datos
tengo y qué datos puedo llegar a tener y
más importante que me puede costar
llegar a tener estos datos siguiente
debemos saber qué información podría
mejorar nuestras expectativas y dónde
encontrarla o cómo obtenerla debemos ser
conscientes de los recursos de los que
disponemos debemos ser conscientes de
que si invertimos en obtener datos
deberemos invertir en analizarlos y esto
que parece una obviedad sorprende es la
cantidad de veces que pasan los recursos
que se gastan para obtener datos que no
se analizan es impresionante y debemos
ser conscientes de que los datos y el
machine learning son un complemento y no
un sustituto esto lo comento porque a
veces están trabajando decisión es
exclusivamente vinculadas a modelos
cuando la intuición
no deja de ser el de los mejores modelos
o de los mejores algoritmos matemáticos
que ayuda a la intuición esa es la
capacidad de un cerebro para integrar
todo su conocimiento pasado entonces es
mejor un algoritmo que este muchas veces
no lo encontraremos para determinadas
elecciones evidentemente bien diferentes
escenarios diferentes opciones lo que
pretendo es decir que qué tipo que es lo
que pretendo buscar algo que sucede
continuamente habitualmente
ocasionalmente entre las ocasiones algo
que no ha sucedido nunca sé qué efecto
tiene o puede tener si sucede no sé qué
efecto tendría pero puedo imaginármelo y
a veces me pasa que no sé ni el efecto
que puede tener me puedo llegar a
imaginarme no todas estas combinaciones
son lo que me lleva a intentar dar
respuesta a todo esto mediante el big
data en los términos en los que los
explicado para convertirlo en un smart
data es decir aplicando modelos de maxim
learning de inteligencia artifical
convertir todo ese volumen de datos en
valor para la respuesta a todo esté aquí
todo esto de aquí y poder tomar
decisiones que al final es lo que hemos
hemos hablado que es la decisión
correcta la que me lleva a mantener el
activo y finalmente comentar que hay
veces que se habla del big data o muchas
veces se habla mejor dicho de smart hay
muy pocas veces del know data y el no
data está más presente en nuestras vidas
de lo que nos imaginamos a veces no por
la no disponibilidad y el no
almacenamiento sino por la no capacidad
o los no recursos para acceder a dichos
datos en ese entorno también tenemos que
ser conscientes de que no tenemos datos
bueno pues hay cosas que no han sucedido
pero se espera que empiecen a suceder o
que están sucediendo pero no soy capaz
de analizar a partir de aquí tengo que
empezar a diseñar y capturar datos y
modelos de predisposición ese sería el
mejor el mejor de las recomendaciones
que no se puede hacer de la noche al día
ni mucho menos no se pretendiendo eso
pero de entrada quedémonos que data
science al final es es una estadística
con informática pero que esto es la
parte más analítica es la parte más del
informático la verdadera esencia del
data science está en hacer
pregunta que me permita tomar decisiones
de que aporten y retengan valor en las
organizaciones y yo creo que esa es la
principal lección que ha aprendido con
estos años que llevo trabajando en esto
del hábitat y hasta aquí sin más la
presentación disculpar
y me dicen que ha perdido
me están escuchando
me podría indicar por favor si me
escuchan
es que he tenido ahora al entrar he
visto que sí que se oía bien se escucha
bien qué susto pensé que había estado
hablando solo tres cuartos de hojas bien
les agradecería ahora hasta aquí hemos
llegado lo dicho disculpar por la
velocidad del relato pero básicamente
intentado poner en contexto de todo el
mundo todo el mundo esté en el big data
y de smart data a partir de aquí si
tienen alguna alguna pregunta alguna
cuestión que les gustaría que pudiera
ampliar teniendo en cuenta eso de que no
se puede no puede ser una una clase de
big data si he conseguido con todo esto
que hayan entendido la dimensión del
concepto big data y que al final todo
esto que se que se habla y que se
escribe y con tantos anglicismos no son
más que estadísticas mucho volumen y
velocidad pues ya ya habremos conseguido
mucho y lo que les recomendaría si su
especialidad está dentro de la gestión
del riesgo es que sobre todo se centren
en la labor del datacenter es como el
que sabe hacer preguntas y sabe dirigir
equipos para poder obtener respuestas
en mi caso personal aunque habría este
estoy estudiando también programación y
demás pero ya vengo con una formación
anterior en estadística de gestión de
riesgos
para mí ahora mismo se llama pérdida de
tiempo empezará a estudiar determinados
lenguajes de programación al final lo
que me interesa es saber qué se puede
hacer con la informática y seguro que
luego puede encontrar a alguien al que
pedirle lo que necesito uno de los
grandes problemas que hay con el big
data en smart data es que están los
ultra especialistas que saben manejarse
con los códigos y con la estadística
y por otro lado están los decisores o
los que plantean estrategias que están a
una distancia o aún con un gap para mí
muy muy grande porque el estadístico
sabe o el programador sabe lo que se
puede hacer pero no tiene ni idea de lo
que necesita el decisor y el decisor
sabe en qué entorno va a tomar
decisiones pero no tiene ni idea de cómo
pedir ayuda entonces creo que una de las
grandes aportaciones que pueden hacer
estas bobinas y en la que la gente
también podría llegar a formarse es el
decir bueno a mí lo que nos interesa es
saber pedir las cosas siempre lo he
dicho no quiero saber hacer modelos de
regresión los modelos lineales
generalizados a un nivel de un
estadístico o sea de su profesión pero
sí que sí que es muy interesante el
saber pedirle a un estadístico que me lo
haga
me preguntan con este tipo de
herramientas cómo se pueden realizar
preguntas que se deberían realizar en
forma correcta
a ver de alguna manera entiendo que se
le está preguntando es como como utilizó
los datos para hacerme preguntas por
ejemplo una pregunta ahora que está en
boga todo el tema de la ética y la
gobernanza de datos
imagínense los datos ahí los datos
propios vehículos de conducción autónoma
que conducen solos son vehículos que
toman decisiones en base a datos de
entrada grandes volúmenes de datos de
entrada y algoritmos que los procesan de
forma que si lo que entra es una
longitud de onda correspondiente a al
rojo cuando estoy enfocando a un objeto
que tiene forma de semáforo el vehículo
lo que hará es detenerse bien y puede
pasar y es uno de los grandes preguntas
que se están haciendo estas estas
grandes estos grandes monstruos y
corporaciones como google test la puede
pasar que ellos l se revienten las las
ruedas del vehículo y que el coche el
vehículo tenga que tomar la decisión de
estrellarse con una alta probabilidad de
que muera el conductor y los ocupantes o
atropellar un peatón
me parece una barbaridad pero pero es
algo
que es muchísimo más interesante
preguntarse como modelo de negocio y una
vez yo sé que puedo crear algoritmos
para leer semáforos es decir bueno para
que luego me puedo encontrar con estas
situaciones que imaginaros podrían tirar
al traste pues años y años y cientos de
miles de millones de recursos es un poco
light la idea es a ese científico de
datos y para eso perdón allí hay un
proyecto interesantísimo que se llama
moral moral machine si escriben en
google lo encontraron rápidamente moral
machine es un proyecto de límite y lo
que intenta de alguna manera es a partir
de una especie de encuesta juego donde
es muy entretenido en el que te permite
el que te te pide que tomes decisiones
sobre sobre qué hacer y tienes que
elegir ese es tan duro como que tienes
que elegir entre la vida de un peatón o
de otro peatón o entre tu vida y la del
peatón en condiciones como que esté
pasando en el semáforo en rojo o como
que esté pasando en rojo pero vaya
acompañado de un niño al final lo que
intenta la moral machine o el proyecto
este del mid es intentar y está muy bien
explicado en su página
establecer un modelo de ética o de moral
colectiva de toda la humanidad es la
salvajada
pero como pero como preguntan lo que
necesitan y con todo esto como me hago
preguntas pues no estos llamados la
pregunta
y también
quiero aprender a hacer la pregunta
correcta para hacer la primera y la
pregunta correcta primero tenemos que
saber con qué herramientas podemos
contar para las respuestas
esa es la esa es la idea
muchas veces no no hacemos preguntas
correctas porque no sabemos que
disponemos de herramientas para obtener
la respuesta y esto nos pasa con la
estadística nos pasa con las matemáticas
en general nosotros pasar con la física
o nos puede pasar al final con la
psicología de acuerdo lo primero que hay
que saber es de qué herramientas
disponemos y qué son capaces de hacer
esas herramientas cuando yo de alguna
manera tengo en mi cabeza la cantidad de
cosas que se pueden hacer empiezo a
hacerme preguntas del tipo y si hiciera
esto para esto y obtuviera esto también
les digo y por experiencia personal que
cuando conoces todas esas herramientas y
conoces todas las posibilidades
tendrás una especie de shock térmico
dices dios mío las posibles son
infinitas empiezas a hacerte preguntas a
una cada milésima de segundo y al final
te acabas creando tus propios a los
mismos demás silver ni en la cabeza que
te dicen que el 99% de las preguntas que
te haces si pueden obtener respuesta
pero no van a ser útiles aprender a
hacerse preguntas correctas es eso es
una labor muy tremenda yo creo que tenía
que tener su propia carrera
podrá publicar en muy breve en caso de
punta a punta formulación datos a ver
casos de éxito
de big data y de cosas que se hacen allí
a montones por ejemplo de que haya
analizado hace poco pues para trabajos
que tenían que hacer ups
si entran en internet y ponen un ps la
multinacional del mundo del envío y
ponen ups big data
además se han sido premiados en varias
ocasiones esperan todo lo que han hecho
en base a preguntas correctas para poder
mejorar sus servicios ser más eficientes
personalmente los mis proyectos como son
proyectos para clientes pues tienen que
ser tienen que ser los clientes los que
los publiquen pero vamos muchos clientes
si entra también por cualquier
combinación que pongas big data y bmw ao
big data y cocacola big data al ps
encontrarán proyectos de este tipo que
peritaje se debe proponer en juicios
para casos de vic y smart data
esto es muy complicado sí fijaros que
una de las cosas que comentaba al
principio es que dos de las grandes
urbes son las dos subes que me hacen el
big data smart data son el valor como
hemos dicho pero sobre todo la veracidad
esto es uno de los grandes problemas a
los que nos enfrentamos
de momento las bases de datos con las
que se trabajan cuando son de
instituciones y organizaciones públicas
pues no cuentan con una presunción de
veracidad de entrada pero se están
empezando a ver ya repositorios de datos
para forzar
interpretaciones fake y eso va a ser
también un gran campo de trabajo
realmente luisa del carmen no sé
responderte a cómo debería evitarse un
proyecto este tipo en el caso de datos
no estructurados aparte de la pregunta
qué estrategia se debe seguir para
emplearlos en el análisis de riesgos
en un caso de dato no estructurado muy
claro es un pdf entonces por ejemplo yo
podría detectar correos electrónicos y
yo puedo detectar fraude interno a
partir de una lectura inteligente de una
muestra de correos electrónicos de los
trabajadores de la empresa por ejemplo
en el supuesto de que se tuviera permiso
para hacerlo y demás esto ya depende de
cada legislación otro otro proyecto en
el que puedo trabajar datos no
estructurados es recopilación de los de
escrituras de pisos
en el que hay toda la información que no
está estructurada porque no está en una
base de datos pero ahí sí que tengo los
metros cuadrados de la vivienda o el
piso tengo el valor catastral de autor
una serie de información que puedo
enseñarle a la máquina a extraer y
almacenar
no hace falta transformar todos los
datos no estructurados en un dato
numérico puedo todo enseñar a la máquina
leer un pdf ya sacarme el nombre del
cliente de si tengo mil facturas en pdf
y le digo que el nombre del cliente
siempre sale en la misma posición y
detrás de las letras de que conforma el
cliente y dos puntos
la máquina o queráis irme allí lo
que hay ahí detrás y almacenarlo en un
campo pues con un texto
hay muchísimas preguntas a ver
a ver alumno de máster una consulta
programas como r en qué parte del big
data lo puedes clasificar ere y pantón
que básicamente y hasta donde yo he
llegado que no soy un experto en muchos
pero trabajado con los dos y sirven
tanto para capturar como para analizar
como para diseñar algoritmos de
clasificación básicamente lo que hago
con r es cargar bases de datos enormes
buscar patrones en esas bases de datos
buscar correlaciones o una de las cosas
que más te trabajan en una de las
técnicas estadísticas que más se trabaja
cuando cuando coges posibilidad hace
poco estaba con una base de datos que
eran 33 millones de datos de registros
claro cuando tienes 58 muy variables
como era el caso imaginaros que yo lo
que tengo es un 3 en este caso práctico
eskenazi eran 33 torres de alta tensión
en el que cada torre en la parte más
alta tenía un anemómetro que medía la
dirección y la intensidad del viento y
yo iba tomando lecturas de por qué hoja
existencia mente en los sensores iban
tomando lecturas en cada uno de estas de
cada una de estas tres torres como
pueden ser también tres molinos de
viento durante instantes pues durante
cada cinco minutos durante un año
entonces al final yo lo que tengo es la
componente norte sur este oeste del
viento en cada instante que tomó la
medida el norte sur este oeste en oeste
este por las 16 y aparte las
intensidades en cada una de ellas
esto me generaba para las tres torres
durante todos los instantes de tiempo
pues tenía 58 mil variables 58 mil
variables
un montón de registros ahora no recuerdo
tantos pero el total eran 33 millones de
registros pero analizar porque la idea
al final camps que según explicó la idea
de estos datos será ver qué patrón de
vientos era el que me podía provocar un
mayor daño en la estructura de esta
torre de alta tensión de acuerdo
entonces yo lo que tengo que analizar es
los patrones de viento durante estos
tres años y luego decirle al programa
cuál de las estructuras estaba más
dañada y cuál menos la idea es que
dependiendo del patrón de vientos que
haya en otra otra torre pueda
determinarse acabará sufriendo el año
sólo esto es un caso muy práctico
pues bien uno de los de los primeros
conocimientos que tú tienes que hacer tú
no puedes trabajar con 58.000 variables
tienes que hacer una reducción de
dimensiones es decir tienes que poder
predecir con una combinación de 50 de 60
de 30 de 10 o hasta de 3 variables para
eso se hace pues un procedimiento que se
denomina análisis de componentes
principales e intenta reducir las 58.000
variables es decir la información que
tienen las 58.000 variables le intentas
condensar en unas pocas esto es uno de
los grandes de las grandes cosas que se
puede hacer con el refresco con la red
se puede hacer de todo aparte de
transporte
de hacer modelos de regresión de hacer
árboles de fallos de hacer clustering de
todo tipo mucha técnica de clasificación
si es importante para hacer un máster en
gestión de riesgo es tal no lo que es
importante es que existe un código
opensource como r que me permite hacer
estadística de grandes volúmenes de
datos y que hay expertos en todo el
mundo que dándole yo una base de datos
muy grande me pueden devolver un excel o
un informe o un pdf
pues con unas conclusiones o con unas
agrupaciones o con unos patrones que yo
no soy capaz de identificar
bien y voy a pasar ya a las dos últimas
preguntas mil disculpas que no pueda
hacer todas en el caso de datos no
estructurados este tratado para ver cómo
determinar las variables más esenciales
en una base de datos pues precisamente
como comentaba ahora una de las técnicas
que hay es el de descomposición en
valores singulares que se llama análisis
de componentes principales el análisis
de componentes principales al final lo
que me dice desde todas las variables
que tengo cuáles son las que le dan más
peso a la respuesta dicho de otra manera
imaginemos que yo tengo 5000 variables
sobre 10 pacientes y quiero determinar
si si pues pueden como decía antes
padecer un infarto en el próximo año
estas 5000 variables pueden hacer
referencia a cuestiones de peso y edad
sexo hábitos alimenticios pero también
a cuestiones nada relacionas con el
infarto pues como yo que sé
la ciudad en el que viven o el pueblo o
cuántos vecinos tiene o de imagineros de
10.000 variantes muy bien al final la
mayor fuente de variabilidad es decir el
mayor peso en lo que determina que una
persona cambio no cabe teniendo infarto
estará solo en unas pocas de esas
variables si acaso estará en la
predisposición genética en el peso en el
ser o no fumador y en el sexo de acuerdo
el cómo reducir esas 10.000 variables a
estas 45 es lo que me hace la técnica de
análisis de componentes principales de
alguna manera busca la relación de todas
con todas y determina cuáles de ellas
están más veces presentes cuando alguien
ha tenido un infarto el dicho de una
forma class que esto y para mí lo que sí
que es muy importante si alguien quiere
entrar en este mundo de big data y al
igual que no es imprescindible
para ser un buen gestor de riesgos tener
una noción de estadística básica para
mística es importante saber que hay una
cosa que se llama análisis de
componentes principales y que hay una
cosa que se llama eso no la maldición de
las dimensiones que hablamos es que
bueno que a veces trabajamos con con
cientos o con miles de variables
y finalmente en tu experiencia que
empresas han beneficiado más con big
data pues bueno empresas de todo tipo en
vic tapas que se ha utilizado en el
sector sanitario pero como os he dicho
si entráis por ejemplo en un ps que se
ha hecho un proyecto bestial al respecto
para optimizar las rutas y para
garantizar entregas monitorizando el
tráfico velocidades etcétera
cualquier tipo de empresa por extraño
que parezca se puede beneficiar de
bitácoras o los recursos
y se puede asumir producido el riesgo
con la implementación de la factura
electrónica y big data en detección de
fraude fiscal a nivel gubernamental
a ver claro el el big data desde el
momento cuando digo big data es todo lo
que es explicado ahora desde el momento
en que yo puedo clasificar y de alguna
manera encontrar patrones de este fraude
pues me permite poner más el ojo en
aquellos potenciales defraudadores
hasta ahora estoy verde esto no es algo
que sea que sea nuevo haciendo en españa
en concreto es uno de los sistemas más
digamos más efectivos a la hora de
detectar fraude y ha trabajado siempre
con modelos aleatorios y con y con
modelos de inspección por decir con este
año voy a sólo los que tengan
según la vivienda al final a partir de
la incidencia del fraude en base a las
elecciones que hacían ellos acaban
teniendo algoritmos en los que pueden
predecir que es una persona tiene
segunda vivienda tercer coche gana entre
tanto y tanto y tal la probabilidad de
que esté intentando defraudar es de
tacto pues lo mismo para cualquier
gobierno de cualquier país
el uso de big data en el en el sector
público se está utilizando muchísimo
pero se utiliza más como el sector
público está trabajando en big data más
como fuente de captación de datos y de
puesta a disposición del público en
muchas ciudades del mundo ya tienen sus
propios open data sus propias páginas en
las que te dan acceso a información en
tiempo real o en grandes bases de datos
sobre datos de contaminación de tráfico
de transeúntes de zonas de aparcamiento
de
de disponibilidad de restaurantes que
hoy en día de arbolado público etc de
zonas verdes lo que estoy viendo en esta
administración pública está trabajando
mucho en captar el dato y ponerlo a
disposición de pues la gente que quiera
trabajar
y bueno hasta aquí hasta aquí podemos
llegar porque el tiempo ha premiado y lo
dicho no no era mi intención dar un
curso de vida está simplemente ponerlos
en contexto y a su disposición animarles
también a que puedan asistir al evento
de mañana en el que ocho profesionales
del riesgo nos van a hacer ponencias
cada una específicas en su ámbito sobre
cómo están viendo el impacto en el cómic
en todos los países de habla hispana y
en el que yo pues inicialmente era bueno
llevar la moderación y el gran pequeña
presentación de los principales
resultados que hemos acabado de una
encuesta a profesionales de del riesgo
de diferentes sectores de cómo han visto
la la crisis a su disposición para lo
que necesiten y hasta la próxima
関連動画をさらに表示
What is Big Data? - Computerphile
Tecnologías de BIG DATA
El Big Data en 3 minutos
Modelos Predictivos: Análisis Predictivo para Optimizar Estrategias Comerciales en las Empresas
¿Qué es la inteligencia de negocios y cuál es su importancia?
TÉCNICAS DE GESTIÓN Y ANÁLISIS ESTADÍSTICO PARA LA APLICACIÓN DE MODELOS PREDICTIVOS EN EL BIG DATA
5.0 / 5 (0 votes)