¿Qué es el Big Data? - La mejor explicación en español
Summary
TLDREn este video, Álvaro Felipe narra la historia de Carlos, un panadero que busca mejorar su negocio a través de la gestión de datos. Comienza almacenando información de manera desorganizada, pero luego aprende sobre hojas de cálculo y bases de datos. Finalmente, se enfrenta al desafío de manejar grandes volúmenes de datos de diversas fuentes, introduciendo el concepto de Big Data. Álvaro explica términos clave del Big Data y resalta la importancia de herramientas como el cloud computing y el machine learning. También invita a un workshop en México sobre Big Data en Google, impartido por Manu Rodríguez.
Takeaways
- 👋 Hola amigos, soy Álvaro Felipe y hoy quiero hablarles sobre Big Data.
- 📖 Carlos, un panadero, quiere hacer crecer su negocio y comienza a leer sobre marketing y gestión.
- 📝 Carlos guarda los datos de sus clientes en un documento de texto desordenado, lo que le causa problemas.
- 📊 Aprende a usar hojas de cálculo para organizar mejor sus datos.
- 💡 Alexis Losada le explica que necesita una base de datos en lugar de una hoja de cálculo.
- 🌐 Carlos descubre que necesita centralizar toda la información que recibe de diferentes fuentes.
- 🏢 Las grandes empresas manejan enormes cantidades de información de diversas fuentes.
- 🔍 Los datos no estructurados, como correos electrónicos y documentos de texto, son importantes pero desordenados.
- 💾 El almacenamiento en la nube (cloud computing) es más eficiente y menos costoso que el almacenamiento local (on premise).
- 📈 El Big Data se caracteriza por grandes volúmenes de información, variabilidad, velocidad, veracidad y valor.
- 🧠 El machine learning permite a las computadoras aprender patrones y hacer predicciones.
- 📊 Big Data permite encontrar soluciones para negocios y la ciudadanía a través del análisis de grandes volúmenes de datos.
- 📅 Invitación a un workshop sobre Big Data en Ciudad de México el 18 de mayo, con Manu Rodríguez como instructor.
Q & A
¿Quién es Carlos y qué problema enfrenta al principio del video?
-Carlos es un panadero que quiere que su negocio crezca. El problema que enfrenta es que guarda los datos de sus clientes de manera desorganizada en documentos de texto sin una estructura definida.
¿Cómo intenta Carlos mejorar la organización de sus datos inicialmente?
-Carlos intenta mejorar la organización de sus datos usando una hoja de cálculo, donde puede tener un orden con filas y columnas para diferentes tipos de información.
¿Quién es Alexis Losada y qué le sugiere a Carlos?
-Alexis Losada es una persona que Carlos conoce, y le sugiere que use una base de datos en lugar de una hoja de cálculo para organizar mejor sus datos.
¿Qué tipos de información maneja Carlos que complican la organización de sus datos?
-Carlos maneja información de correos electrónicos, mensajes de redes sociales, ventas, pagos a empleados, contabilidad, proveedores, analíticas de su sitio web, inventario, y registros del negocio.
¿Qué es 'big data' según el video?
-Big data es un gran volumen de información de diferentes fuentes y con diferentes estructuras, que se genera y cambia a una velocidad rápida, haciendo que sea difícil de procesar y analizar con sistemas tradicionales.
¿Cuáles son los cinco 'Vs' del big data mencionadas en el video?
-Las cinco 'Vs' del big data son: Volumen, Variedad, Velocidad, Veracidad y Valor.
¿Qué es el 'cloud computing' y cómo se relaciona con el big data?
-El cloud computing es un modelo que permite almacenar, procesar y extraer datos en la nube, ofrecido por empresas como Amazon, Google y Microsoft. Se relaciona con el big data porque proporciona el poder de cómputo necesario para manejar grandes volúmenes de datos a un menor costo.
¿Qué es el 'machine learning' y cómo se aplica en el contexto del big data?
-El machine learning es el aprendizaje automático donde las computadoras pueden aprender de patrones en los datos y hacer predicciones. En el contexto del big data, ayuda a encontrar patrones en grandes volúmenes de datos que los humanos podrían no detectar.
¿Qué proceso se describe para centralizar y analizar los datos de diferentes fuentes?
-El proceso descrito es el ETL: Extracción, Transformación y Carga. Se capturan los datos de diferentes fuentes, se estandarizan y limpian, y finalmente se cargan en un data warehouse para su análisis.
¿Cómo pueden las empresas transformar los datos en dinero según el video?
-Las empresas pueden transformar los datos en dinero al capturar, almacenar, procesar y analizar los datos para tomar decisiones informadas que mejoren las ventas, la eficiencia y la toma de decisiones estratégicas.
Outlines
🧁 La historia de Carlos y la gestión de datos
Carlos es un panadero exitoso que busca expandir su negocio. Aprende sobre la importancia de gestionar los datos de sus clientes pero enfrenta problemas al usar documentos de texto desordenados. Descubre la utilidad de las hojas de cálculo y posteriormente, con la ayuda de Alexis, comprende la importancia de las bases de datos para organizar y centralizar información de diferentes fuentes.
🏢 Del almacenamiento local al cloud computing
Se explican los términos relacionados con bases de datos y almacenamiento de información. La transición de sistemas on-premise a cloud computing se aborda, destacando las ventajas del almacenamiento en la nube frente a los métodos tradicionales. Se mencionan las principales empresas de cloud computing y los beneficios de la escalabilidad y poder de cómputo que ofrecen.
📈 El ciclo de vida y valor de los datos
El proceso de ETL (Extracción, Transformación y Carga) se explica como la metodología para manejar grandes volúmenes de datos de diversas fuentes. Se detalla cómo estos datos, una vez procesados, pueden ser utilizados para tomar decisiones empresariales estratégicas. Se discute el valor de los datos y cómo empresas como Google y Facebook monetizan la información recopilada.
🎓 Workshop de Big Data en Ciudad de México
Se invita a los interesados a participar en un workshop presencial sobre Big Data en Ciudad de México, dirigido por Manu Rodríguez, experto en cloud computing para Google. El evento promete una experiencia enriquecedora con acceso directo a un profesional para resolver dudas y aprender en profundidad sobre el manejo de Big Data en Google Cloud.
Mindmap
Keywords
💡Big Data
💡Datos no estructurados
💡Hoja de cálculo
💡Base de datos
💡On premise
💡Cloud computing
💡Machine Learning
💡Data Warehouse
💡ETL (Extract, Transform, Load)
💡Visualización de datos
Highlights
Carlos guarda los datos de sus clientes en un documento de texto sin estructura, lo que resulta ineficiente.
El uso de una hoja de cálculo mejora la organización de los datos de Carlos.
Alexis le explica a Carlos que necesita una base de datos en lugar de una hoja de cálculo para gestionar mejor su información.
La información de Carlos proviene de múltiples fuentes, como correos electrónicos, redes sociales, y ventas.
El desafío de centralizar toda la información de diferentes fuentes es clave para mejorar el análisis de datos.
Las grandes empresas manejan enormes cantidades de información que también están distribuidas en diferentes lugares.
Big Data implica manejar grandes volúmenes de información de diferentes fuentes, con estructuras diversas y a una velocidad rápida.
Datos no estructurados son aquellos que no tienen una estructura definida, como correos electrónicos y conversaciones por Slack.
Datos estructurados son aquellos que se organizan en bases de datos, como los datos de una hoja de cálculo.
On-premise se refiere a empresas que almacenan sus datos e infraestructura localmente, lo cual es costoso y requiere personal especializado.
Cloud computing permite almacenar y procesar datos en la nube, ofreciendo más poder de cómputo a menor costo.
Un data warehouse es un gran almacén de datos, capaz de manejar cantidades extremas de información.
Machine learning permite que las computadoras aprendan a través de patrones y puedan hacer predicciones.
El ciclo de vida de los datos incluye la captura, almacenamiento, procesamiento, análisis, y visualización para tomar decisiones informadas.
Big Data permite encontrar soluciones para negocios o la ciudadanía mediante el análisis de grandes volúmenes de información.
Transcripts
hola amigos yo soy álvaro felipe y hoy
quiero hablarles acerca de big dada para
eso quiero contarles una pequeña
historia el es carlos tres panaderos
hace pan hace buen pan entonces le va
bien tiene buenos clientes sin embargo
él quiere que su negocio crezca así que
como todo buen emprendedor empieza a
leer sobre marketing sobre negocios
sobre gestión lo que todo buen
emprendedor debería hacer leer todos los
días así que de esta manera él comprende
que debería guardar los datos de sus
clientes para poder tener mejores
relaciones informales cuando hay
descuentos ofertas nuevos productos
eventos etcétera ok pero como él no sabe
mucho de tecnología los guarda en un
documento de texto pero no tienen una
estructura para un cliente le pone
primero el apellido luego el nombre al
siguiente cliente le pone primero el
nombre luego el apellido a otro cliente
le pone primero el correo luego el
apellido luego la fecha de nacimiento
todo es un desorden mayúsculas
minúsculas una locura pronto él mismo se
da cuenta de que esto no es eficiente
demora mucho en encontrar una
información porque todo está desordenado
así que leyendo se entera que es mejor
todo esto en una hoja de cálculo porque
ahí ya hay un orden hay filas y columnas
entonces en la columna uno pone el
nombre en la columna dos el apellido en
la columna tres el teléfono celular
etcétera todo está mucho mejor pero un
día conoce a un señor llamado alexis
losada ya le siendo sala le dice esto no
es una base de datos esto es una hoja de
cálculo tú necesitas una base de datos
carlos entonces carlos le dice hoy el
éxito yo he escuchado que access es una
base de datos entonces nuevo mis datos
access y alexis se enoja muchísimo peor
y le dice access no es una base de datos
tú necesitas una base de datos yo me
encargo entonces alexis diseña una base
de datos que lo pone feliz y también
pone feliz a carlos obviamente
mejórate alexis hay bastantes bases de
datos esperándote
entonces carlos ya tiene sus bases de
datos pero pronto se da cuenta que la
información viene de muchos lugares
aparte de esta base de datos los correos
electrónicos que comparte con sus
clientes los mensajes que envía y recibe
por las redes sociales la información de
sus ventas la información de lo que le
paga a sus empleados la contabilidad en
general no los datos de sus proveedores
que proveedores tiene qué productos le
traen cuánto les paga en qué fechas
vienen qué créditos tiene etcétera la
información de analíticas de su sitio
web cuántas visitas tiene cuánto tiempo
se quedan de donde lo están visitando
cómo llegan a su sitio la información de
su inventario la información de los
registros de su negocio una gran
cantidad de información que hace que en
algún momento carlos se quede así
sin saber qué hacer con tanta
información ahora carlos es un pequeño
empresario y está sintiendo que hay
mucha información pero también se da
cuenta que si él fuera capaz de
centralizar toda esa información que
viene de diferentes fuentes y trabajarla
como una sola información es decir saber
que este cliente que me escribió por
facebook es este con el que tuve
conversaciones por el correo electrónico
y es este que tengo en la base de datos
que me ha comprado este y este producto
de esa manera puedo definir el
comportamiento de este cliente pero
obviamente están todos los datos por
diferentes lugares y es muy complejo
ahora imagínate el reto que tiene que
asumir una gran empresa un banco una
cadena de supermercados una tienda por
departamentos que tienen locales en
varios países una empresa de software
con clientes a nivel mundial una empresa
de telecomunicaciones etcétera cuánta
información ellos manejarán enormes
cantidades de información que también
están repartidos por distintos lugares
esta es la esencia del big data
antes de explicarte que es big data de
manera técnica hablemos de la
terminología de esas palabras que vas a
escuchar en el mundillo del big data y
es bueno que tú las conozcas en primer
lugar los datos no estructurados son
aquellos que no tienen una estructura
definida como carlos poniendo los datos
de sus clientes en un documento de texto
y poniéndolos como caigan no tienen una
estructura sin embargo igual son datos
iguales información importante tú dirás
sí pero tú pusiste el ejemplo de carlos
porque l era un principiante de la
tecnología nosotros no lo vamos a hacer
nosotros siempre estructuramos nuestra
información
falso cuando envías un correo
electrónico el cuerpo de ese correo es
un son datos no estructurados a pesar de
que haya información muy importante hay
documentos de texto conversaciones por
slack toda la información que guardas en
tu sistema de gestión de proyectos ya
sea sana reloj de ira wright etcétera
todos esos datos no estructurados y son
datos importantes de tu empresa además
tenemos los datos estructurados que son
los datos que ya se diseñan como el
ejemplo de carlos pasando sus datos
hoja de cálculo tenemos luego la base de
datos llega alexis y dice tenemos que
hacer una base de datos esto es un
conjunto organizado de información de
datos estructurados y existen los
motores de base de datos que es software
que permite almacenar procesar y extraer
la información de estas bases de datos
también tenemos el término on premise
que se usa para referirnos a las
empresas que guardan sus datos e
infraestructura en local es decir en sus
propias oficinas han comprado
computadoras servidores racks han hecho
el cableado tienen un lugar específico
para guardar todos esos datos eso es un
premio obviamente en un momento
determinado no había otra forma de
hacerlo si tú querías guardar
información tenías que comprar equipos y
ahí guardar la información y ahí
procesar esa información sin embargo
esto es muy costoso
necesitas un espacio físico que es
costoso necesitas comprar los equipos y
saber que en determinada cantidad de
años estos equipos se vuelven obsoletos
y que renovarlo necesitas personal
capacitado y especializado para
manipular estos equipos es
realmente el nuevo modelo es el cloud
computing que significa que todos estos
servicios de cómputo estén en internet
ofrecidos por una empresa las empresas
más importantes de cloud computing son
amazon con la w s
google con disipe y microsoft con asier
entonces ya no tenemos que tener esas
grandes cantidades de equipos y gastar
tanto dinero sino que nuestros datos
están almacenados en la nube en la nube
se procesan en la nube hay mucho poder
de cómputo un mito muy común de la nube
es decir que es la computadora de otra
persona y eso es absolutamente falso y
quiero dejarlo muy en claro nunca creas
eso el cloud computing es un conjunto de
servicios de cómputo enormes gigantescos
y un conjunto de servicios de cómputo
escalables es decir que si se requiere
más poder rápidamente puedes escalar un
data warehouse es un gran almacén de
datos estamos hablando de cantidades
extremas de información de petabytes de
información un petabyte es 1000
terabytes es decir un millón de
gigabytes imagínate es tremendo tenemos
también el machine learning
qué es el aprendizaje automático
significa que las computadoras sean
capaces de aprender a través de patrones
y poder detectar nuevos patrones y hacer
predicciones es como tener un asistente
que está todo el día revisando la
información para encontrar datos
importantes te pongo un ejemplo
imagínate que le damos un millón de
fotos de un perro o una computadora y le
decimos oye computadora en este millón
de fotos hay perros entonces la
computadora empieza a aprender con esas
fotos de perros y se supone que al final
pues debes saber cómo identificar a un
perro en nuevas fotos este millón de
fotos es un número completamente
aleatorio que me inventado ok pero luego
de procesar estas fotos le damos una
foto de un gato de un caballo o de un
león de un perro o de algunos objetos a
ver si la computadora y entendió y ya
puede reconocer un perro ese es el
principio de machine learning y se puede
aplicar a muchísimas áreas no solamente
al big data pero que es big data no lo
hemos explicado de manera técnica hasta
el momento
big data es un gran volumen de
información de diferentes fuentes no
cuenta una sola fuente por más grande
que sea esta fuente tiene que venir de
diferentes fuentes con diferentes
estructuras ya una velocidad tan rápida
de cambio es decir de nuevos datos que
van llegando como una gran avalancha de
datos que no paran de llegar y al no
parar de llegar y de moverse estos datos
son casi imposibles de procesar y
analizar con los sistemas de cómputo
tradicionales es decir necesitamos
muchísimo poder de cómputo es decir
cloud computing el big data también se
puede hacer on premise con herramientas
como hadoop pero actualmente la
tendencia sino salas nube porque nos da
más poder a menor costo el big data debe
cumplir con cinco veces o cinco v es
para los amigos de españa'
estas cinco veces son las siguientes
gran cantidad de información difícil de
procesar con los medios tradicionales
variabilidad es decir que los datos sean
diferentes si todos los datos son de una
misma base de datos pues no tiene mucho
reto eso simplemente se analiza con
de base de datos tradicional pero cuando
viene de diversas fuentes ya hablamos de
big data pero no solo que vengan de
diversas fuentes la velocidad es
importante es decir con qué velocidad
cambian estos datos nunca dejan de
llegar nuevos datos por ejemplo tu
teléfono está rastreando por donde te
mueves siempre entonces siempre está
generando nueva información aunque tú no
la digit es también tenemos la veracidad
significa saber qué datos son veraces y
qué datos no ejemplos si tenemos una
cuenta en redes sociales con un millón
de seguidores pero comprados esos datos
no nos valen absolutamente de nada para
un análisis
y también está el valor el valor es
saber qué tan pertinente es esta
información para los objetivos que tú
estás buscando por ejemplo si yo he de
tim y quiero mejorar las ventas usando a
big data los datos de geolocalización de
mi teléfono no influyen absolutamente en
nada entonces no son datos de valor para
este análisis seguramente te estarás
preguntando si los datos vienen de
muchísimos lugares como podemos
analizarlos como si fueran una sola
fuente para eso tenemos un proceso
llamado tele
la primera fase es la fase de extracción
que es cuando nosotros capturamos los
datos de todas esas fuentes y los
centralizamos la segunda fase es la fase
de transformación cuando nosotros
estandarizamos los datos como han venido
de diferentes lugares hay que darles un
estándar algo llamado data clean y
limpiar los datos para que parezcan de
una sola fuente obviamente hay que
escribir un modelo un algoritmo para
limpiar esos datos aunque también el
match in learning nos podría ayudar en
esta etapa y luego el log el lotes la
carga de la información es decir ya
extrajimos los datos ya los limpiamos y
ahora hay que cargarlos o guardarlos en
un data warehouse para su posterior
análisis
hasta este momento estamos hablando de
datos muchos datos limpiar los datos
analizarlos pero para que has escuchado
tal vez esta frase de que los datos son
el nuevo petróleo que empresas como
google o como facebook hacen millones
con nuestros datos
si todos lo sabemos pero te has
preguntado algún día como como google o
como facebook transforman estos datos en
dinero está el dato acá y está el dinero
acá de que me estoy perdiendo para
convertir este dato en dinero bueno
hablemos del ciclo de vida de los datos
y eso te va a ayudar a entender cómo los
datos se transforman en dinero en primer
lugar necesitamos capturar estos datos
repito los datos que vienen de
diferentes fuentes hay que capturarlos
sería la primera etapa de lete el es
cierto la extracción en segundo lugar
está el almacenamiento se supone que ya
se hizo lt l ya capturamos ya
transformamos y ya guardamos en un data
warehouse ya tenemos los datos guardados
ahora viene la fase del procesamiento y
el análisis ya tenemos los datos como si
fueran una sola fuente limpios y
estandarizados
ahora toca encontrar patrones estos
patrones los podemos buscar de manera
predeterminada es decir nosotros definir
que estamos buscando y escribir los
modelos los algoritmos para esas
búsquedas o podemos apoyarnos en match
in learning la diferencia es que machine
learning puede encontrar patrones que
nosotros ni siquiera imaginábamos que
necesitábamos eso es muy chévere y la
última parte es la exploración y
visualización ya tenemos toda la
información hay que mostrarla en un
dashboard hay que mostrarlo en un
tablero para que los tomadores
gerentes de negocios gerentes generales
de empresas y autoridades
gubernamentales autoridades municipales
puedan tomar decisiones con estos datos
viendo la información ya procesada ya en
tableros en gráficos muy fáciles de
entender pero hasta ahora siguen siendo
datos dónde está el dinero ok lo que
pasa es que con estos datos tú puedes
tomar decisiones estos datos te muestran
comportamientos de los usuarios o te
muestran tendencias o te predicen el
futuro obviamente no pueden predecir el
futuro de manera exacta pero las
tendencias dicen algo en estadística no
entonces podemos saber si las ventas van
a subir van a bajar en qué temporada
qué tipos de usuarios van a comprar en
cierta región geográfica se acuerdan el
escándalo de cambridge analytics como
ellos pudieron manipular las elecciones
simplemente sacando patrones de
comportamiento de los usuarios de
facebook terrible ahí es donde está el
dinero y las ganancias ahora no
solamente para las empresas también para
la ciudadanía podríamos analizar datos
abiertos el famoso open data y encontrar
soluciones por ejemplo soluciones de
tráfico o soluciones de seguridad
supongamos que podamos analizar el
índice de delincuencia en toda la ciudad
cruzarlo con las cámaras de vigilancia
con las denuncias en comisarías cruzar
todos los datos y poder definir en las
zonas seguras y las zonas no seguras
incluso en horarios del día me imagino
una aplicación se me ocurre no una
aplicación que te pueda decir según la
hora del día qué zona es segura y qué
zona no es segura para transitar y eso
se puede hacer con big data
obviamente entonces para resumir el big
data permite encontrar soluciones para
los negocios o para la ciudadanía a
través del análisis de grandes volúmenes
de informes
usando gran capacidad de cómputo
principalmente con cloud computing y con
machine learning
si quieres saber más de big data y
métele las manos en la masa' este tema y
no simplemente una presentación hablando
del panadero y de ejemplos por encima
sino meterte a las tripas del big data
entender cómo se analizan los datos y
ver realmente cómo se trabaja te invitó
este 18 de mayo en ciudad de méxico al
edecán méxico 2019 donde manu rodríguez
nuestro profesor en cloud computing y
customer engineer en temas de cloud para
google va a dictar el workshop big data
on google es un workshop de tres horas
completamente presencial lo vas a tener
ahí al experto en cloud para preguntarle
todo lo que quieras preguntarle y hacer
que tu inscripción valga cada centavo si
estás en méxico te invito a ir a méxico
ahora mismo para adquirir tus entradas
antes que se agoten y si no estás en
mexico
te invito a ir a e de puntín diagonal
premium para actualizar tu cuenta y
tener acceso a las grabaciones y
materiales de este workshop nos vemos en
mexico
تصفح المزيد من مقاطع الفيديو ذات الصلة
5.0 / 5 (0 votes)