KDF KDA

Profe Santos Cloud

29 Jan 202316:00

Summary

TLDREn este tutorial, el presentador muestra cómo utilizar los servicios de AWS como Kinesis Firehose, Kinesis Data Streams y Kinesis Data Analytics para el procesamiento y análisis en tiempo real de datos. A través de un simulador de datos de mercado bursátil, se envían datos crudos a un bucket de S3 y luego se procesan utilizando consultas SQL en Kinesis Data Analytics. El video también explica cómo gestionar los errores, cómo limpiar los datos en tiempo real y cómo crear flujos de datos para almacenarlos en particiones separadas en S3. Es un enfoque práctico para trabajar con streaming de datos en AWS.

Takeaways

😀 Se utiliza Kinesis Firehose para enviar datos en tiempo real a S3, permitiendo la captura de datos desde un productor.
😀 Los datos pueden enviarse en dos formatos: 'en bruto' (sin procesamiento) y 'limpios' (procesados mediante Kinesis Data Analytics con consultas SQL).
😀 La creación de un Kinesis Firehose es un paso inicial, configurando el flujo de datos desde el productor hasta S3.
😀 Se recomienda habilitar roles de IAM para asegurar que los servicios de Kinesis puedan funcionar correctamente con permisos adecuados.
😀 Los datos de ejemplo generados son simulaciones de tickets de bolsa con información de sector, cambio y precio.
😀 Los datos pueden ser limpiados y procesados en tiempo real utilizando Kinesis Data Analytics y consultas SQL.
😀 Para procesar los datos, se crea una aplicación de Kinesis Data Analytics que se conecta a Kinesis Firehose como fuente.
😀 La consulta SQL aplicada elimina datos no deseados y organiza los datos según el ticket de bolsa, mostrando cuántas veces aparece cada ticket.
😀 Se utiliza un buffering configurado para enviar los datos en bloques, con tiempos de espera mínimos (60 segundos o 1 MB de datos).
😀 Los resultados de la consulta SQL se envían a otro Kinesis Firehose para ser almacenados en un bucket S3, bajo una partición específica.
😀 Al finalizar el proceso, es recomendable parar los streamings y eliminar las aplicaciones para evitar costos innecesarios en AWS.

Q & A

¿Qué se va a hacer en este video respecto a Kinesis Data Firehose y Kinesis Data Analytics?
-En este video se muestra cómo utilizar Kinesis Data Firehose y Kinesis Data Analytics para enviar datos a un S3 bucket, realizar análisis en tiempo real con consultas SQL y luego almacenar los datos limpios en un nuevo stream de Kinesis.
¿Cómo se generan los datos para ser enviados a Kinesis Firehose?
-Los datos se generan a través de un simulador de datos, que crea datos como si fueran tickets de bolsa, incluyendo el sector, el cambio y el precio en tiempo real.
¿Qué diferencia hay entre los datos 'limpios' y los 'no limpios' enviados a Kinesis?
-Los datos 'no limpios' son enviados directamente desde el productor sin ningún procesamiento, mientras que los datos 'limpios' pasan por una etapa de análisis usando Kinesis Data Analytics, en la cual se aplican consultas SQL para filtrar y modificar la información.
¿Cuál es el propósito de usar Kinesis Data Analytics en este proceso?
-Kinesis Data Analytics se utiliza para procesar los datos en tiempo real mediante consultas SQL, permitiendo limpiar y analizar los datos antes de enviarlos a su destino final.
¿Cómo se asegura que el flujo de datos hacia el destino funciona correctamente?
-Se asegura de que el flujo funcione correctamente comprobando que los datos están siendo enviados correctamente desde el productor hacia el Kinesis Firehose y luego a través de la aplicación de análisis hacia el bucket de S3.
¿Qué tipo de datos se simulan en este video?
-Se simulan datos relacionados con el mercado de valores, incluyendo el ticker de bolsa, el sector, el cambio en ese momento y el precio actual de los activos.
¿Qué sucede si hay un error en el procesamiento de los datos?
-Si ocurre un error en el proceso de transmisión de datos, los datos erróneos se almacenan en una partición especial del bucket S3, destinada a los 'errores en bruto'.
¿Cómo se realizan las consultas SQL para limpiar los datos?
-Las consultas SQL se realizan dentro de Kinesis Data Analytics, donde se crean reglas para filtrar y modificar los datos antes de enviarlos a su destino, que en este caso es otro stream de Kinesis Firehose.
¿Qué significa que los datos se almacenen en una partición de 'datos limpios'?
-Almacenar los datos en una partición de 'datos limpios' significa que los datos han sido procesados y filtrados, eliminando información innecesaria antes de ser guardados en el bucket S3.
¿Cómo se puede evitar que se sigan generando cargos por los servicios utilizados?
-Para evitar cargos innecesarios, es importante detener los streams de Kinesis y borrar las aplicaciones creadas después de finalizar la demostración, lo que también elimina los recursos asociados.