Cómo utilizar GPT4-VISION para EXTRAER INFORMACIÓN de un PDF

Productomania
21 Dec 202318:49

Summary

TLDREl video ofrece una guía detallada sobre cómo transformar un catálogo en formato PDF, que contiene información sobre hoteles, en una tabla estructurada en Google Sheets. Para lograr esto, se utiliza una combinación de herramientas y procesos automatizados, incluyendo Make, el modelo de Inteligencia Artificial GPT-4 Vision de Open AI y I Love PDF. El proceso consiste en convertir las páginas del PDF en imágenes, luego utilizar GPT-4 Vision para extraer la información de esas imágenes y finalmente, integrar los datos en una hoja de cálculo de Google Sheets. El video también menciona un curso de automatización de procesos con Inteligencia Artificial que enseña a crear escenarios similares para digitalizar documentos y obtener información estructurada.

Takeaways

  • 📚 Imagina tener un catálogo en PDF con información sobre hoteles, coches, libros, etc., y la necesidad de convertirlo en una página web o un dashboard con estadísticas.
  • 🤖 Se necesita una estructura de datos bien organizada para construir una página web o un dashboard, y el script describe cómo automatizar el proceso de extraer información de un PDF.
  • 🔄 El proceso involucra la transformación de un PDF en imágenes, luego en texto y finalmente en una tabla estructurada como Google Sheets.
  • 🖼️ Utiliza la herramienta I Love PDF para convertir cada página del PDF en una imagen JPEG.
  • 📁 Sube las imágenes a Google Drive y utiliza un script de Make para automatizar la extracción de información de las imágenes.
  • 🔗 El modelo GPT 4 Vision de OpenAI se utiliza para analizar imágenes y extraer texto, lo que se utiliza para obtener información de las imágenes del PDF.
  • 📈 La información extraída se estructura en una tabla de Google Sheets con columnas definidas por los datos que se quieren extraer de los hoteles.
  • 💻 Se utiliza un enfoque de programación para definir el prompt y las estructuras de datos de salida deseadas, lo que permite una integración más sofisticada con las API de OpenAI.
  • 🔗 El uso de Make y la API de OpenAI permite crear una solución automatizada que puede manejar múltiples archivos y extraer información de manera eficiente.
  • 📈 El resultado es una tabla en Google Sheets que contiene información estructurada sobre los hoteles, listos para ser utilizados en un sitio web o un panel de control.
  • 📘 Se destaca la posibilidad de extender este proceso para otros tipos de documentos y la flexibilidad del enfoque para adaptarse a diferentes necesidades de información.
  • 📚 El script sugiere la utilidad de este proceso para digitalizar documentos y transformar información en formatos estructurados que sean más útiles para análisis y presentación.

Q & A

  • ¿Qué tipo de catálogo se menciona en el script?

    -Se menciona un catálogo de hoteles que contiene imágenes e información sobre diferentes hoteles.

  • ¿Por qué podría necesitar una persona convertir un catálogo PDF en una tabla estructurada?

    -Para poder construir una página web o un dashboard que muestre información y estadísticas sobre los hoteles, lo cual es más difícil de hacer si la información no está bien estructurada en una tabla.

  • ¿Qué modelo de Inteligencia Artificial se utiliza para convertir imágenes en texto?

    -Se utiliza el modelo gpt 4 Vision, una variante del modelo gpt 4 que recibe imágenes como input y genera texto como output.

  • ¿Qué herramienta se utiliza para convertir un PDF en múltiples imágenes?

    -Se utiliza la herramienta I Love PDF para convertir cada página del PDF en una imagen jpg.

  • ¿Cómo se estructura la información en la tabla de Google Sheets?

    -La información en la tabla de Google Sheets está estructurada con columnas que incluyen el nombre del hotel, situación, alojamiento, instalaciones, precio, estrellas, dirección, país y zona.

  • ¿Qué es un escenario de make y cómo se relaciona con el proceso de extraer información de imágenes?

    -Un escenario de make es una secuencia de acciones automatizadas que se ejecutan en el entorno de Make. En este caso, se utiliza para conectar con Google Drive, buscar las imágenes, y luego utilizar gpt 4 Vision para extraer la información de estas imágenes y estructurarla en una tabla de Google Sheets.

  • ¿Cómo se especifica la información que se desea extraer de cada hotel en la tabla?

    -Se especifica la información en el prompt, donde se indica que se desea extraer el nombre del hotel, situación, descripción de la situación, alojamiento e instalaciones.

  • ¿Por qué se utiliza un iterador en el escenario de make?

    -Se utiliza un iterador para manejar situaciones en las que una imagen pueda contener información de múltiples hoteles. El iterador permite extraer y añadir la información de cada hotel individualmente en la tabla de Google Sheets.

  • ¿Qué ocurre si el modelo gpt 4 Vision no tiene permisos para extraer información sobre hoteles reales?

    -Si el modelo gpt 4 Vision no tiene permisos para extraer información sobre hoteles reales, podría generar una respuesta con datos inventados en lugar de información real y específica.

  • ¿Qué curso se menciona en el script para aprender a automatizar procesos con inteligencia artificial?

    -Se menciona un curso de automatización de procesos con inteligencia artificial que tiene una duración de 3 horas y 20 minutos y que enseña a utilizar la herramienta de Make para conectarla con la API de Open AI.

  • ¿Cómo se puede acceder al curso de automatización de procesos con inteligencia artificial?

    -Para acceder al curso, se puede visitar el canal de Productomat y buscar el video que explica el contenido del curso. El enlace también se incluirá en la descripción del video.

Outlines

00:00

📚 Convertir catálogos PDF en tablas estructuradas

El primer párrafo aborda la idea de tener un catálogo de hoteles en formato PDF que es agradable visualmente pero difícil de manipular para crear páginas web o dashboards de estadísticas. Se menciona la necesidad de tener la información en una tabla estructurada y cómo el autor automatizó el proceso de extraer información de un PDF y convertirla en una tabla de Google Sheets utilizando un proceso 'make' y el modelo gpt 4 Vision de OpenAI. Además, se destaca la importancia de tener la información en diferentes formatos, como PDF y Excel, para diferentes propósitos y se hace un llamado a la suscripción y notificaciones para recibir actualizaciones de nuevos contenidos.

05:01

🔄 Proceso de automatización con herramientas en línea

El segundo párrafo describe el proceso detallado para transformar un PDF en una tabla de Excel. Comienza por convertir el PDF en múltiples imágenes utilizando la herramienta 'I Love PDF' y luego se utiliza Google Drive para almacenar estas imágenes. Luego, se establece un escenario de 'make' que utiliza el modelo gpt 4 Vision para analizar cada imagen, extraer información de hoteles y estructurarla en un formato JSON específico. Este JSON es luego transformado en una colección de 'make' y se utiliza para rellenar una hoja de cálculo de Google Sheets con la información correspondiente de cada hotel.

10:01

🛠️ Configuración del flujo de trabajo con Make y API

El tercer párrafo se enfoca en la configuración técnica del flujo de trabajo con Make, utilizando el modelo gpt 4 Vision a través de una API. Se discute la importancia de la especificación de un 'prompt' o solicitud para que el modelo gpt 4 Vision extraiga información detallada de las imágenes, y cómo se conecta con Google Sheets para añadir la información a la tabla correspondiente. Además, se aborda el uso de un iterador para manejar arrays de hoteles encontrados en las imágenes y se menciona la utilización de un módulo 'make an API call' en lugar del módulo de 'analyze images' para evitar limitaciones en la configuración del prompt.

15:02

📈 Ejecución del escenario y cursos de automatización

El cuarto y último párrafo relata la ejecución del escenario para verificar su funcionamiento, limitando la obtención de imágenes a una para la prueba. Se describe el resultado de la ejecución, que fue la adición de una nueva fila a la hoja de cálculo de Google Sheets con información extraída de una imagen. El autor promueve un curso de automatización de procesos con inteligencia artificial que enseña a realizar tareas similares a lo que se muestra en el video. Se menciona que el curso incluirá una clase bonus detallando paso a paso la creación del escenario y se ofrece información sobre cómo acceder al curso y obtener más detalles.

Mindmap

Keywords

💡PDF

PDF es una abreviatura de Portable Document Format, un formato de archivo utilizado para presentar documentos de manera independiente del software, hardware o sistema operativo utilizado para crearlo. En el video, el PDF es el formato original de un catálogo de hoteles que se desea convertir en una tabla estructurada.

💡Google Sheets

Google Sheets es una herramienta en línea de hojas de cálculo que permite la creación y edición de hojas de cálculo en tiempo real, y es parte de la suite de servicios de Google Drive. En el contexto del video, se utiliza para estructurar la información extraída de los PDFs en una tabla organizada.

💡GPT-4 Vision

GPT-4 Vision es una variante del modelo de inteligencia artificial GPT-4 capaz de recibir imágenes como entrada y generar texto como salida. En el video, GPT-4 Vision se utiliza para analizar imágenes extraídas de un PDF y convertir la información visual en datos estructurados.

💡Make

Make es una herramienta de automatización de tareas que se utiliza para administrar compilaciones y procesos de construcción en proyectos de software. En el video, se utiliza para crear un 'escenario' o secuencia de tareas automatizadas que transforman las páginas de un PDF en una tabla de Google Sheets.

💡I love PDF

I love PDF es un servicio en línea que ofrece herramientas para trabajar con archivos PDF, como convertir, unir, dividir, etc. En el video, se utiliza para convertir cada página del PDF en una imagen JPEG, que luego puede ser leída por GPT-4 Vision.

💡API

API significa Interfaz de Programación de Aplicaciones y es un conjunto de rutinas y protocolos que permiten la comunicación entre aplicaciones. En el video, se hace referencia al uso de la API de OpenAI para interactuar con el modelo GPT-4 Vision.

💡JSON

JSON es un formato de texto ligero para el intercambio de datos que se utiliza ampliamente en la web para transmitir datos estructurados. En el video, la información extraída de las imágenes se estructura en JSON para su posterior uso en Google Sheets.

💡Iterador

Un iterador es un objeto que permite la iteración sobre un conjunto de elementos. En el video, se utiliza un iterador para procesar un array de hoteles encontrados en una imagen y agregar la información de cada hotel a una fila diferente en la hoja de cálculo de Google Sheets.

💡Digitalización de documentos

La digitalización de documentos es el proceso de convertir información impresa o manuscrita en formato digital. En el video, el proceso involucra la extracción de información de un catálogo de hoteles en PDF y su conversión en una tabla digital en Google Sheets.

💡Automatización de procesos

La automatización de procesos se refiere a la utilización de tecnología para realizar tareas repetitivas de manera automática. El video muestra cómo automatizar la transformación de un catálogo de hoteles de PDF a una tabla estructurada en Google Sheets.

💡Curso de automatización

El curso de automatización mencionado en el video es una capacitación que enseña a los estudiantes a utilizar herramientas de inteligencia artificial y automatización para mejorar procesos de trabajo. El video es un ejemplo práctico del tipo de contenido que se podría encontrar en dicho curso.

Highlights

Se describe un proceso para convertir un catálogo PDF en una tabla estructurada de Google Sheets utilizando tecnologías de inteligencia artificial.

La utilización del modelo GPT 4 Vision permite analizar imágenes y extraer texto, siendo fundamental para la conversión de documentos PDF en formatos digitales.

El proceso involucra la transformación de cada página del PDF en una imagen para su posterior análisis.

Se utiliza la herramienta I Love PDF para convertir el PDF en múltiples imágenes JPEG.

La información de las imágenes se estructura en una tabla de Google Sheets con columnas definidas como hotel, situación, alojamiento, instalaciones, precio, estrellas, dirección, país y zona.

El uso de Make Automation permite crear un escenario que conecta y automatiza la extracción de información de las imágenes.

La conexión con Google Drive es esencial para buscar y obtener las imágenes del PDF convertidas.

La especificación de un 'prompt' o solicitud detallada es crucial para que el modelo GPT 4 Vision extraiga la información correcta de las imágenes.

Se requiere una estructura JSON específica para que la información extraída se adapte a las necesidades del usuario.

El proceso es iterativo, analizando múltiples imágenes para extraer información de varios hoteles.

La información extraída se organiza en filas de una hoja de cálculo de Google Sheets, con cada hotel correspondiendo a una nueva fila.

El uso de un iterador en el proceso es fundamental para manejar arrays de información que pueden contener múltiples hoteles por imagen.

El módulo 'make an API call' se utiliza para conectarse con la API de Open AI y enviar las solicitudes de análisis de imágenes.

La inclusión de un 'prompt' de sistema y de usuario permite una comunicación más detallada con el modelo GPT 4 Vision.

El curso de automatización de procesos con inteligencia artificial ofrece una guía para crear escenarios similares de automatización.

El creador del proceso ofrece un curso y soporte para aquellos interesados en aprender a configurar escenarios de automatización personalizados.

El enlace al curso de automatización se incluirá en la descripción del vídeo para facilitar el acceso a los interesados.

Transcripts

play00:00

Imagínate que tienes un catálogo en

play00:01

formato pdf como este de aquí vale un

play00:03

catálogo en este caso un catálogo de

play00:04

hoteles que contiene pues imágenes e

play00:06

información sobre diferentes hoteles en

play00:08

tu caso Puede que sea sobre otra cosa

play00:10

sobre coches sobre libros o sobre

play00:12

cualquier cosa que vendas este tipo de

play00:14

catálogos son muy vistosos y al usuario

play00:16

le gustan mucho pero imagínate que por

play00:18

lo que sea necesitas construir una

play00:20

página web donde se muestre información

play00:22

de estos hoteles o que necesitas

play00:24

construir un dashboard donde se muestren

play00:26

estadísticas se muestre información

play00:28

sobre estos mismos hoteles pues en ese

play00:30

caso si lo único que tienes es este

play00:32

catálogo en formato pdf estás un poco

play00:34

porque como no tengas la información en

play00:36

una tabla bien estructurada como esta

play00:38

esto es un Google seeds Pero puede ser

play00:40

esto un csv puede ser una base de datos

play00:42

es decir como no tenga la información

play00:43

bien bien estructuradas con sus columnas

play00:46

o sus campos pues entonces no vas a

play00:48

poder construir ni la página web ni el

play00:49

dashboard lo que te quiero enseñar en

play00:51

este vídeo es a automatizar un proceso

play00:53

que automáticamente coja este PDF y

play00:56

convierta toda la información que hay

play00:58

aquí dentro a una tabla como est porque

play01:00

si te has fijado esta tabla contiene

play01:01

también información sobre hoteles Aquí

play01:04

tengo información sobre los 22 hoteles

play01:06

sobre los mismos 22 hoteles que hay en

play01:08

este PDF Y por supuesto pues esto no lo

play01:11

he hecho a mano sino que lo he

play01:12

automatizado con un proceso de make que

play01:14

es el que te voy a enseñar ahora antes

play01:15

de explicarte cómo lo he hecho

play01:17

puntualizar que tuve que transformar ese

play01:19

PDF en el Excel que has visto porque

play01:21

necesitaba utilizar ambos documentos es

play01:23

decir la información sobre los hoteles

play01:25

en ambos formatos pues para grabar el

play01:27

último vídeo que subi al Canal vale que

play01:29

si no lo has visto es un vídeo en el que

play01:30

explico Pues en qué formato debe subir

play01:32

documentos a un gpt pues para que

play01:34

funcione lo mejor posible no y en el

play01:36

vídeo comparo los resultados de subirle

play01:38

un documento en formato pdf que es el

play01:39

PDF que has visto y lo comparo con subir

play01:41

esa misma información en un formato

play01:43

Excel por eso necesitaba los dos

play01:44

formatos es decir que es un caso de uso

play01:46

real aprovecho también este pequeño

play01:48

espacio para pedirte que te suscribas y

play01:50

le des a la campanita de notificaciones

play01:52

para que te avise Cuando suba nuevos

play01:53

vídeos así no te perderás Ninguno de los

play01:55

vídeos que voy a subir Próximamente

play01:57

dicho esto vamos a ver qué herramientas

play01:58

ha utilizado para hacerse transformación

play02:00

Pues bien ya te he explicado que había

play02:02

utilizado make lo que he utilizado

play02:03

también es el módulo de gpt 4 Vision es

play02:06

decir Open tiene diferentes modelos de

play02:08

Inteligencia artificial su último modelo

play02:10

el modelo gpt 4 tiene una variante que

play02:12

es el gpt 4 Vision que lo que permite es

play02:14

recibir como input imágenes es decir los

play02:17

modelos gpt 3.5 o el gpt 4 estándar son

play02:20

modelos de Inteligencia artificial que

play02:22

reciben como input texto y como output

play02:24

generan texto vale es de texto a texto

play02:26

Pues bien justo Este modelo que salió

play02:28

hace no mucho recibe como input imágenes

play02:31

y como output te genera texto entonces

play02:33

puedes utilizarlo por ejemplo para pedir

play02:35

que te haga descripciones de imágenes o

play02:37

para que te interprete gráficos bueno

play02:39

para todo tipo de cosas vale seguro que

play02:41

si ya eres usuario de chat gpt Plus Pues

play02:43

has utilizado esta funcionalidad a

play02:44

través de la interfaz de chat gpt porque

play02:46

sabes que si seleccionas gpt 4 pues

play02:47

puedes subirle imágenes no cuando le

play02:49

subes una imagen pues lo que está

play02:50

utilizando por debajo es este modelo de

play02:52

gpt 4 Visión la novedad digamos Es que

play02:55

este modelo gpt 4 Vision ahora también

play02:57

se puede utilizar a través de la Api que

play02:58

hasta hace poco pues no se podía y la

play03:00

tercera herramienta que vamos a utilizar

play03:02

es la de I love PDF ahora te explico

play03:04

para qué Cómo funciona el proceso

play03:06

nosotros tenemos un documento en PDF y

play03:08

queremos transformarlo en un documento

play03:09

en Excel cuál es el problema que el

play03:11

modelo de gpt 4 Vision no lee pdfs tú

play03:14

puedes subir a chat gpt pdfs vale pero

play03:16

al modelo gpt 4 Vision que vamos a

play03:18

utilizar a través de la Api no le puedes

play03:20

pasar pdfs solo le puedes pasar imágenes

play03:22

por tanto lo primero que hay que hacer

play03:24

es transformar el PDF en imágenes vale

play03:26

cada página del PDF la vamos a

play03:28

transformar en una imagen y una vez que

play03:30

tenemos las imágenes pues entonces sí

play03:32

vamos a construir un escenario de make

play03:34

que se encargue de recibir como input

play03:36

todas las imágenes del PDF y transformar

play03:39

todas esas imágenes en una tabla de

play03:41

Google seats con múltiples filas una

play03:43

fila por cada hotel en este caso

play03:45

entonces la herramienta de ilof PDF la

play03:47

vamos a utilizar para manualmente

play03:48

convertir este PDF en múltiples imágenes

play03:51

Simplemente hay que irse a ilof pdf.com

play03:54

le damos aquí a convertir PDF escogemos

play03:57

de PDF a jpg aquí subimos el archivo en

play04:01

PDF lo acabo de subir aquí en la pestaña

play04:03

a la derecha en opciones pues lo dejamos

play04:05

como está pues que queremos transformar

play04:07

páginas a jpg nos va a decir que se van

play04:09

a crear 24 jpgs porque este documento

play04:11

que lo he subido yo tiene 24 páginas le

play04:14

damos a calidad de imagen normal y le

play04:16

damos a convertir a jpg esto tardará un

play04:19

rato no mucho y sin clicar en ningún

play04:22

sitio vemos como se nos ha descargado

play04:23

aquí un zip este zip lo puedes abrir y

play04:26

al descomprimir el ZIP y abrir la

play04:28

carpeta que Gere pues tenemos aquí una

play04:31

carpeta con tantas imágenes como páginas

play04:34

tenía el PDF vamos a clicar en alguna

play04:36

imagen para ver algún ejemplo pues aquí

play04:37

tenemos una imagen por ejemplo no en

play04:39

este caso era un catálogo con

play04:40

información de hoteles Pues en aquí en

play04:42

la página 18 tenemos información sobre

play04:44

dos hoteles aquí tenemos el Dreams Royal

play04:47

Beach puntacana 5 y aquí a la derecha

play04:49

pues tenemos un poco bueno unos textos

play04:51

donde nos explican pues información

play04:53

sobre el hotel no incluso aquí abajo

play04:55

tenemos el precio y luego Tenemos aquí

play04:57

un segundo hotel pues con lo mismo el

play04:58

nombre una descripción y el precio aquí

play05:00

debajo esta información es la que

play05:02

queremos transformarla para ir

play05:04

rellenando las columnas del Excel con la

play05:06

información que corresponda en cada

play05:07

columna en concreto el Excel tiene un

play05:09

formato como Este vale esto le puedes

play05:11

dar el formato que tú quieras yo las

play05:13

columnas que le he puesto es pues hotel

play05:14

donde se incluye el nombre del Hotel

play05:16

situación alojamiento instalaciones

play05:18

precio estrellas dirección país y zona

play05:21

vale la información que he visto que

play05:23

contienen todos los hoteles Del catálogo

play05:25

con el que estoy trabajando Entonces una

play05:27

vez que con ilof pd hemos convertidos en

play05:29

PDF en múltiples imágenes las he subido

play05:32

aquí a una carpeta de Google Drive y

play05:34

ahora sí ya tenemos todos los

play05:35

ingredientes necesarios para poder crear

play05:37

nuestro escenario de make Qué es este

play05:39

escenario de aquí entonces te voy a

play05:41

explicar pues qué es lo que está

play05:42

haciendo este escenario lo primero se

play05:44

conecta con Google Drive Y qué hace pues

play05:46

Busca dentro de Google Drive la carpeta

play05:49

donde he subido todas las imágenes vale

play05:50

aquí le hemos especificado el nombre de

play05:52

la carpeta y esto lo que va a hacer es

play05:54

obtener todos los ficheros todas las

play05:56

imágenes que hay dentro de la carpeta

play05:58

entonces aquí tenemos un segundo Mod

play05:59

módulo donde vamos a indicar el prompt

play06:01

vale en este caso vamos a guardar el

play06:03

prompt como una variable a la que le he

play06:04

llamado prompt y el prompt es identifica

play06:07

los hoteles que se muestran en la imagen

play06:09

y extrae para cada hotel la siguiente

play06:11

información y aquí es importante

play06:13

especificar la información que queremos

play06:15

que extraiga de cada hotel yo le he

play06:17

puesto hotel nombre del Hotel situación

play06:20

descripción de la situación del Hotel

play06:21

vale es decir estos datos que hay aquí

play06:23

tienen relación con las columnas que hay

play06:25

en el Excel vale si te fijas el nombre

play06:26

de las columnas hotel situación

play06:28

alojamiento pues coinciden exactamente

play06:31

con eh lo que le he puesto aquí hotel

play06:32

situación alojamiento instalaciones y

play06:34

bueno asociado a cada una de estas

play06:36

columnas le le he puesto una pequeña

play06:37

descripción no para que entienda que que

play06:41

cuando le estoy pidiendo obtener hotel

play06:43

lo que le estoy pidiendo es obtener el

play06:45

nombre del Hotel o por ejemplo cuando le

play06:47

digo que quiero que extraiga el precio

play06:48

pues que lo extraiga en euros en este

play06:51

caso todos los importes son en euros no

play06:52

pero imagínate que hubiera importe en

play06:54

euros y en dólares Pues de esta manera

play06:55

le especificas que el que tú quieres es

play06:57

en euros no en dólares vale una vez que

play06:59

tenemos el promp aquí nos conectamos con

play07:01

Open Ai Entonces si clico aquí en el

play07:03

módulo Open Ai nos estamos conectando

play07:05

con el endpoint que nos permite utilizar

play07:07

el modelo gpt 4 Vision vale aquí le

play07:09

especificamos que queremos utilizar el

play07:11

modelo gpt 4 Vision preview y aquí le

play07:14

ponemos un prom de sistema voy a hacer

play07:16

esto más grande voy a darle un poco al

play07:18

zoom Aquí tengo puesto el prom de

play07:21

sistema digamos donde le decimos el rol

play07:23

que debe asumir en este caso el modelo y

play07:25

le decimos Tu misión es digitalizar

play07:27

documentos devuelve tu respuesta en un

play07:29

json con la siguiente estructura es

play07:31

decir le estamos diciendo Oye no nos

play07:33

devuelvas el no nos des el output no nos

play07:35

devuelvas el resultado en un texto

play07:36

genérico sino en un formato específico

play07:38

que es un formato json y con la

play07:40

siguiente estructura Vale pues se abre

play07:43

la llave como en cualquier Jason y le

play07:45

ponemos eh hoteles y asociado a hoteles

play07:48

queremos que nos devuelva un array con

play07:50

todos los hoteles que haya encontrado en

play07:52

la página vale recordemos que lo que va

play07:54

a hacer el escenario es aquí descargarse

play07:56

n archivos imagínate Pues creo que son

play07:58

unas 14 15 archivos y para cada archivo

play08:01

para cada foto pues ejecutar todo este

play08:04

escenario vale es decir que en este caso

play08:05

se van a hacer 15 llamadas a Open Ai

play08:08

tantas como archivos hay en la carpeta

play08:10

entonces eh Como mucho en una imagen

play08:12

encontrará dos o tres hoteles Vale

play08:14

entonces pues en ese caso el este Jason

play08:19

que contiene una Ray dentro Pues dentro

play08:20

de la Ray habría dos tres hoteles es

play08:22

deir el número de hoteles que ha

play08:23

encontrado en la página luego Aquí

play08:25

debajo pues le ponemos el prom de

play08:26

usuario vale Aquí es donde le ponemos el

play08:28

el PR vale veis que se hace referencia a

play08:30

la variable pront pues es aquí se indica

play08:33

con el rol de usuario y aquí en Ur de la

play08:36

imagen Pues aquí se pone la Ur de la

play08:38

imagen obviamente no la estoy poniendo a

play08:40

mano sino que lo que le envío es el link

play08:44

que hemos obtenido de Drive Vale cuando

play08:46

el módulo de Drive encuentra las 15 16

play08:49

imágenes pues para cada imagen te

play08:51

devuelve su URL no está aquí por ejemplo

play08:53

la Ur de una imagen entonces pues aquí

play08:56

la ponemos como como variable no para

play08:58

que en cada llama Ada pues la URL sea

play09:01

diferente la de la imagen en cuestión la

play09:03

que corresponda y luego los tokens Pues

play09:05

bueno le he puesto un máximo de tokens

play09:06

de 3000 este módulo nos va a devolver Eh

play09:09

Pues una respuesta en formato Jason

play09:10

Porque así sí lo hemos pedido entonces

play09:12

aquí lo que hacemos Es metemos un

play09:13

parcheador de Jason para convertir el

play09:16

json que nos va a devolver Open a en una

play09:18

colección de make es decir esto nos va a

play09:20

devolver texto Open a nos va a devolver

play09:22

texto Es cierto que en un formato Jason

play09:24

Pero va a ser texto y eso necesitamos

play09:27

transformarlo en una colección de make

play09:28

para para que luego en m podamos jugar

play09:30

con esos datos por ver un ejemplo

play09:32

concreto no he ido una ejecución que

play09:34

funcionó bien Y en este módulo como

play09:36

input recibimos Pues un Jason String es

play09:39

decir un texto que es este de aquí vale

play09:41

en este caso contiene dos hoteles tiene

play09:43

el formato que lo hemos especificado ves

play09:45

que pone aquí hoteles Y eso contiene un

play09:47

array de dos hoteles Este es el input de

play09:50

este módulo y el output pues es una

play09:52

colección de make vale es una colección

play09:54

ya vemos Que aquí hay un bundle de tipo

play09:56

Collection con una Ray dentro que

play09:59

contiene dos colecciones es decir

play10:01

contiene los dos hoteles y para cada

play10:03

hotel pues tenemos aquí el dato hotel

play10:05

dato situación es decir convertimos

play10:07

texto en una colección de make con la

play10:10

que luego podemos jugar pues para Añadir

play10:12

en cada columna del Google seats el dato

play10:14

que corresponda no en la columna del

play10:15

Google sheets pues iría este dato aquí

play10:17

el del Hotel bien volvamos al diagrama

play10:20

estamos aquí de nuevo no hemos entendido

play10:21

Ya lo que hace el parador de Jason y

play10:22

claro lo que ocurre Es que este pasador

play10:24

de Jason al final te vuelve una Ray con

play10:27

puede ser que hasta varios hoteles no

play10:29

incluso hasta dos tres hoteles Entonces

play10:30

como queremos meter esos dos tres

play10:32

hoteles es decir es decir Añadir esos

play10:33

dos tres hoteles en la Google seats hay

play10:35

que meter aquí un iterador para que coja

play10:37

el array imagínate que es un array con

play10:39

dos hoteles Y entonces primero coja el

play10:41

primer hotel añada la información de sue

play10:44

hotel en Google seats y luego coja el

play10:46

segundo hotel y añada en Google seats

play10:48

pues la información de ese segundo hotel

play10:49

de esa manera aquí el módulo de Google

play10:51

seats pues lo que le decimos Es que en

play10:54

la columna a añada el dato hotel

play10:56

obtenido por el iterador en la columna B

play10:58

Pues el dato situación obtenido por el

play11:00

iterador vale vamos a ir otra vez al

play11:02

historial de ejecución que seguro que se

play11:04

va a entender mejor en este caso estamos

play11:06

viendo el iterador no el iterador que ha

play11:07

recibido como input ha recibido una Ray

play11:09

que contiene dos elementos Pues el hotel

play11:11

sandals neill Beach y el sandals Grande

play11:15

Santa Lucía es una Ray con dos

play11:18

colecciones lo que hace el iterador es

play11:20

convertir un único bundle vale un único

play11:23

bandle en dos bandel diferentes primer

play11:25

bandle contiene la información del

play11:26

primer hotel y el segundo bandle pues

play11:29

tiene la información del segundo hotel

play11:30

de esta manera un bandle se convierte en

play11:32

dos y en el siguiente módulo pues cada

play11:35

bandle se convierte en una fila por eso

play11:38

Aquí vemos que esto se ha ejecutado 14

play11:40

veces y esto se ha ejecutado 21 veces

play11:42

porque el iterador en algunas ocasiones

play11:44

Recibe un único bandle como input y

play11:46

genera un único bandle como output esa

play11:48

es el caso en el que el array solo

play11:50

contenga un hotel y en el caso que

play11:52

contenga dos hoteles Pues un único

play11:54

bandle se transforma en dos bandel por

play11:56

eso aquí siempre va a haber más bandel

play11:59

que aquí o como mucho Pues los mismos

play12:01

pero nunca menos bien puede que te estés

play12:03

preguntando por qué he añadido este

play12:05

módulo que se llama aquí make an Api

play12:07

call y no he añadido el módulo que tiene

play12:10

make para poder utilizar gpt 4 Vision

play12:13

vale De hecho lo tenía por aquí arriba

play12:15

No si tú clicas en Open Ai en el icona

play12:17

de Open Ai en make esto te Abre aquí la

play12:19

lista de acciones que puedes automatizar

play12:21

relacionadas con Open Ai no y una de

play12:24

ellas es la posibilidad de analizar

play12:26

imágenes es decir tú clicas aquí Que

play12:27

bueno es este modelo de aquí voy a

play12:29

conectarlo por aquí para que me lo

play12:31

enseñe entonces tú cuando seleccionas

play12:33

esa opción de el módulo de o la acción

play12:35

de analizar imágenes pues esto

play12:37

automáticamente se está conectando con

play12:39

el modelo gpt 4 Vision y aquí

play12:41

simplemente pues tienes que poner el

play12:42

prompt pones aquí la URL de la imagen y

play12:45

ya está Vale aquí como ves el modelo es

play12:47

gpt 4 Vision Y es que no te deja Elegir

play12:49

otro esto es mucho más fácil de

play12:51

configurar que lo que he hecho yo porque

play12:53

si te fijas en lo que he hecho yo como

play12:55

es el módulo que te permite hacer

play12:57

llamadas genéricas a cualquier endpoint

play12:58

de la Api pues primero tienes que

play13:00

especificar el ent de la Api que para

play13:01

eso tienes que leerte la documentación

play13:03

luego además tienes que meterle aquí el

play13:05

Api key Eh Pues en el header y luego lo

play13:08

que es el body tienes que metérselo en

play13:10

formato json siguiendo las

play13:11

especificaciones de la Api que como ves

play13:14

pues bueno si no eres una persona

play13:15

técnica pues no es del todo fácil aquí

play13:18

ves que hay muchos llaves corchetes y

play13:20

bueno muchas cosas que pueden fallar

play13:22

Pues bien la principal razón por la que

play13:24

lo he hecho así es porque cuando

play13:25

utilizas el módulo de analizar imágenes

play13:27

aquí solo te deja meter un único promt

play13:30

pero no te deja meter un prom de sistema

play13:32

y yo lo que he hecho es meter un prom de

play13:33

sistema vale si te fijas aquí en el body

play13:35

tenemos un prom que es el de sistema

play13:38

donde le digo tu misiiones digitalizar

play13:40

documentos y demás y luego está el prom

play13:42

de usuario que aquí meto el el prom que

play13:45

hemos creado en esta variable no O sea

play13:46

le meto dos proms el de sistema y el de

play13:48

usuario eso no me deja hacerlo

play13:50

utilizando este módulo directamente Y

play13:52

por qué quiero meter el prom de sistema

play13:54

Pues porque cuando he utilizado este

play13:56

módulo vale el que se conecta

play13:57

directamente con eh Vision y le he

play14:00

pedido Pues que transforme o identifique

play14:02

dentro de las imágenes no la información

play14:04

sobre los hoteles lo que me ha

play14:06

respondido es que no es que no tiene

play14:08

permisos para hacerlo que no tiene

play14:09

permisos para extraer información sobre

play14:12

hoteles reales y no sé qué historias

play14:15

entonces lo que me ha hecho es generar

play14:16

como output un Jason con el formato que

play14:18

yo lo había especificado pero con datos

play14:20

inventados eso al ponerle este prom de

play14:24

sistema donde le digo que tu misión es

play14:25

digitalizar documentos pues se ha

play14:27

resuelto en Entonces no sé muy bien Qué

play14:29

es lo que está ocurriendo por debajo

play14:31

pero la razón por la que he utilizado

play14:32

este módulo de make and Api call es

play14:35

porque me ha funcionado Mientras que el

play14:38

otro módulo pues no me ha funcionado si

play14:40

tú consigues hacer funcionar este módulo

play14:42

Vale pues mejor para ti y si consigues

play14:45

hacerlo Pues pónmelo en los comentarios

play14:47

y Te lo agradeceré porque yo de momento

play14:48

no he conseguido en este caso específico

play14:50

al menos conseguir que con este módulo

play14:53

el escenario sea capaz de analizar o

play14:55

extraer la información que necesito de

play14:56

las imágenes bien dicho esto voy a

play14:59

desconectarlo voy a darle a guardar y lo

play15:01

que voy a hacer es voy a ejecutar el

play15:03

escenario para ver si funciona

play15:04

correctamente como no quiero que vuelva

play15:06

a analizar las 20 imágenes o no sé

play15:08

cuántas hay Pues aquí voy a asegurarme

play15:10

Mira el límite lo voy a poner en uno

play15:12

para que este módulo que se conecta con

play15:14

Drive simplemente obtenga una imagen

play15:17

entonces de esta manera el escenario lo

play15:18

único que voy a hacer es extraer

play15:19

información de una imagen voy a darle a

play15:21

guardar voy a darle aquí a ejecutar y

play15:24

esto lo que debería hacer es Añadir una

play15:25

fila nueva a la hoja de cálculo vale me

play15:27

voy a ir aquí a la hoja un no y aquí

play15:29

donde pone 24 deberíamos ver en tiempo

play15:31

real Cómo se añade una fila

play15:34

nueva Mira la acabamos de ver se acaba

play15:37

de Añadir una fila nueva y en este caso

play15:38

es el sandals royal bahamian vamos a

play15:41

irnos a make y vamos a ver qué es lo que

play15:43

ha ocurrido Pues si clicamos aquí en la

play15:45

bola de Drive como te decía como ha

play15:47

puesto límite uno pues entonces solo ha

play15:49

obtenido una imagen de la carpeta vamos

play15:52

a ver cuál es si vamos aquí abajo y

play15:54

vemos lo de aquí hay un enlace que es

play15:56

webview link Pues si lo copiamos me voy

play16:00

al navegador y lo

play16:03

pego vamos a ver la página de la que ha

play16:05

extraído La información entonces en esta

play16:07

página qué tenemos Pues aquí tenemos

play16:09

información un poco genérica porque esto

play16:11

de lujo en el Caribe de 9 días siete

play16:14

noches pues no es de un hotel en

play16:16

concreto y aquí en cambio abajo sí que

play16:18

hay un hotel entonces la fila que ha

play16:20

añadido es la de este hotel el sandals

play16:22

royal bahamian que vamos a ver si es

play16:24

cierto Efectivamente es este de aquí

play16:27

aquí el texto este eh que dice situado

play16:29

en La Serena costa de nasau cenote Beach

play16:31

a unos 15 minutos del aeropuerto de

play16:33

nasau y a 20 minutos del

play16:35

centro pues es este texto que vemos aquí

play16:38

vale no me deja subrayarlo pero es este

play16:40

parrafito de aquí y Bueno pues la

play16:42

columna alojamiento sería el que está

play16:43

debajo e la otra columna que se llama

play16:45

instalaciones es la que está de abajo y

play16:47

el precio de

play16:49

3990 que es pues este que pone por aquí

play16:52

así que ya has visto pues que el

play16:53

escenario funciona y que se puede hacer

play16:55

un escenario en make conectándolo con

play16:57

gpt 4 rovion para poder hacer este tipo

play17:00

de cosas para digitalizar de cierta

play17:02

manera documentos y conseguir que

play17:04

información que tenemos ahora mismo en

play17:06

un catálogo en formato pdf o en un

play17:08

formato de Word daría lo mismo Pues

play17:11

podamos transformarla a un formato más

play17:13

estructurado como es un Excel O podría

play17:15

ser un csv o incluso Añadir toda esta

play17:18

información directamente a una base de

play17:20

datos si te ha pareo interesante el

play17:22

vídeo y te gustaría automatizar o crear

play17:24

un escenario no como el que acabas de

play17:25

ver como este escenario de make

play17:27

comentarte que hace un par de semanas

play17:29

saqué un curso que es un curso de

play17:31

automatización de procesos con

play17:32

Inteligencia artificial en el que justo

play17:34

enseño a hacer este tipo de cosas vale

play17:36

es un curso no muy extenso tiene 3 horas

play17:39

20 minutos de duración en el que te

play17:41

enseño a utilizar esta herramienta de

play17:43

make para conectarla con la Api de Open

play17:45

Ai para poder utilizar Pues el modelo

play17:47

3.5 el 4 o incluso Este modelo que

play17:50

acabamos de ver que es el modelo gpt 4

play17:52

Vision y además comentarte que en este

play17:54

mismo curso voy a incluir una clase

play17:57

nueva explicando paso a paso cómo he

play17:59

creado este escenario de aquí vale ahora

play18:01

para este vídeo pues te he comentado un

play18:03

poco por encima Cómo funciona el

play18:04

escenario pero no he podido dedicarle el

play18:06

tiempo suficiente como para de verdad

play18:08

explicarte paso a paso cómo lo he

play18:10

configurado entonces si te interesa

play18:12

Dentro de este curso voy a Añadir una

play18:14

nueva clase una clase bonus digamos en

play18:16

la que te voy a explicar Pues paso a

play18:18

paso desde cero cómo he creado ese

play18:20

escenario Pues por si quieres hacer tú

play18:22

algo parecido Así que ya sabes si te

play18:24

interesa el curso tengo además en el

play18:26

canal un vídeo en el que explico

play18:27

exactamente pues el contenido del curso

play18:29

lo que enseño Y a quién está dirigido y

play18:32

si quieres eh bueno Mira de hecho es el

play18:33

vídeo que tengo aquí y si quieres ver la

play18:35

página que estoy viendo aquí y apuntarte

play18:37

al curso pues simplemente tienes que ir

play18:38

a productomat bar curso automatización

play18:42

incluiré también el enlace en la

play18:45

descripción de este vídeo y nada más

play18:46

hasta luego nos vemos en próximos vídeos

Rate This

5.0 / 5 (0 votes)

Related Tags
Integración PDFIA TransformaciónAutomatización de ProcesosGoogle SheetsAPI de OpenAIGPT-4 VisionMakeILovePDFDigitalizaciónTecnologíaInnovación
Do you need a summary in English?