Cómo utilizar GPT4-VISION para EXTRAER INFORMACIÓN de un PDF
Summary
TLDREl video ofrece una guía detallada sobre cómo transformar un catálogo en formato PDF, que contiene información sobre hoteles, en una tabla estructurada en Google Sheets. Para lograr esto, se utiliza una combinación de herramientas y procesos automatizados, incluyendo Make, el modelo de Inteligencia Artificial GPT-4 Vision de Open AI y I Love PDF. El proceso consiste en convertir las páginas del PDF en imágenes, luego utilizar GPT-4 Vision para extraer la información de esas imágenes y finalmente, integrar los datos en una hoja de cálculo de Google Sheets. El video también menciona un curso de automatización de procesos con Inteligencia Artificial que enseña a crear escenarios similares para digitalizar documentos y obtener información estructurada.
Takeaways
- 📚 Imagina tener un catálogo en PDF con información sobre hoteles, coches, libros, etc., y la necesidad de convertirlo en una página web o un dashboard con estadísticas.
- 🤖 Se necesita una estructura de datos bien organizada para construir una página web o un dashboard, y el script describe cómo automatizar el proceso de extraer información de un PDF.
- 🔄 El proceso involucra la transformación de un PDF en imágenes, luego en texto y finalmente en una tabla estructurada como Google Sheets.
- 🖼️ Utiliza la herramienta I Love PDF para convertir cada página del PDF en una imagen JPEG.
- 📁 Sube las imágenes a Google Drive y utiliza un script de Make para automatizar la extracción de información de las imágenes.
- 🔗 El modelo GPT 4 Vision de OpenAI se utiliza para analizar imágenes y extraer texto, lo que se utiliza para obtener información de las imágenes del PDF.
- 📈 La información extraída se estructura en una tabla de Google Sheets con columnas definidas por los datos que se quieren extraer de los hoteles.
- 💻 Se utiliza un enfoque de programación para definir el prompt y las estructuras de datos de salida deseadas, lo que permite una integración más sofisticada con las API de OpenAI.
- 🔗 El uso de Make y la API de OpenAI permite crear una solución automatizada que puede manejar múltiples archivos y extraer información de manera eficiente.
- 📈 El resultado es una tabla en Google Sheets que contiene información estructurada sobre los hoteles, listos para ser utilizados en un sitio web o un panel de control.
- 📘 Se destaca la posibilidad de extender este proceso para otros tipos de documentos y la flexibilidad del enfoque para adaptarse a diferentes necesidades de información.
- 📚 El script sugiere la utilidad de este proceso para digitalizar documentos y transformar información en formatos estructurados que sean más útiles para análisis y presentación.
Q & A
¿Qué tipo de catálogo se menciona en el script?
-Se menciona un catálogo de hoteles que contiene imágenes e información sobre diferentes hoteles.
¿Por qué podría necesitar una persona convertir un catálogo PDF en una tabla estructurada?
-Para poder construir una página web o un dashboard que muestre información y estadísticas sobre los hoteles, lo cual es más difícil de hacer si la información no está bien estructurada en una tabla.
¿Qué modelo de Inteligencia Artificial se utiliza para convertir imágenes en texto?
-Se utiliza el modelo gpt 4 Vision, una variante del modelo gpt 4 que recibe imágenes como input y genera texto como output.
¿Qué herramienta se utiliza para convertir un PDF en múltiples imágenes?
-Se utiliza la herramienta I Love PDF para convertir cada página del PDF en una imagen jpg.
¿Cómo se estructura la información en la tabla de Google Sheets?
-La información en la tabla de Google Sheets está estructurada con columnas que incluyen el nombre del hotel, situación, alojamiento, instalaciones, precio, estrellas, dirección, país y zona.
¿Qué es un escenario de make y cómo se relaciona con el proceso de extraer información de imágenes?
-Un escenario de make es una secuencia de acciones automatizadas que se ejecutan en el entorno de Make. En este caso, se utiliza para conectar con Google Drive, buscar las imágenes, y luego utilizar gpt 4 Vision para extraer la información de estas imágenes y estructurarla en una tabla de Google Sheets.
¿Cómo se especifica la información que se desea extraer de cada hotel en la tabla?
-Se especifica la información en el prompt, donde se indica que se desea extraer el nombre del hotel, situación, descripción de la situación, alojamiento e instalaciones.
¿Por qué se utiliza un iterador en el escenario de make?
-Se utiliza un iterador para manejar situaciones en las que una imagen pueda contener información de múltiples hoteles. El iterador permite extraer y añadir la información de cada hotel individualmente en la tabla de Google Sheets.
¿Qué ocurre si el modelo gpt 4 Vision no tiene permisos para extraer información sobre hoteles reales?
-Si el modelo gpt 4 Vision no tiene permisos para extraer información sobre hoteles reales, podría generar una respuesta con datos inventados en lugar de información real y específica.
¿Qué curso se menciona en el script para aprender a automatizar procesos con inteligencia artificial?
-Se menciona un curso de automatización de procesos con inteligencia artificial que tiene una duración de 3 horas y 20 minutos y que enseña a utilizar la herramienta de Make para conectarla con la API de Open AI.
¿Cómo se puede acceder al curso de automatización de procesos con inteligencia artificial?
-Para acceder al curso, se puede visitar el canal de Productomat y buscar el video que explica el contenido del curso. El enlace también se incluirá en la descripción del video.
Outlines
📚 Convertir catálogos PDF en tablas estructuradas
El primer párrafo aborda la idea de tener un catálogo de hoteles en formato PDF que es agradable visualmente pero difícil de manipular para crear páginas web o dashboards de estadísticas. Se menciona la necesidad de tener la información en una tabla estructurada y cómo el autor automatizó el proceso de extraer información de un PDF y convertirla en una tabla de Google Sheets utilizando un proceso 'make' y el modelo gpt 4 Vision de OpenAI. Además, se destaca la importancia de tener la información en diferentes formatos, como PDF y Excel, para diferentes propósitos y se hace un llamado a la suscripción y notificaciones para recibir actualizaciones de nuevos contenidos.
🔄 Proceso de automatización con herramientas en línea
El segundo párrafo describe el proceso detallado para transformar un PDF en una tabla de Excel. Comienza por convertir el PDF en múltiples imágenes utilizando la herramienta 'I Love PDF' y luego se utiliza Google Drive para almacenar estas imágenes. Luego, se establece un escenario de 'make' que utiliza el modelo gpt 4 Vision para analizar cada imagen, extraer información de hoteles y estructurarla en un formato JSON específico. Este JSON es luego transformado en una colección de 'make' y se utiliza para rellenar una hoja de cálculo de Google Sheets con la información correspondiente de cada hotel.
🛠️ Configuración del flujo de trabajo con Make y API
El tercer párrafo se enfoca en la configuración técnica del flujo de trabajo con Make, utilizando el modelo gpt 4 Vision a través de una API. Se discute la importancia de la especificación de un 'prompt' o solicitud para que el modelo gpt 4 Vision extraiga información detallada de las imágenes, y cómo se conecta con Google Sheets para añadir la información a la tabla correspondiente. Además, se aborda el uso de un iterador para manejar arrays de hoteles encontrados en las imágenes y se menciona la utilización de un módulo 'make an API call' en lugar del módulo de 'analyze images' para evitar limitaciones en la configuración del prompt.
📈 Ejecución del escenario y cursos de automatización
El cuarto y último párrafo relata la ejecución del escenario para verificar su funcionamiento, limitando la obtención de imágenes a una para la prueba. Se describe el resultado de la ejecución, que fue la adición de una nueva fila a la hoja de cálculo de Google Sheets con información extraída de una imagen. El autor promueve un curso de automatización de procesos con inteligencia artificial que enseña a realizar tareas similares a lo que se muestra en el video. Se menciona que el curso incluirá una clase bonus detallando paso a paso la creación del escenario y se ofrece información sobre cómo acceder al curso y obtener más detalles.
Mindmap
Keywords
💡Google Sheets
💡GPT-4 Vision
💡Make
💡I love PDF
💡API
💡JSON
💡Iterador
💡Digitalización de documentos
💡Automatización de procesos
💡Curso de automatización
Highlights
Se describe un proceso para convertir un catálogo PDF en una tabla estructurada de Google Sheets utilizando tecnologías de inteligencia artificial.
La utilización del modelo GPT 4 Vision permite analizar imágenes y extraer texto, siendo fundamental para la conversión de documentos PDF en formatos digitales.
El proceso involucra la transformación de cada página del PDF en una imagen para su posterior análisis.
Se utiliza la herramienta I Love PDF para convertir el PDF en múltiples imágenes JPEG.
La información de las imágenes se estructura en una tabla de Google Sheets con columnas definidas como hotel, situación, alojamiento, instalaciones, precio, estrellas, dirección, país y zona.
El uso de Make Automation permite crear un escenario que conecta y automatiza la extracción de información de las imágenes.
La conexión con Google Drive es esencial para buscar y obtener las imágenes del PDF convertidas.
La especificación de un 'prompt' o solicitud detallada es crucial para que el modelo GPT 4 Vision extraiga la información correcta de las imágenes.
Se requiere una estructura JSON específica para que la información extraída se adapte a las necesidades del usuario.
El proceso es iterativo, analizando múltiples imágenes para extraer información de varios hoteles.
La información extraída se organiza en filas de una hoja de cálculo de Google Sheets, con cada hotel correspondiendo a una nueva fila.
El uso de un iterador en el proceso es fundamental para manejar arrays de información que pueden contener múltiples hoteles por imagen.
El módulo 'make an API call' se utiliza para conectarse con la API de Open AI y enviar las solicitudes de análisis de imágenes.
La inclusión de un 'prompt' de sistema y de usuario permite una comunicación más detallada con el modelo GPT 4 Vision.
El curso de automatización de procesos con inteligencia artificial ofrece una guía para crear escenarios similares de automatización.
El creador del proceso ofrece un curso y soporte para aquellos interesados en aprender a configurar escenarios de automatización personalizados.
El enlace al curso de automatización se incluirá en la descripción del vídeo para facilitar el acceso a los interesados.
Transcripts
Imagínate que tienes un catálogo en
formato pdf como este de aquí vale un
catálogo en este caso un catálogo de
hoteles que contiene pues imágenes e
información sobre diferentes hoteles en
tu caso Puede que sea sobre otra cosa
sobre coches sobre libros o sobre
cualquier cosa que vendas este tipo de
catálogos son muy vistosos y al usuario
le gustan mucho pero imagínate que por
lo que sea necesitas construir una
página web donde se muestre información
de estos hoteles o que necesitas
construir un dashboard donde se muestren
estadísticas se muestre información
sobre estos mismos hoteles pues en ese
caso si lo único que tienes es este
catálogo en formato pdf estás un poco
porque como no tengas la información en
una tabla bien estructurada como esta
esto es un Google seeds Pero puede ser
esto un csv puede ser una base de datos
es decir como no tenga la información
bien bien estructuradas con sus columnas
o sus campos pues entonces no vas a
poder construir ni la página web ni el
dashboard lo que te quiero enseñar en
este vídeo es a automatizar un proceso
que automáticamente coja este PDF y
convierta toda la información que hay
aquí dentro a una tabla como est porque
si te has fijado esta tabla contiene
también información sobre hoteles Aquí
tengo información sobre los 22 hoteles
sobre los mismos 22 hoteles que hay en
este PDF Y por supuesto pues esto no lo
he hecho a mano sino que lo he
automatizado con un proceso de make que
es el que te voy a enseñar ahora antes
de explicarte cómo lo he hecho
puntualizar que tuve que transformar ese
PDF en el Excel que has visto porque
necesitaba utilizar ambos documentos es
decir la información sobre los hoteles
en ambos formatos pues para grabar el
último vídeo que subi al Canal vale que
si no lo has visto es un vídeo en el que
explico Pues en qué formato debe subir
documentos a un gpt pues para que
funcione lo mejor posible no y en el
vídeo comparo los resultados de subirle
un documento en formato pdf que es el
PDF que has visto y lo comparo con subir
esa misma información en un formato
Excel por eso necesitaba los dos
formatos es decir que es un caso de uso
real aprovecho también este pequeño
espacio para pedirte que te suscribas y
le des a la campanita de notificaciones
para que te avise Cuando suba nuevos
vídeos así no te perderás Ninguno de los
vídeos que voy a subir Próximamente
dicho esto vamos a ver qué herramientas
ha utilizado para hacerse transformación
Pues bien ya te he explicado que había
utilizado make lo que he utilizado
también es el módulo de gpt 4 Vision es
decir Open tiene diferentes modelos de
Inteligencia artificial su último modelo
el modelo gpt 4 tiene una variante que
es el gpt 4 Vision que lo que permite es
recibir como input imágenes es decir los
modelos gpt 3.5 o el gpt 4 estándar son
modelos de Inteligencia artificial que
reciben como input texto y como output
generan texto vale es de texto a texto
Pues bien justo Este modelo que salió
hace no mucho recibe como input imágenes
y como output te genera texto entonces
puedes utilizarlo por ejemplo para pedir
que te haga descripciones de imágenes o
para que te interprete gráficos bueno
para todo tipo de cosas vale seguro que
si ya eres usuario de chat gpt Plus Pues
has utilizado esta funcionalidad a
través de la interfaz de chat gpt porque
sabes que si seleccionas gpt 4 pues
puedes subirle imágenes no cuando le
subes una imagen pues lo que está
utilizando por debajo es este modelo de
gpt 4 Visión la novedad digamos Es que
este modelo gpt 4 Vision ahora también
se puede utilizar a través de la Api que
hasta hace poco pues no se podía y la
tercera herramienta que vamos a utilizar
es la de I love PDF ahora te explico
para qué Cómo funciona el proceso
nosotros tenemos un documento en PDF y
queremos transformarlo en un documento
en Excel cuál es el problema que el
modelo de gpt 4 Vision no lee pdfs tú
puedes subir a chat gpt pdfs vale pero
al modelo gpt 4 Vision que vamos a
utilizar a través de la Api no le puedes
pasar pdfs solo le puedes pasar imágenes
por tanto lo primero que hay que hacer
es transformar el PDF en imágenes vale
cada página del PDF la vamos a
transformar en una imagen y una vez que
tenemos las imágenes pues entonces sí
vamos a construir un escenario de make
que se encargue de recibir como input
todas las imágenes del PDF y transformar
todas esas imágenes en una tabla de
Google seats con múltiples filas una
fila por cada hotel en este caso
entonces la herramienta de ilof PDF la
vamos a utilizar para manualmente
convertir este PDF en múltiples imágenes
Simplemente hay que irse a ilof pdf.com
le damos aquí a convertir PDF escogemos
de PDF a jpg aquí subimos el archivo en
PDF lo acabo de subir aquí en la pestaña
a la derecha en opciones pues lo dejamos
como está pues que queremos transformar
páginas a jpg nos va a decir que se van
a crear 24 jpgs porque este documento
que lo he subido yo tiene 24 páginas le
damos a calidad de imagen normal y le
damos a convertir a jpg esto tardará un
rato no mucho y sin clicar en ningún
sitio vemos como se nos ha descargado
aquí un zip este zip lo puedes abrir y
al descomprimir el ZIP y abrir la
carpeta que Gere pues tenemos aquí una
carpeta con tantas imágenes como páginas
tenía el PDF vamos a clicar en alguna
imagen para ver algún ejemplo pues aquí
tenemos una imagen por ejemplo no en
este caso era un catálogo con
información de hoteles Pues en aquí en
la página 18 tenemos información sobre
dos hoteles aquí tenemos el Dreams Royal
Beach puntacana 5 y aquí a la derecha
pues tenemos un poco bueno unos textos
donde nos explican pues información
sobre el hotel no incluso aquí abajo
tenemos el precio y luego Tenemos aquí
un segundo hotel pues con lo mismo el
nombre una descripción y el precio aquí
debajo esta información es la que
queremos transformarla para ir
rellenando las columnas del Excel con la
información que corresponda en cada
columna en concreto el Excel tiene un
formato como Este vale esto le puedes
dar el formato que tú quieras yo las
columnas que le he puesto es pues hotel
donde se incluye el nombre del Hotel
situación alojamiento instalaciones
precio estrellas dirección país y zona
vale la información que he visto que
contienen todos los hoteles Del catálogo
con el que estoy trabajando Entonces una
vez que con ilof pd hemos convertidos en
PDF en múltiples imágenes las he subido
aquí a una carpeta de Google Drive y
ahora sí ya tenemos todos los
ingredientes necesarios para poder crear
nuestro escenario de make Qué es este
escenario de aquí entonces te voy a
explicar pues qué es lo que está
haciendo este escenario lo primero se
conecta con Google Drive Y qué hace pues
Busca dentro de Google Drive la carpeta
donde he subido todas las imágenes vale
aquí le hemos especificado el nombre de
la carpeta y esto lo que va a hacer es
obtener todos los ficheros todas las
imágenes que hay dentro de la carpeta
entonces aquí tenemos un segundo Mod
módulo donde vamos a indicar el prompt
vale en este caso vamos a guardar el
prompt como una variable a la que le he
llamado prompt y el prompt es identifica
los hoteles que se muestran en la imagen
y extrae para cada hotel la siguiente
información y aquí es importante
especificar la información que queremos
que extraiga de cada hotel yo le he
puesto hotel nombre del Hotel situación
descripción de la situación del Hotel
vale es decir estos datos que hay aquí
tienen relación con las columnas que hay
en el Excel vale si te fijas el nombre
de las columnas hotel situación
alojamiento pues coinciden exactamente
con eh lo que le he puesto aquí hotel
situación alojamiento instalaciones y
bueno asociado a cada una de estas
columnas le le he puesto una pequeña
descripción no para que entienda que que
cuando le estoy pidiendo obtener hotel
lo que le estoy pidiendo es obtener el
nombre del Hotel o por ejemplo cuando le
digo que quiero que extraiga el precio
pues que lo extraiga en euros en este
caso todos los importes son en euros no
pero imagínate que hubiera importe en
euros y en dólares Pues de esta manera
le especificas que el que tú quieres es
en euros no en dólares vale una vez que
tenemos el promp aquí nos conectamos con
Open Ai Entonces si clico aquí en el
módulo Open Ai nos estamos conectando
con el endpoint que nos permite utilizar
el modelo gpt 4 Vision vale aquí le
especificamos que queremos utilizar el
modelo gpt 4 Vision preview y aquí le
ponemos un prom de sistema voy a hacer
esto más grande voy a darle un poco al
zoom Aquí tengo puesto el prom de
sistema digamos donde le decimos el rol
que debe asumir en este caso el modelo y
le decimos Tu misión es digitalizar
documentos devuelve tu respuesta en un
json con la siguiente estructura es
decir le estamos diciendo Oye no nos
devuelvas el no nos des el output no nos
devuelvas el resultado en un texto
genérico sino en un formato específico
que es un formato json y con la
siguiente estructura Vale pues se abre
la llave como en cualquier Jason y le
ponemos eh hoteles y asociado a hoteles
queremos que nos devuelva un array con
todos los hoteles que haya encontrado en
la página vale recordemos que lo que va
a hacer el escenario es aquí descargarse
n archivos imagínate Pues creo que son
unas 14 15 archivos y para cada archivo
para cada foto pues ejecutar todo este
escenario vale es decir que en este caso
se van a hacer 15 llamadas a Open Ai
tantas como archivos hay en la carpeta
entonces eh Como mucho en una imagen
encontrará dos o tres hoteles Vale
entonces pues en ese caso el este Jason
que contiene una Ray dentro Pues dentro
de la Ray habría dos tres hoteles es
deir el número de hoteles que ha
encontrado en la página luego Aquí
debajo pues le ponemos el prom de
usuario vale Aquí es donde le ponemos el
el PR vale veis que se hace referencia a
la variable pront pues es aquí se indica
con el rol de usuario y aquí en Ur de la
imagen Pues aquí se pone la Ur de la
imagen obviamente no la estoy poniendo a
mano sino que lo que le envío es el link
que hemos obtenido de Drive Vale cuando
el módulo de Drive encuentra las 15 16
imágenes pues para cada imagen te
devuelve su URL no está aquí por ejemplo
la Ur de una imagen entonces pues aquí
la ponemos como como variable no para
que en cada llama Ada pues la URL sea
diferente la de la imagen en cuestión la
que corresponda y luego los tokens Pues
bueno le he puesto un máximo de tokens
de 3000 este módulo nos va a devolver Eh
Pues una respuesta en formato Jason
Porque así sí lo hemos pedido entonces
aquí lo que hacemos Es metemos un
parcheador de Jason para convertir el
json que nos va a devolver Open a en una
colección de make es decir esto nos va a
devolver texto Open a nos va a devolver
texto Es cierto que en un formato Jason
Pero va a ser texto y eso necesitamos
transformarlo en una colección de make
para para que luego en m podamos jugar
con esos datos por ver un ejemplo
concreto no he ido una ejecución que
funcionó bien Y en este módulo como
input recibimos Pues un Jason String es
decir un texto que es este de aquí vale
en este caso contiene dos hoteles tiene
el formato que lo hemos especificado ves
que pone aquí hoteles Y eso contiene un
array de dos hoteles Este es el input de
este módulo y el output pues es una
colección de make vale es una colección
ya vemos Que aquí hay un bundle de tipo
Collection con una Ray dentro que
contiene dos colecciones es decir
contiene los dos hoteles y para cada
hotel pues tenemos aquí el dato hotel
dato situación es decir convertimos
texto en una colección de make con la
que luego podemos jugar pues para Añadir
en cada columna del Google seats el dato
que corresponda no en la columna del
Google sheets pues iría este dato aquí
el del Hotel bien volvamos al diagrama
estamos aquí de nuevo no hemos entendido
Ya lo que hace el parador de Jason y
claro lo que ocurre Es que este pasador
de Jason al final te vuelve una Ray con
puede ser que hasta varios hoteles no
incluso hasta dos tres hoteles Entonces
como queremos meter esos dos tres
hoteles es decir es decir Añadir esos
dos tres hoteles en la Google seats hay
que meter aquí un iterador para que coja
el array imagínate que es un array con
dos hoteles Y entonces primero coja el
primer hotel añada la información de sue
hotel en Google seats y luego coja el
segundo hotel y añada en Google seats
pues la información de ese segundo hotel
de esa manera aquí el módulo de Google
seats pues lo que le decimos Es que en
la columna a añada el dato hotel
obtenido por el iterador en la columna B
Pues el dato situación obtenido por el
iterador vale vamos a ir otra vez al
historial de ejecución que seguro que se
va a entender mejor en este caso estamos
viendo el iterador no el iterador que ha
recibido como input ha recibido una Ray
que contiene dos elementos Pues el hotel
sandals neill Beach y el sandals Grande
Santa Lucía es una Ray con dos
colecciones lo que hace el iterador es
convertir un único bundle vale un único
bandle en dos bandel diferentes primer
bandle contiene la información del
primer hotel y el segundo bandle pues
tiene la información del segundo hotel
de esta manera un bandle se convierte en
dos y en el siguiente módulo pues cada
bandle se convierte en una fila por eso
Aquí vemos que esto se ha ejecutado 14
veces y esto se ha ejecutado 21 veces
porque el iterador en algunas ocasiones
Recibe un único bandle como input y
genera un único bandle como output esa
es el caso en el que el array solo
contenga un hotel y en el caso que
contenga dos hoteles Pues un único
bandle se transforma en dos bandel por
eso aquí siempre va a haber más bandel
que aquí o como mucho Pues los mismos
pero nunca menos bien puede que te estés
preguntando por qué he añadido este
módulo que se llama aquí make an Api
call y no he añadido el módulo que tiene
make para poder utilizar gpt 4 Vision
vale De hecho lo tenía por aquí arriba
No si tú clicas en Open Ai en el icona
de Open Ai en make esto te Abre aquí la
lista de acciones que puedes automatizar
relacionadas con Open Ai no y una de
ellas es la posibilidad de analizar
imágenes es decir tú clicas aquí Que
bueno es este modelo de aquí voy a
conectarlo por aquí para que me lo
enseñe entonces tú cuando seleccionas
esa opción de el módulo de o la acción
de analizar imágenes pues esto
automáticamente se está conectando con
el modelo gpt 4 Vision y aquí
simplemente pues tienes que poner el
prompt pones aquí la URL de la imagen y
ya está Vale aquí como ves el modelo es
gpt 4 Vision Y es que no te deja Elegir
otro esto es mucho más fácil de
configurar que lo que he hecho yo porque
si te fijas en lo que he hecho yo como
es el módulo que te permite hacer
llamadas genéricas a cualquier endpoint
de la Api pues primero tienes que
especificar el ent de la Api que para
eso tienes que leerte la documentación
luego además tienes que meterle aquí el
Api key Eh Pues en el header y luego lo
que es el body tienes que metérselo en
formato json siguiendo las
especificaciones de la Api que como ves
pues bueno si no eres una persona
técnica pues no es del todo fácil aquí
ves que hay muchos llaves corchetes y
bueno muchas cosas que pueden fallar
Pues bien la principal razón por la que
lo he hecho así es porque cuando
utilizas el módulo de analizar imágenes
aquí solo te deja meter un único promt
pero no te deja meter un prom de sistema
y yo lo que he hecho es meter un prom de
sistema vale si te fijas aquí en el body
tenemos un prom que es el de sistema
donde le digo tu misiiones digitalizar
documentos y demás y luego está el prom
de usuario que aquí meto el el prom que
hemos creado en esta variable no O sea
le meto dos proms el de sistema y el de
usuario eso no me deja hacerlo
utilizando este módulo directamente Y
por qué quiero meter el prom de sistema
Pues porque cuando he utilizado este
módulo vale el que se conecta
directamente con eh Vision y le he
pedido Pues que transforme o identifique
dentro de las imágenes no la información
sobre los hoteles lo que me ha
respondido es que no es que no tiene
permisos para hacerlo que no tiene
permisos para extraer información sobre
hoteles reales y no sé qué historias
entonces lo que me ha hecho es generar
como output un Jason con el formato que
yo lo había especificado pero con datos
inventados eso al ponerle este prom de
sistema donde le digo que tu misión es
digitalizar documentos pues se ha
resuelto en Entonces no sé muy bien Qué
es lo que está ocurriendo por debajo
pero la razón por la que he utilizado
este módulo de make and Api call es
porque me ha funcionado Mientras que el
otro módulo pues no me ha funcionado si
tú consigues hacer funcionar este módulo
Vale pues mejor para ti y si consigues
hacerlo Pues pónmelo en los comentarios
y Te lo agradeceré porque yo de momento
no he conseguido en este caso específico
al menos conseguir que con este módulo
el escenario sea capaz de analizar o
extraer la información que necesito de
las imágenes bien dicho esto voy a
desconectarlo voy a darle a guardar y lo
que voy a hacer es voy a ejecutar el
escenario para ver si funciona
correctamente como no quiero que vuelva
a analizar las 20 imágenes o no sé
cuántas hay Pues aquí voy a asegurarme
Mira el límite lo voy a poner en uno
para que este módulo que se conecta con
Drive simplemente obtenga una imagen
entonces de esta manera el escenario lo
único que voy a hacer es extraer
información de una imagen voy a darle a
guardar voy a darle aquí a ejecutar y
esto lo que debería hacer es Añadir una
fila nueva a la hoja de cálculo vale me
voy a ir aquí a la hoja un no y aquí
donde pone 24 deberíamos ver en tiempo
real Cómo se añade una fila
nueva Mira la acabamos de ver se acaba
de Añadir una fila nueva y en este caso
es el sandals royal bahamian vamos a
irnos a make y vamos a ver qué es lo que
ha ocurrido Pues si clicamos aquí en la
bola de Drive como te decía como ha
puesto límite uno pues entonces solo ha
obtenido una imagen de la carpeta vamos
a ver cuál es si vamos aquí abajo y
vemos lo de aquí hay un enlace que es
webview link Pues si lo copiamos me voy
al navegador y lo
pego vamos a ver la página de la que ha
extraído La información entonces en esta
página qué tenemos Pues aquí tenemos
información un poco genérica porque esto
de lujo en el Caribe de 9 días siete
noches pues no es de un hotel en
concreto y aquí en cambio abajo sí que
hay un hotel entonces la fila que ha
añadido es la de este hotel el sandals
royal bahamian que vamos a ver si es
cierto Efectivamente es este de aquí
aquí el texto este eh que dice situado
en La Serena costa de nasau cenote Beach
a unos 15 minutos del aeropuerto de
nasau y a 20 minutos del
centro pues es este texto que vemos aquí
vale no me deja subrayarlo pero es este
parrafito de aquí y Bueno pues la
columna alojamiento sería el que está
debajo e la otra columna que se llama
instalaciones es la que está de abajo y
el precio de
3990 que es pues este que pone por aquí
así que ya has visto pues que el
escenario funciona y que se puede hacer
un escenario en make conectándolo con
gpt 4 rovion para poder hacer este tipo
de cosas para digitalizar de cierta
manera documentos y conseguir que
información que tenemos ahora mismo en
un catálogo en formato pdf o en un
formato de Word daría lo mismo Pues
podamos transformarla a un formato más
estructurado como es un Excel O podría
ser un csv o incluso Añadir toda esta
información directamente a una base de
datos si te ha pareo interesante el
vídeo y te gustaría automatizar o crear
un escenario no como el que acabas de
ver como este escenario de make
comentarte que hace un par de semanas
saqué un curso que es un curso de
automatización de procesos con
Inteligencia artificial en el que justo
enseño a hacer este tipo de cosas vale
es un curso no muy extenso tiene 3 horas
20 minutos de duración en el que te
enseño a utilizar esta herramienta de
make para conectarla con la Api de Open
Ai para poder utilizar Pues el modelo
3.5 el 4 o incluso Este modelo que
acabamos de ver que es el modelo gpt 4
Vision y además comentarte que en este
mismo curso voy a incluir una clase
nueva explicando paso a paso cómo he
creado este escenario de aquí vale ahora
para este vídeo pues te he comentado un
poco por encima Cómo funciona el
escenario pero no he podido dedicarle el
tiempo suficiente como para de verdad
explicarte paso a paso cómo lo he
configurado entonces si te interesa
Dentro de este curso voy a Añadir una
nueva clase una clase bonus digamos en
la que te voy a explicar Pues paso a
paso desde cero cómo he creado ese
escenario Pues por si quieres hacer tú
algo parecido Así que ya sabes si te
interesa el curso tengo además en el
canal un vídeo en el que explico
exactamente pues el contenido del curso
lo que enseño Y a quién está dirigido y
si quieres eh bueno Mira de hecho es el
vídeo que tengo aquí y si quieres ver la
página que estoy viendo aquí y apuntarte
al curso pues simplemente tienes que ir
a productomat bar curso automatización
incluiré también el enlace en la
descripción de este vídeo y nada más
hasta luego nos vemos en próximos vídeos
Weitere ähnliche Videos ansehen
Cómo EMBEBER UN GPT en una página WEB [Tutorial paso a paso]
Construyo un ASISTENTE AUTÓNOMO que me envía REPORTES de VENTAS por EMAIL
¿Como realizar una Base de Datos en Google Sheets? Base de datos en la nube Gratis
How to Make Money using 100% Automated Faceless shorts (Live Proof)
TOP 3 paginas de IA para RESUMIR PDF [ 100% GRATIS y ONLINE ] Tutorial Inteligencia Artificial
GPT ACTIONS // Cómo editar el SCHEMA [Tutorial completo]
5.0 / 5 (0 votes)