Cómo SUBIR documentos a un GPT para que FUNCIONE BIEN

Productomania
19 Dec 202321:38

Summary

TLDREl video ofrece una comparativa entre dos versiones de un modelo de lenguaje llamado GPT (uno con acceso a un PDF y otro a un Excel) para ilustrar cómo la respuesta de GPT varía según el formato del documento que se le proporciona. Se plantean tres preguntas a ambas versiones: la cantidad de hoteles en Riviera Maya, los hoteles disponibles por menos de 2400 euros y cuál hotel tiene más habitaciones. Los resultados muestran que la versión con acceso al PDF acertó en la primera pregunta, mientras que la versión con acceso al Excel proporcionó respuestas precisas en la segunda pregunta y ninguna de las dos pudo acertar en la tercera. Se explica que la herramienta de 'retrieval' utilizada con archivos PDF y otros formatos de texto se enfoca en la semántica del contenido, mientras que la 'code interpreter', empleada con archivos Excel y CSV, se basa en la ejecución de código para obtener respuestas precisas. La diferencia radica en que la 'retrieval' puede entender el significado del texto, pero no siempre considera todos los datos relevantes, y la 'code interpreter' no comprende la semántica pero proporciona resultados precisos si los datos están bien estructurados. El video concluye sugiriendo que la elección del formato del documento para ser analizado por GPT depende del tipo de información que contenga y del tipo de preguntas que se esperan recibir, destacando la importancia de estructurar adecuadamente los datos para obtener mejores respuestas.

Takeaways

  • 📄 **Diferencias en respuestas según el formato**: El GPT proporciona respuestas diferentes dependiendo si se le proporciona un PDF o un Excel, debido a las herramientas distintas que utiliza para acceder a la información.
  • 🔍 **Herramienta de Retrieval**: Cuando se sube un PDF, el GPT utiliza la herramienta de Retrieval, que busca la semántica en los textos para responder a las preguntas.
  • 💡 **Herramienta de Code Interpreter**: Con un archivo Excel, el GPT utiliza el Code Interpreter, que ejecuta código de programación para analizar los datos y proporcionar respuestas.
  • 🤖 **Limitaciones del Code Interpreter**: El Code Interpreter no comprende la semántica del texto, lo que puede llevar a respuestas incorrectas si la pregunta requiere entender el contenido.
  • 📈 **Ventajas del formato Excel**: El Excel es óptimo para documentos con datos numéricos, ya que el Code Interpreter puede realizar cálculos estadísticos y análisis de datos.
  • 📝 **Ventajas del formato de texto**: Para documentos con texto y descripciones, es mejor usar un formato de texto para que el GPT utilice la herramienta de Retrieval y comprenda el significado de los textos.
  • 📚 **Estructura de los documentos**: Es importante estructurar adecuadamente los documentos para facilitar que el GPT encuentre la información relevante, ya sea en formato de texto o JSON.
  • 📊 **JSON como formato estructurado**: El uso de JSON para documentos con información estructurada permite que el GPT acceda a los datos de manera más eficiente y brinde respuestas más precisas.
  • ✅ **Respuestas correctas con JSON**: El GPT con acceso a documentos en formato JSON pudo responder correctamente a tres preguntas específicas, mostrando la efectividad de este formato para ciertas consultas.
  • 📝 **Importancia de la etiqueta**: La precisión en la etiqueta y la organización de los datos es crucial para que el GPT pueda proporcionar respuestas correctas, independientemente del formato del documento.
  • ❗ **No hay soluciones infalibles**: Aunque el formato de los documentos influye en la calidad de las respuestas del GPT, no existe un formato que garantice respuestas correctas a todas las preguntas.

Q & A

  • ¿Qué diferencias existen entre subir un documento en formato PDF y uno en formato Excel para un GPT?

    -Al subir un documento en PDF, el GPT utiliza la herramienta de retrieval, que busca la semántica del texto. Mientras que con un documento en formato Excel, el GPT utiliza el code interpreter, que se enfoca en el análisis de datos y ejecución de código para obtener respuestas.

  • ¿Cómo afecta el formato del documento subido al rendimiento del GPT en términos de respuestas precisas?

    -El formato afecta directamente al tipo de herramienta que el GPT utiliza para procesar la información. Un PDF permite una comprensión semántica, mientras que un Excel permite un análisis numérico y ejecución de código, lo que puede llevar a respuestas más precisas en ciertos contextos.

  • ¿Por qué el GPT con acceso a un PDF puede dar una respuesta incorrecta sobre la cantidad de hoteles en Riviera Maya?

    -El GPT con acceso a un PDF utiliza la herramienta de retrieval, que no siempre considera todos los textos relevantes para responder a la pregunta, lo que puede llevar a respuestas incorrectas si los datos no están estructurados de manera que el modelo pueda acceder a la información correcta.

  • ¿Cómo es posible que el GPT con acceso a un Excel proporcione una respuesta más precisa sobre los hoteles en Riviera Maya?

    -El code interpreter utiliza filtros y análisis de datos para proporcionar respuestas. Si el Excel está bien estructurado y los datos están etiquetados correctamente, el GPT puede proporcionar respuestas precisas al aplicar los filtros adecuados.

  • ¿Cuál es la principal limitación del code interpreter en comparación con la herramienta de retrieval?

    -El code interpreter no entiende la semántica del texto y se enfoca en el análisis de datos y ejecución de código. Por lo tanto, no puede responder preguntas que requieran una comprensión profunda del contenido, como las que involucran descripción o significado.

  • ¿Cómo se puede mejorar la eficacia del GPT para responder preguntas complejas si se sube un documento en formato de texto estructurado como JSON?

    -Al proporcionar el documento en un formato de texto estructurado como JSON, se facilitan a los modelos de GPT la identificación y el análisis de la información relevante. Esto permite que el GPT use la herramienta de retrieval de manera más efectiva para responder a preguntas complejas.

  • ¿Por qué la estructura de los datos en el documento subido es tan importante para el rendimiento del GPT?

    -La estructura de los datos直接影响a la capacidad del GPT para identificar y acceder a la información relevante. Un documento bien estructurado permite que el GPT, ya sea a través de la herramienta de retrieval o el code interpreter, proporcione respuestas más precisas y coherentes.

  • ¿Cómo afecta el formato del documento subido al tipo de preguntas que el GPT puede responder correctamente?

    -El formato del documento determinará si el GPT utilizará la herramienta de retrieval o el code interpreter. Un documento en PDF es mejor para preguntas de semántica, mientras que un documento en Excel u otros formatos de datos estructurados favorece preguntas que requieren análisis numérico o de datos.

  • ¿Por qué el GPT con acceso a un JSON pudo proporcionar la respuesta correcta a la pregunta sobre el hotel con más habitaciones?

    -El formato JSON estructurado permite que el GPT identifique claramente la información relevante para la pregunta, como el número de habitaciones en cada hotel, lo que facilita proporcionar la respuesta correcta.

  • ¿Cómo se puede optimizar el formato de un documento para que el GPT proporcione respuestas de mayor calidad?

    -Se puede optimizar el formato de un documento asegurándose de que los datos estén bien estructurados y etiquetados, facilitando así que el GPT pueda utilizar la herramienta más adecuada para responder a las preguntas de los usuarios.

  • ¿Cómo se puede transformar un PDF con texto e imágenes en un formato estructurado como JSON para mejorar la eficacia del GPT?

    -Se puede utilizar herramientas de procesamiento de texto y modelos de GPT especializados en la visualización, como GPT 4 Vision, para extraer y transformar la información del PDF en un formato estructurado como JSON.

Outlines

00:00

😀 Diferencias en las respuestas de GPT según el formato del documento

Se discute cómo el formato de los documentos subidos al GPT afecta las respuestas que proporciona. Se menciona que se ha creado un GPT llamado 'Viaje al Caribe' para organizar viajes y se han comparado dos versiones de este GPT, una con acceso a un PDF y otra a un Excel, ambos conteniendo la misma información. Se formulan cuatro preguntas y se observan las diferencias en las respuestas, destacando que el GPT con acceso al PDF acertó en un caso y el GPT con acceso al Excel en otro, mientras que ambos fallaron en la tercera pregunta. Además, se explora la razón subyacente de estas diferencias en función de las herramientas de acceso a la información que utiliza el GPT: retrieval para formatos de texto y code interpreter para formatos como Excel o CSV.

05:01

🧐 Funcionamiento de las herramientas de acceso a la información del GPT

Se profundiza en cómo funcionan las herramientas de acceso a la información en el GPT. Se explica que la herramienta de retrieval utiliza embeddings para transformar textos en vectores numéricos y realizar operaciones matemáticas para encontrar textos semánticamente similares a la pregunta del usuario. En contraste, el code interpreter, que se activa automáticamente para formatos como Excel o CSV, escribe y ejecuta código de programación para analizar documentos y proporcionar respuestas. Se ilustra cómo el code interpreter filtra información en función de criterios específicos y cómo esto puede llevar a respuestas incorrectas si la información no está etiquetada adecuadamente.

10:03

📊 Elegir el formato de documento adecuado para el GPT

Se aborda la importancia de elegir el formato de documento correcto al subir información al GPT. Se sugiere que si los documentos contienen datos numéricos, es mejor utilizar el code interpreter y subirlos en formato Excel, mientras que para documentos con texto que requiere comprensión se debe usar un formato de texto. Se recomienda estructurar la información en un formato de texto como JSON para que el GPT pueda utilizar la herramienta de retrieval de manera más eficaz. Se proporciona un ejemplo de cómo estructurar la información en JSON para que el GPT pueda responder a preguntas específicas de manera más precisa.

15:03

📄 Comparación de la versión del GPT con acceso a JSON

Se compara la nueva versión del GPT con acceso a un documento en formato JSON con las versiones anteriores con acceso a PDF y Excel. Se formulan las mismas tres preguntas y se evalúa la capacidad del GPT para responder correctamente. Se destaca que la versión con acceso al JSON pudo responder correctamente a las tres preguntas, a pesar de que no todas las respuestas fueron perfectas debido a errores en la etiquetación de los datos. Se concluye que la estructuración adecuada de la información es clave para que el GPT pueda proporcionar respuestas precisas.

20:04

🤔 Consideraciones finales y posibles mejoras

Se ofrecen consideraciones finales sobre cómo se pueden mejorar las respuestas del GPT al entender cómo funcionan las herramientas de retrieval y code interpreter. Se recomienda que los usuarios entiendan estos procesos para decidir cuál es el mejor formato para subir la información según el tipo de preguntas que se esperan recibir. Se menciona la posibilidad de grabar un nuevo video para explicar cómo se transformó el contenido de un PDF en un formato estructurado JSON utilizando herramientas como GPT 4 Vision. Se cierra el video invitando a los espectadores a dejar comentarios sobre si les gustaría ver ese contenido adicional.

Mindmap

Keywords

💡GPT

GPT (Generative Pre-trained Transformer) es un modelo de inteligencia artificial diseñado para generar texto de manera coherente y contextual. En el video, se utiliza para crear un asistente personalizado que puede acceder y responder a preguntas basadas en documentos en diferentes formatos como PDF y Excel.

💡Documentos en diferentes formatos

El video compara cómo los documentos en formatos como PDF y Excel afectan la respuesta de un GPT. Un PDF generalmente se analiza con la herramienta de 'retrieval', mientras que un Excel se procesa con 'code interpreter', lo que lleva a diferencias en la respuesta del modelo.

💡Retrieval

Es la herramienta que el GPT utiliza para acceder a la información en documentos no estructurados como PDF o texto. Mediante el uso de 'embeddings', transforma el texto en vectores numéricos para encontrar la información más relevante para una pregunta. En el video, se menciona que la herramienta de 'retrieval' puede confundirse si no considera todos los textos relevantes.

💡Code Interpreter

Esta herramienta es utilizada por el GPT para analizar documentos estructurados como Excel o CSV. Escribe y ejecuta código de programación, como Python, para generar resultados precisos a partir de los datos del documento. En el video, se destaca que el 'code interpreter' proporciona respuestas correctas pero no comprende la semántica del texto.

💡Embeddings

Los 'embeddings' son modelos que transforman texto en vectores numéricos, representando el significado semántico del texto a través de una colección de números. Estos vectores se utilizan para calcular similitudes y diferencias entre trozos de texto, lo que es fundamental para la herramienta de 'retrieval'.

💡JSON

JSON (Notación de Objetos de JavaScript) es un formato de texto estructurado utilizado para intercambiar datos. En el video, se sugiere como un formato ideal para subir documentos al GPT cuando se necesita una estructura clara y ordenada de la información, permitiendo que el modelo responda con mayor precisión a las preguntas.

💡Excel

Excel es una hoja de cálculo electrónica que permite el análisis y el manejo de datos numéricos. En el contexto del video, se utiliza para ilustrar cómo el GPT con acceso a un documento de Excel puede proporcionar respuestas precisas a preguntas numéricas gracias a la herramienta 'code interpreter'.

💡PDF

PDF (Portable Document Format) es un formato de archivo utilizado para presentar documentos de manera estándar y asegurar que se vean de la misma manera en diferentes dispositivos. En el video, se discute cómo el GPT con acceso a un PDF puede tener respuestas menos precisas que con un Excel debido a la herramienta de 'retrieval'.

💡Herramientas de análisis de datos

El video menciona el uso de herramientas de análisis de datos como 'code interpreter' y 'retrieval' para manejar diferentes formatos de documentos. Estas herramientas son cruciales para la precisión y calidad de las respuestas que proporciona el GPT a las preguntas del usuario.

💡Estructura de datos

La estructura de datos es un concepto clave en el video, ya que afecta cómo el GPT procesa y responde a las preguntas. Un formato estructurado como JSON permite al GPT acceder y responder de manera más eficiente a las consultas del usuario, mientras que un PDF no estructurado puede llevar a respuestas menos precisas.

💡Preprocesamiento de datos

El preprocesamiento de datos es el proceso de transformar o estructurar los datos para que sean adecuados para el análisis. En el video, se sugiere que el preprocesamiento, como convertir un PDF en JSON, puede mejorar significativamente la capacidad del GPT para generar respuestas de alta calidad.

Highlights

Se puede subir documentos en diferentes formatos para crear un GPT, y el formato afecta la respuesta del GPT.

Un ejemplo de GPT llamado 'Viaje al Caribe' ayuda a organizar viajes y se creó con acceso a documentos PDF y Excel.

La primera versión del GPT con acceso a un PDF sobre hoteles del Caribe dio una respuesta incorrecta sobre hoteles en Riviera Maya.

La segunda versión del GPT, con acceso a un Excel, identificó correctamente ocho hoteles en Riviera Maya.

El GPT con acceso al PDF falló al identificar hoteles por debajo de 2400 EUR, mientras que el GPT con acceso al Excel lo hizo correctamente.

Ambas versiones del GPT no pudieron identificar correctamente el hotel con más habitaciones.

La herramienta de 'retrieval' se utiliza con documentos PDF y otros formatos de texto, mientras que 'code interpreter' se utiliza con Excel y CSV.

El modelo de embeddings transforma textos en vectores para realizar operaciones matemáticas y encontrar similitudes semánticas.

El 'code interpreter' ejecuta código de programación para analizar documentos y proporcionar respuestas basadas en filtros y resultados de código.

El 'code interpreter' ofrece respuestas precisas y no invierte en la creación de información, a diferencia del 'retrieval' que puede confundirse con el contenido.

El formato de los documentos subidos al GPT debe depender del contenido y la naturaleza de las preguntas que se esperan recibir.

Documentos con datos numéricos se benefician del 'code interpreter' si se suben en formatos como Excel.

Documentos con texto y descripciones se beneficiarían de la herramienta de 'retrieval' si se suben en formatos de texto estructurado como JSON.

Una estructura de JSON organizada mejora la capacidad del GPT para responder a preguntas específicas y encontrar la información relevante.

El GPT con acceso a un documento JSON estructurado pudo responder correctamente a tres preguntas específicas sobre hoteles.

El etiquetado preciso de los datos es crucial para que el GPT pueda proporcionar respuestas precisas, independientemente del formato del documento.

La elección del formato de documento subido al GPT debe ser consciente para garantizar respuestas precisas a las preguntas más comunes.

La herramienta 'make' y el modelo GPT-4 Vision se utilizaron para transformar un PDF en un formato JSON estructurado.

Transcripts

play00:00

seguro que a estas alturas ya sabes que

play00:01

a la hora de crear tu propio gpt puedes

play00:02

subir documentos en diferentes formatos

play00:05

pero sabías que dependiendo del formato

play00:07

en el que subas tus documentos la

play00:09

respuesta del gpt es totalmente

play00:10

diferente en este vídeo quiero enseñarte

play00:12

un ejemplo he creado un gpt que se llama

play00:14

Viaje al Caribe que es un gpt que te

play00:16

ayuda a organizar Pues un viaje al

play00:17

Caribe y he creado dos versiones en la

play00:19

primera versión le he dado acceso a un

play00:21

PDF vale que es este PDF que vemos aquí

play00:23

que es un PDF que contiene pues

play00:25

información y fotos sobre diferentes

play00:27

hoteles en lugares del Caribe y luego he

play00:29

creado un un segundo gpt con las mismas

play00:31

instrucciones pero en vez de darle

play00:33

acceso a ese PDF le he dado acceso a un

play00:35

Excel que es este Excel de aquí y este

play00:37

Excel contiene la misma información

play00:40

exactamente la misma información que el

play00:42

PDF es decir he creado dos versiones con

play00:44

mismas instrucciones y acceso a la misma

play00:46

información simplemente que en el primer

play00:48

caso la información está en un PDF y en

play00:50

el segundo caso la información está en

play00:51

un fichero de Excel lo que quiero hacer

play00:53

ahora es comparar las respuestas aquí

play00:55

tenemos las dos versiones enfrentadas a

play00:57

la izquierda la versión con acceso al

play00:58

PDF a la derecha la versión con acceso

play01:00

al Excel y vamos a preguntarle cuatro

play01:03

preguntas la primera de ellas qué

play01:04

hoteles hay en Riviera Maya

play01:06

preguntémosle al PDF y preguntémosle al

play01:09

Excel ya tenemos las respuestas Y son

play01:11

diferentes en el caso del gpt con acceso

play01:13

al PDF nos dice que hay ocho hoteles en

play01:15

Rivera Maya y en el caso del gpt con

play01:18

acceso al Excel nos dice que solo hay

play01:19

cinco pues la respuesta correcta es ocho

play01:21

he ido al Excel que se puede filtrar

play01:23

mucho más fácil que el PDF y resulta que

play01:25

en México Hay 11 de los cuales tres que

play01:27

son estos tres de aquí no están en

play01:28

rivira malla sino que está en Cancún por

play01:30

tanto el número de hoteles que hay en

play01:31

river Maya son ocho y en este caso ha

play01:33

acertado el gpt con acceso al PDF Por

play01:36

qué el gpt con acceso a este xcel ha

play01:38

dicho que solo hay cinco en ribeira maya

play01:39

Pues bueno Luego lo comentaremos Pero te

play01:41

lo podrás imaginar mirando la columna I

play01:43

donde se especifica la zona del Hotel

play01:45

segunda pregunta qué hoteles hay

play01:47

disponibles por menos de

play01:49

2400 se lo preguntamos al gpt con acceso

play01:52

al PDF y al gpt con acceso al Excel a

play01:54

ver qué nos dicen Pues el gpt con acceso

play01:56

al PDF nos dice que hay en total nueve

play01:59

no 10 hoteles por menos de 2400 eur

play02:02

Aunque si ponemos a analizarnos la

play02:03

respuesta ya vemos cosas raras por

play02:05

ejemplo nos dice aquí que el cuarto

play02:07

hotel tiene un precio desde 2,610 pero

play02:10

le hemos dicho que solo queremos los que

play02:11

están por debajo de 2,400 Así que esta

play02:14

respuesta ya vemos que muy bien no está

play02:16

la de la derecha la del gpt con acceso

play02:18

al Excel nos dice que hay siete hoteles

play02:20

por debajo de 2400 si nos vamos a

play02:22

nuestro Excel y filtramos por la columna

play02:24

precio por debajo de 2400 vemos que hay

play02:27

siete hoteles es decir que en este caso

play02:29

la opción ganadora es la del gpt con

play02:31

acceso al Excel De hecho si analizamos

play02:33

un poco su respuesta pues vemos que

play02:34

tiene sentido no todos los precios

play02:36

asociados a los siete hoteles que nos

play02:38

ponen la lista Pues están por debajo de

play02:40

los

play02:40

2400 tercera pregunta cuál es el hotel

play02:43

con más habitaciones Pues bien

play02:46

preguntemos a cada uno de los dos gpt y

play02:48

veamos cuál es la respuesta el gpt de la

play02:51

izquierda nos dice que el hotel con más

play02:52

habitaciones es el Dreams playa mujeres

play02:55

que tiene 502 lujosas y elegantes suits

play02:58

y el gpt de la derecha nos dice en

play03:00

cambio que el hotel con más habitaciones

play03:02

es el sandals grande y nos dice que

play03:04

tiene 311 habitaciones es decir nos ha

play03:07

dado respuestas diferentes y ya podemos

play03:09

ver que la de la derecha tiene que ser

play03:11

incorrecta porque la opción de la

play03:13

izquierda tiene más habitaciones Pues

play03:14

bien si nos vamos a nuestro Excel y

play03:16

leemos todas las descripciones también

play03:18

podríamos habernos ido al PDF y leer las

play03:19

descripciones después de leerme todas

play03:21

las descripciones he visto que el hotel

play03:23

que más habitaciones tiene es el lopesan

play03:25

Costa bábaro que tiene 1442 habitaciones

play03:28

es decir que ninguno de los dos gpt ha

play03:30

conseguido acertar Bueno creo que con

play03:32

tres ya tenemos suficientes ejemplos

play03:34

para entender las diferencias no entre

play03:36

subir un documento en PDF o subir un

play03:37

documento en formato Excel voy a hacer

play03:39

un breve resumen la primera pregunta

play03:41

hemos preguntado pues qué hoteles hay en

play03:43

Rivera Maya y el resultado Cuál ha sido

play03:45

Pues el resultado ha sido que el gpt con

play03:46

acceso al PDF nos ha dado una respuesta

play03:48

correcta y en cambio el otro gpt nos ha

play03:50

dado una respuesta que no era incorrecta

play03:53

Pero bueno no era tan correcta como la

play03:54

opción del PDF la segunda pregunta que

play03:57

hemos preguntado es qué hoteles tienen

play03:58

un precio inferior a 200 400 en este

play04:00

caso la respuesta que nos ha dado el gpt

play04:02

con acceso al PDF ha sido horrible nos

play04:05

ha dado una lista con hoteles cuyo

play04:07

precio eran claramente superiores a 2400

play04:10

en el caso del segundo gpt la respuesta

play04:12

ha sido correcta porque nos ha dado una

play04:13

lista con únicamente los hoteles cuyo

play04:16

precio eran inferiores a

play04:18

2,400 y la tercera pregunta los dos gpt

play04:21

han fallado porque hemos preguntado Cuál

play04:22

es el hotel con más habitaciones y en

play04:24

ambos casos nos ha dicho un hotel pues

play04:26

que no era el que más habitaciones tenía

play04:27

es decir que ninguno de los dos gpt ha

play04:29

sido capaz de respondernos correctamente

play04:31

a las tres preguntas pero bien vayamos a

play04:33

lo importante Por qué funcionan

play04:35

diferente porque si subo un PDF la

play04:37

respuesta son diferentes que si subo un

play04:38

Excel Pues porque la herramienta que

play04:40

utiliza el gpt para acceder a la

play04:42

información es diferente en función del

play04:44

formato que subamos si subimos un

play04:46

documento con formato pdf la herramienta

play04:48

que utiliza es la de retrieval vale Y

play04:50

por eso pone searching my knowledge en

play04:52

cambio si subimos un Excel o un csv da

play04:54

igual utiliza el code interpreter Y en

play04:57

vez de searching My knowledge pone

play04:58

analizando el code interpreter te sonará

play05:01

Porque si vas al apartado de

play05:02

capabilities dentro de la configuración

play05:04

del gpt te deja activar o Desactivar

play05:06

esta herramienta la herramienta de

play05:07

retrieval no te deja activarla o

play05:09

desactivarla Pues porque es la

play05:10

herramienta que tiene que utilizar Sí o

play05:11

sí Cuando subes un documento en un

play05:13

formato diferente a un Excel o un csv

play05:16

pero bien cómo funcionan estas dos

play05:17

herramientas No porque si entendemos

play05:19

Cómo funcionan las herramientas

play05:20

entenderemos Por qué nos ha dado esos

play05:22

resultados la herramienta de retrieval

play05:24

Pues nosotros subimos un documento al

play05:26

gpt lo hemos subido en PDF pero funciona

play05:28

igual si hubiéramos subo subido un

play05:29

documento de texto si hubiéramos subido

play05:31

un archivo de código un Powerpoint vale

play05:33

subimos un documento entonces lo que

play05:35

hace el gpt o Open Ai es partir ese

play05:38

documento en cachitos más pequeñitos

play05:40

vale aquí en este ejemplo pues este

play05:42

documento esta página se partiría en

play05:43

esos cuatro cachitos pequeñitos vale en

play05:45

estos cuatro rectángulos Aunque

play05:47

realmente no sabemos el gpt cómo está

play05:50

partiendo ese ese texto en cachitos más

play05:53

pequeñitos puede que lo esté partiendo

play05:54

en cachitos muyy pequeñitos o en

play05:56

cachitos más grandes realmente no

play05:58

sabemos lo que ocurre ahí debajo y openi

play06:00

tampoco lo explica una vez que están

play06:02

identificados estos cuatro o n múltiples

play06:05

Trozos de texto lo que hace el gpt

play06:07

utiliza un modelo de embeddings para

play06:10

transformar los Trozos de texto

play06:12

pequeñitos vamos a decir por ejemplo

play06:13

párrafos para transformar los párrafos

play06:16

en vectores qué es esto de los vectores

play06:18

Pues un vector al final pues es una

play06:20

colección de números una colección muy

play06:22

muy grande de números de cientos miles

play06:24

de números entonces este tema de los

play06:26

embeddings que puede que lo haya

play06:27

escuchado por ahí los modelos de

play06:29

embeddings lo que hacen es transformar

play06:31

texto en números de tal manera que el

play06:33

vector resultante es decir este vector

play06:35

de aquí el primero por ejemplo

play06:37

representa la información semántica que

play06:39

contiene este trozo de texto vale es

play06:41

decir se transforma el texto en números

play06:43

pero esos números de alguna manera

play06:46

guardan información sobre el significado

play06:48

del texto Por qué se hace esto por qué

play06:50

guardar el texto en números y no guardar

play06:52

directamente el texto pues porque al

play06:55

transformar el texto en un vector es

play06:57

decir en unos números puede se pueden

play06:59

hacer operaciones Matemáticas con ellos

play07:01

Entonces esto es un plano si los

play07:03

vectores tuvieran dos dimensiones que no

play07:05

es cierto realmente van a tener cientos

play07:07

o miles de dimensiones pero imagínate

play07:09

que tienen dos dimensiones no X e Y

play07:11

entonces cada uno de esos vectores sería

play07:14

un punto sería un punto dentro de unos

play07:16

ejes de tal manera que podríamos saber

play07:19

qué vectores están más próximos Y qué

play07:21

vectores están más alejados y como esos

play07:23

vectores esos números que hay dentro del

play07:25

vector contienen información semántica

play07:28

sobre el significado del texto

play07:30

simplemente haciendo operaciones

play07:32

Matemáticas podemos saber qué textos

play07:34

contienen un contenido semánticamente

play07:36

similar de tal manera que cuando el

play07:38

usuario hace una pregunta podemos saber

play07:41

qué trozo de texto es el que contiene

play07:44

información Útil para poder responder a

play07:46

la pregunta del usuario me explico

play07:48

Imagínate que el usuario pregunta cuál

play07:49

es el hotel con más habitaciones

play07:51

entonces lo que hace el gpt Escoge ese

play07:53

trozo de texto que es la pregunta

play07:55

utiliza el mismo modelo de embeddings

play07:57

que ha utilizado para vectorizar I ar

play07:59

los Trozos de texto del documento y la

play08:01

pregunta del usuario la convierte

play08:03

también en un vector vale en este caso

play08:06

en el ejemplo sería este vector que está

play08:08

aquí en amarillo de tal manera que

play08:10

tenemos para cada trozo de texto

play08:12

identificado en el documento un vector y

play08:14

para la pregunta del usuario otro vector

play08:16

entonces lo que hace ahora el gpt es

play08:18

utilizando cálculos matemáticos ver cuál

play08:21

es el vector más próximo a la pregunta

play08:23

del usuario es decir cuál es de todos

play08:25

los Trozos de texto que hay dentro del

play08:27

documento el trozo de texto que

play08:29

semánticamente es más similar a la

play08:32

pregunta del usuario es decir en este

play08:33

caso como el usuario ha preguntado Cuál

play08:34

es el hotel con más habitaciones pues

play08:36

serán aquellos Trozos de texto que

play08:38

hablen sobre habitaciones o número de

play08:40

habitaciones en este ejemplo los

play08:42

vectores es decir las bolitas que al

play08:44

final están representando Trozos de

play08:46

texto es decir los Trozos de texto más

play08:48

similares a la pregunta del usuario

play08:50

serían las bolas verdes entonces lo que

play08:52

hace el gpt es hacer estos cálculos

play08:54

matemáticos para de todos los Trozos de

play08:55

texto que contienen el documento que

play08:56

pueden ser cientos miles de Trozos de

play08:58

texto con los Trozos de texto que

play09:00

más relación tienen con la pregunta Y de

play09:02

esa manera proporcionarle al usuario una

play09:04

respuesta basada en esos Trozos de texto

play09:07

similares Pero la idea con la que te

play09:09

tienes que quedar es que cuando tú haces

play09:10

una pregunta al gpt el gpt al

play09:12

responderte no está utilizando todo el

play09:15

contenido que hay dentro del documento

play09:17

está utilizando exclusivamente los

play09:19

Trozos de texto que ha considerado

play09:20

relevantes para esa pregunta por eso

play09:23

muchas veces en los ejemplos que hemos

play09:24

visto pues se confunde porque no está

play09:26

teniendo en cuenta los Trozos de texto

play09:28

que debe tener en cuenta para

play09:30

respondernos correctamente a la pregunta

play09:32

que le hemos formulado veamos ahora Cómo

play09:33

funciona el cod interpreter que es

play09:35

bastante más sencillo de entender cuando

play09:37

subimos un documento en formato Excel

play09:39

formato csv verás como la sección de

play09:41

capabilities dentro de la pestaña de

play09:42

configuración del gpt automáticamente se

play09:44

activa el code interpreter esto es pues

play09:47

porque cuando subes un documento en

play09:48

estos formatos la única herramienta que

play09:50

puede utilizar el gpt para analizar esos

play09:52

documentos es el code interpreter

play09:54

Entonces cómo funciona pues por ejemplo

play09:56

en el caso en el que le hemos preguntado

play09:57

qué hoteles hay en la Rivera malla

play09:59

nosotros hacemos esta pregunta que ties

play10:01

haí en la Rivera malla Y entonces verás

play10:03

cómo te pone analizando vale te pone el

play10:04

gpt analizando y hay un desplegable si

play10:07

clicas en el desplegable vas a ver un

play10:10

código de python Por qué Pues porque lo

play10:11

que hace el cot interpreter es escribir

play10:13

código de python es decir es una

play10:14

herramienta cuya habilidad es escribir

play10:16

código código de programación y no solo

play10:18

escribe código sino que también lo

play10:20

ejecuta entonces lo que hace es primero

play10:22

escribe el código luego lo ejecuta ese

play10:24

código de programación pues genera un

play10:26

resultado y ese resultado que ha

play10:28

generado el código es lo que utiliza el

play10:30

gpt para responder a tu pregunta En el

play10:32

caso de la pregunta que le hice yo sobre

play10:33

los hoteles que hay en Rivera malla esto

play10:35

es una captura de pantalla del código

play10:37

que generó y Bueno tengo aquí el código

play10:39

vale esto que hay a la derecha es el

play10:40

código que genero que es código de

play10:41

programación código de python y por si

play10:44

no sabes de python pues te explico un

play10:45

poco lo que hace que es bastante

play10:46

sencillo lo que hizo previo a este

play10:49

código fue importar todos los datos que

play10:51

habían en el Excel en una tabla vale en

play10:53

un dataframe y lo que hace aquí es

play10:55

filtrarlo Qué tipo de filtro hace pues

play10:57

Bueno mira aquí debajo tengo una captura

play10:58

de Excel Y aunque no se ve porque está

play11:00

muy pequeñito dentro de la tabla había

play11:03

una columna cuyo nombre es Zona vale

play11:05

donde ahí para cada hotel está puesto la

play11:07

zona en la que está ubicado el hotel

play11:09

Pues si está en Rivera Maya si está en

play11:11

puntacana o lo que fuera entonces lo que

play11:13

está haciendo el código es filtrar por

play11:15

el contenido que contiene esa columna

play11:17

vemos que pone aquí entre corses zona

play11:19

Vale pues está filtrando es decir está

play11:21

buscando los hoteles que contienen la

play11:24

palabra rivira malla en la columna zona

play11:27

y después de aplicar este filtro lo que

play11:28

hace es mostrar una tabla que contenga

play11:31

estas columnas de aquí hotel situación

play11:33

precio y estrellas Entonces esta segunda

play11:36

línea de código lo que hace es generar

play11:38

esta tabla que se ve por aquí y esa

play11:40

tabla con información es la que utiliza

play11:42

después para responderte pues para

play11:44

decirte que los hoteles que ha en de

play11:45

Maya son Pues los cuatro o cinco que que

play11:47

hubiera Entonces por qué en este caso el

play11:49

code interpreter falló es decir cuando

play11:51

le hicimos esta pregunta a la versión

play11:53

del gpt con acceso al Excel nos dio solo

play11:56

creo que cuatro o cinco resultados

play11:57

cuando en realidad había siete hoteles

play11:58

en Rivera Maya pues la razón es que

play12:01

realmente hoteles cuyo valor en la

play12:04

columna zona fuera Rivera Maya solo

play12:06

había cuatro o cinco había luego otros

play12:09

dos o tres más cuya zona era Caribe Maya

play12:12

que no es Rivera Maya estrictamente pero

play12:14

realmente sí que es Riviera Maya Porque

play12:16

si coges la dirección de ese hotel y la

play12:18

pones en Google pues está en Riviera

play12:20

Maya simplemente que esos hoteles dentro

play12:22

de la tabla de Excel pues no estaban

play12:24

etiquetados como que están en Rivera

play12:26

Maya Entonces cuál es la principal

play12:28

diferencia no entre entre los dos

play12:29

métodos entre el retrieval o el code

play12:31

interpreter pues como has visto el

play12:33

retrieval es capaz de entender la

play12:35

semántica que hay dentro del documento

play12:36

es capaz de entender el significado de

play12:37

los textos el code interpreter no el cod

play12:40

interpreter lo único que hace es

play12:41

escribir código de programación es decir

play12:43

establece filtros lo bueno el cod

play12:45

interpreter es que siempre te va a dar

play12:46

resultados correctos es decir no se va a

play12:49

inventar cosas no va a alucinar

play12:51

ejecutará un filtro y si el filtro te

play12:52

devuelve tres hoteles pues te devolverá

play12:54

tres hoteles y te dará la información de

play12:55

esos tres hoteles pero con el código

play12:57

interpreter no te van a ocurrir cosas

play12:58

como como la que hemos visto con los

play12:59

precios cuando utilizamos el retrial es

play13:01

decir cuando le preguntamos a la versión

play13:03

de gpt con acceso al PDF pues qué

play13:06

hoteles costaba menos de 2400 vimos que

play13:09

no tenía coherencia la respuesta porque

play13:10

nos daba un listado con hoteles cuyo

play13:12

precio era superior a ese precio esto

play13:15

con el c interpreter no te va a pasar

play13:16

jamás porque cuando le preguntes por esa

play13:19

pregunta No pues qué hoteles tienen un

play13:20

coste menor a 2400 lo que va a hacer es

play13:23

ejecutar un código de python que lo que

play13:25

va a hacer es filtrar la columna de

play13:26

precio por un valor a menor de 2400 es

play13:29

decir va a funcionar bien en ese caso El

play13:30

problema del code interpreter es que

play13:32

como no es capaz de entender la

play13:33

semántica Pues cuando haces preguntas

play13:35

relacionadas con algo o cierto contenido

play13:38

por ejemplo de la descripción de un

play13:39

hotel Pues como no es capaz de entender

play13:41

la descripción en sí no va a ser capaz

play13:42

de responderte no va a ser capaz de

play13:44

darte una respuesta buena Bueno espero

play13:46

que hayas entendido las diferencias

play13:48

entre los dos métodos entre el retrieval

play13:49

y el code interpreter Pero la pregunta

play13:51

que te estarás haciendo No es vale muy

play13:53

bien pero en qué formato subo mis

play13:55

documentos lo subo en Excel lo subo en

play13:57

PDF lo subo en Powerpoint En qué formato

play14:00

lo subo pues La respuesta es Depende

play14:02

depende el contenido de los documentos

play14:05

si por ejemplo tus documentos contienen

play14:07

muchos datos numéricos pues utiliza el

play14:09

cod interpreter es decir súbelo en un

play14:11

formato Excel porque el cod interpreter

play14:13

va a jugar muy bien con esos datos es

play14:15

decir va a ser capaz de utilizar

play14:16

fórmulas estadísticas para calcularte

play14:18

medias medianas va a filtrar

play14:19

correctamente Pues en este caso los

play14:21

hoteles por precio o por número de

play14:23

habitaciones si hubiera una columna con

play14:24

número de habitaciones es decir si lo

play14:26

que quieres son sacar estadísticas hacer

play14:27

análisis de datos súbelo en Excel y

play14:30

activa el cod interpreter pero si el

play14:31

documento que quieres subir lo que

play14:33

contiene es texto contiene descripciones

play14:35

que hace falta entender que hace falta

play14:36

entender el significado de esos textos

play14:38

Entonces hú en un formato de texto para

play14:40

que el gpt utilice la herramienta de

play14:41

retrieval pero lo más importante Más

play14:43

allá de los formatos es ponerle las

play14:46

cosas fáciles al gpt en este caso por

play14:48

ejemplo en este caso el documento que

play14:50

queremos subir Pues apenas contiene

play14:52

datos numéricos solo tenemos la columna

play14:54

de precio con datos numéricos por lo

play14:56

tanto es preferible subirlo en texto en

play14:58

formato de texto vale en formato de

play14:59

texto para que utilice la herramienta de

play15:01

retrieval pero en formato de texto no

play15:03

significa que le subas directamente el

play15:04

PDF que tenemos con imágenes que es el

play15:06

mismo PDF que estamos Compartiendo con

play15:08

el usuario final es preferible que le

play15:10

subas un formato de texto un poco más

play15:13

estructurado donde toda la jerarquía y

play15:15

toda la información esté mucho más clara

play15:17

y eso puedes conseguirlo muy bien puedes

play15:19

conseguir que un formato de texto tenga

play15:20

una estructura muy clara si lo subes en

play15:22

un formato json y lo que te voy a

play15:24

enseñar ahora es el formato en el que

play15:26

subiría yo el documento en este caso en

play15:29

el caso de los hoteles con esto me

play15:30

refiero a un formato de texto

play15:32

estructurado que como ves pues no tiene

play15:34

nada que ver con el PDF que hemos visto

play15:35

antes no Subiré el documento a una

play15:37

carpeta de drive y pondré el enlace en

play15:39

la descripción para que puedas descargár

play15:41

Telo y tú mismo Pues puedas hacer

play15:43

pruebas incluso ver bien entender bien

play15:45

Cómo es el formato no pero te lo explico

play15:47

brevemente digamos que tiene tres

play15:48

apartados este Jason tiene aquí un

play15:50

primer objeto que es este de aquí que lo

play15:53

que contiene es información sobre las

play15:54

ubicaciones de los hoteles pongo todos

play15:57

los hoteles agrupados por la zona en la

play15:59

que están ubicados y para cada zona pues

play16:01

pongo los hoteles hoteles ubicados en Ne

play16:03

grill y Pongo aquí una Ray con todos los

play16:06

hoteles en este caso solo uno no pero

play16:08

por ejemplo hoteles ubicados en Rivera

play16:10

Maya yo pongo aquí los hoteles que están

play16:11

ubicados en Rivera Maya de tal forma que

play16:14

si esto lo subo en este formato en Jason

play16:16

el gpt utilizará la herramienta de

play16:18

retrial y cuando yo le pregunte qué

play16:20

hoteles hay en Rivera malla Pues el

play16:23

texto el trozo de texto más relevante

play16:25

para responder a esa pregunta pues

play16:27

evidentemente va a ser este de aquí vale

play16:30

es decir le estamos poniendo las cosas

play16:32

fáciles al gpt Para que encuentre el

play16:34

trozo de texto que queremos que utilice

play16:36

para responder al usuario cuando haga

play16:38

una pregunta eh como esta no y luego le

play16:41

pongo información sobre los precios de

play16:43

todos los hoteles ordenados de menor a

play16:45

mayor y aquí pongo en parejas Pues el

play16:48

nombre del Hotel el precio el nombre del

play16:50

Hotel el precio de esta forma pues eh Ya

play16:52

sabe dónde está la información sobre los

play16:54

precios pues está aquí y de forma muy

play16:55

estructurada muy clara y además ordenada

play16:58

y luego más abajo pues pongo una lista

play17:00

de todos los hoteles aquí ya con más

play17:02

información pues para cada hotel pongo

play17:05

el nombre del Hotel la situación el

play17:08

alojamiento las instalaciones el precio

play17:10

las estrellas la dirección el país y la

play17:12

zona digamos que toda esta informaciónes

play17:14

la información que contiene una fila del

play17:17

Excel vale simplemente que aquí está en

play17:19

formato de texto entonces pues para cada

play17:21

hotel eh Hay toda esta información no en

play17:24

total es un Jason Pues tampoco demasiado

play17:26

extenso con 353 filas

play17:29

vamos a ver ahora qué tal funciona he

play17:30

creado un nuevo gpt con acceso a este

play17:33

Jason vale es la tercera versión digamos

play17:35

que tiene las mismas instrucciones que

play17:37

la versión con acceso al PDF y las

play17:38

mismas instrucciones que la versión con

play17:41

acceso al Excel simplemente hemos

play17:42

cambiado el formato del documento voy a

play17:45

hacerle ahora pues las tres mismas

play17:47

preguntas que hemos hecho antes primera

play17:49

pregunta qué hoteles hay en Riviera Maya

play17:51

nos acaba de dar una lista con cinco

play17:53

teles y esta respuesta pues es bastante

play17:55

similar a la respuesta que dio el gpt

play17:57

con acceso al al Excel Por qué Pues

play17:59

porque lo que ha hecho ahora mismo el

play18:00

gpt para respondernos a esta pregunta es

play18:02

utilizar ese trozo de texto que vemos

play18:04

aquí en el json donde le ponemos los

play18:06

hoteles ubicados en Rivera Maya es decir

play18:08

al igual que la versión que tenía acceso

play18:10

al Excel lo que está utilizando para

play18:12

saber si un hotel está en Rivera Maya o

play18:14

no es la etiqueta que le hemos puesto

play18:16

nosotros en los datos ya sea en la tabla

play18:18

de Excel o en este json de aquí es decir

play18:21

no está interpretando los textos de cada

play18:24

uno de los hoteles donde se describe

play18:25

Pues dónde está situado sino que

play18:27

simplemente ha cogido este texto de aquí

play18:29

segunda pregunta qué hoteles hay por

play18:31

menos de

play18:32

2400 nos acaba de dar esta lista de

play18:35

siete hoteles y los siete hoteles

play18:36

tienendo un precio inferior a 2400 es

play18:39

decir en este caso la respuesta ha sido

play18:41

correcta nos ha dado una respuesta muy

play18:43

similar a la respuesta que nos dio el

play18:45

gpt con acceso al Excel que era una

play18:47

respuesta correcta porque está

play18:48

utilizando el cod interpreter es decir

play18:50

que has visto como con un formato de

play18:52

texto a pesar de no estar el gpt

play18:55

utilizando el code interpreter es capaz

play18:56

de respondernos a preguntas numéricas

play18:59

Pues de forma correcta y tercera y

play19:01

última pregunta pues qué hotel tiene más

play19:03

habitaciones y nos dice el hotel con más

play19:05

habitaciones es el lopesan que cuenta

play19:07

con 1442 habitaciones en este caso al

play19:11

contrario que las otras dos versiones

play19:12

nos acaba de dar la respuesta correcta

play19:13

justamente Este era el hotel con más

play19:15

habitaciones de todos Así que esta

play19:17

tercera versión este gpt con acceso al

play19:19

documento en formato json ha sido capaz

play19:21

de respondernos correctamente a las tres

play19:24

preguntas no le he puesto una carita

play19:25

sonriente a la primera pregunta es decir

play19:27

No le hemos puesto un 10 Pues porque

play19:29

realmente había dos o tres hoteles más

play19:31

ubicados en Rivera malla pero realmente

play19:33

no ha sido problema l gpt El problema es

play19:35

que dentro de los datos pues esos dos

play19:37

tres hoteles no estaban etiquetados como

play19:40

Rivera Maya cuando en realidad Pues sí

play19:42

que son hoteles que están ubicados en en

play19:43

esa zona Así que más que culpa del gpt o

play19:46

más que culpa del formato es culpa

play19:48

nuestra de la persona que ha etiquetado

play19:49

esos datos Obviamente si hacemos otra

play19:51

pregunta diferente a estas tres

play19:53

probablemente habrá alguna pregunta que

play19:55

nuestro gpt con acceso al formato Jason

play19:58

no sea capaz de responder correctamente

play20:00

es decir No es infalible no es que

play20:02

subamos el documento en formato json

play20:04

como lo he estructurado yo y ya responda

play20:06

bien a todas las preguntas pero lo que

play20:08

te quería trasladar con este vídeo es

play20:09

que bueno para empezar quería que

play20:11

entendiese bien cómo funciona la

play20:12

herramienta de retrieval la herramienta

play20:13

de cod interpreter para que tú mismo

play20:15

seas capaz de decidir En qué ocasiones

play20:17

te merece más la pena subirlo en un

play20:19

formato o en qué ocasiones te merece más

play20:21

la pena subirlo en otro formato lo que

play20:23

te recomiendo Es que una vez que

play20:25

entiendas Cómo funcionan estas

play20:26

herramientas Pues que trates de guardar

play20:28

la información o de subir la información

play20:30

al gpt en el formato más idóneo para el

play20:33

tipo de preguntas que tú crees que los

play20:35

usuarios van a hacer al gpt para que de

play20:37

esa forma al menos las preguntas básicas

play20:39

que puede tener cualquier usuario Como

play20:41

por ejemplo Pues cuál es el precio de un

play20:42

hotel o pues qué hoteles hay en

play20:44

determinada zona Pues que al menos las

play20:46

preguntas básicas las preguntas más

play20:47

frecuentes el gpt sea capaz de

play20:49

responderlas correctamente Espero que el

play20:51

vídeo te haya resultado interesante y

play20:53

que te hayado a entender mejor cómo

play20:54

funcionan los gpt Y por cierto si tienes

play20:57

curiosidad en saber cómo he conseguido

play20:59

transformar pues este PDF de aquí con un

play21:01

montón de texto y un montón de imágenes

play21:03

en un formato estructurado como este de

play21:05

aquí como este json pues pónmelo en

play21:07

comentarios porque estoy pensando en

play21:08

grabar otro vídeo explicando cómo lo he

play21:10

hecho porque obviamente no lo he hecho

play21:12

de forma manual he utilizado la

play21:13

herramienta make que seguro que ya

play21:14

conoces porque la ha nombrado muchas

play21:16

veces he utilizado esa herramienta y el

play21:18

modelo gpt 4 Vision para transformar el

play21:21

contenido del PDF en este formato tan

play21:23

estructurado que hemos visto que es un

play21:25

formato Pues que funciona mucho mejor

play21:27

que es un formato que conseguido generar

play21:28

respuestas que el gpt genera respuestas

play21:31

de mucha más calidad Así que nada lo

play21:33

dicho Espero que te haya resultado

play21:34

interesante y nos vemos en próximos

play21:36

vídeos

Rate This

5.0 / 5 (0 votes)

Related Tags
GPTDocumentosFormatoRecuperaciónIntérprete de CódigoAnálisis de DatosExcelPDFJSONHerramientas de AIProcesamiento de Lenguaje Natural
Do you need a summary in English?