Cómo SUBIR documentos a un GPT para que FUNCIONE BIEN
Summary
TLDREl video ofrece una comparativa entre dos versiones de un modelo de lenguaje llamado GPT (uno con acceso a un PDF y otro a un Excel) para ilustrar cómo la respuesta de GPT varía según el formato del documento que se le proporciona. Se plantean tres preguntas a ambas versiones: la cantidad de hoteles en Riviera Maya, los hoteles disponibles por menos de 2400 euros y cuál hotel tiene más habitaciones. Los resultados muestran que la versión con acceso al PDF acertó en la primera pregunta, mientras que la versión con acceso al Excel proporcionó respuestas precisas en la segunda pregunta y ninguna de las dos pudo acertar en la tercera. Se explica que la herramienta de 'retrieval' utilizada con archivos PDF y otros formatos de texto se enfoca en la semántica del contenido, mientras que la 'code interpreter', empleada con archivos Excel y CSV, se basa en la ejecución de código para obtener respuestas precisas. La diferencia radica en que la 'retrieval' puede entender el significado del texto, pero no siempre considera todos los datos relevantes, y la 'code interpreter' no comprende la semántica pero proporciona resultados precisos si los datos están bien estructurados. El video concluye sugiriendo que la elección del formato del documento para ser analizado por GPT depende del tipo de información que contenga y del tipo de preguntas que se esperan recibir, destacando la importancia de estructurar adecuadamente los datos para obtener mejores respuestas.
Takeaways
- 📄 **Diferencias en respuestas según el formato**: El GPT proporciona respuestas diferentes dependiendo si se le proporciona un PDF o un Excel, debido a las herramientas distintas que utiliza para acceder a la información.
- 🔍 **Herramienta de Retrieval**: Cuando se sube un PDF, el GPT utiliza la herramienta de Retrieval, que busca la semántica en los textos para responder a las preguntas.
- 💡 **Herramienta de Code Interpreter**: Con un archivo Excel, el GPT utiliza el Code Interpreter, que ejecuta código de programación para analizar los datos y proporcionar respuestas.
- 🤖 **Limitaciones del Code Interpreter**: El Code Interpreter no comprende la semántica del texto, lo que puede llevar a respuestas incorrectas si la pregunta requiere entender el contenido.
- 📈 **Ventajas del formato Excel**: El Excel es óptimo para documentos con datos numéricos, ya que el Code Interpreter puede realizar cálculos estadísticos y análisis de datos.
- 📝 **Ventajas del formato de texto**: Para documentos con texto y descripciones, es mejor usar un formato de texto para que el GPT utilice la herramienta de Retrieval y comprenda el significado de los textos.
- 📚 **Estructura de los documentos**: Es importante estructurar adecuadamente los documentos para facilitar que el GPT encuentre la información relevante, ya sea en formato de texto o JSON.
- 📊 **JSON como formato estructurado**: El uso de JSON para documentos con información estructurada permite que el GPT acceda a los datos de manera más eficiente y brinde respuestas más precisas.
- ✅ **Respuestas correctas con JSON**: El GPT con acceso a documentos en formato JSON pudo responder correctamente a tres preguntas específicas, mostrando la efectividad de este formato para ciertas consultas.
- 📝 **Importancia de la etiqueta**: La precisión en la etiqueta y la organización de los datos es crucial para que el GPT pueda proporcionar respuestas correctas, independientemente del formato del documento.
- ❗ **No hay soluciones infalibles**: Aunque el formato de los documentos influye en la calidad de las respuestas del GPT, no existe un formato que garantice respuestas correctas a todas las preguntas.
Q & A
¿Qué diferencias existen entre subir un documento en formato PDF y uno en formato Excel para un GPT?
-Al subir un documento en PDF, el GPT utiliza la herramienta de retrieval, que busca la semántica del texto. Mientras que con un documento en formato Excel, el GPT utiliza el code interpreter, que se enfoca en el análisis de datos y ejecución de código para obtener respuestas.
¿Cómo afecta el formato del documento subido al rendimiento del GPT en términos de respuestas precisas?
-El formato afecta directamente al tipo de herramienta que el GPT utiliza para procesar la información. Un PDF permite una comprensión semántica, mientras que un Excel permite un análisis numérico y ejecución de código, lo que puede llevar a respuestas más precisas en ciertos contextos.
¿Por qué el GPT con acceso a un PDF puede dar una respuesta incorrecta sobre la cantidad de hoteles en Riviera Maya?
-El GPT con acceso a un PDF utiliza la herramienta de retrieval, que no siempre considera todos los textos relevantes para responder a la pregunta, lo que puede llevar a respuestas incorrectas si los datos no están estructurados de manera que el modelo pueda acceder a la información correcta.
¿Cómo es posible que el GPT con acceso a un Excel proporcione una respuesta más precisa sobre los hoteles en Riviera Maya?
-El code interpreter utiliza filtros y análisis de datos para proporcionar respuestas. Si el Excel está bien estructurado y los datos están etiquetados correctamente, el GPT puede proporcionar respuestas precisas al aplicar los filtros adecuados.
¿Cuál es la principal limitación del code interpreter en comparación con la herramienta de retrieval?
-El code interpreter no entiende la semántica del texto y se enfoca en el análisis de datos y ejecución de código. Por lo tanto, no puede responder preguntas que requieran una comprensión profunda del contenido, como las que involucran descripción o significado.
¿Cómo se puede mejorar la eficacia del GPT para responder preguntas complejas si se sube un documento en formato de texto estructurado como JSON?
-Al proporcionar el documento en un formato de texto estructurado como JSON, se facilitan a los modelos de GPT la identificación y el análisis de la información relevante. Esto permite que el GPT use la herramienta de retrieval de manera más efectiva para responder a preguntas complejas.
¿Por qué la estructura de los datos en el documento subido es tan importante para el rendimiento del GPT?
-La estructura de los datos直接影响a la capacidad del GPT para identificar y acceder a la información relevante. Un documento bien estructurado permite que el GPT, ya sea a través de la herramienta de retrieval o el code interpreter, proporcione respuestas más precisas y coherentes.
¿Cómo afecta el formato del documento subido al tipo de preguntas que el GPT puede responder correctamente?
-El formato del documento determinará si el GPT utilizará la herramienta de retrieval o el code interpreter. Un documento en PDF es mejor para preguntas de semántica, mientras que un documento en Excel u otros formatos de datos estructurados favorece preguntas que requieren análisis numérico o de datos.
¿Por qué el GPT con acceso a un JSON pudo proporcionar la respuesta correcta a la pregunta sobre el hotel con más habitaciones?
-El formato JSON estructurado permite que el GPT identifique claramente la información relevante para la pregunta, como el número de habitaciones en cada hotel, lo que facilita proporcionar la respuesta correcta.
¿Cómo se puede optimizar el formato de un documento para que el GPT proporcione respuestas de mayor calidad?
-Se puede optimizar el formato de un documento asegurándose de que los datos estén bien estructurados y etiquetados, facilitando así que el GPT pueda utilizar la herramienta más adecuada para responder a las preguntas de los usuarios.
¿Cómo se puede transformar un PDF con texto e imágenes en un formato estructurado como JSON para mejorar la eficacia del GPT?
-Se puede utilizar herramientas de procesamiento de texto y modelos de GPT especializados en la visualización, como GPT 4 Vision, para extraer y transformar la información del PDF en un formato estructurado como JSON.
Outlines
😀 Diferencias en las respuestas de GPT según el formato del documento
Se discute cómo el formato de los documentos subidos al GPT afecta las respuestas que proporciona. Se menciona que se ha creado un GPT llamado 'Viaje al Caribe' para organizar viajes y se han comparado dos versiones de este GPT, una con acceso a un PDF y otra a un Excel, ambos conteniendo la misma información. Se formulan cuatro preguntas y se observan las diferencias en las respuestas, destacando que el GPT con acceso al PDF acertó en un caso y el GPT con acceso al Excel en otro, mientras que ambos fallaron en la tercera pregunta. Además, se explora la razón subyacente de estas diferencias en función de las herramientas de acceso a la información que utiliza el GPT: retrieval para formatos de texto y code interpreter para formatos como Excel o CSV.
🧐 Funcionamiento de las herramientas de acceso a la información del GPT
Se profundiza en cómo funcionan las herramientas de acceso a la información en el GPT. Se explica que la herramienta de retrieval utiliza embeddings para transformar textos en vectores numéricos y realizar operaciones matemáticas para encontrar textos semánticamente similares a la pregunta del usuario. En contraste, el code interpreter, que se activa automáticamente para formatos como Excel o CSV, escribe y ejecuta código de programación para analizar documentos y proporcionar respuestas. Se ilustra cómo el code interpreter filtra información en función de criterios específicos y cómo esto puede llevar a respuestas incorrectas si la información no está etiquetada adecuadamente.
📊 Elegir el formato de documento adecuado para el GPT
Se aborda la importancia de elegir el formato de documento correcto al subir información al GPT. Se sugiere que si los documentos contienen datos numéricos, es mejor utilizar el code interpreter y subirlos en formato Excel, mientras que para documentos con texto que requiere comprensión se debe usar un formato de texto. Se recomienda estructurar la información en un formato de texto como JSON para que el GPT pueda utilizar la herramienta de retrieval de manera más eficaz. Se proporciona un ejemplo de cómo estructurar la información en JSON para que el GPT pueda responder a preguntas específicas de manera más precisa.
📄 Comparación de la versión del GPT con acceso a JSON
Se compara la nueva versión del GPT con acceso a un documento en formato JSON con las versiones anteriores con acceso a PDF y Excel. Se formulan las mismas tres preguntas y se evalúa la capacidad del GPT para responder correctamente. Se destaca que la versión con acceso al JSON pudo responder correctamente a las tres preguntas, a pesar de que no todas las respuestas fueron perfectas debido a errores en la etiquetación de los datos. Se concluye que la estructuración adecuada de la información es clave para que el GPT pueda proporcionar respuestas precisas.
🤔 Consideraciones finales y posibles mejoras
Se ofrecen consideraciones finales sobre cómo se pueden mejorar las respuestas del GPT al entender cómo funcionan las herramientas de retrieval y code interpreter. Se recomienda que los usuarios entiendan estos procesos para decidir cuál es el mejor formato para subir la información según el tipo de preguntas que se esperan recibir. Se menciona la posibilidad de grabar un nuevo video para explicar cómo se transformó el contenido de un PDF en un formato estructurado JSON utilizando herramientas como GPT 4 Vision. Se cierra el video invitando a los espectadores a dejar comentarios sobre si les gustaría ver ese contenido adicional.
Mindmap
Keywords
💡GPT
💡Documentos en diferentes formatos
💡Retrieval
💡Code Interpreter
💡Embeddings
💡JSON
💡Excel
💡Herramientas de análisis de datos
💡Estructura de datos
💡Preprocesamiento de datos
Highlights
Se puede subir documentos en diferentes formatos para crear un GPT, y el formato afecta la respuesta del GPT.
Un ejemplo de GPT llamado 'Viaje al Caribe' ayuda a organizar viajes y se creó con acceso a documentos PDF y Excel.
La primera versión del GPT con acceso a un PDF sobre hoteles del Caribe dio una respuesta incorrecta sobre hoteles en Riviera Maya.
La segunda versión del GPT, con acceso a un Excel, identificó correctamente ocho hoteles en Riviera Maya.
El GPT con acceso al PDF falló al identificar hoteles por debajo de 2400 EUR, mientras que el GPT con acceso al Excel lo hizo correctamente.
Ambas versiones del GPT no pudieron identificar correctamente el hotel con más habitaciones.
La herramienta de 'retrieval' se utiliza con documentos PDF y otros formatos de texto, mientras que 'code interpreter' se utiliza con Excel y CSV.
El modelo de embeddings transforma textos en vectores para realizar operaciones matemáticas y encontrar similitudes semánticas.
El 'code interpreter' ejecuta código de programación para analizar documentos y proporcionar respuestas basadas en filtros y resultados de código.
El 'code interpreter' ofrece respuestas precisas y no invierte en la creación de información, a diferencia del 'retrieval' que puede confundirse con el contenido.
El formato de los documentos subidos al GPT debe depender del contenido y la naturaleza de las preguntas que se esperan recibir.
Documentos con datos numéricos se benefician del 'code interpreter' si se suben en formatos como Excel.
Documentos con texto y descripciones se beneficiarían de la herramienta de 'retrieval' si se suben en formatos de texto estructurado como JSON.
Una estructura de JSON organizada mejora la capacidad del GPT para responder a preguntas específicas y encontrar la información relevante.
El GPT con acceso a un documento JSON estructurado pudo responder correctamente a tres preguntas específicas sobre hoteles.
El etiquetado preciso de los datos es crucial para que el GPT pueda proporcionar respuestas precisas, independientemente del formato del documento.
La elección del formato de documento subido al GPT debe ser consciente para garantizar respuestas precisas a las preguntas más comunes.
La herramienta 'make' y el modelo GPT-4 Vision se utilizaron para transformar un PDF en un formato JSON estructurado.
Transcripts
seguro que a estas alturas ya sabes que
a la hora de crear tu propio gpt puedes
subir documentos en diferentes formatos
pero sabías que dependiendo del formato
en el que subas tus documentos la
respuesta del gpt es totalmente
diferente en este vídeo quiero enseñarte
un ejemplo he creado un gpt que se llama
Viaje al Caribe que es un gpt que te
ayuda a organizar Pues un viaje al
Caribe y he creado dos versiones en la
primera versión le he dado acceso a un
PDF vale que es este PDF que vemos aquí
que es un PDF que contiene pues
información y fotos sobre diferentes
hoteles en lugares del Caribe y luego he
creado un un segundo gpt con las mismas
instrucciones pero en vez de darle
acceso a ese PDF le he dado acceso a un
Excel que es este Excel de aquí y este
Excel contiene la misma información
exactamente la misma información que el
PDF es decir he creado dos versiones con
mismas instrucciones y acceso a la misma
información simplemente que en el primer
caso la información está en un PDF y en
el segundo caso la información está en
un fichero de Excel lo que quiero hacer
ahora es comparar las respuestas aquí
tenemos las dos versiones enfrentadas a
la izquierda la versión con acceso al
PDF a la derecha la versión con acceso
al Excel y vamos a preguntarle cuatro
preguntas la primera de ellas qué
hoteles hay en Riviera Maya
preguntémosle al PDF y preguntémosle al
Excel ya tenemos las respuestas Y son
diferentes en el caso del gpt con acceso
al PDF nos dice que hay ocho hoteles en
Rivera Maya y en el caso del gpt con
acceso al Excel nos dice que solo hay
cinco pues la respuesta correcta es ocho
he ido al Excel que se puede filtrar
mucho más fácil que el PDF y resulta que
en México Hay 11 de los cuales tres que
son estos tres de aquí no están en
rivira malla sino que está en Cancún por
tanto el número de hoteles que hay en
river Maya son ocho y en este caso ha
acertado el gpt con acceso al PDF Por
qué el gpt con acceso a este xcel ha
dicho que solo hay cinco en ribeira maya
Pues bueno Luego lo comentaremos Pero te
lo podrás imaginar mirando la columna I
donde se especifica la zona del Hotel
segunda pregunta qué hoteles hay
disponibles por menos de
2400 se lo preguntamos al gpt con acceso
al PDF y al gpt con acceso al Excel a
ver qué nos dicen Pues el gpt con acceso
al PDF nos dice que hay en total nueve
no 10 hoteles por menos de 2400 eur
Aunque si ponemos a analizarnos la
respuesta ya vemos cosas raras por
ejemplo nos dice aquí que el cuarto
hotel tiene un precio desde 2,610 pero
le hemos dicho que solo queremos los que
están por debajo de 2,400 Así que esta
respuesta ya vemos que muy bien no está
la de la derecha la del gpt con acceso
al Excel nos dice que hay siete hoteles
por debajo de 2400 si nos vamos a
nuestro Excel y filtramos por la columna
precio por debajo de 2400 vemos que hay
siete hoteles es decir que en este caso
la opción ganadora es la del gpt con
acceso al Excel De hecho si analizamos
un poco su respuesta pues vemos que
tiene sentido no todos los precios
asociados a los siete hoteles que nos
ponen la lista Pues están por debajo de
los
2400 tercera pregunta cuál es el hotel
con más habitaciones Pues bien
preguntemos a cada uno de los dos gpt y
veamos cuál es la respuesta el gpt de la
izquierda nos dice que el hotel con más
habitaciones es el Dreams playa mujeres
que tiene 502 lujosas y elegantes suits
y el gpt de la derecha nos dice en
cambio que el hotel con más habitaciones
es el sandals grande y nos dice que
tiene 311 habitaciones es decir nos ha
dado respuestas diferentes y ya podemos
ver que la de la derecha tiene que ser
incorrecta porque la opción de la
izquierda tiene más habitaciones Pues
bien si nos vamos a nuestro Excel y
leemos todas las descripciones también
podríamos habernos ido al PDF y leer las
descripciones después de leerme todas
las descripciones he visto que el hotel
que más habitaciones tiene es el lopesan
Costa bábaro que tiene 1442 habitaciones
es decir que ninguno de los dos gpt ha
conseguido acertar Bueno creo que con
tres ya tenemos suficientes ejemplos
para entender las diferencias no entre
subir un documento en PDF o subir un
documento en formato Excel voy a hacer
un breve resumen la primera pregunta
hemos preguntado pues qué hoteles hay en
Rivera Maya y el resultado Cuál ha sido
Pues el resultado ha sido que el gpt con
acceso al PDF nos ha dado una respuesta
correcta y en cambio el otro gpt nos ha
dado una respuesta que no era incorrecta
Pero bueno no era tan correcta como la
opción del PDF la segunda pregunta que
hemos preguntado es qué hoteles tienen
un precio inferior a 200 400 en este
caso la respuesta que nos ha dado el gpt
con acceso al PDF ha sido horrible nos
ha dado una lista con hoteles cuyo
precio eran claramente superiores a 2400
en el caso del segundo gpt la respuesta
ha sido correcta porque nos ha dado una
lista con únicamente los hoteles cuyo
precio eran inferiores a
2,400 y la tercera pregunta los dos gpt
han fallado porque hemos preguntado Cuál
es el hotel con más habitaciones y en
ambos casos nos ha dicho un hotel pues
que no era el que más habitaciones tenía
es decir que ninguno de los dos gpt ha
sido capaz de respondernos correctamente
a las tres preguntas pero bien vayamos a
lo importante Por qué funcionan
diferente porque si subo un PDF la
respuesta son diferentes que si subo un
Excel Pues porque la herramienta que
utiliza el gpt para acceder a la
información es diferente en función del
formato que subamos si subimos un
documento con formato pdf la herramienta
que utiliza es la de retrieval vale Y
por eso pone searching my knowledge en
cambio si subimos un Excel o un csv da
igual utiliza el code interpreter Y en
vez de searching My knowledge pone
analizando el code interpreter te sonará
Porque si vas al apartado de
capabilities dentro de la configuración
del gpt te deja activar o Desactivar
esta herramienta la herramienta de
retrieval no te deja activarla o
desactivarla Pues porque es la
herramienta que tiene que utilizar Sí o
sí Cuando subes un documento en un
formato diferente a un Excel o un csv
pero bien cómo funcionan estas dos
herramientas No porque si entendemos
Cómo funcionan las herramientas
entenderemos Por qué nos ha dado esos
resultados la herramienta de retrieval
Pues nosotros subimos un documento al
gpt lo hemos subido en PDF pero funciona
igual si hubiéramos subo subido un
documento de texto si hubiéramos subido
un archivo de código un Powerpoint vale
subimos un documento entonces lo que
hace el gpt o Open Ai es partir ese
documento en cachitos más pequeñitos
vale aquí en este ejemplo pues este
documento esta página se partiría en
esos cuatro cachitos pequeñitos vale en
estos cuatro rectángulos Aunque
realmente no sabemos el gpt cómo está
partiendo ese ese texto en cachitos más
pequeñitos puede que lo esté partiendo
en cachitos muyy pequeñitos o en
cachitos más grandes realmente no
sabemos lo que ocurre ahí debajo y openi
tampoco lo explica una vez que están
identificados estos cuatro o n múltiples
Trozos de texto lo que hace el gpt
utiliza un modelo de embeddings para
transformar los Trozos de texto
pequeñitos vamos a decir por ejemplo
párrafos para transformar los párrafos
en vectores qué es esto de los vectores
Pues un vector al final pues es una
colección de números una colección muy
muy grande de números de cientos miles
de números entonces este tema de los
embeddings que puede que lo haya
escuchado por ahí los modelos de
embeddings lo que hacen es transformar
texto en números de tal manera que el
vector resultante es decir este vector
de aquí el primero por ejemplo
representa la información semántica que
contiene este trozo de texto vale es
decir se transforma el texto en números
pero esos números de alguna manera
guardan información sobre el significado
del texto Por qué se hace esto por qué
guardar el texto en números y no guardar
directamente el texto pues porque al
transformar el texto en un vector es
decir en unos números puede se pueden
hacer operaciones Matemáticas con ellos
Entonces esto es un plano si los
vectores tuvieran dos dimensiones que no
es cierto realmente van a tener cientos
o miles de dimensiones pero imagínate
que tienen dos dimensiones no X e Y
entonces cada uno de esos vectores sería
un punto sería un punto dentro de unos
ejes de tal manera que podríamos saber
qué vectores están más próximos Y qué
vectores están más alejados y como esos
vectores esos números que hay dentro del
vector contienen información semántica
sobre el significado del texto
simplemente haciendo operaciones
Matemáticas podemos saber qué textos
contienen un contenido semánticamente
similar de tal manera que cuando el
usuario hace una pregunta podemos saber
qué trozo de texto es el que contiene
información Útil para poder responder a
la pregunta del usuario me explico
Imagínate que el usuario pregunta cuál
es el hotel con más habitaciones
entonces lo que hace el gpt Escoge ese
trozo de texto que es la pregunta
utiliza el mismo modelo de embeddings
que ha utilizado para vectorizar I ar
los Trozos de texto del documento y la
pregunta del usuario la convierte
también en un vector vale en este caso
en el ejemplo sería este vector que está
aquí en amarillo de tal manera que
tenemos para cada trozo de texto
identificado en el documento un vector y
para la pregunta del usuario otro vector
entonces lo que hace ahora el gpt es
utilizando cálculos matemáticos ver cuál
es el vector más próximo a la pregunta
del usuario es decir cuál es de todos
los Trozos de texto que hay dentro del
documento el trozo de texto que
semánticamente es más similar a la
pregunta del usuario es decir en este
caso como el usuario ha preguntado Cuál
es el hotel con más habitaciones pues
serán aquellos Trozos de texto que
hablen sobre habitaciones o número de
habitaciones en este ejemplo los
vectores es decir las bolitas que al
final están representando Trozos de
texto es decir los Trozos de texto más
similares a la pregunta del usuario
serían las bolas verdes entonces lo que
hace el gpt es hacer estos cálculos
matemáticos para de todos los Trozos de
texto que contienen el documento que
pueden ser cientos miles de Trozos de
texto con los Trozos de texto que
más relación tienen con la pregunta Y de
esa manera proporcionarle al usuario una
respuesta basada en esos Trozos de texto
similares Pero la idea con la que te
tienes que quedar es que cuando tú haces
una pregunta al gpt el gpt al
responderte no está utilizando todo el
contenido que hay dentro del documento
está utilizando exclusivamente los
Trozos de texto que ha considerado
relevantes para esa pregunta por eso
muchas veces en los ejemplos que hemos
visto pues se confunde porque no está
teniendo en cuenta los Trozos de texto
que debe tener en cuenta para
respondernos correctamente a la pregunta
que le hemos formulado veamos ahora Cómo
funciona el cod interpreter que es
bastante más sencillo de entender cuando
subimos un documento en formato Excel
formato csv verás como la sección de
capabilities dentro de la pestaña de
configuración del gpt automáticamente se
activa el code interpreter esto es pues
porque cuando subes un documento en
estos formatos la única herramienta que
puede utilizar el gpt para analizar esos
documentos es el code interpreter
Entonces cómo funciona pues por ejemplo
en el caso en el que le hemos preguntado
qué hoteles hay en la Rivera malla
nosotros hacemos esta pregunta que ties
haí en la Rivera malla Y entonces verás
cómo te pone analizando vale te pone el
gpt analizando y hay un desplegable si
clicas en el desplegable vas a ver un
código de python Por qué Pues porque lo
que hace el cot interpreter es escribir
código de python es decir es una
herramienta cuya habilidad es escribir
código código de programación y no solo
escribe código sino que también lo
ejecuta entonces lo que hace es primero
escribe el código luego lo ejecuta ese
código de programación pues genera un
resultado y ese resultado que ha
generado el código es lo que utiliza el
gpt para responder a tu pregunta En el
caso de la pregunta que le hice yo sobre
los hoteles que hay en Rivera malla esto
es una captura de pantalla del código
que generó y Bueno tengo aquí el código
vale esto que hay a la derecha es el
código que genero que es código de
programación código de python y por si
no sabes de python pues te explico un
poco lo que hace que es bastante
sencillo lo que hizo previo a este
código fue importar todos los datos que
habían en el Excel en una tabla vale en
un dataframe y lo que hace aquí es
filtrarlo Qué tipo de filtro hace pues
Bueno mira aquí debajo tengo una captura
de Excel Y aunque no se ve porque está
muy pequeñito dentro de la tabla había
una columna cuyo nombre es Zona vale
donde ahí para cada hotel está puesto la
zona en la que está ubicado el hotel
Pues si está en Rivera Maya si está en
puntacana o lo que fuera entonces lo que
está haciendo el código es filtrar por
el contenido que contiene esa columna
vemos que pone aquí entre corses zona
Vale pues está filtrando es decir está
buscando los hoteles que contienen la
palabra rivira malla en la columna zona
y después de aplicar este filtro lo que
hace es mostrar una tabla que contenga
estas columnas de aquí hotel situación
precio y estrellas Entonces esta segunda
línea de código lo que hace es generar
esta tabla que se ve por aquí y esa
tabla con información es la que utiliza
después para responderte pues para
decirte que los hoteles que ha en de
Maya son Pues los cuatro o cinco que que
hubiera Entonces por qué en este caso el
code interpreter falló es decir cuando
le hicimos esta pregunta a la versión
del gpt con acceso al Excel nos dio solo
creo que cuatro o cinco resultados
cuando en realidad había siete hoteles
en Rivera Maya pues la razón es que
realmente hoteles cuyo valor en la
columna zona fuera Rivera Maya solo
había cuatro o cinco había luego otros
dos o tres más cuya zona era Caribe Maya
que no es Rivera Maya estrictamente pero
realmente sí que es Riviera Maya Porque
si coges la dirección de ese hotel y la
pones en Google pues está en Riviera
Maya simplemente que esos hoteles dentro
de la tabla de Excel pues no estaban
etiquetados como que están en Rivera
Maya Entonces cuál es la principal
diferencia no entre entre los dos
métodos entre el retrieval o el code
interpreter pues como has visto el
retrieval es capaz de entender la
semántica que hay dentro del documento
es capaz de entender el significado de
los textos el code interpreter no el cod
interpreter lo único que hace es
escribir código de programación es decir
establece filtros lo bueno el cod
interpreter es que siempre te va a dar
resultados correctos es decir no se va a
inventar cosas no va a alucinar
ejecutará un filtro y si el filtro te
devuelve tres hoteles pues te devolverá
tres hoteles y te dará la información de
esos tres hoteles pero con el código
interpreter no te van a ocurrir cosas
como como la que hemos visto con los
precios cuando utilizamos el retrial es
decir cuando le preguntamos a la versión
de gpt con acceso al PDF pues qué
hoteles costaba menos de 2400 vimos que
no tenía coherencia la respuesta porque
nos daba un listado con hoteles cuyo
precio era superior a ese precio esto
con el c interpreter no te va a pasar
jamás porque cuando le preguntes por esa
pregunta No pues qué hoteles tienen un
coste menor a 2400 lo que va a hacer es
ejecutar un código de python que lo que
va a hacer es filtrar la columna de
precio por un valor a menor de 2400 es
decir va a funcionar bien en ese caso El
problema del code interpreter es que
como no es capaz de entender la
semántica Pues cuando haces preguntas
relacionadas con algo o cierto contenido
por ejemplo de la descripción de un
hotel Pues como no es capaz de entender
la descripción en sí no va a ser capaz
de responderte no va a ser capaz de
darte una respuesta buena Bueno espero
que hayas entendido las diferencias
entre los dos métodos entre el retrieval
y el code interpreter Pero la pregunta
que te estarás haciendo No es vale muy
bien pero en qué formato subo mis
documentos lo subo en Excel lo subo en
PDF lo subo en Powerpoint En qué formato
lo subo pues La respuesta es Depende
depende el contenido de los documentos
si por ejemplo tus documentos contienen
muchos datos numéricos pues utiliza el
cod interpreter es decir súbelo en un
formato Excel porque el cod interpreter
va a jugar muy bien con esos datos es
decir va a ser capaz de utilizar
fórmulas estadísticas para calcularte
medias medianas va a filtrar
correctamente Pues en este caso los
hoteles por precio o por número de
habitaciones si hubiera una columna con
número de habitaciones es decir si lo
que quieres son sacar estadísticas hacer
análisis de datos súbelo en Excel y
activa el cod interpreter pero si el
documento que quieres subir lo que
contiene es texto contiene descripciones
que hace falta entender que hace falta
entender el significado de esos textos
Entonces hú en un formato de texto para
que el gpt utilice la herramienta de
retrieval pero lo más importante Más
allá de los formatos es ponerle las
cosas fáciles al gpt en este caso por
ejemplo en este caso el documento que
queremos subir Pues apenas contiene
datos numéricos solo tenemos la columna
de precio con datos numéricos por lo
tanto es preferible subirlo en texto en
formato de texto vale en formato de
texto para que utilice la herramienta de
retrieval pero en formato de texto no
significa que le subas directamente el
PDF que tenemos con imágenes que es el
mismo PDF que estamos Compartiendo con
el usuario final es preferible que le
subas un formato de texto un poco más
estructurado donde toda la jerarquía y
toda la información esté mucho más clara
y eso puedes conseguirlo muy bien puedes
conseguir que un formato de texto tenga
una estructura muy clara si lo subes en
un formato json y lo que te voy a
enseñar ahora es el formato en el que
subiría yo el documento en este caso en
el caso de los hoteles con esto me
refiero a un formato de texto
estructurado que como ves pues no tiene
nada que ver con el PDF que hemos visto
antes no Subiré el documento a una
carpeta de drive y pondré el enlace en
la descripción para que puedas descargár
Telo y tú mismo Pues puedas hacer
pruebas incluso ver bien entender bien
Cómo es el formato no pero te lo explico
brevemente digamos que tiene tres
apartados este Jason tiene aquí un
primer objeto que es este de aquí que lo
que contiene es información sobre las
ubicaciones de los hoteles pongo todos
los hoteles agrupados por la zona en la
que están ubicados y para cada zona pues
pongo los hoteles hoteles ubicados en Ne
grill y Pongo aquí una Ray con todos los
hoteles en este caso solo uno no pero
por ejemplo hoteles ubicados en Rivera
Maya yo pongo aquí los hoteles que están
ubicados en Rivera Maya de tal forma que
si esto lo subo en este formato en Jason
el gpt utilizará la herramienta de
retrial y cuando yo le pregunte qué
hoteles hay en Rivera malla Pues el
texto el trozo de texto más relevante
para responder a esa pregunta pues
evidentemente va a ser este de aquí vale
es decir le estamos poniendo las cosas
fáciles al gpt Para que encuentre el
trozo de texto que queremos que utilice
para responder al usuario cuando haga
una pregunta eh como esta no y luego le
pongo información sobre los precios de
todos los hoteles ordenados de menor a
mayor y aquí pongo en parejas Pues el
nombre del Hotel el precio el nombre del
Hotel el precio de esta forma pues eh Ya
sabe dónde está la información sobre los
precios pues está aquí y de forma muy
estructurada muy clara y además ordenada
y luego más abajo pues pongo una lista
de todos los hoteles aquí ya con más
información pues para cada hotel pongo
el nombre del Hotel la situación el
alojamiento las instalaciones el precio
las estrellas la dirección el país y la
zona digamos que toda esta informaciónes
la información que contiene una fila del
Excel vale simplemente que aquí está en
formato de texto entonces pues para cada
hotel eh Hay toda esta información no en
total es un Jason Pues tampoco demasiado
extenso con 353 filas
vamos a ver ahora qué tal funciona he
creado un nuevo gpt con acceso a este
Jason vale es la tercera versión digamos
que tiene las mismas instrucciones que
la versión con acceso al PDF y las
mismas instrucciones que la versión con
acceso al Excel simplemente hemos
cambiado el formato del documento voy a
hacerle ahora pues las tres mismas
preguntas que hemos hecho antes primera
pregunta qué hoteles hay en Riviera Maya
nos acaba de dar una lista con cinco
teles y esta respuesta pues es bastante
similar a la respuesta que dio el gpt
con acceso al al Excel Por qué Pues
porque lo que ha hecho ahora mismo el
gpt para respondernos a esta pregunta es
utilizar ese trozo de texto que vemos
aquí en el json donde le ponemos los
hoteles ubicados en Rivera Maya es decir
al igual que la versión que tenía acceso
al Excel lo que está utilizando para
saber si un hotel está en Rivera Maya o
no es la etiqueta que le hemos puesto
nosotros en los datos ya sea en la tabla
de Excel o en este json de aquí es decir
no está interpretando los textos de cada
uno de los hoteles donde se describe
Pues dónde está situado sino que
simplemente ha cogido este texto de aquí
segunda pregunta qué hoteles hay por
menos de
2400 nos acaba de dar esta lista de
siete hoteles y los siete hoteles
tienendo un precio inferior a 2400 es
decir en este caso la respuesta ha sido
correcta nos ha dado una respuesta muy
similar a la respuesta que nos dio el
gpt con acceso al Excel que era una
respuesta correcta porque está
utilizando el cod interpreter es decir
que has visto como con un formato de
texto a pesar de no estar el gpt
utilizando el code interpreter es capaz
de respondernos a preguntas numéricas
Pues de forma correcta y tercera y
última pregunta pues qué hotel tiene más
habitaciones y nos dice el hotel con más
habitaciones es el lopesan que cuenta
con 1442 habitaciones en este caso al
contrario que las otras dos versiones
nos acaba de dar la respuesta correcta
justamente Este era el hotel con más
habitaciones de todos Así que esta
tercera versión este gpt con acceso al
documento en formato json ha sido capaz
de respondernos correctamente a las tres
preguntas no le he puesto una carita
sonriente a la primera pregunta es decir
No le hemos puesto un 10 Pues porque
realmente había dos o tres hoteles más
ubicados en Rivera malla pero realmente
no ha sido problema l gpt El problema es
que dentro de los datos pues esos dos
tres hoteles no estaban etiquetados como
Rivera Maya cuando en realidad Pues sí
que son hoteles que están ubicados en en
esa zona Así que más que culpa del gpt o
más que culpa del formato es culpa
nuestra de la persona que ha etiquetado
esos datos Obviamente si hacemos otra
pregunta diferente a estas tres
probablemente habrá alguna pregunta que
nuestro gpt con acceso al formato Jason
no sea capaz de responder correctamente
es decir No es infalible no es que
subamos el documento en formato json
como lo he estructurado yo y ya responda
bien a todas las preguntas pero lo que
te quería trasladar con este vídeo es
que bueno para empezar quería que
entendiese bien cómo funciona la
herramienta de retrieval la herramienta
de cod interpreter para que tú mismo
seas capaz de decidir En qué ocasiones
te merece más la pena subirlo en un
formato o en qué ocasiones te merece más
la pena subirlo en otro formato lo que
te recomiendo Es que una vez que
entiendas Cómo funcionan estas
herramientas Pues que trates de guardar
la información o de subir la información
al gpt en el formato más idóneo para el
tipo de preguntas que tú crees que los
usuarios van a hacer al gpt para que de
esa forma al menos las preguntas básicas
que puede tener cualquier usuario Como
por ejemplo Pues cuál es el precio de un
hotel o pues qué hoteles hay en
determinada zona Pues que al menos las
preguntas básicas las preguntas más
frecuentes el gpt sea capaz de
responderlas correctamente Espero que el
vídeo te haya resultado interesante y
que te hayado a entender mejor cómo
funcionan los gpt Y por cierto si tienes
curiosidad en saber cómo he conseguido
transformar pues este PDF de aquí con un
montón de texto y un montón de imágenes
en un formato estructurado como este de
aquí como este json pues pónmelo en
comentarios porque estoy pensando en
grabar otro vídeo explicando cómo lo he
hecho porque obviamente no lo he hecho
de forma manual he utilizado la
herramienta make que seguro que ya
conoces porque la ha nombrado muchas
veces he utilizado esa herramienta y el
modelo gpt 4 Vision para transformar el
contenido del PDF en este formato tan
estructurado que hemos visto que es un
formato Pues que funciona mucho mejor
que es un formato que conseguido generar
respuestas que el gpt genera respuestas
de mucha más calidad Así que nada lo
dicho Espero que te haya resultado
interesante y nos vemos en próximos
vídeos
تصفح المزيد من مقاطع الفيديو ذات الصلة
Estructura de los Prompts de chatGPT
Enfoque Cuantitativo y Cualitativo
Cómo he construido MI PRIMER GPT personalizado: ThePodcastMBA
Curso Excel - Capitulo 0, Introducción para Principiantes
Tipos de datos, inserción de información y guardado del archivo
Cómo utilizar GPT4-VISION para EXTRAER INFORMACIÓN de un PDF
5.0 / 5 (0 votes)