Como funciona un RAG y alternativas nocode al retrieval de asistentes
Summary
TLDREl video ofrece una visión detallada sobre la creación de asistentes de inteligencia artificial que funcionan con una base de conocimientos específica. Se discute la técnica de 'retrieval' y sus desafíos, como la inconsistencia y el costo elevado,对比 con otras técnicas como 'fine-tuning'. Se explora el uso de GPṬ personalizado y su acceso limitado a usuarios de GPṬ Plus. El video también calcula el costo de las consultas y sugiere alternativas para reducir gastos. Luego, se profundiza en el funcionamiento de un esquema de 'retrieval', desde la división de documentos en 'chunks' hasta la búsqueda semántica y la generación de respuestas finales. Se presentan herramientas no-code como Voiceflow y WordPress para implementar sistemas de 'retrieval' y se analizan sus ventajas y desafíos en términos de eficiencia y coste. El contenido es una guía para aquellos interesados en la construcción de asistentes de IA personalizados, destacando la importancia de la elección de estrategias y herramientas que se ajusten al caso de uso específico.
Takeaways
- 🤖 La creación de asistentes con conocimientos específicos puede no ser consistente cuando se utiliza la opción de retrieval, ya que puede ser costosa o generar alucinaciones.
- 📚 Las bases de conocimiento para los bots generalmente consisten en documentos en formatos como PDF, Word, texto, etc., y se utilizan para otorgar información nueva al asistente.
- 🔄 La técnica de 'fine tune' es una alternativa a retrieval que puede ser utilizada en ciertos casos, pero es más compleja de implementar.
- 🚀 Los 'GPT Custom' son una opción para los asistentes, pero solo disponibles para quienes paguen la suscripción GPT Plus.
- 💰 El uso de GPT para el retrieval puede ser costoso, especialmente cuando se consideran los tokens utilizados por las respuestas a las preguntas.
- 📈 Se puede calcular el costo de usar GPT para el retrieval, y este puede variar dependiendo de la versión de GPT utilizada.
- 📝 La técnica de 'splitter' se utiliza para dividir documentos en fragmentos de texto llamadas 'chunks', que son procesados para su uso en retrieval.
- 🔗 El 'overlap' entre chunks es importante para asegurar que la información relevante para responder una pregunta esté incluida.
- 📐 Los chunks son vectorizados usando modelos de embeddings, los cuales son vectores multidimensionales que representan la semántica de una frase o palabra.
- 🔍 La búsqueda semántica en la base de datos vectorial se realiza para encontrar chunks semánticamente similares a la consulta del usuario.
- 🛠️ Las herramientas no-code como Voiceflow y WordPress ofrecen implementaciones de retrieval y son flexibles en cuanto a la configuración de la base de conocimiento y el modelo de respuesta.
- 🔧 Es posible optimizar el uso de tokens y reducir costos al crear bases de conocimiento separadas para temas específicos y clasificar las preguntas antes de buscar en ellas.
Q & A
¿Qué problemas pueden surgir al utilizar la opción de 'retrieval' en un asistente?
-Los problemas pueden incluir inconsistencia en las respuestas, costos elevados y la posibilidad de errores o 'alucinaciones' en la información proporcionada.
¿Qué alternativa a la técnica de 'retrieval' se menciona en el script?
-Se menciona la técnica de 'fine tune', que puede ser empleada dependiendo del caso de uso, aunque es más compleja de implementar.
¿Qué son los 'chunks' en el contexto de la generación de conocimientos para un asistente?
-Los 'chunks' son fragmentos de texto creados a partir de documentos, que son utilizados para proporcionar información semántica al modelo de lenguaje.
¿Cómo se calcula el costo de una pregunta utilizando el modelo GPT 4?
-Se divide el número total de tokens utilizados por la pregunta entre un millón y se multiplica por el costo por token, lo que da el costo por pregunta.
¿Qué es la función del 'splitter' en el proceso de generación de chunks?
-El 'splitter' es el módulo encargado de descomponer los documentos en chunks, pudiendo tomar estrategias como dividir por cantidad de caracteres, tokens, o mantener oraciones completas.
¿Qué es el 'overlap' y por qué es útil en la generación de chunks?
-El 'overlap' es una parte de texto que se repite en los chunks adyacentes, lo que es útil para asegurar que la información relevante para responder una pregunta abarque varias oraciones o párrafos.
¿Qué son los 'embeddings' y cómo se relacionan con el proceso de búsqueda semántica?
-Los 'embeddings' son vectores que representan palabras o frases en un espacio vectorial multidimensional según su semántica. Se utilizan en búsquedas semánticas para encontrar chunks similares a la consulta del usuario.
¿Cómo se determina la similitud entre dos vectores en una búsqueda semántica?
-Se calcula el coseno del ángulo formado entre los vectores; cuanto más cercano al 1 sea el valor, más similares serán los vectores y, por tanto, los chunks que representan.
¿Qué factores complican el uso de un esquema de 'retrieval' cuando se incorporan cientos de archivos con temas distintos?
-La cantidad de chunks similares que pueden surgir, la elección del modelo de embeddings, el almacenamiento de estos en la base de datos, y la determinación de la relevancia de un chunk son factores que pueden complicar el esquema de 'retrieval'.
¿Qué es la generación aumentada con recuperación correctiva (SERAC) y cómo funciona?
-La SERAC es una técnica que analiza la calidad de los chunks devueltos por la búsqueda. Si son ambiguos, se realiza una búsqueda en internet para mejorar los resultados. Si son incorrectos, se toman solo los datos de internet.
¿Cómo se pueden reducir los costos asociados al uso de un asistente con la función de 'retrieval'?
-Se pueden crear bases de conocimiento separadas para temas específicos, lo que reduce la cantidad de chunks que se consideran para cada pregunta y, por tanto, el número de tokens utilizados.
Outlines
🤖 Creación de asistentes con bases de conocimiento específica
Se discute la creación de asistentes que trabajan con conocimientos específicos y los problemas encontrados cuando la opción de 'retrieval' no es suficiente, como la inconsistencia, el costo y las alucinaciones. Se menciona la técnica de 'fine tune' como una alternativa más compleja. Las bases de conocimiento generalmente incluyen documentos en formatos como PDF, Word, texto, etc. y se explora el uso de GPG Personalizado y sus limitaciones, especialmente en relación con la suscripción a GPG Plus. Se calcula el costo de usar GPG para respuestas basadas en la información de los documentos, destacando los posibles problemas económicos a gran escala.
📚 Funcionamiento del esquema de 'retrieval' y alternativas
Se profundiza en cómo funciona el esquema de 'retrieval', desde la división de documentos en 'chunks' de texto con estrategias como el número de caracteres o tokens, hasta la inclusión de 'overlap' para capturar información relevante. Se describe el papel del 'splitter' y se exploran diferentes métodos de división de texto, incluyendo el uso de 'lang Chain', un framework para JavaScript y Python. Se habla de la importancia de los 'embeddings' en la búsqueda semántica y se menciona la necesidad de almacenar estos vectores en bases de datos para evitar cálculos lentos. Además, se presentan diferentes opciones de bases de datos vectoriales y se discute el proceso de búsqueda semántica y la comparación de similitud entre vectores.
🔍 Desafíos y soluciones en la búsqueda semántica
Se abordan los desafíos de la búsqueda semántica, especialmente cuando se incorporan múltiples archivos con temas distintos, lo que puede generar una gran cantidad de 'chunks' similares y posibles resultados no deseados. Se discuten los componentes y variables involucradas en el proceso, como el selección del 'splitter', el modelo de 'embeddings', la base de datos de almacenamiento y la determinación de la relevancia de un 'chunk'. Se mencionan estrategias y soluciones investigadas por empresas y organizaciones, incluyendo la generación aumentada con recuperación correctiva (SERAC) y búsquedas jerárquicas. Se enfatiza la importancia de estar atentos a las novedades y la falta de un esquema ideal actualmente.
🛠️ Herramientas prácticas para implementar 'retrieval'
Se presentan herramientas prácticas para implementar el 'retrieval', destacando a 'Voiceflow' y 'WordPress' como plataformas que permiten construir chatbots con funciones de 'retrieval'. Se explora la configuración de estas herramientas, incluyendo la carga de bases de conocimiento, la selección de modelos de análisis, la personalización de la respuesta final y la inclusión de orígenes adicionales de conocimiento, como sitios web. Se comparan los costos en términos de tokens utilizados entre estos sistemas y los asistentes de OpenAI, y se sugieren estrategias para reducir estos costos, como la creación de bases de conocimiento separadas para diferentes temas.
📈 Optimización de costos y consideraciones finales
Se muestra una planilla que compara el costo de tokens en diferentes plataformas y se destaca la alta cantidad de tokens utilizados por WordPress en comparación con otros asistentes. Se sugiere que la subida de múltiples archivos en una sola base de conocimiento puede ser innecesaria y costosa. Se propone una variante para reducir costos, creando bases de conocimiento separadas para diferentes juegos de mesa y clasificando las preguntas antes de buscar en la correspondiente base. Se finaliza con un mensaje de motivación para investigar, probar y no frustrarse si los resultados no son inmediatamente satisfactorios.
Mindmap
Keywords
💡Retrieval
💡Fine-tune
💡GPT (Generative Pre-trained Transformer)
💡Costo de tokens
💡Splitter
💡Overlap
💡Embeddings
💡Base de datos vectorial
💡Recuperación correctiva
💡Herramientas no-code
💡Estrategias de chunking
Highlights
La importancia de crear asistentes con bases de conocimientos específicas para su eficiencia.
El uso de la técnica de 'retrieval' para otorgar nuevo conocimiento al asistente a través de documentos y manuales.
La complejidad y limitaciones de la técnica de 'fine tune' en comparación con 'retrieval'.
El costo asociado con el uso de GPlates para el procesamiento de consultas en asistentes.
La posibilidad de usar 'GPT Plus' para acceder a asistentes personalizados, pero su limitación por ser una suscripción de pago.
La estrategia de 'chunks' y 'overlap' para dividir documentos en partes relevantes para el modelo de lenguaje.
La utilidad del 'splitter' para descomponer documentos en chunks según diferentes estrategias.
La capacidad de incorporar orígenes de conocimiento adicionales, como sitios web, en la base de datos del asistente.
El uso de diferentes modelos de embeddings para vectorizar y comparar similitudes semánticas entre textos.
La eficiencia de la búsqueda semántica y cómo se determina la similitud entre vectores utilizando la función coseno.
Los desafíos de manejar grandes volúmenes de conocimiento y la necesidad de estrategias avanzadas para la búsqueda de información.
La exploración de nuevas técnicas y enfoques, como 'SERAC', para mejorar la calidad y precisión de las respuestas del asistente.
La importancia de la personalización y adaptabilidad en la implementación de esquemas de 'retrieval' para diferentes casos de uso.
La evaluación de herramientas no-code y la integración de IA en plataformas como Voiceflow y WordPress para el desarrollo de asistentes.
La flexibilidad de Voiceflow y WordPress en la configuración de asistentes, incluyendo la elección de modelos de lenguaje y ajustes de respuesta.
La consideración de factores como la longitud de los chunks, el modelo de embeddings y la cantidad de chunks para optimizar el rendimiento y los costos.
La creación de bases de conocimiento separadas para diferentes temas para mejorar la eficiencia de la búsqueda y reducir los costos.
La importancia de la experimentación y la adaptación continua para encontrar las mejores soluciones en el desarrollo de asistentes de IA.
Transcripts
muchas veces queremos crear asistentes
que trabajen con una base de
conocimientos específica y cuando
creemos que la opción de retrieval no
soluciona todo nos encontramos con que
no es consistente puede llegar a ser muy
costosa o tiene alucinaciones y muchas
veces hasta da error para empezar a
resolver esos problemas los primeros
saber cómo trabaja un retrieval o rack Y
qué alternativas
tenemos antes de empezar quiero
comentarte que en el canal vas a
encontrar mucho material no solo sobre
asistentes y automatizaciones así que te
invito a recorrerlo por último si te
gustan los videos No te olvides de
suscribirte o dar like para apoyar al
Canal Ahora sí las bases de conocimiento
que incorporamos a nuestro Bot consisten
Por lo general de documentos en formato
pdf archivos de word archivo de texto o
similares la idea de retrieval es
otorgar conocimiento nuevo al asistente
ya sea por ejemplo manuales de Nuestra
Empresa
o algún estudio reciente preguntas
frecuentes sobre nuestro sitio y demás
en fin es información que la ia no
conoce existe otra técnica denominada
fine tune que a veces dependiendo del
caso de uso se podría emplear pero es
mucho más compleja de implementar si
quieren aprender de ese tema tengo un
video les muestro el link aquí arriba
volviendo al retrib a los rack openen
Nos otorga la posibilidad de subir
archivos y emplearlos en los gpt
personalizados y también en los
asistentes el tema de los gpt
personalizados Es que solo los van a
poder usar aquellos que paguen gpt Plus
es decir si nuestro Bot está orientado a
nuestros clientes no podemos pedirles
que se suscriban a gpt Plus y por eso
van a verlo cómo lo hago en los
asistentes cuando habilitamos el
retrieval en asistente el mismo va a
poder responder en base a esa
información pero todo tiene un costo
observamos la cantidad de para una
simple pregunta puede llegar fácilmente
a los 5000 o más y eso puede ser un
problema hagamos un cálculo de costos
según la web de Open si usamos gpt 4
tendríamos por ejemplo 5000 por 30
dividido 1 millón eso es igual a 15
centavos la pregunta ese costo comprende
resolver solamente la parte interna
luego está el output que le agregaría
100 token no más en promedio podemos
probar el cálculo en el gpt 3.5 y
suponiendo que nos da un buen resultado
sin alucinaciones el valor pasa a ser
5000 por 0,5 di 1 millón o sea
0.0025 60 veces menor parece poco pero
imaginen que acceden a nuestro Bot unas
300 personas por día si hacen solamente
dos preguntas tendremos un costo de .
Med en gpt
3.5 lo que sería al mes
$45 además existe un costo adicional que
es mucho menor pero lo deben tener en
cuenta que es el almacenamiento de 0,2
gb por día de los archivos que vayamos
subiendo con estos valores vale la pena
analizar si hay alguna alternativa
dentro o fuera de Open Ey para entender
Por qué de tantos token debemos aprender
Cómo funciona un esquema rack Y a partir
de ahí investigar y evaluar opciones les
adelanto que en este video Vamos a
abordar herramientas no code y en un
futuro les mostraré una o varias
opciones en donde el costo baja
considerablemente pero tendrán que saber
o animarse a programar vamos a explicar
cómo funciona un esquema rack con el
siguiente diagrama lo primero que
tenemos es nuestro conocimiento en uno o
más documentos ya sean archivo de texto
PDF Word Jason python etcétera En
definitiva todo se resume a texto que
queremos que tenga en cuenta el modelo a
la hora de hacer una pregunta
en un esquema rack sencillo lo que se
hace con estos documentos es dividirlos
en fragmentos de texto llamado chuns hay
varios criterios o estrategias para
estas partes una de ellas consiste por
ejemplo en fijar una cantidad de
caracteres otra en fijar la cantidad de
token y muchas más aparte de eso cada
chunk Podría tener un pedazo del
anterior o sea un texto que se repite Y
esa sección se la llama overlap este es
útil porque porque a menudo la
información relevante para responder una
pregunta puede abarcar varias oraciones
o párrafos adyacentes a un documento al
permitir el solapamiento de chuns se
aumenta la probabilidad de que la
información relevante se capture en los
chunks recuperados el módulo que se va a
encargar de desarmar los documentos en
chunks se llama splitter aparte del
estrategia de cantidad de caracteres o
token el splitter puede tomar oraciones
completas o párrafos completos
voy a mostrarles esta web la misma sirve
para entender un poco de todo esto de
los chance viene con un texto por
defecto pero pueden pegar el propio aquí
se menciona a lang Chain que para el que
no lo conoce es un framework para
javascript y python bastante popular que
permite armar circuitos y trabajar con
distintos llm por ejemplo cambiemos el
texto completo por el siguiente como
método vamos a seleccionar splitter por
cantidad de caracteres la longitud del
chun será de 50 y por ahora cero de
solapamiento como pueden ver con valores
tan chicos quedan frases totalmente
sueltas que lo más probable es que no
sirvan para nada aumentemos el
solapamiento a cinco lo que es grises
nos van a indicar el texto que va a
estar en ambos chuns el de la izquierda
y derecha de ese
solapamiento ahora vamos a cambiar el
método para que cuente token en vez de
caracteres tener un límite por token es
más conveniente especialmente porque al
vectorizar existe un límite del que si
nos pasamos cierta información no se va
a incluir por ejemplo el modelo de
embedding de Open Ey tiene un máximo de
8192 token veamos otro método de
splitting de l Chain llamado recursive
chac text que lo que intenta hacer es
que los párrafos queden Unidos Voy a
aumentar el tamaño del Chan a 80 porque
50 puede ser muy poco para marcar un
párrafo vean como aquí está definido que
sean los dobles saltos o saltos simples
los que separan los chuns Por ejemplo si
definimos un largo muy pequeño
Igualmente los párrafos se van a
terminar dividiendo es decir lo que
ocurra primero va a provocar un Chan El
Salto de línea o o la longitud máxima
También tenemos otros presos por ejemplo
el de python Si queremos tener una base
de conocimiento con código de
programación y no queremos que las
funciones o clases se corten podemos
usar este para este caso Les recomiendo
subir la cantidad de token porque si no
se van a cortar Así que lo vamos a
setear en 200 y voy a pegar el siguiente
código También tenemos un preseo para
texto en markdown Y si vamos a la web de
l Chain vamos a encontrar que también
existen splitter por ejemplo para Jason
o html y para una gran cantidad de
lenguaje de programación vamos a volver
al diagrama una vez que tenemos los
chunks debemos vor realizarlos o lo que
se llama crear en vedios tengo un video
que explica qué son estos vectores la
búsqueda semántica el origen y demás
incluso explico las bases matemáticas
para emplear la función trigonométrica
del coseno que es la que compara estos
vectores el que esté interesado el link
lo voy a dejar aquí arriba a modo de
resumen Les comento que estos embedding
son vectores que ubican una palabra o
una frase en base a su semántica en un
espacio vectorial pero los mismos no son
como los que pudimos haber visto en
álgebra en donde tenemos dos o tres
dimensiones sino que será un espacio
multidimensional aquí podemos tener un
ejemplo en el modelo de Open ad b2 con
1536 dimensiones para uno nuevo
publicado hace poco las dimensiones
pueden llegar a
372 pero no son los únicos modelos de
embeddings si vamos a esta web y
queremos probar Tenemos muchos modelos
Es decir para vectorizar chunks no
dependemos de pen que nos va a cobrar
por ese trabajo de vectorizar podríamos
hacerlo con algún método de código
abierto el siguiente paso consiste en
que a todos estos env o vectores debamos
guardarlos en una base de datos porque
calcularlos cada vez que hacemos una
pregunta sería muy lento por ahora les
voy a nombrar alguna de las bases de
datos más conocidas F que está
desarrollada por Facebook es SP tag de
Microsoft mbus es una base de código
abierto chroma una base de datos
vectorial en memoria wib otra base de
datos vectorial de código abierto
elastic Search y pinec que es tal vez
una de las más conocidas y funciona en
la nube una vez que tenemos todo esto
guardado Cómo funciona el retrieval Por
eso tengo este otro diagrama todo
arranca con la persona que es una
consulta al llm de esa consulta se
calcula también el vector con el mismo
modelo de embedding que se usó para los
chunks y luego se hace una búsqueda en
la base de datos vectorial de de los
cuales vamos a tomar los c changs que
semánticamente son similares y se
devuelven con esos fragmentos de texto
sumado a la consulta original Se invoca
al llm que podría ser el gpt 4 Cloud 3 o
el que estén usando Y lo bueno es que
ahora el llm tiene disponible mucha más
información para responder Así que con
eso va a poder elaborar la respuesta
final y se la devuelve al usuario ahora
bien cómo fue esa búsqueda semántica Y
cómo sé que dos vectores son similares
vamos a pensar por un momento que
podemos reducir las dimensionalidad de
esos vectores a Solo dos como muestro en
la siguiente imagen todos los vectores
tendrán un punto de origen en común
entre ellos se va a formar un ángulo y
para determinar la similaridad semántica
se compara el coseno del ángulo que se
forma entre ellos Cuanto más cercano sea
uno el valor entonces Esas palabras o
frases serán más parecidas por por eso
en este ejemplo los animales están cerca
y la palabra auto está alejada ya que
estamos Les comento que el uso de la
función de coseno está en debate si
realmente es la forma correcta a la hora
de comparar pero por ahora es la más
utilizada lo interesante de todo esto es
que estos vectores van a representar
toda la semántica del chun y no
solamente una palabra por ejemplo las
oraciones el gato persigue al ratón y el
felino persigue al roedor pueden tener
diferentes
superficiales pero Su contenido
semántico es bastante similar parece
sencillo pero no lo es tanto
especialmente cuando el volumen de
nuestra base de conocimientos aumenta si
tenemos un único PDF que habla de un
solo tema este esquema probablemente
funcione bien Pero qué tal si empezamos
a incorporar cientos de archivos con
temas distintos la búsqueda podría no
funcionar en estos casos debido a los
miles de Chan que pueden llegar a ser
similares y podrían tener as no deseadas
repasemos los componentes y cantidad de
variables que ya
mencioné hay que decidir qué splitter
emplear también el modelo de embeddings
luego tenemos la base de datos donde hay
que almacenar esos embedding hay que ver
también Cuántos chunks pueden ser
relevantes para una consulta y Cómo
determinamos que un Chan es relevante
por el valor de su coseno luego hay que
decidir el modelo a utilizar para
respuesta final Una mala elección puede
afectar a todo el conjunto muchas
empresas organizaciones y personas de
forma particular están dedicando tiempo
a investigar las mejores soluciones o
estrategias por ejemplo esquemas donde
se realizan embeddings de no solo los
chunks sino de los resúmenes de cada
documento también otra alternativa es
realizar resúmenes de secciones de cada
uno de estos documentos e incluirlos en
los chunks e incluso también los
metadatos que por ejemplo existen en los
archivos PDF o archivos de word una de
las técnicas que estuve estudiando que
es bastante nueva se llama ser rac
generación aumentada con recuperación
correctiva y en esta se agrega un
componente adicional que analiza los
chunks de vueltos para ver qué tan
buenos son en calidad si son correctos
sigue por el camino normal si son
ambiguos se hace una búsqueda de
internet y esa búsqueda suma a los
chunks dev vueltos Y si son incorrectos
se hace una búsqueda de internet y
solamente se toman los datos de internet
también hay alternativa de búsquedas
jerárquicas y así podemos seguir creo
que a futuro la lógica indica que si
queremos realmente obtener la respuesta
que necesitamos debemos considerar ir
por un retrial compuesto por etapas algo
así debería resolver la lentitud y
también la precisión tiene que surgir
nuevos métodos para que un esquema rack
sea eficiente Así que hay que estar
atentos a las novedades en este momento
no existe el esquema ideal y
probablemente va a depender en gran
medida de nuestro caso de uso a resolver
como mencioné antes no sabemos
internamente qué hace Open Ai cuando
ejecuta el retrieval pero por la
cantidad de tokens que emplea en cada
prom no me parece que realice una simple
búsqueda de chun similares y nada más de
hecho lo que me llama más la atención Es
que a una misma pregunta la cantidad de
token siempre es diferente puede
responder con solo 1000 token o 5000 es
como que metiera una cierta aleatoriedad
en los chuns usados o algo más ahí por
detrás desconocido tal vez en un futuro
nos permitan parametrizar ya sea
cantidad de chuns longitud de los mismos
el modelo de vectores etcétera Pero por
ahora no tenemos nada de eso pasemos un
poco a la parte práctica para no aburrir
tanto lo siguiente son simples pruebas
en algunos casos aplico un poco de
creatividad Pero no quiero que crean que
algo de lo que voy a mostrar es la mejor
opción son alternativas las herramientas
que ya vimos en el canal como ser
wordpress y voiceflow implementan
retrial propio y vamos a ver qué tan
flexibles son casi todos los chatbot
comerciales que ya tiene incorporada
Inteligencia artificial también tiene la
función de retrieval o la están
implementando y no solo los chatbots
sino también otras herramientas para
hacer desarrollos con ea Como por
ejemplo Flow wide lm Studio y otras
primero veamos a voiceflow que permite
construir chatbot y la que tenga un par
de videos en el canal en este caso tengo
armado este minic circuito en donde acá
pregunta el sistema va a buscar en la
base de conocimiento si de casualidad no
se encuentra la respuesta me responde un
texto generado por una ia Dónde se
encuentra esta base de conocimiento
Bueno vamos a la sección de contenido y
luego en la parte de agentes están todos
los archivos Por ejemplo si subimos un
archivo desde la siguiente opción txt
PDF o Word una vez que lo termina de
vectorizar podemos ver los Chan
generados si bien no podemos
parametrizar la longitud de los mismos
el overlap etcétera por lo menos de aquí
podemos verlos luego también podemos
hacer pruebas presionando el siguiente
botón por ejemplo voy a preguntar lo
siguiente Lo bueno es que nos aparecen
los Chan seleccionados en este caso tres
que es un valor por defecto desde este
otro botón se pueden también cambiar el
modelo que va a analizar la unión de los
Chan resultantes con la preguntas del
usuario para alguno de estos modelos
debemos pagar por la versión Pro otra
cosa que se puede configurar es la
temperatura que la creatividad del Bot
para la respuesta final también la
longitud de esta respuesta y la cantidad
de chunks a considerar que como máximo
son 10 este valor es muy distinto al que
ya van a ver que tiene wordpress también
podemos establecer la definición del Bot
similar a la definición del asistente de
Open Ai en mi caso puse el siguiente
texto el que estaba por defecto no era
malo pero no me gustaba que este siempre
hacía un resumen para la respuesta final
voiceflow tiene algo que a mi parecer
está muy bueno Y es que existen otros
orígenes para la base de conocimiento
por ejemplo Podemos agregar un sitio web
y también lo va a vectorizar y de hecho
podemos colocar que cada cierto tiempo
se renueve me imagino que utilizarán
algún splitter especial para html vamos
al flujo en este componente hago la
llamada a la base de conocimiento con la
query del usuario ejecutemos el circuito
y coloquemos la siguiente pregunta
Perfecto es considerable la diferencia
de tokens empleados respecto a un
asistente para la misma base de
conocimiento Igualmente la calidad de la
respuesta al ser un gpt 35 es inferior a
la del asistente que usé de Open veamos
otra herramienta que ya mostré en el
canal llamada
wordpress aquí tengo un circuito similar
al de boyflow la base de conocimiento se
carga desde esta opción lateral y por
tenemos una base de conocimiento que
puede estar formada por múltiples
documentos en varios formatos ya sea PDF
txt o Word aparte de esto tenemos
múltiples orígenes pero solo solo se van
a vectorizar los que sean documentos por
ahora subimos un archivo luego de unos
segundos termina la vectorización y
podemos ver cómo quedaron los chunks al
igual que se podía en boyflow la
búsqueda en la base de conocimiento se
puede hacer de dos formas en el
componente startar cada vez que llega
una pregunta que en nuestro caso lo
vamos a Deshabilitar y luego con este
otro módulo que también sirve para hacer
búsquedas en la base de conocimiento si
no deshabilitamos el Start la búsqueda
en la basa de conocimiento se va a hacer
dos veces y nos va a consumir el doble
de token luego debemos ir a la sección
de asistentes para activar este en
particular wordpress ofrece actualmente
varios asistentes para que el asistente
no conteste automáticamente sino que
seamos nosotros qui es vamos a marcar la
opción avanzada la siguiente opción es
muy interesante podemos incluir
información a la gente a través de dos
variables una que controla el resumen de
toda la conversación y otra que tiene la
transcripción esto es similar a tener
una memoria de todo lo que se habló
parecido a los hos en los asistentes de
Open Ai hay que tener en cuenta que para
que funcionen esas variables debemos
activar otro agente llamado summary
agent Si quieren gastar menos token
podrían eliminar eso Pero puede ser útil
tener ese hilo de conversación
Dependiendo el caso luego tenemos la
elección del modelo pueden probar el 3.5
que es el más rápido o el híbrido que lo
que hace es probar el 3.5 y si no tuvo
respuesta automáticamente pasa al cuatro
lo que sig es una aclaración importante
son estas dos variables una va a
contener la respuesta y otra va a
contener Cuáles bases de conocimiento
fueron empleadas veamos el agente que
hace el resumen y transcripción como
dije antes no es obligatorio tenerlo
activo en este agente podemos controlar
el largo del resumen y la transcripción
para que tampoco consuma tantos tokens
ahora probemos a hacer la misma pregunta
que en bflow a ver cuánto se gasta
cuando termina eso está aquí en la
sección de log si abrimos la opción de
noled agent vemos que se usaron los 1es
chuns de la base de conocimiento y por
qué tantos en realidad todos es que
wordpress ahora siempre usa 50 chunks de
manera fija Así que si nuestra Ase tiene
menos los vas usar a todos al usar
tantos chunks la respuesta va a ser muy
costosa les muestro la siguiente
planilla en una prueba con un documento
PDF que tenía más de 50 chuns Siempre la
cantidad de tonkes rondaba los 16,000
mucho más que la misma prueba en el
asistente y que en boyflow en mi caso
todos estos documentos tratan de
distintos juegos de mesa un es el acone
uno de carreras y uno de estrategia si
subiera todos los archivos en la misma
base de conocimiento el uso de 50 Chan
sería innecesario para cada pregunta
entonces una variante que hice solo para
probar fue crear una base de
conocimiento separada en la siguiente
carpeta cada una con un archivo distinto
Cómo hago para buscar en una o en otra
bueno armé un circuito alternativo para
cada pregunta la clasifica primero en
qué juego corres y luego pueda decidir
en cuál de ellos Buscar No digo que sea
la mejor manera Pero puede servir para
reducir los costos solo para que vean
que funciona conecto el circuito y voy a
realizar la
pregunta perfecto Recuerden que los
asistentes y muchas otras cosas siguen
estando en modo beta investiguen prueben
y no se frustren si no salen las cosas
espero les haya gustado el video chao
Посмотреть больше похожих видео
Cómo EMBEBER UN GPT en una página WEB [Tutorial paso a paso]
Cómo construir un agente con la nueva API de OpenAI en menos de 5 minutos
7 herramientas de Inteligencia Artificial para crecer tu negocio
5 herramientas de IA para potenciar tus estudios
LO ÚLTIMO EN PISTOLAS SELLADORAS O DE SILICONA
He probado 100 herramientas de IA. Estas son las mejores
5.0 / 5 (0 votes)