Nuevo Avance DESBLOQUEA EL POTENCIAL de los LLMs | Reflection 70B
Summary
TLDRUn grupo de dos personas ha desarrollado una técnica de 'reflection tuning' que mejora significativamente el razonamiento de un modelo de IA de código abierto llamado 'Reflection 70b'. Basado en el modelo LLaMA, logra competir con modelos comerciales más grandes como GPT-4 y Codex. La técnica permite al modelo corregir sus propios errores y razonar de manera más elaborada. Se espera que próximamente se lance una versión mejorada con el modelo LLaMA 3.1 405B, lo que podría llevar a avances significativos en la IA.
Takeaways
- 😀 Un grupo de dos personas desarrolló un modelo de IA utilizando técnicas de 'reflection tuning', mejorando significativamente sus capacidades de razonamiento.
- 🎯 El modelo, conocido como 'reflection 70b', superó a modelos comerciales como GPT-4 y CLoT SoNet 3.5 en tareas de razonamiento lógico y programación.
- 🌟 La técnica 'reflection tuning' permite a los modelos de lenguaje corregir sus propios errores antes de comprometerse con una respuesta, lo que mejora su rendimiento.
- 📊 En comparaciones, 'reflection 70b' mostró resultados superiores en benchmarks de programación y razonamiento matemático, pulverizando las métricas de otros modelos.
- 🔍 El modelo también demostró ser capaz de resolver problemas mal etiquetados, lo que indica una comprensión más profunda y no solo memorización de respuestas.
- 🚀 Se espera que próximamente se liberen versiones más potentes de modelos open source, posiblemente superando a modelos comerciales privados.
- 🤖 La capacidad de los modelos para 'pensar' y 'reflexionar' sobre las tareas que se les piden, como se ve en 'reflection 70b', es un avance significativo en la IA.
- 📚 La técnica 'reflection tuning' y la generación de 'datos sintéticos' están siendo vistas como herramientas poderosas para el entrenamiento de modelos de IA más avanzados.
- 💡 La comunidad de IA está mostrando una gran actividad en el desarrollo y prueba de modelos open source, lo que sugiere un rápido avance en la tecnología.
- 🌐 El impacto de estos avances es amplia, abriendo nuevas posibilidades en el razonamiento de la IA y su aplicación en múltiples campos.
Q & A
¿Qué significa 'reflection tuning' y cómo se relaciona con el rendimiento de los modelos de lenguaje?
-Reflection tuning es una técnica desarrollada para permitir que los modelos de lenguaje (LLMs) corrijan sus propios errores. Se relaciona con el rendimiento al permitir que los modelos sean más críticos con sus respuestas y realicen una doble corrección antes de comprometerse con una respuesta, lo que mejora su capacidad para razonar y resolver problemas.
¿Cuál es la diferencia clave entre el modelo 'reflection 70b' y otros modelos de lenguaje como GPT-4 y CLoT Sonet 3.5?
-El modelo 'reflection 70b', a pesar de ser más pequeño en tamaño, logra competir y superar a modelos más grandes como GPT-4 y CLoT Sonet 3.5 en tareas de razonamiento lógico y programación. Esto se debe a la técnica de 'reflection tuning' que ha sido aplicada, permitiendo un rendimiento más potente en benchmarks de programación y razonamiento matemático.
¿Qué es un 'dataset sintético' y cómo se utiliza en el entrenamiento de modelos de IA?
-Un 'dataset sintético' es un conjunto de datos generado por la inteligencia artificial para entrenar a otros sistemas. Se utiliza para apoyar en las herramientas actuales y generar modelos más potentes, ya que permite que los modelos aprendan a actuar de una forma más elaborada y con mayor calidad en el proceso de razonamiento.
¿Cómo se puede aplicar la técnica de 'reflection tuning' para mejorar la precisión en tareas específicas como la escritura de espejo?
-La técnica de 'reflection tuning' se puede aplicar para mejorar la precisión en tareas específicas al hacer que el modelo realice un proceso de reflexión y autocorrección antes de dar una respuesta. En el caso de la escritura de espejo, el modelo descompone la tarea, reflexiona sobre los desafíos y luego verifica la respuesta antes de presentarla, lo que aumenta su exactitud.
¿Qué es el 'thinking' y cómo se relaciona con la técnica de 'reflection tuning'?
-El 'thinking' se refiere a la habilidad de los modelos de lenguaje para simular un proceso de pensamiento crítico y razonamiento antes de producir una salida. Se relaciona con la técnica de 'reflection tuning' porque esta última fomenta que el modelo realice un 'thinking' antes de responder, lo que le permite identificar y corregir posibles errores en su razonamiento.
¿Cómo se puede generar un 'prompt' para inducir un comportamiento de 'thinking' en un modelo de lenguaje?
-Para generar un 'prompt' que induzca un comportamiento de 'thinking' en un modelo de lenguaje, se pueden incluir instrucciones específicas que soliciten al modelo que descomponga una tarea en pasos, que realice una reflexión sobre los retos y dificultades de la tarea, y que verifique su respuesta antes de presentarla.
¿Qué es la 'etiqueta de reflexión' y cómo se utiliza en el proceso de razonamiento de los modelos de lenguaje?
-La 'etiqueta de reflexión' es un mecanismo utilizado por los modelos de lenguaje para marcar y separar el proceso de reflexión interna. Se utiliza en el proceso de razonamiento para permitir que el modelo realice una autocorrección y verificación de su razonamiento antes de producir una salida, lo que mejora la calidad y precisión de sus respuestas.
¿Cuál es la importancia de la capacidad de razonamiento en los modelos de lenguaje y cómo se mide?
-La capacidad de razonamiento en los modelos de lenguaje es crucial para su capacidad para resolver problemas complejos y entender contextos. Se mide a través de benchmarks específicos que evalúan el desempeño del modelo en tareas de programación, matemáticas y razonamiento lógico, donde se comparan sus resultados con modelos de referencia.
¿Qué es la 'sobreajuste' en modelos de lenguaje y cómo se evita con técnicas como la 'reflection tuning'?
-La 'sobreajuste' en modelos de lenguaje ocurre cuando el modelo memoriza respuestas específicas en lugar de aprender a razonar de manera generalizable. Se evita con técnicas como la 'reflection tuning' al hacer que el modelo realice un proceso de reflexión crítica y autocorrección, lo que le permite识别 y corregir errores antes de comprometerse con una respuesta.
¿Cómo se puede utilizar la 'reflection tuning' para mejorar la resolución de problemas mal etiquetados en benchmarks?
-La 'reflection tuning' puede utilizarse para mejorar la resolución de problemas mal etiquetados al fomentar que el modelo realice un razonamiento crítico y una autocorrección antes de producir una salida. Esto permite que el modelo identifique y corrija errores en la etiqueta del problema y找到 una solución válida incluso cuando la etiqueta original es incorrecta.
Outlines
🚀 Avances en IA: Reflección 70b desafía a modelos comerciales
Se discute una noticia revolucionaria en el campo de la inteligencia artificial, donde un pequeño equipo ha logrado mejorar significativamente el rendimiento de un modelo open source llamado 'reflection 70b' mediante técnicas de 'reflection tuning'. Este modelo, con solo 3.170 millones de parámetros, ha alcanzado niveles comparables a modelos comerciales como GPT-4 y Codex Sonnet 3.5 en tareas de razonamiento lógico y programación. La técnica permite a los modelos corregir sus propios errores, lo que se evidencia en su desempeño excepcional en benchmarks comparativos, superando a modelos mucho más grandes como Llama 3.1 405B. Además, se menciona que se espera liberar una versión mejorada del modelo Llama 3.1 405 con la aplicación de 'reflection tuning', lo que podría resultar en un modelo open source aún más potente.
🔍 Reflexión y rendimiento en modelos de lenguaje
Se explora cómo el modelo 'reflection 70b' se desempeña en tareas específicas, como la escritura de la primera frase de la Declaración de Independencia en espejo. El modelo demuestra una capacidad única de 'thinking' y 'reflection', donde descompone la tarea en varios pasos y luego reflexiona sobre los desafíos que presenta. Esto incluye la elección de la técnica más desafiante para la tarea, la verificación de la respuesta y la corrección de errores internos. Además, se destaca cómo la técnica 'reflection tuning' permite al modelo reconocer y corregir errores, como en el caso de contar las 'r's en la palabra 'strawberry', lo que demuestra una mejora en la calidad del razonamiento y una reducción en el overfitting.
🤖 Mejores respuestas a través de la auto-evaluación
Se analiza cómo los modelos de lenguaje pueden mejorar sus respuestas mediante técnicas de auto-evaluación y razonamiento paso a paso. Se presentan ejemplos de cómo el modelo, al enfrentarse a preguntas complejas, planifica y ejecuta un proceso de pensamiento que incluye la identificación de números, comparaciones y la aplicación de técnicas de 'Chain of thoughts'. También se discute cómo estos procesos de pensamiento pueden ser generados y utilizados para crear conjuntos de datos sintéticos, que a su vez pueden entrenar a modelos más potentes. Se sugiere que estos avances pueden llevar a una nueva fase en la inteligencia artificial, donde los modelos sean capaces de razonar de manera más fiable y didáctica.
🌐 Implicaciones y futuro del razonamiento en IA
Se reflexiona sobre las implicaciones de la capacidad de razonamiento mejorada en modelos de lenguaje y su impacto en el futuro de la inteligencia artificial. Se menciona la posibilidad de que estos modelos, una vez cuantizados y optimizados, puedan ser ejecutados en sistemas convencionales. Además, se destaca la importancia de la comunidad en el desarrollo y prueba de estos modelos, y se sugiere que la competencia entre modelos open source y comerciales puede acelerar el avance en la tecnología. Se concluye con la expectativa de que estos avances en la IA traerán nuevas capacidades y mejoras en la resolución de problemas.
🔮 Perspectivas de la IA y la comunidad
Se hace un llamado a la comunidad para que profundice en el estudio y desarrollo de modelos de IA con capacidades mejoradas de razonamiento. Se anima a la curiosidad y al aprendizaje continuo, y se sugiere que la próxima fase de la IA puede traer sorpresas y avances significativos. Se invita a la audiencia a seguir explorando y contribuyendo al campo de la inteligencia artificial.
Mindmap
Keywords
💡IA
💡Modelos de IA
💡Razonamiento
💡Proyecto Side
💡Tuning de Reflectión
💡Benchmark
💡Open Source
💡Prompting
💡Datos sintéticos
💡Self-reflection
Highlights
Un grupo de dos personas desarrolla un modelo de IA con rendimiento comparable a modelos más grandes y complejos.
El proyecto, considerado un 'side project', logra mejorar las capacidades de razonamiento del modelo usando técnicas de 'reflection tuning'.
El modelo, con nombre 'reflection 70b', supera a modelos como GPT-4 y CLoT Sonet 3.5 en tareas de razonamiento lógico y programación.
La técnica 'reflection tuning' permite que los modelos de lenguaje corrijan sus propios errores.
Se destaca la capacidad del modelo para resolver problemas mal etiquetados, mostrando una señal de inteligencia más allá del simple overfitting.
Se anuncia la liberación próxima del modelo 'llama 3.1 405' con 'reflection tuning', lo que podría llevar a un modelo open source más potente que los modelos comerciales.
La técnica 'reflection tuning' es sencilla pero muy potente, permitiendo a los modelos reconocer y corregir sus errores.
Se discute la capacidad del modelo para 'pensar' y 'reflexionar' sobre las tareas que se le piden, mostrando un nivel de razonamiento más elaborado.
El modelo demuestra una mejora en la generación de respuestas a través de un proceso de 'thinking' y 'reflection' interno.
Se explora la posibilidad de ocultar el proceso de 'thinking' al usuario, mostrando solo la solución final.
Se sugiere que técnicas de 'prompting' pueden ser clave para mejorar el rendimiento de los modelos de lenguaje actuales.
Se menciona la generación de 'datos sintéticos' como herramienta para entrenar a modelos más potentes.
Se destaca la importancia de la escala de los modelos en la eficacia de las técnicas de 'reflection tuning'.
Se aborda la dificultad de ejecutar el modelo 'reflection 70b' debido a su tamaño y los requisitos de hardware.
Se espera que la comunidad comience a trabajar en el modelo open source y se genere un feedback claro y riguroso sobre su funcionamiento.
Se refleja la emoción y la expectativa ante la posibilidad de que se haya alcanzado un nuevo nivel en el razonamiento de la IA.
Se insta a seguir explorando el modelo y se promete带来更多关于人工智能的内容.
Transcripts
atentos porque tenemos una de las
noticias más importantes de las últimas
semanas y una noticia que creo que da un
golpe sobre la mesa en el tablero de
juego y que va a determinar Cómo
evolucionen algunas de las cosas de aquí
a las próximas semanas y el titular aquí
sería que un grupo de dos personas
trabajando pocas semanas en un proyecto
que era un Side project una idea loca
pues pensad entusiastas de la ia que
dicen vamos a intentar uno de
estos modelos Open source y aplicar una
técnica nueva para ver si podemos
mejorar las capacidades de razonamiento
del modelo a ver si podemos sacarle un
poquito más de rendimiento pues han
desarrollado una técnica que no es
complicada de entender Ahora la vamos a
examinar y aplicándola lo que han
obtenido como resultado es un modelo
mucho más potente un modelo que
basándose en llama
3.170 B consigue colocarse al nivel de
gpt 4o y clot sonet 3.5 en tarea de
razonamiento pensamiento lógico
programación una auténtica barbaridad Y
esto es tan importante y quiero comentar
tantas cosas sobre esto que quiero que
lo vayamos examinando paso a paso Mirad
vamos a Traducir el el post que es lo
único que tenemos de de mat shamer que
nos cuenta que le complas anunciar
reflection 70b esto lo han tenido que
cambiar porque ya sabemos que por la
licencia de meta cada modelo que se base
en llama pues va a tener que tener
puesto llama reflection 70b va a cambiar
el nombre en algún punto seguramente
Pero bueno el modelo de código abierto
se trata de un modelo Open source líder
en el mundo si ahora a día de hoy
queréis ejecutar el modelo Open source
más más potente tenéis que trabajar con
reflection 70b y reflection 70b está
entrenado con una técnica que ellos
llaman reflection tuning ahora vamos a
ver de qué se trata una técnica
desarrollada para permitir que los llms
corrijan sus propios errores Mirad la
información importante la tenemos en
esta tabla que es donde se compara al
modelo reflection 70b con otros modelos
pues bastante potentes No clot sonet 3.5
clot 3 opus gpt 4o gemini 1.5 pro y
llama 3 2.1 405b fijaos que no hace ni
siquiera la comparación con el modelo
del tamaño equivalente sino que se ha
saltado al modelo más grande quiero
basarme justamente en estas dos para que
veáis la diferencia el modelo mediano
con la técnica reflection tuning
consigue en todos estos benchmark gpq
mml human eval de programación
matemáticas diferentes benchmarks fijaos
que pulveriza todas las métricas vale
donde el modelo grande de llama 3.1 50.7
el modelo mediano consigue
55.3 muy cerca en este caso de los
modelos comerciales fijaos que en el
caso de gpt 4 lo supera vale 55,3 frente
a 53,6 89,9 en este caso reflection 70b
supera todos en el mml benchmark human
eval tareas de programación está a la
par que clot sonet 3.5 y está por encima
de gpt 4o pulveriza de nuevo a llama 3.1
405 a nivel de razonamiento matemático
ya estamos al 80% fijaos 10 puntos
porcentuales sobre clot 3.5 sonet 20
sobre clot 3 opus 15 sobre gpt 4 Pero
qué locura es esta cinco puntos
porcentuales sobre el modelo grande de
meta y fijaos que en todas estas
métricas Este modelo lo pulveriza de
hecho pasa una cosa curiosa y es que en
este benchmark por ejemplo hay tareas
que se conocen que están mal etiquetadas
están mal erróneamente etiquetadas y el
modelo falla en ellas pero resolviéndolo
correctamente no es como que el modelo
incluso consigue encontrar soluciones
válidas a problemas que están mal
etiquetados lo cual es una muy buena
señal para entender que esto no es una
cuestión de overfitting de memorizar las
respuestas que en el benchmark se hayan
podido filtrar en internet pero es que
aquí Ellos nos dicen que la semana que
viene la próxima semana van a liberar el
modelo
405b el fine tuning del modelo llama 3.1
405 aplicándole Esta técnica de
reflection tuning que posiblemente si
extrapolamos va a ser un modelo Open
source que esté por encima que adelante
a los modelos comerciales privados más
potentes ojo y por qué me parece
importante esta noticia bueno fijaos que
durante todo este año hemos visto como
todos los modelos han acabado
convergiendo a un mismo lugar no a un eh
cierto nivel de rendimiento cercano a
gpt 4 superándolo en algunos casos pero
es como que los métodos las técnicas los
datasets que tenemos pues parecen estar
chocando con algún tipo de asíntota con
algún tipo de muro que sabemos que va a
ser superado en los próximos meses con
los modelos de nueva generación pero no
habíamos visto todavía ningún ejemplo de
modelo que golpeara Este muro e hiciera
una grieta no o algún tipo de técnica
que empezara a introducirnos en la
siguiente fase y para mí esta es la
primera vez que lo estamos viendo Porque
además como vamos a comprobar ahora Esta
técnica que introduce mat schumer tiene
mucho que ver con lo que estuvimos
especulando la semana pasada sobre lo
que podría ser strawberry los modelos
orion las nuevas capacidades de
razonamiento de la ia atentos si
seguimos leyendo el hilo eh nos cuenta
por aquí que eh reflex 70b se defiende
incluso frente a los mejores modelos de
código cerrado clot 3.5 sonet gpt 4o es
el mejor eh modelo de lenguaje en al
menos eh todos estos benchmark tal cual
hemos visto arriba supera gpt 4o en
todos los puntos de referencia probados
y supera por mucho al modelo llama 3.1
405b no se le acerca ni un poco Entonces
fijaos porque este es uno de los
ejemplos con los que vamos a empezar a
entender el rendimiento de este modelo
fijaos le pide quiero que escribas la
primera frase del eh la declaración de
independencia pero con escritura de
espejo y aquí empezamos a ver una cosa
interesante de Esta técnica reflection
que vamos a profundizar un poquito más
adelante pero Abre una especie de
etiqueta thinking pensando y aquí el
modelo empieza a reflexionar sobre la
tarea que le hemos pedido empieza a
decir esto es una tarea interesante y un
reto vamos a descomponerlo en diferentes
pasos vale vamos primero a recordar cómo
es el preámbulo de la declaración de la
independencia vamos a escribir su
primera frase vamos a convertir cada
carácter en su versión eh volteada en
espejo y vamos a presentar entar el
texto final vamos con el plan Primero
este es el texto segundo Esta es la
frase tal tal tal vale continúa
descomponiendo paso a paso la tarea
compleja que le hemos pedido y ahora en
mitad de ese proceso de pensamiento Abre
una nueva etiqueta de reflection no en
este caso lo que da nombre a Esta
técnica que es una forma en la que el
modelo va a poder pararse a reflexionar
un poco sobre lo que le estamos pidiendo
Y qué retos puede suponer en este caso
dice antes de proceder debo de
clarificar que hay dos formas de
entender lo que es una escritura
vista desde espejo podría ser escribir
la frase de principio a fin con los
caracteres normales O podría ser
escribirla como si estuviera visto en un
espejo con los caracteres volteados al
revés vale podría ser eh leer de derecha
izquierda o podría ser eso y además
voltear cada carácter para esta tarea
voy a elegir el método B ya que es más
eh desafiante Y más cercano al concepto
de escritura volteada a mí personalmente
Eso ni se me hubiera ocurrido Y entonces
dentro de su propia cadena de
pensamiento dentro del cuarto paso que
ha planificado pues escribe ya la
solución pero todo esto ocurriendo
dentro del bloque de pensar cuando tiene
la solución planteada en su pensamiento
vuelve a lanzar una etiqueta de
reflexión ahora para verificar si la
respuesta es correcta va a ser una doble
corrección que esto le va a permitir
Pues detectarse hay algún tipo de error
y entonces dice he doble chequeado el
texto volteado y parece que está
correcto cada carácter ha sido volteado
y el orden ha sido invertido y la
puntuación se mantiene igual como
ocurriría en un espejo de verdad
entonces aquí termina la reflexión y
termina el proceso de pensamiento todo
todo esto ha ocurrido en un bloque
generado por el modelo del lenguaje pero
que si os dais cuenta podríamos ocultar
Esto justamente os lo dije la semana
pasada en el vídeo de Strawberry y orion
os dije que Y esto es como yo intuyo que
va a funcionar este strawberry es
a estos gpt 4 y decirle Mira Sí para
este problema razona piensa Cómo
podríamos resolverlo paso a paso genera
estas cadenas de pensamiento y razónalo
y genera una otra otra otra otra y otra
genera muchos tokens para generar
diferentes formas de resolver este
problema todos estos tokens que estamos
dedicando va a ser tiempo de computación
tiempo de pensamiento que incluso se lo
podríamos ocultar al usuario podríamos
generar un tag pensar que es que el
modelo está pensando y dentro de la
interfaz de chat gpt ocultar todos estos
tokens de pensamiento que están bueno
ocurriendo dentro de la cabeza del
modelo esto se puede hacer tú con
técnicas de prompting puedes generar un
comportamiento de los modelos del
lenguaje actuales para que hagan esto tú
le puedes decir quiero que primero
plantees un pensamiento que lo Sones
paso a paso que descompongas la tarea
que reflexiones y critiques sobre los
puntos más difíciles es decir con
prompting se puede llegar a exprimir le
este rendimiento a los modelos y tú
puedes Además maquetar para que esta
etiqueta de pensamiento en la interfaz
que le damos al usuario quede oculta
como bueno el modelo está tardando un
poquito más en responder este
pensamiento no lo está viendo el usuario
estos tokens que se está generando pero
están ahí y cuando todo ese
planteamiento está hecho pues ahora
podemos emitir el output que esto podría
ser lo único que le externalize a
usuario Esta es la primera frase del
preámbulo de la declaración de la
independencia escrita en el espejo ta ta
y te pone la respuesta y luego te pone
algunos puntos a a remarcar detalles
como que la puntuación Pues en un espejo
se mantiene igual que algunas letras
pueden confundirse porque parecen otro
tipo de letras que algunas letras como
la o o la x cuando las volteas se quedan
igual Es decir aspectos muy interesantes
y muy inteligentes a remarcar de la
tarea que le hemos planteado Esto es
algo que yo hasta ahora no había visto a
ser a un modelo del lenguaje entonces
aquí mat schumer nos cuenta un poco Cómo
va esta técnica no la técnica que eh
mueve a reflection 70b es sencilla pero
muy potente las mejores soluciones en
este caso dice los actuales llms tienen
tendencia a alucinar y no pueden
reconocer cuando lo hacen reflection
tuning permite a los modelos de lenguaje
reconocer sus errores como hemos visto y
luego corregirlos antes de comprometerse
con una respuesta atentos Un ejemplo muy
popular muy conocido Cuéntame Cuántas
tiene la palabra strawberry Un ejemplo
muy popular que sabemos que ocurre por
no tanto por falta de capacidad de
inteligencia de los sistemas sino por
problemas con el tokenizador con Cómo se
descompone una palabra en diferentes
trozos pues sabemos que los modelos son
incapaces de ver las letras de forma
independiente A menos que hagan cosas
como esta que es separarlas a través de
guiones Y en este caso fijaos como la
propia inercia del modelo de confundirse
siempre con esta con esta palabra le
hace alucinar Pues una respuesta
incorrecta No tiene la palabra
strawberry pues dos r que sabemos que es
incorrecto porque tiene tres en ese
momento no comete el fallo y lo ocupe el
usuario sino que se activa este
mecanismo de eh reflexión que es
simplemente un comportamiento sobre el
que han entrenado al modelo para que sea
más crítico con sus respuestas Y le
permite hacer este tipo de valoraciones
y fijaos como se da cuenta rápidamente
que ha cometido un error y que puede ver
ahora que en realidad hay tres Rs en la
palabra strawberry algo que podía haber
hecho bien desde este punto porque es
cierto que aquí lo descompone de forma
correcta algo que sobrepasa la
limitación del tokenizador pero esta
respuesta que seguramente está overfit
Ada Pues aquí esta parte este bloque
consigue corregirla tenemos otro ejemplo
aquí abajo otro ejemplo también muy
conocido vamos a descargarnos la imagen
que es el famoso ejemplo de Qué número
es más grande 9,11 o 9,9 un ejemplo que
sabemos que en los modelos en las
iteraciones que han ido saliendo durante
el verano se ha conseguido solucionar
pero que hasta hace No mucho era un
error que hasta los modelos más potentes
cometían donde pensaban que el número
9,11 era mayor que 9,9 y vamos a ver de
nuevo el proceso de de pensar del modelo
no porque es fascinante ver cómo de
nuevo lanza el bloque de pensamiento
Este es un problema relativamente
sencillo que envuelve comparar dos
números decimales planificación
identificar los números para comparar
9,11 y 9,9 comparar la parte entera de
los números si la parte entera es igual
comparar la parte decimal determinar Qué
número es mayor basado en la comparación
por ahora el proceso es bastante lógico
luego Aquí vemos que aborda esta
planificación empieza a ejecutarla
haciendo uso de otra técnica de
prompting muy conocida Chain of thoughts
del paper de Palm 2 si no recuerdo mal
donde Bueno pues simplemente le pedimos
al modelo que razone paso a paso pues
esto que acaba de planificar los números
a comparar son 9,11 9,9 primer paso
hecho los dos números tienen la misma
parte entera 9 como la parte entera es
igual vamos a comparar la decimal la
parte decimal de 9,11 es com11 la parte
decimal de com9 es com9 ta ta ta hace
todo este proceso y ahora de nuevo
verifica que todo el proceso es correcto
y genera la respuesta esto de nuevo a
nivel de interfaz podemos
9,11 Y entonces genera una dinámica que
es muy interesante porque ya la venimos
comentando en este canal y en los
directos que he hecho en dosv en el que
empezamos a observar como si tú le
planteas un problema más difícil pues
toda esta generación de tokens que
estamos viendo aquí este proceso de
pensar paso a paso de reflexión va a ser
más largo Es decir para generar estos
tokens de aquí que son tokens de valor
para nosotros Porque son los que suponen
la solución a nuestro problema la
cantidad de computación de procesamiento
necesaria que es la de generar todos los
tokens previos Pues ahora va a ir en
función de la dificultad del problema
que le planteemos algo que necesitábamos
en estos sistemas y yo personalmente a
mí que no me quiten la magia Yo siempre
voy a querer optar por por leer este
proceso porque me parece fascinante y
creo que es muy didáctico no yo creo que
la Inteligencia artificial Ahora que nos
da las soluciones a los problemas que le
pedimos pues es una herramienta de
muchísima ayuda pero si empezamos a
contar ya con inteligencias artificiales
capaces de razonar de una forma fiable
poder estudiar y poder ten entender este
proceso de razonamiento si es correcto
me parece s super didáctico pensad en un
chaval de primaria que le plantean este
problema en clase y que no solo va con
la solución sino que ha podido estudiar
Cómo la í ha razonado y cómo lo ha hecho
perfectamente el proceso deductivo para
llegar a la a la respuesta Wow y Qué
diferencia tiene Carlos con yo sentarme
y escribir un prompt muy complejo donde
le pida al modelo que haga esto esto
esto y esto es decir realmente esto es
una mejora en el modelo o es una mejora
en las técnicas de prompting y la
respuesta aquí tiene que ver con otro
concepto que Durante este último año
también ha estado sobrevolando lo hemos
comentado También muchas veces y son los
datos sintéticos el utilizar datos
generados por la Inteligencia artificial
para entrenar a otros sistemas apoyarnos
en las herramientas que tenemos
actualmente que son muy potentes para
poder entrenar a herramientas más
potentes todavía porque lo que han hecho
no es ningún tipo de técnica de
prompting que esté eh englobada dentro
del sistema que vamos a utilizar ahora
sino que realmente lo que han hecho ha
sido generar un dataset sintético
haciendo uso de estas técnicas de
prompting vale tú puedes cogerte por
ejemplo con chat gpt ponerle este
problema y con prompting le puedes pedir
Mira Quiero que apliques técnicas de
self reflection quiero que hagas Chain
of thoughts quiero que hagas todo este
catálogo de eh técnicas de prompting que
sabemos que funcionan muy bien y gename
una respuesta que esté desarrollada con
este estilo y para muchos problemas tú
te puedes generar esta estructura de
respuesta más desarrollada y ahora
ese dataset para entrenar al modelo con
esta forma de solucionar los problemas
haciendo Endo que el modelo ya de facto
aprenda a actuar de esa forma es decir
estamos jarc ode todas estas técnicas de
prompting en el comportamiento del
modelo con lo cual cuando vosotros lo
descarguéis Porque recordemos estos Open
source cuando lo utilicéis el modelo ya
va a empezar a aplicar estas técnicas de
self reflection Chain of thoughts todo
esto a la vez esto claro no es tan
sencillo Porque supone hacer también
cambios en el tokenizador por ejemplo le
han enseñado tokens concretos para eh la
fase de pensamiento la fase de reflexión
vale todo esto el modelo lo percibe como
un un único token para poder aprender a
utilizar cuando quiere reflexionar
cuando quiere eh pensar y si te dais
cuenta esta idea de tener un sistema que
es capaz de generar un proceso de
razonamiento un poquito más elaborado
que podemos registrar pues se parece a
la idea de Strawberry lo comentamos
también en el vídeo de las filtraciones
con esta noticia de aquí strawberry
sabemos que es un sistema que no se
parece tanto creo yo a un modelo de
lenguaje sino que tiene que ver más bien
con algo que podemos acoplar a los
modelos de lenguaje para que razonen
mejor y que sería semejante en este caso
pues a todas las técnicas de prompting
que ellos han utilizado para generar
este dataset sintético digo semejantes
pero no creo que sean comparables porque
creo que el strawberry que Open está
desarrollando no son solo técnicas de
prompting sino algo más avanzado que
genera un razonamiento de calidad pero
en este caso Bueno pues estas técnicas
de prompting sí nos dan un razonamiento
que podemos utilizar y si recordáis de
aquel vídeo otra de las filtraciones que
vimos en esta noticia era que Open Ai
estaba utilizando los registros de este
strover estos razonamientos de más
calidad para entrenar a su próximo
modelo orion para darle a un modelo
acceso a datos de mayor calidad sobre
todo en el proceso de razonamiento algo
que se parece mucho aunque repito la
técnica de generar estos registros de
razonamiento posiblemente sean muy
diferentes pero que se parece mucho a lo
que estamos viendo hoy podemos utilizar
a los modelos actuales para generar
datos sintéticos de razonamiento de más
calidad por ejemplo para entrenar a
modelos más potentes y esto es lo que
nos cuenta mat que incluso después de la
salida del modelo 405b tiene más
técnicas que quiere seguir probando y
que posiblemente de mejores resultados
porque realmente la técnica como idea es
muy sencilla de hecho me sorprende que
no hayamos visto más ejemplos durante
estos meses de Eh bueno organizaciones
independientes o incluso de las grandes
compañías haciendo uso de este tipo de
técnicas Bueno si queréis probar el
modelo eh tenéis pocas opciones por
ahora porque es cierto que el modelo es
Open source pero es el modelo 70,000
millones de parámetros que es un modelo
bastante grande para el Hardware eh
convencional yo creo que está eh antes
de cuantización pues sobre los 140 GB
con lo cual va a costar mucho que lo
ejecutemos en nuestros ordenadores algo
que comentaba él que también me parece
muy interesante es que probaron aplicar
Esta técnica el modelo 8b y no
encontraron estos rendimientos tan
buenos que han visto en los modelos más
grandes con lo cual algo Nos cuenta de
que Esta técnica solamente es aplicable
cuando ciertas escalas son conseguidas
lo cual siempre es interesante no ver
estos comportamientos emergentes cuando
la escala va subiendo Pues siempre eh
Son cositas que interesan y Tengo
curiosidad por ver que también funciona
el modelo más grande 405b que veremos la
próxima semana si queréis probarlo una
de las opciones online que nos ofrecen
es esta de aquí os voy a dejar el enlace
abajo pero es cierto que la página web
está eh sobrecargada Está muy saturada
han tenido que poner límites hay errores
pero bueno no pasa nada vamos a probar
con este prom que es Dime cuántas rres
tiene la palabra fresa ornitorrinco y
torero y en el caso de reflexión pues
tenemos que esperar vale la página web
tarda muchísimo y esto es por la gran
cantidad de gente que hay esto no tiene
que ver con el modelo generando muchos
tokens De hecho cuando empieza a generar
Vais a ver que es una generación normal
pero hay una cola bastante larga así que
vamos a
[Música]
esperar Okay está muerto vale parece que
por ahora no vamos a poder Acceder al
modelo está todo caído es el efecto demo
de las primeras horas y sí es cierto que
hay otros proveedores hay algunos
despliegues en hacking Face pero no me
termino de fiar porque para que este
modelo funcione bien y todo esté
correcto hace falta configurar bien
algunos aspectos del prompt que por lo
que estoy leyendo en Twitter por parte
de mat shamer pues no todos están
haciendo Entonces vamos a esperar un
poco para sacar una valoración Clara y
rigurosa de qué también funciona Este
modelo Pero bueno tened en cuenta que es
un modelo Open source que podréis
Descargar que se va a cuantizar que esto
va a acabar funcionando en nuestros
sistemas hay que darle un un par de días
para que toda la comunidad empiece a
trabajar en esto y cuando lo tengamos
pues haremos pruebas en cualquier caso
me parece una grandísima noticia porque
creo que hemos entrado en un terreno
nuevo hemos por primera vez al menos las
respuestas que se han compartido y las
pruebas que yo he podido hacer antes
porque es cierto que sí esta mañana he
podido probar el modelo y los
razonamientos que me daban eran muy
buenos sobre prompts que yo sé que chat
gpt y clod no consigue resolver Y para
mí ha sido como ver por primera vez un
comportamiento que en estos modelo del
lenguaje en este tipo de tecnología
hasta ahora no había visto estoy notando
que estamos entrando en esa nueva fase
que nos han prometido que las grandes
compañías sabemos que se van a
introducir en los próximos meses y si
esto que es un proyecto amateur de una
persona no es una gran compañía con
todos los recursos que tienen si ha
conseguido que esto funcione de esta
manera tengo bastantes eh altas
expectativas de lo que puede salir en
los próximos meses en materia de
razonamiento estamos entrando en esta
nueva fase y lo que Mola es ver que la
comunidad s por ahora no se está
quedando atrás Seguiremos profundizando
sobre este modelo y todo lo que vaya
saliendo y chicos chicas continuamos con
más Inteligencia artificial aquí en dosv
lap y en dosv con más contenido
Weitere ähnliche Videos ansehen
ChatGPT STRAWBERRY ya está aquí 🍓 ¡Pongo a prueba OpenAI-o1!
¡EJECUTA tu propio ChatGPT en LOCAL gratis y sin censura! (LM Studio + Mixtral)
BitNets: La ERA de las REDES NEURONALES de 1 BIT!
AI Portfolio Project | I built a MACHINE LEARNING MODEL using AI in 10 MINUTES
Todo sobre GPT-4o, el mayor avance en IA desde ChatGPT
GPT-4o: TODO lo que debes saber del NUEVO MOTOR de CHATGPT 🚀 ¡GRATUITO!
5.0 / 5 (0 votes)