Nuevo Avance DESBLOQUEA EL POTENCIAL de los LLMs | Reflection 70B

Dot CSV Lab
6 Sept 202420:41

Summary

TLDRUn grupo de dos personas ha desarrollado una técnica de 'reflection tuning' que mejora significativamente el razonamiento de un modelo de IA de código abierto llamado 'Reflection 70b'. Basado en el modelo LLaMA, logra competir con modelos comerciales más grandes como GPT-4 y Codex. La técnica permite al modelo corregir sus propios errores y razonar de manera más elaborada. Se espera que próximamente se lance una versión mejorada con el modelo LLaMA 3.1 405B, lo que podría llevar a avances significativos en la IA.

Takeaways

  • 😀 Un grupo de dos personas desarrolló un modelo de IA utilizando técnicas de 'reflection tuning', mejorando significativamente sus capacidades de razonamiento.
  • 🎯 El modelo, conocido como 'reflection 70b', superó a modelos comerciales como GPT-4 y CLoT SoNet 3.5 en tareas de razonamiento lógico y programación.
  • 🌟 La técnica 'reflection tuning' permite a los modelos de lenguaje corregir sus propios errores antes de comprometerse con una respuesta, lo que mejora su rendimiento.
  • 📊 En comparaciones, 'reflection 70b' mostró resultados superiores en benchmarks de programación y razonamiento matemático, pulverizando las métricas de otros modelos.
  • 🔍 El modelo también demostró ser capaz de resolver problemas mal etiquetados, lo que indica una comprensión más profunda y no solo memorización de respuestas.
  • 🚀 Se espera que próximamente se liberen versiones más potentes de modelos open source, posiblemente superando a modelos comerciales privados.
  • 🤖 La capacidad de los modelos para 'pensar' y 'reflexionar' sobre las tareas que se les piden, como se ve en 'reflection 70b', es un avance significativo en la IA.
  • 📚 La técnica 'reflection tuning' y la generación de 'datos sintéticos' están siendo vistas como herramientas poderosas para el entrenamiento de modelos de IA más avanzados.
  • 💡 La comunidad de IA está mostrando una gran actividad en el desarrollo y prueba de modelos open source, lo que sugiere un rápido avance en la tecnología.
  • 🌐 El impacto de estos avances es amplia, abriendo nuevas posibilidades en el razonamiento de la IA y su aplicación en múltiples campos.

Q & A

  • ¿Qué significa 'reflection tuning' y cómo se relaciona con el rendimiento de los modelos de lenguaje?

    -Reflection tuning es una técnica desarrollada para permitir que los modelos de lenguaje (LLMs) corrijan sus propios errores. Se relaciona con el rendimiento al permitir que los modelos sean más críticos con sus respuestas y realicen una doble corrección antes de comprometerse con una respuesta, lo que mejora su capacidad para razonar y resolver problemas.

  • ¿Cuál es la diferencia clave entre el modelo 'reflection 70b' y otros modelos de lenguaje como GPT-4 y CLoT Sonet 3.5?

    -El modelo 'reflection 70b', a pesar de ser más pequeño en tamaño, logra competir y superar a modelos más grandes como GPT-4 y CLoT Sonet 3.5 en tareas de razonamiento lógico y programación. Esto se debe a la técnica de 'reflection tuning' que ha sido aplicada, permitiendo un rendimiento más potente en benchmarks de programación y razonamiento matemático.

  • ¿Qué es un 'dataset sintético' y cómo se utiliza en el entrenamiento de modelos de IA?

    -Un 'dataset sintético' es un conjunto de datos generado por la inteligencia artificial para entrenar a otros sistemas. Se utiliza para apoyar en las herramientas actuales y generar modelos más potentes, ya que permite que los modelos aprendan a actuar de una forma más elaborada y con mayor calidad en el proceso de razonamiento.

  • ¿Cómo se puede aplicar la técnica de 'reflection tuning' para mejorar la precisión en tareas específicas como la escritura de espejo?

    -La técnica de 'reflection tuning' se puede aplicar para mejorar la precisión en tareas específicas al hacer que el modelo realice un proceso de reflexión y autocorrección antes de dar una respuesta. En el caso de la escritura de espejo, el modelo descompone la tarea, reflexiona sobre los desafíos y luego verifica la respuesta antes de presentarla, lo que aumenta su exactitud.

  • ¿Qué es el 'thinking' y cómo se relaciona con la técnica de 'reflection tuning'?

    -El 'thinking' se refiere a la habilidad de los modelos de lenguaje para simular un proceso de pensamiento crítico y razonamiento antes de producir una salida. Se relaciona con la técnica de 'reflection tuning' porque esta última fomenta que el modelo realice un 'thinking' antes de responder, lo que le permite identificar y corregir posibles errores en su razonamiento.

  • ¿Cómo se puede generar un 'prompt' para inducir un comportamiento de 'thinking' en un modelo de lenguaje?

    -Para generar un 'prompt' que induzca un comportamiento de 'thinking' en un modelo de lenguaje, se pueden incluir instrucciones específicas que soliciten al modelo que descomponga una tarea en pasos, que realice una reflexión sobre los retos y dificultades de la tarea, y que verifique su respuesta antes de presentarla.

  • ¿Qué es la 'etiqueta de reflexión' y cómo se utiliza en el proceso de razonamiento de los modelos de lenguaje?

    -La 'etiqueta de reflexión' es un mecanismo utilizado por los modelos de lenguaje para marcar y separar el proceso de reflexión interna. Se utiliza en el proceso de razonamiento para permitir que el modelo realice una autocorrección y verificación de su razonamiento antes de producir una salida, lo que mejora la calidad y precisión de sus respuestas.

  • ¿Cuál es la importancia de la capacidad de razonamiento en los modelos de lenguaje y cómo se mide?

    -La capacidad de razonamiento en los modelos de lenguaje es crucial para su capacidad para resolver problemas complejos y entender contextos. Se mide a través de benchmarks específicos que evalúan el desempeño del modelo en tareas de programación, matemáticas y razonamiento lógico, donde se comparan sus resultados con modelos de referencia.

  • ¿Qué es la 'sobreajuste' en modelos de lenguaje y cómo se evita con técnicas como la 'reflection tuning'?

    -La 'sobreajuste' en modelos de lenguaje ocurre cuando el modelo memoriza respuestas específicas en lugar de aprender a razonar de manera generalizable. Se evita con técnicas como la 'reflection tuning' al hacer que el modelo realice un proceso de reflexión crítica y autocorrección, lo que le permite识别 y corregir errores antes de comprometerse con una respuesta.

  • ¿Cómo se puede utilizar la 'reflection tuning' para mejorar la resolución de problemas mal etiquetados en benchmarks?

    -La 'reflection tuning' puede utilizarse para mejorar la resolución de problemas mal etiquetados al fomentar que el modelo realice un razonamiento crítico y una autocorrección antes de producir una salida. Esto permite que el modelo identifique y corrija errores en la etiqueta del problema y找到 una solución válida incluso cuando la etiqueta original es incorrecta.

Outlines

00:00

🚀 Avances en IA: Reflección 70b desafía a modelos comerciales

Se discute una noticia revolucionaria en el campo de la inteligencia artificial, donde un pequeño equipo ha logrado mejorar significativamente el rendimiento de un modelo open source llamado 'reflection 70b' mediante técnicas de 'reflection tuning'. Este modelo, con solo 3.170 millones de parámetros, ha alcanzado niveles comparables a modelos comerciales como GPT-4 y Codex Sonnet 3.5 en tareas de razonamiento lógico y programación. La técnica permite a los modelos corregir sus propios errores, lo que se evidencia en su desempeño excepcional en benchmarks comparativos, superando a modelos mucho más grandes como Llama 3.1 405B. Además, se menciona que se espera liberar una versión mejorada del modelo Llama 3.1 405 con la aplicación de 'reflection tuning', lo que podría resultar en un modelo open source aún más potente.

05:01

🔍 Reflexión y rendimiento en modelos de lenguaje

Se explora cómo el modelo 'reflection 70b' se desempeña en tareas específicas, como la escritura de la primera frase de la Declaración de Independencia en espejo. El modelo demuestra una capacidad única de 'thinking' y 'reflection', donde descompone la tarea en varios pasos y luego reflexiona sobre los desafíos que presenta. Esto incluye la elección de la técnica más desafiante para la tarea, la verificación de la respuesta y la corrección de errores internos. Además, se destaca cómo la técnica 'reflection tuning' permite al modelo reconocer y corregir errores, como en el caso de contar las 'r's en la palabra 'strawberry', lo que demuestra una mejora en la calidad del razonamiento y una reducción en el overfitting.

10:02

🤖 Mejores respuestas a través de la auto-evaluación

Se analiza cómo los modelos de lenguaje pueden mejorar sus respuestas mediante técnicas de auto-evaluación y razonamiento paso a paso. Se presentan ejemplos de cómo el modelo, al enfrentarse a preguntas complejas, planifica y ejecuta un proceso de pensamiento que incluye la identificación de números, comparaciones y la aplicación de técnicas de 'Chain of thoughts'. También se discute cómo estos procesos de pensamiento pueden ser generados y utilizados para crear conjuntos de datos sintéticos, que a su vez pueden entrenar a modelos más potentes. Se sugiere que estos avances pueden llevar a una nueva fase en la inteligencia artificial, donde los modelos sean capaces de razonar de manera más fiable y didáctica.

15:03

🌐 Implicaciones y futuro del razonamiento en IA

Se reflexiona sobre las implicaciones de la capacidad de razonamiento mejorada en modelos de lenguaje y su impacto en el futuro de la inteligencia artificial. Se menciona la posibilidad de que estos modelos, una vez cuantizados y optimizados, puedan ser ejecutados en sistemas convencionales. Además, se destaca la importancia de la comunidad en el desarrollo y prueba de estos modelos, y se sugiere que la competencia entre modelos open source y comerciales puede acelerar el avance en la tecnología. Se concluye con la expectativa de que estos avances en la IA traerán nuevas capacidades y mejoras en la resolución de problemas.

20:05

🔮 Perspectivas de la IA y la comunidad

Se hace un llamado a la comunidad para que profundice en el estudio y desarrollo de modelos de IA con capacidades mejoradas de razonamiento. Se anima a la curiosidad y al aprendizaje continuo, y se sugiere que la próxima fase de la IA puede traer sorpresas y avances significativos. Se invita a la audiencia a seguir explorando y contribuyendo al campo de la inteligencia artificial.

Mindmap

Keywords

💡IA

IA (Inteligencia Artificial) es el campo de la informática que se dedica al diseño de sistemas que模拟人类 intelligence. En el guion, la IA es el tema central, ya que se discute sobre el avance de los modelos de IA y su capacidad para razonar y aprender de manera más eficiente.

💡Modelos de IA

Los modelos de IA son programas informáticos diseñados para realizar tareas específicas, como el reconocimiento de imágenes, el procesamiento del lenguaje natural o la toma de decisiones. En el guion, se mencionan varios modelos de IA, como GPT-4, llama 3.1 405B, y Reflection 70B, que son comparados en términos de rendimiento y capacidad de razonamiento.

💡Razonamiento

El razonamiento es el proceso de usar la lógica para analizar situaciones y llegar a conclusiones. En el guion, el razonamiento es un punto de énfasis, ya que se discute cómo los modelos de IA pueden mejorar su capacidad para razonar lógicamente y resolver problemas complejos.

💡Proyecto Side

Un proyecto side es un proyecto secundario que se lleva a cabo junto con el trabajo principal o en su tiempo libre. En el guion, se menciona un proyecto side de dos personas que trabajan en mejorar un modelo de IA, lo que demuestra la innovación y el avance en el campo de la IA pueden surgir de maneras no convencionales.

💡Tuning de Reflectión

El tuning de reflexión es una técnica descrita en el guion que permite a los modelos de IA corregir sus propios errores y mejorar su rendimiento. Se menciona como una técnica clave que ha permitido a un modelo de IA mediano superar a modelos más grandes en tareas de razonamiento.

💡Benchmark

Un benchmark es una prueba estándar usada para medir el rendimiento de un sistema. En el guion, se utilizan benchmarks para comparar el rendimiento de diferentes modelos de IA en tareas específicas, como programación y razonamiento matemático.

💡Open Source

El software open source es aquel cuyo código fuente está disponible para su uso y modificación por parte de la comunidad. En el guion, se menciona que el modelo Reflection 70B es open source, lo que significa que cualquiera puede acceder a su código y mejorarlo o adaptarlo a sus necesidades.

💡Prompting

El prompting es la técnica de proporcionar instrucciones o sugerencias a un modelo de IA para guiar su comportamiento. En el guion, se discute cómo el prompting puede ser utilizado para mejorar la capacidad de razonamiento de los modelos de IA y generar respuestas más elaboradas.

💡Datos sintéticos

Los datos sintéticos son datos artificiales generados por algoritmos, en lugar de ser recopilados de la realidad. En el guion, se menciona la generación de datos sintéticos como una técnica para entrenar modelos de IA, lo que sugiere un enfoque innovador en el entrenamiento de sistemas de IA.

💡Self-reflection

La self-reflection es el proceso de reflexionar sobre uno mismo, sus pensamientos y acciones. En el contexto del guion, la self-reflection se refiere a la habilidad de los modelos de IA para evaluar y corregir sus propias respuestas, lo que es un avance en la IA y su capacidad para razonar de manera autónoma.

Highlights

Un grupo de dos personas desarrolla un modelo de IA con rendimiento comparable a modelos más grandes y complejos.

El proyecto, considerado un 'side project', logra mejorar las capacidades de razonamiento del modelo usando técnicas de 'reflection tuning'.

El modelo, con nombre 'reflection 70b', supera a modelos como GPT-4 y CLoT Sonet 3.5 en tareas de razonamiento lógico y programación.

La técnica 'reflection tuning' permite que los modelos de lenguaje corrijan sus propios errores.

Se destaca la capacidad del modelo para resolver problemas mal etiquetados, mostrando una señal de inteligencia más allá del simple overfitting.

Se anuncia la liberación próxima del modelo 'llama 3.1 405' con 'reflection tuning', lo que podría llevar a un modelo open source más potente que los modelos comerciales.

La técnica 'reflection tuning' es sencilla pero muy potente, permitiendo a los modelos reconocer y corregir sus errores.

Se discute la capacidad del modelo para 'pensar' y 'reflexionar' sobre las tareas que se le piden, mostrando un nivel de razonamiento más elaborado.

El modelo demuestra una mejora en la generación de respuestas a través de un proceso de 'thinking' y 'reflection' interno.

Se explora la posibilidad de ocultar el proceso de 'thinking' al usuario, mostrando solo la solución final.

Se sugiere que técnicas de 'prompting' pueden ser clave para mejorar el rendimiento de los modelos de lenguaje actuales.

Se menciona la generación de 'datos sintéticos' como herramienta para entrenar a modelos más potentes.

Se destaca la importancia de la escala de los modelos en la eficacia de las técnicas de 'reflection tuning'.

Se aborda la dificultad de ejecutar el modelo 'reflection 70b' debido a su tamaño y los requisitos de hardware.

Se espera que la comunidad comience a trabajar en el modelo open source y se genere un feedback claro y riguroso sobre su funcionamiento.

Se refleja la emoción y la expectativa ante la posibilidad de que se haya alcanzado un nuevo nivel en el razonamiento de la IA.

Se insta a seguir explorando el modelo y se promete带来更多关于人工智能的内容.

Transcripts

play00:00

atentos porque tenemos una de las

play00:02

noticias más importantes de las últimas

play00:04

semanas y una noticia que creo que da un

play00:06

golpe sobre la mesa en el tablero de

play00:08

juego y que va a determinar Cómo

play00:09

evolucionen algunas de las cosas de aquí

play00:11

a las próximas semanas y el titular aquí

play00:14

sería que un grupo de dos personas

play00:16

trabajando pocas semanas en un proyecto

play00:19

que era un Side project una idea loca

play00:21

pues pensad entusiastas de la ia que

play00:23

dicen vamos a intentar uno de

play00:24

estos modelos Open source y aplicar una

play00:26

técnica nueva para ver si podemos

play00:27

mejorar las capacidades de razonamiento

play00:29

del modelo a ver si podemos sacarle un

play00:31

poquito más de rendimiento pues han

play00:32

desarrollado una técnica que no es

play00:34

complicada de entender Ahora la vamos a

play00:35

examinar y aplicándola lo que han

play00:38

obtenido como resultado es un modelo

play00:40

mucho más potente un modelo que

play00:43

basándose en llama

play00:45

3.170 B consigue colocarse al nivel de

play00:48

gpt 4o y clot sonet 3.5 en tarea de

play00:52

razonamiento pensamiento lógico

play00:54

programación una auténtica barbaridad Y

play00:57

esto es tan importante y quiero comentar

play00:58

tantas cosas sobre esto que quiero que

play01:00

lo vayamos examinando paso a paso Mirad

play01:02

vamos a Traducir el el post que es lo

play01:04

único que tenemos de de mat shamer que

play01:06

nos cuenta que le complas anunciar

play01:08

reflection 70b esto lo han tenido que

play01:11

cambiar porque ya sabemos que por la

play01:12

licencia de meta cada modelo que se base

play01:14

en llama pues va a tener que tener

play01:16

puesto llama reflection 70b va a cambiar

play01:19

el nombre en algún punto seguramente

play01:20

Pero bueno el modelo de código abierto

play01:23

se trata de un modelo Open source líder

play01:25

en el mundo si ahora a día de hoy

play01:27

queréis ejecutar el modelo Open source

play01:29

más más potente tenéis que trabajar con

play01:31

reflection 70b y reflection 70b está

play01:34

entrenado con una técnica que ellos

play01:36

llaman reflection tuning ahora vamos a

play01:38

ver de qué se trata una técnica

play01:40

desarrollada para permitir que los llms

play01:42

corrijan sus propios errores Mirad la

play01:45

información importante la tenemos en

play01:46

esta tabla que es donde se compara al

play01:48

modelo reflection 70b con otros modelos

play01:52

pues bastante potentes No clot sonet 3.5

play01:55

clot 3 opus gpt 4o gemini 1.5 pro y

play01:59

llama 3 2.1 405b fijaos que no hace ni

play02:02

siquiera la comparación con el modelo

play02:03

del tamaño equivalente sino que se ha

play02:05

saltado al modelo más grande quiero

play02:08

basarme justamente en estas dos para que

play02:09

veáis la diferencia el modelo mediano

play02:11

con la técnica reflection tuning

play02:13

consigue en todos estos benchmark gpq

play02:16

mml human eval de programación

play02:18

matemáticas diferentes benchmarks fijaos

play02:20

que pulveriza todas las métricas vale

play02:23

donde el modelo grande de llama 3.1 50.7

play02:26

el modelo mediano consigue

play02:28

55.3 muy cerca en este caso de los

play02:32

modelos comerciales fijaos que en el

play02:33

caso de gpt 4 lo supera vale 55,3 frente

play02:38

a 53,6 89,9 en este caso reflection 70b

play02:42

supera todos en el mml benchmark human

play02:45

eval tareas de programación está a la

play02:47

par que clot sonet 3.5 y está por encima

play02:50

de gpt 4o pulveriza de nuevo a llama 3.1

play02:53

405 a nivel de razonamiento matemático

play02:55

ya estamos al 80% fijaos 10 puntos

play02:58

porcentuales sobre clot 3.5 sonet 20

play03:01

sobre clot 3 opus 15 sobre gpt 4 Pero

play03:05

qué locura es esta cinco puntos

play03:07

porcentuales sobre el modelo grande de

play03:09

meta y fijaos que en todas estas

play03:10

métricas Este modelo lo pulveriza de

play03:13

hecho pasa una cosa curiosa y es que en

play03:14

este benchmark por ejemplo hay tareas

play03:16

que se conocen que están mal etiquetadas

play03:18

están mal erróneamente etiquetadas y el

play03:20

modelo falla en ellas pero resolviéndolo

play03:24

correctamente no es como que el modelo

play03:25

incluso consigue encontrar soluciones

play03:28

válidas a problemas que están mal

play03:30

etiquetados lo cual es una muy buena

play03:31

señal para entender que esto no es una

play03:33

cuestión de overfitting de memorizar las

play03:35

respuestas que en el benchmark se hayan

play03:37

podido filtrar en internet pero es que

play03:38

aquí Ellos nos dicen que la semana que

play03:40

viene la próxima semana van a liberar el

play03:43

modelo

play03:44

405b el fine tuning del modelo llama 3.1

play03:47

405 aplicándole Esta técnica de

play03:49

reflection tuning que posiblemente si

play03:53

extrapolamos va a ser un modelo Open

play03:55

source que esté por encima que adelante

play03:58

a los modelos comerciales privados más

play04:00

potentes ojo y por qué me parece

play04:03

importante esta noticia bueno fijaos que

play04:05

durante todo este año hemos visto como

play04:07

todos los modelos han acabado

play04:08

convergiendo a un mismo lugar no a un eh

play04:11

cierto nivel de rendimiento cercano a

play04:14

gpt 4 superándolo en algunos casos pero

play04:16

es como que los métodos las técnicas los

play04:18

datasets que tenemos pues parecen estar

play04:21

chocando con algún tipo de asíntota con

play04:23

algún tipo de muro que sabemos que va a

play04:25

ser superado en los próximos meses con

play04:26

los modelos de nueva generación pero no

play04:28

habíamos visto todavía ningún ejemplo de

play04:30

modelo que golpeara Este muro e hiciera

play04:33

una grieta no o algún tipo de técnica

play04:35

que empezara a introducirnos en la

play04:37

siguiente fase y para mí esta es la

play04:39

primera vez que lo estamos viendo Porque

play04:41

además como vamos a comprobar ahora Esta

play04:43

técnica que introduce mat schumer tiene

play04:44

mucho que ver con lo que estuvimos

play04:46

especulando la semana pasada sobre lo

play04:47

que podría ser strawberry los modelos

play04:49

orion las nuevas capacidades de

play04:51

razonamiento de la ia atentos si

play04:53

seguimos leyendo el hilo eh nos cuenta

play04:56

por aquí que eh reflex 70b se defiende

play04:59

incluso frente a los mejores modelos de

play05:00

código cerrado clot 3.5 sonet gpt 4o es

play05:04

el mejor eh modelo de lenguaje en al

play05:07

menos eh todos estos benchmark tal cual

play05:09

hemos visto arriba supera gpt 4o en

play05:11

todos los puntos de referencia probados

play05:14

y supera por mucho al modelo llama 3.1

play05:17

405b no se le acerca ni un poco Entonces

play05:20

fijaos porque este es uno de los

play05:21

ejemplos con los que vamos a empezar a

play05:23

entender el rendimiento de este modelo

play05:24

fijaos le pide quiero que escribas la

play05:26

primera frase del eh la declaración de

play05:29

independencia pero con escritura de

play05:32

espejo y aquí empezamos a ver una cosa

play05:33

interesante de Esta técnica reflection

play05:35

que vamos a profundizar un poquito más

play05:37

adelante pero Abre una especie de

play05:39

etiqueta thinking pensando y aquí el

play05:42

modelo empieza a reflexionar sobre la

play05:44

tarea que le hemos pedido empieza a

play05:45

decir esto es una tarea interesante y un

play05:47

reto vamos a descomponerlo en diferentes

play05:49

pasos vale vamos primero a recordar cómo

play05:51

es el preámbulo de la declaración de la

play05:52

independencia vamos a escribir su

play05:54

primera frase vamos a convertir cada

play05:55

carácter en su versión eh volteada en

play05:58

espejo y vamos a presentar entar el

play05:59

texto final vamos con el plan Primero

play06:01

este es el texto segundo Esta es la

play06:03

frase tal tal tal vale continúa

play06:05

descomponiendo paso a paso la tarea

play06:08

compleja que le hemos pedido y ahora en

play06:09

mitad de ese proceso de pensamiento Abre

play06:12

una nueva etiqueta de reflection no en

play06:14

este caso lo que da nombre a Esta

play06:16

técnica que es una forma en la que el

play06:18

modelo va a poder pararse a reflexionar

play06:21

un poco sobre lo que le estamos pidiendo

play06:22

Y qué retos puede suponer en este caso

play06:24

dice antes de proceder debo de

play06:26

clarificar que hay dos formas de

play06:28

entender lo que es una escritura

play06:30

vista desde espejo podría ser escribir

play06:32

la frase de principio a fin con los

play06:34

caracteres normales O podría ser

play06:36

escribirla como si estuviera visto en un

play06:37

espejo con los caracteres volteados al

play06:39

revés vale podría ser eh leer de derecha

play06:42

izquierda o podría ser eso y además

play06:44

voltear cada carácter para esta tarea

play06:46

voy a elegir el método B ya que es más

play06:48

eh desafiante Y más cercano al concepto

play06:51

de escritura volteada a mí personalmente

play06:53

Eso ni se me hubiera ocurrido Y entonces

play06:55

dentro de su propia cadena de

play06:56

pensamiento dentro del cuarto paso que

play06:58

ha planificado pues escribe ya la

play07:00

solución pero todo esto ocurriendo

play07:01

dentro del bloque de pensar cuando tiene

play07:03

la solución planteada en su pensamiento

play07:06

vuelve a lanzar una etiqueta de

play07:07

reflexión ahora para verificar si la

play07:10

respuesta es correcta va a ser una doble

play07:11

corrección que esto le va a permitir

play07:13

Pues detectarse hay algún tipo de error

play07:14

y entonces dice he doble chequeado el

play07:16

texto volteado y parece que está

play07:17

correcto cada carácter ha sido volteado

play07:19

y el orden ha sido invertido y la

play07:21

puntuación se mantiene igual como

play07:22

ocurriría en un espejo de verdad

play07:25

entonces aquí termina la reflexión y

play07:27

termina el proceso de pensamiento todo

play07:29

todo esto ha ocurrido en un bloque

play07:32

generado por el modelo del lenguaje pero

play07:34

que si os dais cuenta podríamos ocultar

play07:36

Esto justamente os lo dije la semana

play07:38

pasada en el vídeo de Strawberry y orion

play07:40

os dije que Y esto es como yo intuyo que

play07:42

va a funcionar este strawberry es

play07:44

a estos gpt 4 y decirle Mira Sí para

play07:46

este problema razona piensa Cómo

play07:48

podríamos resolverlo paso a paso genera

play07:50

estas cadenas de pensamiento y razónalo

play07:53

y genera una otra otra otra otra y otra

play07:57

genera muchos tokens para generar

play07:59

diferentes formas de resolver este

play08:00

problema todos estos tokens que estamos

play08:02

dedicando va a ser tiempo de computación

play08:05

tiempo de pensamiento que incluso se lo

play08:07

podríamos ocultar al usuario podríamos

play08:09

generar un tag pensar que es que el

play08:11

modelo está pensando y dentro de la

play08:13

interfaz de chat gpt ocultar todos estos

play08:16

tokens de pensamiento que están bueno

play08:18

ocurriendo dentro de la cabeza del

play08:19

modelo esto se puede hacer tú con

play08:21

técnicas de prompting puedes generar un

play08:23

comportamiento de los modelos del

play08:24

lenguaje actuales para que hagan esto tú

play08:26

le puedes decir quiero que primero

play08:27

plantees un pensamiento que lo Sones

play08:29

paso a paso que descompongas la tarea

play08:31

que reflexiones y critiques sobre los

play08:33

puntos más difíciles es decir con

play08:34

prompting se puede llegar a exprimir le

play08:36

este rendimiento a los modelos y tú

play08:38

puedes Además maquetar para que esta

play08:40

etiqueta de pensamiento en la interfaz

play08:43

que le damos al usuario quede oculta

play08:44

como bueno el modelo está tardando un

play08:46

poquito más en responder este

play08:48

pensamiento no lo está viendo el usuario

play08:50

estos tokens que se está generando pero

play08:52

están ahí y cuando todo ese

play08:54

planteamiento está hecho pues ahora

play08:55

podemos emitir el output que esto podría

play08:57

ser lo único que le externalize a

play08:59

usuario Esta es la primera frase del

play09:01

preámbulo de la declaración de la

play09:02

independencia escrita en el espejo ta ta

play09:05

y te pone la respuesta y luego te pone

play09:07

algunos puntos a a remarcar detalles

play09:10

como que la puntuación Pues en un espejo

play09:11

se mantiene igual que algunas letras

play09:13

pueden confundirse porque parecen otro

play09:15

tipo de letras que algunas letras como

play09:17

la o o la x cuando las volteas se quedan

play09:18

igual Es decir aspectos muy interesantes

play09:21

y muy inteligentes a remarcar de la

play09:23

tarea que le hemos planteado Esto es

play09:26

algo que yo hasta ahora no había visto a

play09:29

ser a un modelo del lenguaje entonces

play09:32

aquí mat schumer nos cuenta un poco Cómo

play09:34

va esta técnica no la técnica que eh

play09:36

mueve a reflection 70b es sencilla pero

play09:39

muy potente las mejores soluciones en

play09:42

este caso dice los actuales llms tienen

play09:44

tendencia a alucinar y no pueden

play09:45

reconocer cuando lo hacen reflection

play09:47

tuning permite a los modelos de lenguaje

play09:49

reconocer sus errores como hemos visto y

play09:51

luego corregirlos antes de comprometerse

play09:53

con una respuesta atentos Un ejemplo muy

play09:56

popular muy conocido Cuéntame Cuántas

play09:59

tiene la palabra strawberry Un ejemplo

play10:01

muy popular que sabemos que ocurre por

play10:03

no tanto por falta de capacidad de

play10:05

inteligencia de los sistemas sino por

play10:07

problemas con el tokenizador con Cómo se

play10:09

descompone una palabra en diferentes

play10:11

trozos pues sabemos que los modelos son

play10:12

incapaces de ver las letras de forma

play10:14

independiente A menos que hagan cosas

play10:15

como esta que es separarlas a través de

play10:17

guiones Y en este caso fijaos como la

play10:19

propia inercia del modelo de confundirse

play10:21

siempre con esta con esta palabra le

play10:23

hace alucinar Pues una respuesta

play10:25

incorrecta No tiene la palabra

play10:27

strawberry pues dos r que sabemos que es

play10:29

incorrecto porque tiene tres en ese

play10:30

momento no comete el fallo y lo ocupe el

play10:32

usuario sino que se activa este

play10:34

mecanismo de eh reflexión que es

play10:35

simplemente un comportamiento sobre el

play10:37

que han entrenado al modelo para que sea

play10:39

más crítico con sus respuestas Y le

play10:41

permite hacer este tipo de valoraciones

play10:42

y fijaos como se da cuenta rápidamente

play10:44

que ha cometido un error y que puede ver

play10:46

ahora que en realidad hay tres Rs en la

play10:48

palabra strawberry algo que podía haber

play10:50

hecho bien desde este punto porque es

play10:51

cierto que aquí lo descompone de forma

play10:53

correcta algo que sobrepasa la

play10:55

limitación del tokenizador pero esta

play10:57

respuesta que seguramente está overfit

play10:58

Ada Pues aquí esta parte este bloque

play11:00

consigue corregirla tenemos otro ejemplo

play11:03

aquí abajo otro ejemplo también muy

play11:04

conocido vamos a descargarnos la imagen

play11:06

que es el famoso ejemplo de Qué número

play11:08

es más grande 9,11 o 9,9 un ejemplo que

play11:11

sabemos que en los modelos en las

play11:13

iteraciones que han ido saliendo durante

play11:14

el verano se ha conseguido solucionar

play11:16

pero que hasta hace No mucho era un

play11:18

error que hasta los modelos más potentes

play11:19

cometían donde pensaban que el número

play11:21

9,11 era mayor que 9,9 y vamos a ver de

play11:24

nuevo el proceso de de pensar del modelo

play11:26

no porque es fascinante ver cómo de

play11:28

nuevo lanza el bloque de pensamiento

play11:30

Este es un problema relativamente

play11:31

sencillo que envuelve comparar dos

play11:33

números decimales planificación

play11:35

identificar los números para comparar

play11:37

9,11 y 9,9 comparar la parte entera de

play11:40

los números si la parte entera es igual

play11:42

comparar la parte decimal determinar Qué

play11:44

número es mayor basado en la comparación

play11:46

por ahora el proceso es bastante lógico

play11:48

luego Aquí vemos que aborda esta

play11:49

planificación empieza a ejecutarla

play11:51

haciendo uso de otra técnica de

play11:53

prompting muy conocida Chain of thoughts

play11:55

del paper de Palm 2 si no recuerdo mal

play11:57

donde Bueno pues simplemente le pedimos

play11:58

al modelo que razone paso a paso pues

play12:00

esto que acaba de planificar los números

play12:02

a comparar son 9,11 9,9 primer paso

play12:04

hecho los dos números tienen la misma

play12:06

parte entera 9 como la parte entera es

play12:08

igual vamos a comparar la decimal la

play12:10

parte decimal de 9,11 es com11 la parte

play12:12

decimal de com9 es com9 ta ta ta hace

play12:15

todo este proceso y ahora de nuevo

play12:17

verifica que todo el proceso es correcto

play12:19

y genera la respuesta esto de nuevo a

play12:21

nivel de interfaz podemos

play12:29

9,11 Y entonces genera una dinámica que

play12:31

es muy interesante porque ya la venimos

play12:33

comentando en este canal y en los

play12:34

directos que he hecho en dosv en el que

play12:36

empezamos a observar como si tú le

play12:39

planteas un problema más difícil pues

play12:41

toda esta generación de tokens que

play12:43

estamos viendo aquí este proceso de

play12:44

pensar paso a paso de reflexión va a ser

play12:46

más largo Es decir para generar estos

play12:48

tokens de aquí que son tokens de valor

play12:50

para nosotros Porque son los que suponen

play12:52

la solución a nuestro problema la

play12:54

cantidad de computación de procesamiento

play12:56

necesaria que es la de generar todos los

play12:58

tokens previos Pues ahora va a ir en

play13:01

función de la dificultad del problema

play13:02

que le planteemos algo que necesitábamos

play13:05

en estos sistemas y yo personalmente a

play13:07

mí que no me quiten la magia Yo siempre

play13:08

voy a querer optar por por leer este

play13:11

proceso porque me parece fascinante y

play13:13

creo que es muy didáctico no yo creo que

play13:15

la Inteligencia artificial Ahora que nos

play13:17

da las soluciones a los problemas que le

play13:19

pedimos pues es una herramienta de

play13:21

muchísima ayuda pero si empezamos a

play13:23

contar ya con inteligencias artificiales

play13:25

capaces de razonar de una forma fiable

play13:27

poder estudiar y poder ten entender este

play13:29

proceso de razonamiento si es correcto

play13:31

me parece s super didáctico pensad en un

play13:34

chaval de primaria que le plantean este

play13:36

problema en clase y que no solo va con

play13:38

la solución sino que ha podido estudiar

play13:40

Cómo la í ha razonado y cómo lo ha hecho

play13:42

perfectamente el proceso deductivo para

play13:44

llegar a la a la respuesta Wow y Qué

play13:47

diferencia tiene Carlos con yo sentarme

play13:50

y escribir un prompt muy complejo donde

play13:52

le pida al modelo que haga esto esto

play13:54

esto y esto es decir realmente esto es

play13:57

una mejora en el modelo o es una mejora

play13:59

en las técnicas de prompting y la

play14:00

respuesta aquí tiene que ver con otro

play14:01

concepto que Durante este último año

play14:03

también ha estado sobrevolando lo hemos

play14:04

comentado También muchas veces y son los

play14:07

datos sintéticos el utilizar datos

play14:10

generados por la Inteligencia artificial

play14:12

para entrenar a otros sistemas apoyarnos

play14:14

en las herramientas que tenemos

play14:16

actualmente que son muy potentes para

play14:17

poder entrenar a herramientas más

play14:19

potentes todavía porque lo que han hecho

play14:21

no es ningún tipo de técnica de

play14:22

prompting que esté eh englobada dentro

play14:24

del sistema que vamos a utilizar ahora

play14:26

sino que realmente lo que han hecho ha

play14:27

sido generar un dataset sintético

play14:29

haciendo uso de estas técnicas de

play14:31

prompting vale tú puedes cogerte por

play14:33

ejemplo con chat gpt ponerle este

play14:34

problema y con prompting le puedes pedir

play14:36

Mira Quiero que apliques técnicas de

play14:38

self reflection quiero que hagas Chain

play14:40

of thoughts quiero que hagas todo este

play14:42

catálogo de eh técnicas de prompting que

play14:44

sabemos que funcionan muy bien y gename

play14:46

una respuesta que esté desarrollada con

play14:48

este estilo y para muchos problemas tú

play14:50

te puedes generar esta estructura de

play14:51

respuesta más desarrollada y ahora

play14:53

ese dataset para entrenar al modelo con

play14:56

esta forma de solucionar los problemas

play14:58

haciendo Endo que el modelo ya de facto

play15:00

aprenda a actuar de esa forma es decir

play15:02

estamos jarc ode todas estas técnicas de

play15:05

prompting en el comportamiento del

play15:07

modelo con lo cual cuando vosotros lo

play15:08

descarguéis Porque recordemos estos Open

play15:10

source cuando lo utilicéis el modelo ya

play15:12

va a empezar a aplicar estas técnicas de

play15:15

self reflection Chain of thoughts todo

play15:16

esto a la vez esto claro no es tan

play15:18

sencillo Porque supone hacer también

play15:20

cambios en el tokenizador por ejemplo le

play15:22

han enseñado tokens concretos para eh la

play15:24

fase de pensamiento la fase de reflexión

play15:26

vale todo esto el modelo lo percibe como

play15:28

un un único token para poder aprender a

play15:30

utilizar cuando quiere reflexionar

play15:32

cuando quiere eh pensar y si te dais

play15:34

cuenta esta idea de tener un sistema que

play15:36

es capaz de generar un proceso de

play15:37

razonamiento un poquito más elaborado

play15:40

que podemos registrar pues se parece a

play15:42

la idea de Strawberry lo comentamos

play15:44

también en el vídeo de las filtraciones

play15:46

con esta noticia de aquí strawberry

play15:48

sabemos que es un sistema que no se

play15:50

parece tanto creo yo a un modelo de

play15:52

lenguaje sino que tiene que ver más bien

play15:53

con algo que podemos acoplar a los

play15:55

modelos de lenguaje para que razonen

play15:56

mejor y que sería semejante en este caso

play15:58

pues a todas las técnicas de prompting

play16:00

que ellos han utilizado para generar

play16:01

este dataset sintético digo semejantes

play16:03

pero no creo que sean comparables porque

play16:05

creo que el strawberry que Open está

play16:06

desarrollando no son solo técnicas de

play16:08

prompting sino algo más avanzado que

play16:10

genera un razonamiento de calidad pero

play16:12

en este caso Bueno pues estas técnicas

play16:14

de prompting sí nos dan un razonamiento

play16:16

que podemos utilizar y si recordáis de

play16:18

aquel vídeo otra de las filtraciones que

play16:19

vimos en esta noticia era que Open Ai

play16:22

estaba utilizando los registros de este

play16:24

strover estos razonamientos de más

play16:25

calidad para entrenar a su próximo

play16:27

modelo orion para darle a un modelo

play16:30

acceso a datos de mayor calidad sobre

play16:32

todo en el proceso de razonamiento algo

play16:34

que se parece mucho aunque repito la

play16:36

técnica de generar estos registros de

play16:38

razonamiento posiblemente sean muy

play16:39

diferentes pero que se parece mucho a lo

play16:41

que estamos viendo hoy podemos utilizar

play16:43

a los modelos actuales para generar

play16:45

datos sintéticos de razonamiento de más

play16:48

calidad por ejemplo para entrenar a

play16:50

modelos más potentes y esto es lo que

play16:52

nos cuenta mat que incluso después de la

play16:54

salida del modelo 405b tiene más

play16:56

técnicas que quiere seguir probando y

play16:58

que posiblemente de mejores resultados

play16:59

porque realmente la técnica como idea es

play17:02

muy sencilla de hecho me sorprende que

play17:04

no hayamos visto más ejemplos durante

play17:06

estos meses de Eh bueno organizaciones

play17:08

independientes o incluso de las grandes

play17:10

compañías haciendo uso de este tipo de

play17:11

técnicas Bueno si queréis probar el

play17:13

modelo eh tenéis pocas opciones por

play17:15

ahora porque es cierto que el modelo es

play17:17

Open source pero es el modelo 70,000

play17:19

millones de parámetros que es un modelo

play17:21

bastante grande para el Hardware eh

play17:23

convencional yo creo que está eh antes

play17:25

de cuantización pues sobre los 140 GB

play17:27

con lo cual va a costar mucho que lo

play17:29

ejecutemos en nuestros ordenadores algo

play17:30

que comentaba él que también me parece

play17:32

muy interesante es que probaron aplicar

play17:33

Esta técnica el modelo 8b y no

play17:35

encontraron estos rendimientos tan

play17:37

buenos que han visto en los modelos más

play17:39

grandes con lo cual algo Nos cuenta de

play17:41

que Esta técnica solamente es aplicable

play17:44

cuando ciertas escalas son conseguidas

play17:46

lo cual siempre es interesante no ver

play17:47

estos comportamientos emergentes cuando

play17:49

la escala va subiendo Pues siempre eh

play17:51

Son cositas que interesan y Tengo

play17:53

curiosidad por ver que también funciona

play17:54

el modelo más grande 405b que veremos la

play17:57

próxima semana si queréis probarlo una

play17:58

de las opciones online que nos ofrecen

play18:00

es esta de aquí os voy a dejar el enlace

play18:02

abajo pero es cierto que la página web

play18:04

está eh sobrecargada Está muy saturada

play18:06

han tenido que poner límites hay errores

play18:08

pero bueno no pasa nada vamos a probar

play18:10

con este prom que es Dime cuántas rres

play18:13

tiene la palabra fresa ornitorrinco y

play18:14

torero y en el caso de reflexión pues

play18:16

tenemos que esperar vale la página web

play18:17

tarda muchísimo y esto es por la gran

play18:19

cantidad de gente que hay esto no tiene

play18:21

que ver con el modelo generando muchos

play18:23

tokens De hecho cuando empieza a generar

play18:25

Vais a ver que es una generación normal

play18:27

pero hay una cola bastante larga así que

play18:28

vamos a

play18:46

[Música]

play18:50

esperar Okay está muerto vale parece que

play18:53

por ahora no vamos a poder Acceder al

play18:55

modelo está todo caído es el efecto demo

play18:58

de las primeras horas y sí es cierto que

play19:00

hay otros proveedores hay algunos

play19:02

despliegues en hacking Face pero no me

play19:04

termino de fiar porque para que este

play19:05

modelo funcione bien y todo esté

play19:07

correcto hace falta configurar bien

play19:09

algunos aspectos del prompt que por lo

play19:11

que estoy leyendo en Twitter por parte

play19:13

de mat shamer pues no todos están

play19:15

haciendo Entonces vamos a esperar un

play19:16

poco para sacar una valoración Clara y

play19:18

rigurosa de qué también funciona Este

play19:20

modelo Pero bueno tened en cuenta que es

play19:22

un modelo Open source que podréis

play19:23

Descargar que se va a cuantizar que esto

play19:25

va a acabar funcionando en nuestros

play19:27

sistemas hay que darle un un par de días

play19:29

para que toda la comunidad empiece a

play19:30

trabajar en esto y cuando lo tengamos

play19:32

pues haremos pruebas en cualquier caso

play19:34

me parece una grandísima noticia porque

play19:37

creo que hemos entrado en un terreno

play19:39

nuevo hemos por primera vez al menos las

play19:41

respuestas que se han compartido y las

play19:43

pruebas que yo he podido hacer antes

play19:44

porque es cierto que sí esta mañana he

play19:46

podido probar el modelo y los

play19:47

razonamientos que me daban eran muy

play19:49

buenos sobre prompts que yo sé que chat

play19:51

gpt y clod no consigue resolver Y para

play19:54

mí ha sido como ver por primera vez un

play19:57

comportamiento que en estos modelo del

play19:59

lenguaje en este tipo de tecnología

play20:00

hasta ahora no había visto estoy notando

play20:02

que estamos entrando en esa nueva fase

play20:04

que nos han prometido que las grandes

play20:06

compañías sabemos que se van a

play20:07

introducir en los próximos meses y si

play20:09

esto que es un proyecto amateur de una

play20:11

persona no es una gran compañía con

play20:13

todos los recursos que tienen si ha

play20:15

conseguido que esto funcione de esta

play20:17

manera tengo bastantes eh altas

play20:19

expectativas de lo que puede salir en

play20:21

los próximos meses en materia de

play20:23

razonamiento estamos entrando en esta

play20:25

nueva fase y lo que Mola es ver que la

play20:27

comunidad s por ahora no se está

play20:30

quedando atrás Seguiremos profundizando

play20:31

sobre este modelo y todo lo que vaya

play20:33

saliendo y chicos chicas continuamos con

play20:35

más Inteligencia artificial aquí en dosv

play20:38

lap y en dosv con más contenido

Rate This

5.0 / 5 (0 votes)

Связанные теги
Inteligencia ArtificialModelo Open SourceRazonamiento LógicoTecnología AvanzadaProgramaciónIA AvanzadaModelo de LenguajeSelf ReflectionChain of ThoughtsPrompting
Вам нужно краткое изложение на английском?