🔴 LLAMA 3 - ¡META Vuelve a REVOLUCIONAR el mundo de la IA!

Dot CSV
19 Apr 202444:46

Summary

TLDREl script de un video directo aborda el impacto revolucionario de la inteligencia artificial en el mundo, particularmente en el ámbito de los modelos de lenguaje open source. Se discute la evolución de la tecnología desde el auge de Chat GPT, pasando por la competencia de establecimientos como Microsoft y Google, hasta la estrategia disruptiva de Meta con su modelo 'Llama'. El vídeo destaca la importancia de los modelos de lenguaje para tareas inteligentes y cómo la comunidad open source ha respondido al desafío con iniciativas como Open Assistant. Se explora la filosofía detrás de la publicación de modelos open source y su efecto multiplicador en el avance de la tecnología, así como el potencial de los modelos Llama 3 para transformar la industria. Además, se menciona la preferencia de los usuarios por el modelo Llama 370B en evaluaciones humanas, la necesidad futura de modelos multilingües y la competencia creciente con modelos privados. El hablante pronostica un cambio de paradigma inminente y un futuro donde los modelos open source podrían liderar en innovación y accesibilidad.

Takeaways

  • 🎉 Meta ha lanzado una nueva familia de modelos llama 3, que incluye modelos de diferentes tamaños y capacidades.
  • 📈 Los modelos llama 3 han demostrado un rendimiento significativo en comparación con otros modelos de su categoría y modelos comerciales.
  • 🔍 Se destaca que el modelo de 8000 millones de parámetros (llamado 8b) supera a modelos de Google y Mistral en algunos benchmarks.
  • 🚀 El modelo grande de llama 3, con 400.000 millones de parámetros, es competitivo con modelos como GPT-4 y puede ser un punto de partida para futuras innovaciones.
  • 🌐 Los modelos de llama 3 tienen una fuerte base en inglés, pero Meta ha prometido modelos multilingües y con capacidad multimodal en el futuro.
  • 📚 Los modelos han sido entrenados con una gran cantidad de datos, incluyendo un aumento considerable en los datos de programación, lo que mejora su capacidad de razonamiento.
  • 💾 Meta ha utilizado una estrategia de entrenamiento intensivo, a pesar de que podría ser considerado ineficiente en términos de optimización de datos y parámetros.
  • 🌟 Los modelos llama 3 están disponibles para su descarga y uso, lo que podría impulsar el desarrollo de nuevas aplicaciones y servicios basados en inteligencia artificial.
  • 🤖 La comunidad de inteligencia artificial está experimentando un cambio de fase donde los modelos abiertos están alcanzando niveles comparables a los modelos privados.
  • ⏰ Se sugiere que la próxima evolución en los modelos de lenguaje podría no ser continuista y podría llevar a un nuevo paradigma en la inteligencia artificial.
  • 📈 La competencia en el campo de la inteligencia artificial se está intensificando, con organizaciones como Antropic y Mistral trabajando en modelos que podrían desafiar el estatus de OpenAI.

Q & A

  • ¿Qué ha provocado el cambio de fase en el mundo de la inteligencia artificial?

    -El cambio de fase en la inteligencia artificial ha sido impulsado por la salida de modelos como Llama 3, que han permitido que los modelos de código abierto alcanzaran un rendimiento similar al de modelos privados, lo que indica una convergencia en el rendimiento entre los modelos abiertos y cerrados.

  • ¿Por qué Meta ha decidido entrenar un modelo de inteligencia artificial con más datos de lo óptimo?

    -Meta ha entrenado un modelo con más datos de lo óptimo para ayudar a la comunidad, a pesar de los costos de entrenamiento más altos, con el objetivo de reducir los costos de inferencia marginales para cada usuario, lo que resulta en ahorros significativos a gran escala.

  • ¿Cuál es la diferencia entre los modelos Llama 2 y Llama 3 en términos de rendimiento?

    -Llama 3 ha mejorado significativamente en términos de rendimiento en comparación con Llama 2, llegando a competir y superar a modelos de la misma categoría y a modelos privados en algunos benchmarks.

  • ¿Cómo ha afectado el entrenamiento de Llama 3 con una gran cantidad de datos a su capacidad para programar y razonar?

    -El entrenamiento de Llama 3 con una gran cantidad de datos, incluidos datos de programación, no solo ha mejorado sus habilidades para programar sino también sus capacidades de razonamiento en tareas que no están relacionadas con la programación.

  • ¿Por qué Llama 3 podría tener preferencias para funcionar mejor en inglés?

    -Llama 3 podría tener preferencias para funcionar mejor en inglés porque el 99% de los datos utilizados en su entrenamiento eran datos en inglés, lo que hace que el modelo sea más eficiente en este idioma en comparación con otros.

  • ¿Cuál es la ventana de contexto de Llama 3 y cómo afecta esto su capacidad para procesar información?

    -La ventana de contexto de Llama 3 es de 8000 tokens, lo que limita la cantidad de información que puede procesar simultáneamente. Aunque es un aumento en comparación con modelos anteriores, en el contexto actual de modelos de inteligencia artificial, se considera limitado.

  • ¿Cómo se pueden descargar y utilizar los modelos Llama 3?

    -Los modelos Llama 3 pueden descargarse y utilizarse en herramientas como LM Studio, que es un gestor de modelos de lenguaje que permite buscar, instalar y descargar modelos según los requisitos de hardware del usuario.

  • ¿Qué implica la convergencia de los modelos de inteligencia artificial abiertos y cerrados en términos de rendimiento?

    -La convergencia de modelos abiertos y cerrados en términos de rendimiento implica que los modelos de código abierto están alcanzando niveles de eficacia similares a los de modelos privados, lo que podría llevar a una mayor competencia y innovación en el campo.

  • ¿Cómo afecta la estrategia de Meta de entrenar un modelo con más datos de lo óptimo en términos de costos?

    -La estrategia de Meta de entrenar un modelo con más datos de lo óptimo resulta en un entrenamiento más caro, pero reduce los costos de inferencia, lo que es beneficioso a gran escala cuando se trata de múltiples usuarios y organizaciones utilizando el modelo.

  • ¿Por qué es importante el tamaño del modelo de inteligencia artificial en términos de su utilización y costes?

    -El tamaño del modelo de inteligencia artificial es importante porque un modelo más grande puede contener más información y ser más eficaz, pero también requiere más recursos de entrenamiento y inferencia. Un modelo más pequeño, aunque sea menos potente, es más accesible y tiene menores costes de inferencia, lo que facilita su uso en una amplia gama de dispositivos.

  • ¿Qué se espera del modelo de inteligencia artificial de Meta una vez que haya terminado su entrenamiento?

    -Se espera que el modelo de inteligencia artificial de Meta, una vez finalizado su entrenamiento, competa directamente con los modelos más avanzados como GP4, ofreciendo un rendimiento similar con el beneficio adicional de ser un modelo de código abierto y, por lo tanto, más accesible para la comunidad.

Outlines

00:00

🎤 Introducción y disculpas previas

El hablante comienza el video saludando a su audiencia y pidiendo disculpas por varios motivos: problemas de audio con el micrófono, su voz afectada por una gripe, y la falta de energía durante la grabación debido a su estado de salud. También menciona su intención de discutir un tema relevante en el mundo de la inteligencia artificial, específicamente la revolución de los modelos de lenguaje open source impulsados por Meta.

05:01

📈 Impacto de la IA y evolución de los modelos open source

Se discute el impacto significativo de la inteligencia artificial en el mundo actual, especialmente después del auge de Chat GPT. Se destaca el papel de Meta en la creación de un modelo open source que ha permitido a la comunidad científica y tecnológica avanzar en la investigación y desarrollo de modelos de lenguaje. Se menciona la estrategia de Meta de liberar modelos open source que mejoran continuamente y se integran en servicios populares como WhatsApp e Instagram.

10:03

🚀 Lanzamiento de Llama 3 y su importancia

El hablante presenta Llama 3 como una nueva actualización en la familia de modelos de Meta, compuesto por cuatro modelos de diferentes tamaños. Destaca la relevancia de estos modelos, especialmente los instruct, que están diseñados para funciones de chatbot y asistencia. Se menciona la capacidad de Llama 3 de competir con otros modelos de la industria y su potencial para ser la base de futuros modelos mejorados.

15:04

🤖 Evaluación de Llama 3 y su rendimiento

Se proporciona una comparación detallada del modelo Llama 3 con otros modelos en el mercado, destacando su rendimiento en diferentes pruebas y evaluaciones. Se menciona que el modelo de 8 mil millones de parámetros de Llama 3 supera a modelos de la misma categoría en varios benchmarks, y se explora la preferencia de los usuarios por este modelo en comparación con otros en evaluaciones humanas.

20:04

🌐 Multilingüismo y futuro de los modelos de IA

Se discute la necesidad de modelos multilingües y la promesa de Meta de desarrollarlos en el futuro. Se señala que la mayoría de los datos utilizados para entrenar Llama 3 son en inglés, lo que podría limitar su eficacia en otros idiomas. Sin embargo, se muestra optimismo en la capacidad de la comunidad para mejorar y adaptar estos modelos a través del fine-tuning y la optimización.

25:06

📚 Cambio en la arquitectura de Llama 3 y su entrenamiento

El hablante aborda la arquitectura de Llama 3, señalando que no ha cambiado significativamente desde la versión anterior, pero ha mejorado en su rendimiento. Se atribuye este mejoramiento a la calidad de los datos utilizados para su entrenamiento, particularmente el aumento en la cantidad de datos de programación, lo que mejora no solo la programación sino también la capacidad de razonamiento del modelo.

30:06

🧳 Analogía de la maleta y capacidad de los modelos de IA

Se utiliza la analogía de una maleta para describir la capacidad de un modelo de IA para almacenar información. Se explica que cuanto más datos se introducen en un modelo, mayor es el esfuerzo necesario en el entrenamiento. Se discute cómo Meta ha logrado 'apretar' una gran cantidad de datos en un modelo de un tamaño determinado, lo que podría no ser computacionalmente óptimo pero es beneficioso para la comunidad.

35:08

🔍 Disponibilidad y utilidad del modelo Llama 3

Se informa sobre la disponibilidad del modelo Llama 3 para su descarga y uso en diversas plataformas y herramientas, como Hugging Face's Model Hub y LM Studio. Se destaca la utilidad de estos modelos para tareas específicas de procesamiento del lenguaje natural y se ofrece orientación sobre cómo pueden ser implementados y utilizados por los usuarios.

40:10

🌟 Cambio de fase en el desarrollo de modelos de lenguaje

El hablante reflexiona sobre el rápido avance de los modelos de lenguaje y cómo la comunidad open source se acerca al rendimiento de los modelos cerrados. Se sugiere que se está viviendo un cambio de fase en el que los modelos open source están alcanzando niveles comparables a los modelos privados. Se anticipa que OpenAI podría estar presionado para innovar y lanzar algo nuevo que quite el pulso a la competencia open source.

Mindmap

Keywords

💡Inteligencia Artificial

La Inteligencia Artificial (IA) es la rama de la informática que se dedica a crear sistemas capaces de realizar tareas que generalmente requieren inteligencia humana. En el video, se discute cómo la IA se está revolucionando con el avance de modelos de lenguaje y cómo Meta (antes Facebook) está contribuyendo a esta evolución con su modelo 'Llama'.

💡Modelos de Lenguaje

Los modelos de lenguaje son sistemas de IA diseñados para procesar y generar texto. Son fundamentales en aplicaciones como asistentes virtuales, traductores automáticos y chatbots. En el video, se menciona que Meta ha lanzado una nueva generación de modelos de lenguaje llamados 'Llama', que están compitiendo con otros modelos de empresas líderes.

💡Open Source

El software open source es aquel que permite a los usuarios acceder al código fuente y modificarlo libremente. En el contexto del video, se destaca que Meta ha abierto el código de sus modelos 'Llama', lo que permite a la comunidad de desarrolladores mejorar y personalizar estos modelos.

💡Chat GPT

Chat GPT es un modelo de lenguaje pre-entrenado desarrollado por OpenAI que ha revolucionado la forma en que la IA interactúa con los usuarios a través de chatbots. En el video, se compara el avance de 'Llama' con el impacto que tuvo el lanzamiento de Chat GPT en la comunidad de IA.

💡Parámetros del Modelo

Los parámetros de un modelo de IA son los valores que definen su comportamiento y capacidad de aprendizaje. Un modelo con más parámetros suele ser capaz de aprender patrones más complejos. En el video, se discute cómo el tamaño de los parámetros en el modelo 'Llama' de Meta ha crecido exponencialmente, lo que indica una mayor capacidad de procesamiento y aprendizaje.

💡Benchmark

Un benchmark es una prueba estándar utilizada para medir el rendimiento de un sistema. En el video, se utilizan benchmarks para comparar el rendimiento de los modelos de IA 'Llama' con otros modelos existentes en el mercado, lo que permite evaluar su eficacia y utilidad.

💡Hacking Face

Hacking Face es una comunidad en línea conocida por sus foros y chats, donde se discuten temas relacionados con la informática y la seguridad informática. En el video, se menciona como un ejemplo de plataforma donde se podría utilizar el modelo 'Llama' para interactuar con la comunidad.

💡LM Studio

LM Studio es una herramienta que permite a los usuarios gestionar y utilizar diferentes modelos de lenguaje. En el video, se sugiere que LM Studio es una plataforma donde los usuarios pueden descargar e instalar el modelo 'Llama' para utilizarlo en sus proyectos de IA.

💡Cuantización

La cuantización en IA se refiere a la reducción del tamaño de los modelos al reducir la precisión de sus parámetros. Esto permite que los modelos sean más ligeros y se ejecuten en hardware de menor capacidad. En el video, se menciona que el modelo 'Llama' ofrece opciones de cuantización para adaptarse a diferentes niveles de hardware.

💡Multilingüismo

El multilingüismo hace referencia a la capacidad de un modelo de lenguaje para funcionar en varios idiomas. En el video, se destaca que, aunque el modelo 'Llama' ha sido entrenado principalmente en inglés, Meta ha prometido lanzar modelos multilingües en el futuro para mejorar la representación de otros idiomas como el español.

💡Contexto de Ventana

La ventana de contexto se refiere a la cantidad de información que un modelo de lenguaje puede procesar en una sola instancia. En el video, se discute que el modelo 'Llama' tiene una ventana de contexto limitada en comparación con otros modelos, lo que podría afectar su capacidad para procesar largas secuencias de texto.

Highlights

Meta ha lanzado una nueva familia de modelos llama 3, que incluye cuatro modelos con características comunes.

Los modelos de llama 3 varían en tamaño, con un modelo pequeño de 8000 millones de parámetros, un mediano de 70,000 millones y uno grande de 400,000 millones de parámetros.

Llama 3 demuestra un rendimiento significativo en benchmarks, superando a modelos de su misma categoría y competidores comerciales.

Los modelos instruct de llama 3 están fine-tuneados para funciones de chatbot asistencial, lo que los hace relevantes para servicios de IA.

Meta ha utilizado una estrategia de entrenamiento intensivo con un gran volumen de datos, lo que ha permitido a los modelos absorber información a un nivel inusual.

El modelo de 8000 millones de parámetros de llama 3 ha demostrado una capacidad de razonamiento y programación mejorada gracias a la calidad y cantidad de datos de programación utilizados en su entrenamiento.

Los modelos de llama 3 están disponibles para descargar y usar en diversas plataformas, lo que promueve su adopción y optimización por la comunidad.

Los modelos de llama 3 han sido evaluados positivamente en pruebas humanas, obteniendo preferencias por parte de los usuarios en comparación con otros modelos privados.

A pesar de su rendimiento, los modelos de llama 3 tienen una ventana de contexto limitada, lo que podría ser un desafío para tareas que requieren procesamiento de información extensa.

Meta ha prometido lanzar modelos multilingües y con capacidad multimodal en el futuro, lo que podría mejorar la representación y eficacia de llama 3 en otros idiomas además del inglés.

El modelo grande de llama 3 con 400,000 millones de parámetros está en desarrollo y muestra promesas de competir directamente con modelos como GP4 de OpenAI.

La comunidad open source está experimentando un auge en el desarrollo de modelos de lenguaje competitivos, impulsados en parte por el lanzamiento de llama 3.

La estrategia de Meta de ofrecer modelos de gran tamaño y capacidad a la comunidad podría ser un factor disruptivo en el mercado, alentando la innovación y reduciendo costos de inferencia.

Los modelos llama 3 están listos para ser utilizados en aplicaciones prácticas, desde la generación de texto hasta la automatización de procesos de lenguaje natural.

La calidad de los datos y la cantidad utilizada en el entrenamiento de llama 3 han sido clave para su rendimiento, demostrando la importancia del dataset en el desarrollo de modelos de IA.

El lanzamiento de llama 3 sugiere un cambio de fase en el desarrollo de modelos de lenguaje, donde los modelos open source están alcanzando niveles de rendimiento similares a los modelos cerrados.

La presión competitiva en el mercado está impulsando a las grandes empresas como OpenAI a innovar y desarrollar tecnologías que mantengan su liderazgo en inteligencia artificial.

La rápida evolución de los modelos de lenguaje open source está acercándose rápidamente al potencial de los modelos privados, lo que podría llevar a un nuevo paradigma en la IA.

Transcripts

play00:03

Hola chicos y chicas qué tal estáis

play00:06

Bienvenidos a un nuevo directo ad

play00:08

suv perdonadme de primeras varias cosas

play00:12

una es el audio eh este micrófono se

play00:16

jubila hoy llega micrófono nuevo bien el

play00:19

audio del canal va a mejorar segundo mi

play00:21

voz mi voz estoy llevo una semana con

play00:24

gripe eh Y tengo la voz fatal Además hoy

play00:28

quería cubrir este tema con un vídeo no

play00:30

con un directo con lo cual me he grabado

play00:32

dos horas he hecho la grabación entera

play00:35

de todo el metraje cuando me iba a poner

play00:36

a editarlo dicho es que se escucha mal

play00:38

me falta energía porque no termino de

play00:41

hablar bien cuando estoy grabando porque

play00:43

tengo la voz rara bueno fatal

play00:46

fatal pero aquí está la actualidad y el

play00:48

análisis

play00:50

eh estoy gripos Vale noos Voy a

play00:52

contagiar Eso es lo bueno eh pero nada

play00:54

simplemente estamos aquí hoy reunidos

play00:57

hermanos y hermanas porque meta lo ha

play01:00

vuelto a hacer meta ha vuelto a

play01:03

revolucionar el mundo de la Inteligencia

play01:07

artificial el panorama de los modelos

play01:10

Open source en concreto los modelos de

play01:12

lenguaje que es quizás de todas las

play01:14

posibles eh línea de investigación que

play01:17

hay en el mundo de la Inteligencia

play01:18

artificial la que ahora mismo es más

play01:20

popular tras el Boom de chat gpt y todo

play01:22

lo que ha venido a posterior y aquí meta

play01:24

Eh pues está jugando un juego que es

play01:27

bastante interesante y que vamos a estar

play01:28

comentando con la salida de este nuevo

play01:31

modelo vamos a analizarlo vale Quiero

play01:34

situar primero eh qué es esto de llama

play01:36

ya habéis visto los vídeos tenemos

play01:38

vídeos en el canal cubriéndolo pero es

play01:40

muy interesante porque estamos en una

play01:42

tercera versión de una familia de modelo

play01:44

de una generación de tecnologías que

play01:47

cada vez que salen ponen todos todo

play01:50

patas arriba vale Y a lo mejor no es tan

play01:52

evidente porque luego es cierto que lo

play01:54

que es la marca yama se diluye Pero eso

play01:57

sigue teniendo efectos importantes en

play01:59

mucho de lo que está pas pasando hoy en

play02:00

día entonces nos situamos finales de

play02:04

2022 sale chat gpt chat gpt explota eh

play02:09

pone en valor todo lo que la tecnología

play02:11

de Deep learning lleva durante bueno

play02:15

durante años investigando en el campo

play02:17

del procesamiento del lenguaje natural y

play02:18

de repente pone en valor que los modelos

play02:21

de lenguaje Más allá de generar texto

play02:22

pueden servir dentro de asistentes de

play02:24

chatbots para resolver tareas

play02:26

inteligentes muy Guay todo el mundo le

play02:29

gusta gpt Open Ai le sorprende y de

play02:32

repente la comunidad Open source que ya

play02:34

venía calentita del pasado

play02:37

e pues ya venía calentita porque con la

play02:40

parte de generación de imágenes en 2022

play02:42

habíamos conseguido con stable diffusion

play02:44

tener un modelo en abierto que competía

play02:46

con lo que Open Ai ofrecía pues ahí en

play02:49

valenton nada decía Oye podemos entrenar

play02:51

nosotros nuestro propio chat gpt Open

play02:54

source Y esto es una cosa que a

play02:56

principios de 2023 no se sabía si se iba

play02:59

a poder conseguir recordaréis que desde

play03:01

el canal impulsamos iniciativas como la

play03:02

de Open assistant creo que se llamaba eh

play03:06

que era una iniciativa donde recabamos

play03:08

datos entrenamos se entrenó a un modelo

play03:12

pero que al final la realidad ha hecho

play03:14

que esa iniciativa pues no hiciera falta

play03:16

y al final ya no ha continuado se ha

play03:18

descontinuado porque tenemos opciones

play03:21

Open source a punta pala y gran parte

play03:24

del motivo de que exista me voy aljar un

play03:28

poquito el micrófono y apte de que

play03:30

exista eh esta revolución de tantos

play03:33

modelos Open source es culpa de meta

play03:36

meta a principios del año de del año

play03:38

pasado en febrero de 2023 el año pasado

play03:41

es que parece que ha pasado c o 6 años

play03:43

no no el año pasado a principios de

play03:47

2023 saca un modelo Open source bueno

play03:50

Open weights no libera los parámetros de

play03:53

un modelo que que en principio iba a

play03:56

estar destinado para la comunidad

play03:57

científica y solo se podía acceder a

play04:00

través de un

play04:01

formulario a los pocos días ese modelo

play04:05

ya estaba en el Torrent ya se había

play04:07

filtrado y en ese momento pues ya no

play04:09

tienes control evidentemente aquí hay

play04:12

quien todavía duda si sí si no yo tengo

play04:15

Claro que meta sabía lo que iba a pasar

play04:17

lo que por un tema de bueno por evitar

play04:19

que se hablara sobre si estaban

play04:22

liberando una tecnología peligrosa el

play04:24

año pasado esto era un poco más sensible

play04:26

que lo que es ahora eh Pues por eso

play04:28

mismo intentar hacerlo Yo creo que de

play04:31

esta forma un poco rara cuando sale

play04:32

llama lo que llama permite Es que la

play04:35

empresa meta ha hecho ya esa inversión

play04:37

de dinero ese pre-entrenamiento que es

play04:39

la parte más costosa de entrenar a esta

play04:41

tecnología y se la ha dado a a la

play04:44

comunidad para que la comunidad ahora

play04:45

pueda hacer con ello lo que quiera para

play04:47

que pueda hacer fine tunings para que

play04:49

puedan hacer optimizaciones para que

play04:51

puedan hacer eh versiones diferentes del

play04:53

modelo lo que quieras y esto es super

play04:55

interesante porque permitió que empezara

play04:58

a explotar y eclosionar toda esta

play05:01

industria de los modelos Open source que

play05:03

hemos visto durante

play05:05

2023 salen modelos sale falcon salen eh

play05:09

vicuña salen bueno alpaca no un montón

play05:12

de alternativas de modelos de diferentes

play05:14

organizaciones y meta se da cuenta de

play05:17

que esta estrategia le ha funcionado muy

play05:19

bien porque tiene de repente a toda la

play05:21

gente trabajando para desarrollar y

play05:24

mejorar modelos que son los modelos que

play05:26

luego ellos también van a utilizar en

play05:28

sus propios servicios y aplicaciones en

play05:30

WhatsApp en instagram eh en Facebook es

play05:34

la estrategia perfecta para meta tengo a

play05:35

todo el mundo trabajando para nosotros y

play05:37

además nos aplauden Mark Zuckerberg ha

play05:40

pasado de ser un reptiliano

play05:44

rarunos Mola este tío nos cae bien esa

play05:47

es la estrategia que está siguiendo eh

play05:49

meta Vale entonces esto es muy

play05:51

interesante porque ya meta se pone este

play05:53

sombrero y dice vale como no puedo por

play05:56

ahora competir con los mayores los

play05:58

mayores el año pasado era Microsoft con

play06:00

Open Ai y Google que estaba ya

play06:03

entrenando su sistema gemini dice Bueno

play06:05

pues me meto en el partido cojo la

play06:08

pelota le doy una patada Y aquí no juega

play06:10

nadie rompo el tablero tiro el tablero y

play06:13

y vengo yo con mis modelos en abiertos e

play06:16

intento fastidiar los la fiesta llama

play06:19

era bastante competitivo para lo que

play06:20

teníamos en aquel entonces pero en marzo

play06:22

del año pasado sale gpt 4 cambian las

play06:25

tornas el modelo más potente jamás visto

play06:27

Y desde ese momento los modelos privados

play06:29

siguen mejorando y meta hace su segundo

play06:31

movimiento aparece llama 2 en verano en

play06:35

julio de 2023 aparece la segunda versión

play06:38

de yama una versión mejor que la primera

play06:41

con un cambio que de nuevo pone todo

play06:44

patas arriba el modelo que antes era de

play06:48

licencia para uso no comercial pasa a

play06:51

tener una licencia comercial esto

play06:54

significa que ahora cualquiera que

play06:55

descargue el modelo puede integrarlo en

play06:58

sus productos puede integrarlos en sus

play07:00

servicios puede sacarle partido puede

play07:03

montar negocio puede aprovecharlo

play07:05

económicamente

play07:07

esto es un cambio de paradigma brutal

play07:10

porque esto incentiva mucho el

play07:12

investigar este tipo de tecnologías y la

play07:15

vuelve mucho más atractivas vale el

play07:16

tener un estándar abierto que podemos

play07:18

todos eh trabajar con él que podemos

play07:20

modificar que podemos eh integrar en

play07:22

nuestros proyectos hace que el modelo

play07:24

llama se

play07:26

vuelva la y de ahí empiezan a

play07:29

aparecer más modelos empiezan a aparecer

play07:30

nuevos actores aparece la gente de

play07:32

Mistral aparecen

play07:34

eh la gente de cojar aparecen antropic

play07:37

también como modelo privado empieza a

play07:38

desarrollar más más más más y ahora sí

play07:41

damos un salto 10 meses más tarde desde

play07:44

julio del año pasado hasta el día de

play07:46

ayer el día de ayer Casi casi un año más

play07:49

tarde nos trae una nueva actualización

play07:52

del modelo llama y aparece llama 3 Ah y

play07:56

la pregunta de millónes Carlos llama 3

play08:00

es mejor es un modelo que revoluciona es

play08:02

un salto incremental Qué es llama 3 Pues

play08:06

llama 3 señoras y

play08:08

señores llama

play08:10

3 es un modelo vamos a dejarlo ahí en

play08:14

que es ostras ostras y quiero que veamos

play08:19

un poquito eh lo importante bueno

play08:21

tenemos que entender la salida de yama 3

play08:24

yama 3 no es en concreto ningún modelo

play08:26

sino es una familia de modelos que

play08:28

cumplen unas características comunes que

play08:30

en este caso es la arquitectura los

play08:31

dataset con los que se han entrenado y

play08:33

tal eh En este caso como sucedió con las

play08:35

versiones anteriores yama 3 viene con

play08:38

cuatro modelos no empezamos a abrir los

play08:39

regalos de Navidad y meta nos ha

play08:41

regalado cuatro modelos nuevos dos

play08:44

modelos como era habitual eh que son los

play08:47

modelos base esto es cuando tú entrenas

play08:49

un modelo de lenguaje los modelos

play08:51

encargados de aprender a predecir el

play08:52

siguiente token de texto punto no son

play08:55

chat gpt son gpt vale son la parte de

play08:59

aprender a continuar una frase aprender

play09:02

a predecir la siguiente palabra y luego

play09:04

están los modelos instruct los modelos

play09:06

instruct son los modelos que ahora sí

play09:09

han sido fine tuneados para cumplir esta

play09:11

labor de chatbot asistencial con lo cual

play09:13

tenemos dos categorías de modelos a

play09:15

vosotros la que más os va a interesar es

play09:18

la segunda categoría porque es la que

play09:20

normalmente se utiliza la mayoría de

play09:22

servicios perplexity haing chat eh No sé

play09:26

servicios de ia cuando vosotros habláis

play09:28

con el chatbot estáis hablando con los

play09:29

modelos instruct y luego estos modelos

play09:32

tiene dos tamaños un tamaño pequeño un

play09:36

tamaño

play09:37

mediano y un tamaño grande vale en en la

play09:40

familia de llama 2 en la segunda

play09:42

generación tenemos estos tenemos tres

play09:44

tamaños El pequeño el mediano y el

play09:46

Grande vale el Happy me el menú normal y

play09:50

el menú Big

play09:52

Mac El pequeño en llama 2 era el de 7

play09:56

billones de parámetros Perdón 7000

play09:58

millones de parámetros

play09:59

el mediano era 13000 millones de

play10:01

parámetros y el grande era 70.000

play10:03

millones de parámetros Pues ahora

play10:05

tenemos un modelo que es 8000 millones

play10:08

de parámetros El pequeño y un modelo que

play10:10

es el 70,000 millones de parámetros

play10:13

el

play10:15

grande no no es el grande es el

play10:21

mediano el mediano de antes o sea el

play10:24

mediano de ahora era el que antes era el

play10:27

grande el de 70,000 millones de

play10:28

parámetros

play10:29

y Carlos Si este es el mediano Cuál es

play10:33

el

play10:34

Grande nos sujetamos a la

play10:37

mesa sujetamos a la mesa chicos estáis

play10:39

agarrados el grande es un modelo de

play10:45

400000 millones de parámetros

play10:48

Carlos no te he entendido cuánto

play10:52

400000 millones de parámetros Carlos que

play10:56

satura el micrófono 400000

play10:59

de parámetros

play11:02

Eh Esto es un modelo que si lo pensamos

play11:05

es dos o

play11:07

2,5 veces el tamaño de gpt3 por

play11:11

ejemplo vale si lo pensamos gpt 4 es un

play11:17

modelo de

play11:19

1,8 billones de parámetros billones con

play11:22

b pero es un mixter of expert es decir

play11:26

es un modelo que los parámetros activos

play11:29

que tienen como recordaréis del vídeo

play11:30

que que os enseñé de mixter of expert no

play11:33

se activan todas las partes del modelo

play11:35

sino que se activan solamente ciertas

play11:38

partes en cada

play11:40

inferencia los parámetros que se activan

play11:42

en gpt 4 son 220.000 millones de

play11:46

parámetros y estamos hablando de que

play11:49

meta ha sacado un modelo o va a sacar un

play11:51

modelo de 400.000 millones de parámetros

play11:54

o sea en parámetros activados casi lo

play11:57

duplica de hecho es 4 5000 millones de

play12:00

parámetros

play12:00

es una locura es una locura 400000

play12:05

millones de parámetros

play12:07

vale vamos a hablar de esto ahora pero

play12:10

bueno quiero que veamos un poco lo lo

play12:13

importante que es

play12:15

el a ver dónde está la información aquí

play12:18

quiero que veamos que también rinden los

play12:20

modelos porque esto también es bastante

play12:22

bastante interesante si billones en o

play12:24

sea 1,8 cuando digo billones es porque

play12:27

en inglés es trillions gpt 4 1,8

play12:31

trillions en español 1,8 billones cuando

play12:34

digo 1000 millones es porque en inglés

play12:35

es billones es un follón Pero bueno así

play12:37

es como ha surgido la cosa entonces

play12:40

fijaos qué tamban bien rinden estos

play12:42

modelos pues bastante bastante bien el

play12:45

modelo grande lo dejamos para luego el

play12:47

modelo pequeño simplemente tenemos que

play12:49

darnos cuenta de lo siguiente el modelo

play12:51

de 8000 millones de parámetros el 8b lo

play12:54

tenemos aquí si lo comparamos con

play12:56

modelos de su categoría

play12:59

los

play13:00

revienta vale pensad modelo de su

play13:02

categoría Gema de Google es el modelo

play13:05

Open source que ellos sacaron siguiendo

play13:07

una estrategia similar a meta es un

play13:09

modelo de 7000 millones de parámetros

play13:10

más los parámetros de embedding 7 com

play13:13

algo Mistral 7000 millones de parámetros

play13:16

en la misma categoría estos dos modelos

play13:19

para diferentes benchmarks que son Bueno

play13:21

pues ya sabéis conjuntos de pruebas que

play13:23

intentan evaluar el conocimiento general

play13:25

de los modelos eh su capacidad de

play13:28

razonamiento human eval pues pruebas de

play13:31

programación matemáticas bueno todo tipo

play13:33

de pruebas fijaos como el modelo de meta

play13:37

8000 millones de parámetros misma

play13:38

categoría consigue un rendimiento bueno

play13:41

bastante bien puntos porcentuales por

play13:43

encima aquí un 10% por encima un 15% por

play13:46

encima Pero es que cuando vamos bajando

play13:48

estos evals de repente duplica vale casi

play13:52

el doble más del

play13:54

doble vale más del doble más que el

play13:58

triple en este caso

play14:01

Okay un modelo de la misma categoría o

play14:04

sea el modelo 8b en estas capacidades

play14:06

evaluadas bastante bastante Bestia y a

play14:09

la derecha quizás más interesante

play14:12

tenemos el modelo 70b y fijaos que el

play14:16

modelo 70b a ver si hago un poco más de

play14:18

zoom Ahí

play14:19

está de nuevo supera en algunas

play14:22

características en otras las Iguala a

play14:24

modelos

play14:26

comerciales modelos privados como Google

play14:29

gemini Pro 1.5 o Cloud 3 sonet que son

play14:34

modelos bastante bastante competentes

play14:36

modelos bastante bastante competentes

play14:38

son los modelos que están en la familia

play14:42

intermedia vale de de de la Suite Pues

play14:46

de en este caso de Cloud están los tres

play14:48

tamaños Pues el modelo intermedio de

play14:51

meta compite con el modelo mediano de

play14:55

empresas privadas recordemos un modelo

play14:58

que podréis Descargar que podéis

play14:59

Descargar y podéis utilizar en vuestro

play15:01

ordenador si tenéis la capacidad

play15:03

computacional para moverlo es una pasada

play15:08

esto es una pasada vale Esto está

play15:12

bastante bien porque pensad que este

play15:14

modelo como es costumbre los modelos

play15:17

llama luego van a pasar a ser la base de

play15:19

muchos otros modelos que van a ir

play15:21

apareciendo las próximas semanas y los

play15:22

próximos meses modelos que van eh a

play15:25

mejorar van a sacar más rendimiento Pues

play15:27

en programación en matemática para

play15:29

reentrenar con mejor calidad de datos

play15:32

diferentes cosas con lo cual tener de

play15:34

base un modelo de este tipo es una muy

play15:36

buena noticia Es una muy buena noticia

play15:40

modelos que por ejemplo el 8b ronda los

play15:43

67 8 GB de tamaño ahora vamos a comentar

play15:46

esto y el modelo de 70 Pues creo que

play15:49

está en unos 40 40 y pico gigas vale el

play15:53

Grande obviamente no es para todos los

play15:54

tipos de Hardware Aunque hay opciones

play15:57

cuantizadas que van a reducir este de

play15:59

tamaño para que podáis utilizarlo en

play16:00

vuestro Hardware quienes tengáis una

play16:02

tarjeta medianamente potente pero el

play16:04

pequeño es bastante competente y el

play16:06

grande es un muy buen Punto de partida

play16:08

para mucha de la tecnología que la

play16:10

comunidad va a desarrollar

play16:12

ahora no solo tenemos que fiarnos de los

play16:15

eval y de los benchmarks al final pasa

play16:17

muchas veces que los benchmarks son un

play16:19

poco tramposos porque a veces se suelen

play16:21

eh filtrar algunas de estas métricas

play16:23

dentro Entonces quiero que veamos otros

play16:25

datos que nos dan por aquí por ejemplo

play16:27

este me parece interesante an que

play16:31

es en una evaluación humana si yo os

play16:34

pongo a vosotros dos pruebas diferentes

play16:36

o sea dos resultados diferentes Qué

play16:38

resultado preferís en cada caso el de

play16:41

meta llama 370b o el de otro modelo

play16:45

privado no entonces Aquí vemos que para

play16:47

los modelos de clod para los modelos

play16:50

Mistral medium y para el modelo gpt 3.5

play16:53

y obviamente para el modelo llama 2 los

play16:56

usuarios han preferido tienen

play16:57

preferencia

play16:59

por el modelo de yama 370b lo cual de

play17:02

nuevo Pues también está bastante bien en

play17:04

un 60 por de la pes 63,2 63,7 bastante

play17:09

bastante bien Y en este listado puesto

play17:11

que no

play17:12

está puesto que no está Google gemini

play17:15

intuyo que en ese caso Google gemini en

play17:18

evaluaciones humanas pues estaría

play17:20

seguramente un poquito por encima de de

play17:22

meta llam 3es

play17:24

vale bastante bastante eh bien y luego

play17:29

otra que podemos evaluar que tengo por

play17:30

aquí abierta que siempre nos tenemos que

play17:32

fiar es el famoso llm

play17:37

arena vamos a ver que este es lo mismo

play17:40

No en abierto Pues cuál sería entre dos

play17:44

resultados lo que la gente está votando

play17:45

más entre diferentes modelos y aquí

play17:47

podemos ver que si ya está actualizado

play17:51

llama ya se sitúa en la posición

play17:54

70b la posición 70b la cabeza ya me

play17:57

falla en la quinta posición

play17:59

vale Casi casi a la par con clot 3 y por

play18:03

encima de command r Plus que es un

play18:05

modelo que era bastante competente y que

play18:07

estábamos todos celebrando hace dos

play18:08

semanas en Twitter que si no recuerdo

play18:10

mal Creo que es un modelo de 120.000

play18:13

millones de parámetros si no recuerdo

play18:16

Pues llama

play18:18

370b se pone por encima vale os paso la

play18:21

página del ranking que la estáis

play18:22

preguntando por el

play18:24

chat para que la tengáis y luego una

play18:27

cosa que estaba que estaba viendo ahora

play18:29

y esto es interesante comentarlo en

play18:31

inglés parece que el modelo incluso es

play18:33

mucho más competente pasa que mira

play18:36

fijaos

play18:37

bueno bueno

play18:41

amigos si nos ponemos solo en la

play18:43

categoría en inglés vale los votos de

play18:46

proms basados al inglés en este caso

play18:51

llam se pone en primera posición con gpt

play18:55

4 y clot baja bastante Géminis baja

play19:00

ojito ojito a esto eh ojito a esto

play19:07

em esto por qué sucede por qué en inglés

play19:10

parece que ocupa una posición superior

play19:11

Pues porque el modelo ha sido

play19:13

principalmente entrenado en inglés Esto

play19:15

es una cosa que desde nuestro punto de

play19:17

vista podríamos criticarle como un punto

play19:20

negativo al modelo Y es que el 99% de

play19:23

los datos utilizados son datos en inglés

play19:26

Eso hace que el modelo tenga

play19:27

preferencias para funcionar mejor en

play19:28

este idioma y a lo mejor si lo habéis

play19:30

probado en español o en cualquier otro

play19:31

idioma habréis comprobado que no es tan

play19:34

bueno Esto es un punto negativo y esto

play19:36

nos instruye a utilizar el modelo sobre

play19:39

todo en inglés si queréis Igualmente

play19:41

meta ha prometido que a futuro eh con la

play19:44

salida del modelo grande que todavía se

play19:45

está entrenando y con

play19:48

em y con otras cosas que van a sacar van

play19:50

a sacar modelos multilenguajes con lo

play19:52

cual ahí el español pues podrá estar

play19:54

mejor representado eh Y modelos con

play19:57

multimodalidad también que es otra cosa

play19:58

que les al ecosistema de meta no

play20:00

Entonces en ese sentido pues es s super

play20:04

interesante Ok y quiero aprovechar ya

play20:07

que estamos para mostrar también el

play20:09

modelo grande porque tremenda

play20:12

bestialidad no la podemos

play20:14

dejar sin mirar Vale entonces

play20:17

fijaos el modelo grande es este de aquí

play20:21

el de 405 millones de parámetros Este

play20:24

modelo todavía se está

play20:27

entrenando todavía se está

play20:30

entrenando y es un modelo que si compará

play20:33

estos evals que nos están poniendo aquí

play20:35

el famoso mml el gpq human evals si lo

play20:42

compará con gpt 4 con la versión más

play20:45

avanzada si lo compará con clod

play20:48

opus son modelos que están casi casi a

play20:52

la par noan por encima Está bueno un

play20:56

poquito por debajo pero es un modelo que

play20:58

sienta en la mesa de los mayores y es un

play21:00

modelo que recordemos en principio van a

play21:03

liberar quién lo va a utilizar ni idea

play21:06

porque esto 400,000 millones de

play21:08

parámetros Pues será un modelo para para

play21:11

industria vale para grandes eh

play21:14

requisitos de de Hardware pero es un

play21:16

modelo que ya compite cara a cara con

play21:20

gpt 4 es decir vamos a acabar el año con

play21:21

un modelo Open source con el rendimiento

play21:24

de gpt 4 y esto es

play21:26

importante vale

play21:28

y ojo todavía se está entrenando estos

play21:31

evals los han sacado con un checkpoint a

play21:34

día de ayer del

play21:35

entrenamiento que están teniendo todavía

play21:38

puede

play21:40

mejorar otro punto negativo que lo acabo

play21:43

de leer en el chat muy bien ventana de

play21:45

contexto muy baja 8000 tokens la ventana

play21:49

de contexto cuánta cantidad de

play21:50

información le podemos pasar al modelo

play21:52

para que procese eh cuando le damos 8000

play21:56

esto duplica lo que llama dos ofrecía

play21:59

está muy bien el problema aquí es que eh

play22:02

una ventana de contexto de 8000 a día de

play22:04

hoy para los estándares de hoy es muy

play22:06

poquito gbt 4 cuando salió tenía 32.000

play22:10

eh actualmente Open Ai ofrece 128.000 eh

play22:14

creo que antropic ofrece no sé si

play22:17

era también lo mismo 128,000 pero

play22:20

ampliable a 1 millón Google ofrece un

play22:22

millón ampliable a 10 millones

play22:24

internamente es decir no es una ventana

play22:26

de contexto con la que se pueda trabajar

play22:28

para muchos de las cosas que a día de

play22:30

hoy se están haciendo aún así

play22:33

seguramente lo acaben solucionando

play22:35

porque la gente lo está criticando

play22:36

bastante la comunidad seguramente saque

play22:39

ampliaciones de ventana de contexto con

play22:41

diferentes técnicas que existen entonces

play22:43

bueno Seguramente se puede llegar a

play22:45

32000 tokens sin mucho problema Y si con

play22:47

fine tuning se puede ampliar lo iremos

play22:49

viendo pero que de partida no tenga una

play22:51

ventana de contexto mayor pues es un

play22:54

poco decepcionante vale de tarea para

play22:56

llama 4 que por cierto ya lo están

play22:58

entrenando

play22:59

entonces hay una cosa el directo hoy va

play23:00

a ser breve simplemente quiero como

play23:02

cubrir la noticia y daros toda la

play23:03

información pero hay una cosa importante

play23:05

que no quiero e dejar pasar y

play23:08

es cómo han conseguido

play23:11

esto Cómo han conseguido esto Cómo han

play23:14

conseguido de repente que llama

play23:17

3 funcione tan tan tan bien por encima

play23:21

de llama 2 e incluso siendo más

play23:24

competente que modelos de de su misma

play23:26

categoría modelos 70b y modelos 8

play23:29

Carlos han introducido alguna mejora

play23:32

de

play23:34

de han introducido alguna mejora a nivel

play23:37

de

play23:38

arquitectura no sigue siendo eh llamados

play23:43

vale sigue siendo un modelo tipo

play23:45

Transformer denso decoder no hay mixter

play23:48

of expert no hay Mambo no hay yamba no

play23:50

hay nada no la arquitectura la misma

play23:54

vale que han tocado

play23:56

entonces datos los datos del

play23:59

modelo bueno han cambiado vamos a

play24:02

decirlo así han cambiado los datos en

play24:05

calidad por ejemplo le han metido más

play24:07

datos de

play24:09

programación eso está Guay porque el

play24:11

modelo cuando le metes le ha metido

play24:13

cuatro veces más datos de programación

play24:14

Esto está superb porque por una parte el

play24:17

modelo programa mejor eso siempre es una

play24:20

muy buena noticia Pero además es

play24:22

interesante porque está comprobado que a

play24:25

un modelo de lenguaje cuando le metes

play24:26

datos de programación no solo mejoran

play24:28

los datos de programación o sea las

play24:30

habilidades de programar sino también

play24:31

mejoran eh las capacidades de razonar

play24:33

del

play24:34

modelo es una buena noticia esto eh

play24:36

chavales saber programar nos da mejor

play24:39

capacidad de razonar para tareas que no

play24:40

tengan que ver con la programación Esto

play24:42

es algo que con los modelos de lenguaje

play24:44

se observa Aunque no es extrapol habla

play24:46

los humanos vale E eso Por una parte la

play24:49

calidad de los datos el mix el cóctel de

play24:51

datos que han preparado es diferente y

play24:53

en ese sentido parece que ha mejorado

play24:55

pero lo importante lo s super importante

play24:59

es con cuántos datos han entrenado el

play25:02

modelo con cuántos datos han entrenado

play25:05

el modelo

play25:08

chavales madre mía a mí esto Mira me

play25:12

gusta me gusta la

play25:14

analogía me me gusta ver lo siguiente

play25:16

con los modelos de Inteligencia

play25:18

artificial para mí un modelo de

play25:19

Inteligencia

play25:21

artificial es como una caja vale como

play25:24

una cajita como una maleta pensemoslo

play25:26

como una maleta de viaje

play25:28

una maleta donde nosotros lo que

play25:30

queremos es conseguir meter la mayor

play25:32

cantidad de cosas que nos puedan ser

play25:34

útiles vale intentamos meter meter meter

play25:38

pero claro en tu maleta No te cabe todo

play25:40

lo que tienes en casa como no te cabe

play25:41

todo lo que tienes en casa tienes que

play25:42

meter lo que bueno te puede ser más de

play25:45

utilidad general eh Para tu viaje para

play25:47

tu tarea entonces en ese sentido los

play25:49

modelos de Inteligencia artificial son

play25:51

parecidos nosotros metemos un montón de

play25:52

datos vale datos datos datos datos datos

play25:55

en el modelo e intentamos exprimir en el

play25:57

proceso de entrenamiento pues estos

play26:00

datos para sacar Pues bueno guardamos

play26:02

aquellos datos que sean importante

play26:04

memorizar pues datos factuales sobre

play26:05

cuál es la capital de España o cosas así

play26:08

intentamos A lo mejor también meter

play26:11

reglas generalizadas a partir de los

play26:12

datos que puedan servirnos para varias

play26:14

cosas todo esto está ahí dentro del

play26:16

modelo y esto lo conseguimos meter en el

play26:19

modelo codificado dentro de los

play26:21

parámetros del modelo vale Y esto Mola

play26:25

porque el término con el que se habla de

play26:28

puede almacenar los datos del modelo es

play26:30

la capacidad del modelo vale está

play26:31

relacionado con esta idea de guardar

play26:33

cosas cuánto cabe en mi modelo con lo

play26:35

cual entre más parámetros tiene mi

play26:37

modelo más cosas caben en mi maleta eso

play26:39

está bien ok y me gusta la analogía de

play26:44

la maleta porque como en las maletas hay

play26:47

un punto en el que si tú metes cosas ya

play26:49

no cabe

play26:51

más a menos que aprietes un poquito

play26:56

más si aprietas un poco más

play26:59

A lo mejor entra un poco más y si

play27:01

aprietas y haces más más más más más

play27:03

fuerza a lo mejor entra más

play27:07

vale Aquí esta analogía lo que te quiere

play27:10

decir es si tú quieres meter más datos

play27:11

dentro de un modelo puedes meterlos pero

play27:14

te va a hacer falta aplicar más fuerza

play27:16

vas a tener que dedicar más coste

play27:18

energético en este caso en el proceso de

play27:20

entrenamiento pues más coste

play27:22

computacional más tiempo de

play27:24

entrenamiento para que tu modelo siga

play27:26

aprendiendo nueva cosas vale esto es

play27:30

superimportante quieres meter más cosas

play27:32

en la maleta vas a poder meter pero vas

play27:33

a tener que hacer fuerza para poder

play27:36

meter un poco más okay esto se

play27:40

entiende pues meta lo que ha hecho ha

play27:43

sido meter cosas en la maleta apretar un

play27:46

poco meter otro poco más apretar un poco

play27:48

más con más fuerza un martillo

play27:51

golpear pum pum prensa hidráulica

play27:54

aplastarlo todo acelerador de partículas

play27:57

presionar el universo plegarlo meterlo

play27:59

en la maleta y cerrar eso es lo que ha

play28:01

hecho meta aquí vale Y esto Mola porque

play28:04

hay una empresa de maleta llamada Deep

play28:06

Mind que sacó un paper que es este de

play28:10

aquí el de Chinchilla vale esta gráfica

play28:12

superfamosa en el mundo de la ia a

play28:16

ver esta gráfica es muy famosa en el

play28:19

mundo de la ia porque básicamente te

play28:20

relaciona Cuál es el punto óptimo en el

play28:23

que tú en un modelo puedes meter una

play28:27

cantidad de datos eh o sea cuál es la

play28:30

relación idónea para que

play28:31

computacionalmente sea óptimo meter una

play28:33

cantidad de ciertos datos en un modelo

play28:35

de cierto tamaño vale esto es como yo

play28:37

tengo una maleta de este tamaño Cuánta

play28:39

ropa debería de meter en esta maleta

play28:40

para que el esfuerzo el coste

play28:42

computacional sea óptimo okay Entonces

play28:45

esta gráfica pues por ejemplo nos dice

play28:47

lo siguiente Oye De qué tamaño es el

play28:50

modelo que ha entrenado meta Vale pues

play28:52

el modelo es de tamaño 8b no vamos a

play28:55

El pequeño el 8b nos vamos para

play28:57

acá el

play28:58

8b el

play29:01

8b te sitúa en este punto de la Gráfica

play29:04

choca aquí y Cuando bajas para acá te

play29:07

marca un punto fijaos que abajo es

play29:09

escala logarítmica con lo cual pues

play29:11

vamos a poner 150,000 millones de

play29:14

parámetros Perdón 150,000 tokens o

play29:18

150,000 200,000 tokens Es decir para una

play29:21

maleta de 8b lo idóneo que deberías de

play29:24

meter es 150.000 eh

play29:28

tokens de dato durante el entrenamiento

play29:30

p pi pi durante el entrenamiento

play29:32

deberías de meter esa cantidad de

play29:34

información si metes más está mal no no

play29:37

está mal pero estás haciendo un esfuerzo

play29:40

extra que te saldría más rentable para

play29:43

tu entrenamiento Sería más óptimo si en

play29:45

vez de una maleta de ocho cogieras

play29:46

una maleta de 10 vale si tú quieres

play29:48

meter más datos si te mueves para la

play29:50

derecha Pues a lo mejor te compensa

play29:51

una maleta de 10 vale No me seas

play29:54

bestia no aprietes todo mucho vale Pues

play29:58

en este caso

play30:00

meta es que nos vamos fuera de la

play30:02

Gráfica meta para una maleta de 8 vale

play30:06

si nos situamos aquí para una maleta de

play30:09

8o no ha metido

play30:11

150.000 tokens de datos no ha metido un

play30:16

trillón de datos o sea un billón de

play30:18

datos Perdón no ha metido 10 billones de

play30:23

datos ha metido 15 billones de datos

play30:29

15 billones de

play30:31

datos 15 billones de datos eso es

play30:37

muchísimo muchísimo es muchísimo eso es

play30:42

super ineficiente a nivel de

play30:45

entrenamiento es decir meta lo que ha

play30:48

dicho es Oye yo Este modelo te voy a

play30:51

meter hasta el último

play30:54

calcetín aunque me cueste la vida Aunque

play30:56

tenga que dedicar energía aquí lo que

play30:59

haga falta para comprimir esta

play31:00

información y meterla dentro del modelo

play31:02

y que y que te lleves la maleta con todo

play31:04

lo que necesitas es s s s

play31:09

e es un entrenamiento carísimo para

play31:12

ellos porque lo que te está diciendo es

play31:15

contra no no entrena un modelo mucho más

play31:17

grande vale entrena un modelo mucho más

play31:20

grande podría ser que a lo mejor el o

play31:23

sea yo he dicho 15 trillones sí no Es

play31:25

que creo que era 15 trillones creo que

play31:26

no me estoy equivocando que es una

play31:28

bajada creo que está por aquí sí

play31:30

eh Podrían haber hecho un entrenamiento

play31:32

mucho más óptimo con un modelo más

play31:34

grande pero meta ha sido s super

play31:36

inteligente y y son super majos por

play31:39

ellos aquí está el tweet que lo dice

play31:41

dice

play31:43

sí entrenamos en mucho más de lo que

play31:45

Chinchilla o sea hemos entrenado el

play31:47

modelo mucho más que en el óptimo que

play31:49

Chinchilla nos recomienda por lo que a

play31:51

sabienda estamos eh intercambiando

play31:53

capacitación para ayudar a la comunidad

play31:55

con los costes de inferencia es decir

play31:57

meta hecho esto de una forma super

play31:59

inteligente porque es sabemos que

play32:02

estamos entrenando el modelo de forma s

play32:04

subóptima o sea estamos haciendo un

play32:07

esfuerzo muy extra por meter un poquito

play32:09

más de información y el modelo se seguía

play32:11

entrenando eh o sea las curvas podían

play32:12

seguir progresando estamos incurriendo

play32:15

en un coste de entrenamiento super

play32:17

alto pero con el fin de no tener que

play32:20

hacer un modelo más grande sino para

play32:22

poder dejártelo en la maletita pequeña

play32:24

porque para la comunidad tener maletitas

play32:27

pequeñas es la leche significa que

play32:30

vosotros con un modelo de 8 millones de

play32:32

8,000 millones de parámetros lo podéis

play32:34

ejecutar en vuestra gpus la mayoría de

play32:36

todos vosotros 8 GB caben perfectamente

play32:39

en muchas de las gpus comerciales que

play32:41

tenemos y tener menos parámetros también

play32:44

hace que el coste de inferencia que de

play32:47

forma marginal por cada usuario cluse es

play32:49

muy pequeñito Comparado con todo lo que

play32:50

sería el coste de entrenamiento pero

play32:52

claro multiplícalo por todos los

play32:53

usuarios por todas las organizaciones

play32:55

por todas las empresas que van a

play32:56

utilizar Este modelo ese coste de

play32:58

inferencia agregado si tú lo has

play33:00

reducido porque tu modelo es más pequeño

play33:03

es una ventaja o sea han decidido

play33:06

apostar todo el gran esfuerzo en el

play33:08

entrenamiento para que luego la

play33:09

inferencia que va a ser masiva porque

play33:11

este es un modelo que va a tener una

play33:12

utilización masiva tenga mayores ahorros

play33:16

esto es super interesante esto es s

play33:19

super interesante vale es una apuesta

play33:21

que meta ha hecho y que ha dejado a todo

play33:24

el mundo en plan Ok y que yo creo que

play33:25

está abriendo un camino para que otras

play33:28

organizaciones y más gente pues se

play33:29

plantee eh escapar un poco de lo que es

play33:32

el óptimo de Chinchilla no que es esta

play33:33

gráfica que hemos visto donde siempre se

play33:35

busca este equilibrio entre Cuántos

play33:36

datos tengo Y qué tamaño tiene que tener

play33:38

mi modelo para hacer entrenamientos que

play33:40

son subóptimos pero que beneficien a la

play33:42

comunidad por eh unos costes de

play33:44

inferencia más reducidos vale entonces

play33:46

eso está bastante

play33:49

Guay esto de los billones en español en

play33:52

y billones en inglés es estresante lo sé

play33:54

lo odio es Quizás lo que más odio del

play33:56

mundo de la ia y ojalá lleguemos ya no

play34:00

sé a órdenes de magnitud donde no haya

play34:01

tanto lío con las con las

play34:03

métricas Vale entonces Esto es lo que

play34:07

están ofreciendo Aquí está nuestra amiga

play34:10

la llama y es todo todo una locura vale

play34:14

es todo todo una locura Esto entonces el

play34:17

modelo está disponible el modelo lo

play34:19

podéis Descargar lo podéis utilizar

play34:20

podéis utilizarlo en hagin chat por

play34:22

ejemplo vale hagin chat que es la el

play34:25

chat

play34:26

de de la gente de de hacking Face a ver

play34:29

si no me equivoco aquí tenemos meta Uy

play34:34

pero el System prompt creo que

play34:35

tendríamos que

play34:36

buscarlo A ver vamos a ver si por de

play34:39

salida tiene Bueno no más rápido lo voy

play34:42

a probar en el m Studio bueno tenéis un

play34:44

montón de herramientas Para probarlo

play34:45

tenéis haing chat podéis probarlo en

play34:47

seguramente perplexity ya lo tenga

play34:49

desplegado en su laboratorio y también

play34:51

tenéis que recordar que en el dot csv

play34:53

lap en el canal secundario de de este

play34:55

canal eh donde hacemos cosas más

play34:58

prácticas y vamos probando diferentes

play34:59

cositas hay un tutorial donde os enseño

play35:01

a utilizar esta herramienta de aquí esta

play35:04

herramienta de aquí es lm Studio y es un

play35:07

bueno es una interfaz ahí también está

play35:09

oyama hay gente que prefiere una yy

play35:11

gente que prefiere otra Elm Studio

play35:13

básicamente un gestor de modelos de

play35:15

lenguaje donde podéis Buscar todos los

play35:16

modelos que van saliendo podéis

play35:18

instalarlos descargarlos y según los

play35:20

requisitos de Hardware que tengáis pues

play35:21

podéis utilizarlo en en vuestro equipo

play35:24

Entonces es s sencillo por ahora solo

play35:26

está el modelo eh el 8b eh seguramente a

play35:29

lo largo del día de hoy aparezca el

play35:31

modelo 70b y y nada simplemente

play35:34

descargarlo y cuando lo tengáis

play35:36

descargado vale entre los modelos Eh

play35:39

pues simplemente seleccionar el que

play35:40

queráis yo en mi caso puedo seleccionar

play35:42

aquí el modelo

play35:46

e este de aquí

play35:49

Exacto el modelo fijaos vamos a buscar

play35:52

un

play35:53

momento si me meto aquí mira si me meto

play35:57

en en la parte de la herramienta donde

play35:59

está el modelo 8b el modelo 8b puro o

play36:04

bueno esto ya tiene cuantización o seaa

play36:06

a 8 bits el modelo

play36:08

funciona ocupando o 8,54 GB de memoria

play36:13

este funcionaría en una tarjeta gráfica

play36:16

medianamente potente a partir de ahí hay

play36:19

opciones

play36:21

hasta 5 GB ocupando en memoria que

play36:24

podéis Descargar y utilizar sin problema

play36:26

entonces esto es una muy buena noticia

play36:30

esto es una muy buena noticia el modelo

play36:33

qué tal funciona a ver el de 8b dentro

play36:35

de ser muy competente para varias tareas

play36:37

no va a funcionar por

play36:40

ejemplo muy muy por encima de chat gpt

play36:42

3.5 por ejemplo vale para tener

play36:45

conversaciones profundas seguramente

play36:46

tenga alucinaciones seguramente tenga

play36:48

ciertas cosas pero para ciertas tareas

play36:51

Pues a lo mejor eh generación de datos

play36:53

sintéticos a lo mejor quieres eh

play36:55

automatizar algún proceso de

play36:56

procesamiento lenguaje natural A lo

play36:57

mejor quieres hacer alguna llamada

play36:59

alguna función de una aplicación estos

play37:00

modelos Eh sí los podéis utilizar y si

play37:04

lo tengo cargado aquí creo que lo tengo

play37:06

cargado lo tengo cargado en gpu puedo

play37:08

dar la nueva conversación le puedo decir

play37:12

hola vale Y creo que esto está

play37:15

funcionando correctamente fijaos me ha

play37:18

dicho Hola cómo estás Hello how are you

play37:20

I'm here to help you with anything you

play37:22

need What is your Mind today se ha

play37:24

pasado el inglés le voy a decir aquí en

play37:26

la a la derecha en el System promt que

play37:28

me hable Speak in spanish

play37:31

please que me hable en español y vamos a

play37:35

ver

play37:36

si qué tal

play37:41

estás A

play37:43

ver estoy bien gracias por preguntar soy

play37:46

una Inteligencia artificial diseñada

play37:47

para ayudarte con cualquier tarea o

play37:48

consulta que tengas bla bla bla bla bla

play37:50

estoy listo para responder a tus

play37:51

pregunta Le voy a decir Oye Qué pesa más

play37:54

la típica Pregunta 1 kil de plom o medio

play37:58

kil de plumas razona tu respuesta paso a

play38:04

paso excelente pregunta primero debemos

play38:07

definir Qué es pesar más en este

play38:09

contexto se refiere a cuál objeto tiene

play38:11

una masa mayor la masa se mide en

play38:12

unidades como el kilogramos 1 kil de

play38:14

plomo pesa exactamente 1 kil medio kilo

play38:16

de plumas suponemos que son plumas

play38:17

ligerísima como las de una B pesaría

play38:19

cero qué tonto eres la razón es que las

play38:22

plumas no tienen masa significativa

play38:24

Aunque pudieran tener algún peso debido

play38:25

a su estructura y composición es ante en

play38:27

comparación bla bla bla bla vale en este

play38:30

caso el modelo está razonando fatal

play38:33

y y bueno Pues habría que evaluar si en

play38:35

inglés funciona mejor si funciona Peor

play38:37

si a lo mejor este tipo de preguntas

play38:39

todavía no las razona chat gpt 3.5 creo

play38:42

que también esta pregunta me la falla

play38:43

entonces bueno podéis jugar con esto

play38:45

podréis jugar con el modelo 70b cuando

play38:47

salga el modelo de 400 B no sé qué

play38:52

pasará con ese modelo no sé qué utilidad

play38:54

va a tener dentro de todo el Boom de la

play38:56

de lo que está cediendo y la gran

play38:59

pregunta es Y ahora

play39:02

qué y ahora

play39:05

qué Qué pasa ahora a

play39:09

ver yo esto lo definí el otro día en

play39:11

Twitter como que estamos viviendo un

play39:13

Cambio de fase desde mi punto de vista y

play39:16

esto se explica muy bien con la grf esta

play39:19

gráfica de aquí estamos viviendo un

play39:21

Cambio de fase a mi gusto y el Cambio de

play39:24

fase viene representado por lo siguiente

play39:26

fijaos esta gráfica lo que nos está

play39:29

mostrando es el rendimiento de los

play39:30

modelos de lenguaje con

play39:32

el con el el benchmark mml que es uno de

play39:37

los más populares que se utilizan vale

play39:39

que mide la inteligencia de estos

play39:41

sistemas en la línea roja tenemos los

play39:44

modelos

play39:46

cerrados y en la línea verde los modelos

play39:50

abiertos y aquí vemos el desarrollo

play39:54

temporal que ha tenido esto hasta abril

play39:56

del 2024 qué observamos en la

play39:59

tendencia la tendencia lo que nos

play40:01

muestra es los modelos cerrados y los

play40:04

modelos abiertos

play40:06

convergen a un punto en algún momento en

play40:10

el

play40:11

futuro los modelos cerrados y abiertos

play40:14

convergen Y eso pues parece muy

play40:16

interesante vale parece que fijaos

play40:19

gracias a la salida de

play40:21

llama gracias a la salida de llama

play40:24

eh A partir de Aquí empieza emp a

play40:27

florecer algunos modelos a partir de la

play40:29

salida de llama 2 empieza a explotar

play40:32

todo esto Y empezamos p a tener nuevos

play40:35

competidores y muchos más modelos que no

play40:37

están listados aquí y poco a poco si os

play40:39

dais cuenta si situar en esta gráfica lo

play40:41

que llama tres rinde el modelo más

play40:43

grande el de 400000 millones de

play40:45

parámetros que tiene un 0,86 estaría

play40:49

aquí es decir ya habría llegado al nivel

play40:52

de los modelos Open source perdón de los

play40:54

modelos cerrados esto es

play40:58

una muy buena noticia pero también me

play41:00

parece que supone un cierre de fase si

play41:03

vamos a seguir viendo modelos en Open

play41:04

source o sea modelos abiertos Open

play41:07

weights cada vez más rápidos más

play41:09

potentes más inteligentes más capaces

play41:10

todo eso lo vamos a ver pero creo que

play41:13

estamos en el punto en el que ahora las

play41:15

grandes y sobre todo Open Ai le toca dar

play41:19

el paso si os dais cuenta en esta

play41:20

gráfica hay un único punto que es un

play41:23

outlier frente al resto de la

play41:25

competencia tanto abierto como cerrado y

play41:27

es gpt

play41:28

4 llevamos un año intentando escalar el

play41:32

monte gpt 4 y ahora Estamos en la Cumbre

play41:35

y cuando estamos en la Cumbre nos damos

play41:37

cuenta que la montaña le crecen patas y

play41:40

vuelve a crecer Open Ai creo que tiene

play41:42

ahora la presión del mercado obviamente

play41:46

están liderando pero están viendo como

play41:47

rápidamente se les acercan creo que

play41:49

tienen la la la presión para sacar algo

play41:53

nuevo y creo desde mi punto de vista ya

play41:55

lo he comentado otras veces creo que

play41:56

estamos cerca cerca cerca muy cerca en

play42:00

una un un mes dos meses de que Open Ai

play42:03

saque algo nuevo y que sea un cambio de

play42:04

paradigma que ya no sea continuista en

play42:06

esta evolución de los modelos de

play42:08

lenguaje sino que abre un nuevo camino

play42:10

donde la comunidad Open source de nuevo

play42:12

pues lo verá y dirá ostras podríamos

play42:14

hacer un modelo de este tipo sí no no sé

play42:16

venga va Lo intentamos y acabar llegando

play42:19

también es muy buena noticia y esto hay

play42:21

que comentarlo que desde que sale gpt 4

play42:24

y rompe esta esta tendencia hasta que

play42:27

ido el modelo de meta de

play42:30

llama ha pasado un año año y medio como

play42:33

máximo año y medio eso significa que eh

play42:37

para el tipo de árbol de tecnología que

play42:39

estamos desbloqueando un año y medio

play42:42

para el potencial que estamos

play42:43

desbloqueando es nada es nada y le deja

play42:48

muy poca ventaja a los modelos privados

play42:50

para poder competir vale hay empresas

play42:52

como antropic que ahora están viendo que

play42:54

ostras que la comunidad Ahora tiene un

play42:56

modelo eh Open source competente Casi

play43:00

casi como lo que yo tengo y lo que

play43:01

ofrezco como servicio Vale entonces

play43:05

eh estamos moviéndonos muy rápido eso

play43:08

está muy Guay lo estamos haciendo de la

play43:09

mano de meta eso no hay que olvidarlo si

play43:11

meta cierra el Grifo se enos jode el

play43:14

invento por ahora luego pueden haber

play43:15

otros competidores tenemos a Mistral a

play43:17

la gente de Francia que también están

play43:18

haciendo un trabajo increíble siempre

play43:21

hay nuevos actores que se quieren

play43:22

beneficiar de la buena imagen que te da

play43:24

dar modelos en abierto y parece que

play43:26

marzer eh que ayer lo confirmaba en un

play43:29

podcast ya están entrenando la cuarta

play43:30

versión de yama y van a sacar modelos

play43:33

más potentes en el futuro seguramente

play43:34

continuando con esta línea tan

play43:36

impresionante que son los modelos llama

play43:38

que siempre que llegan eh generan un

play43:40

terremoto con esto chicos es un poquito

play43:43

lo que quería comentar quería hablaros

play43:45

de de la noticia me parecía muy

play43:46

importante quería soltar toda esta eh

play43:49

información que ya he grabado antes hace

play43:51

2 horas pero bueno eh estaré leyendo los

play43:54

comentarios que dejéis abajo sabéis que

play43:55

tenéis el tutorial en el ssv lap donde

play43:58

está toda la información de cómo usar el

play43:59

m Studio y cómo eh utilizar ciertos

play44:03

truquitos para que uses parte de la gpu

play44:05

de la cpu bastante sencillo de la

play44:07

herramienta si queréis ver algún vídeo

play44:09

interesante Pues esperad a la semana que

play44:11

viene que tengo vídeos preparados pero

play44:12

es que la actualidad me tiene con la

play44:13

lengua fuera y si queréis ver un vídeo

play44:15

También está el de modelos de eh del

play44:17

mundo que sacamos hace una semana y pico

play44:19

eh que es un vídeo bastante con teoría

play44:22

con Cos conceptos bastante interesantes

play44:23

que conocer y que seguramente os va a

play44:25

interesar si no lo habéis visto pues lo

play44:27

buscáis en el canal chicos chicas Muchas

play44:29

gracias Me despido a la gente del chat

play44:31

que estaba por aquí que os estaba

play44:32

leyendo con el rabillo del ojo y nos

play44:34

vemos en un próximo directo en un

play44:36

próximo vídeo chao chao

Rate This

5.0 / 5 (0 votes)

Ähnliche Tags
Inteligencia ArtificialModelos de LenguajeOpen SourceMetaGPT-4TransformadoresProgramaciónRazonamientoCompetenciaTecnologíaInnovaciónAprendizaje AutomáticoHerramientas de IABenchmarksDesarrollo Tecnológico
Benötigen Sie eine Zusammenfassung auf Englisch?