🔴 LLAMA 3 - ¡META Vuelve a REVOLUCIONAR el mundo de la IA!
Summary
TLDREl script de un video directo aborda el impacto revolucionario de la inteligencia artificial en el mundo, particularmente en el ámbito de los modelos de lenguaje open source. Se discute la evolución de la tecnología desde el auge de Chat GPT, pasando por la competencia de establecimientos como Microsoft y Google, hasta la estrategia disruptiva de Meta con su modelo 'Llama'. El vídeo destaca la importancia de los modelos de lenguaje para tareas inteligentes y cómo la comunidad open source ha respondido al desafío con iniciativas como Open Assistant. Se explora la filosofía detrás de la publicación de modelos open source y su efecto multiplicador en el avance de la tecnología, así como el potencial de los modelos Llama 3 para transformar la industria. Además, se menciona la preferencia de los usuarios por el modelo Llama 370B en evaluaciones humanas, la necesidad futura de modelos multilingües y la competencia creciente con modelos privados. El hablante pronostica un cambio de paradigma inminente y un futuro donde los modelos open source podrían liderar en innovación y accesibilidad.
Takeaways
- 🎉 Meta ha lanzado una nueva familia de modelos llama 3, que incluye modelos de diferentes tamaños y capacidades.
- 📈 Los modelos llama 3 han demostrado un rendimiento significativo en comparación con otros modelos de su categoría y modelos comerciales.
- 🔍 Se destaca que el modelo de 8000 millones de parámetros (llamado 8b) supera a modelos de Google y Mistral en algunos benchmarks.
- 🚀 El modelo grande de llama 3, con 400.000 millones de parámetros, es competitivo con modelos como GPT-4 y puede ser un punto de partida para futuras innovaciones.
- 🌐 Los modelos de llama 3 tienen una fuerte base en inglés, pero Meta ha prometido modelos multilingües y con capacidad multimodal en el futuro.
- 📚 Los modelos han sido entrenados con una gran cantidad de datos, incluyendo un aumento considerable en los datos de programación, lo que mejora su capacidad de razonamiento.
- 💾 Meta ha utilizado una estrategia de entrenamiento intensivo, a pesar de que podría ser considerado ineficiente en términos de optimización de datos y parámetros.
- 🌟 Los modelos llama 3 están disponibles para su descarga y uso, lo que podría impulsar el desarrollo de nuevas aplicaciones y servicios basados en inteligencia artificial.
- 🤖 La comunidad de inteligencia artificial está experimentando un cambio de fase donde los modelos abiertos están alcanzando niveles comparables a los modelos privados.
- ⏰ Se sugiere que la próxima evolución en los modelos de lenguaje podría no ser continuista y podría llevar a un nuevo paradigma en la inteligencia artificial.
- 📈 La competencia en el campo de la inteligencia artificial se está intensificando, con organizaciones como Antropic y Mistral trabajando en modelos que podrían desafiar el estatus de OpenAI.
Q & A
¿Qué ha provocado el cambio de fase en el mundo de la inteligencia artificial?
-El cambio de fase en la inteligencia artificial ha sido impulsado por la salida de modelos como Llama 3, que han permitido que los modelos de código abierto alcanzaran un rendimiento similar al de modelos privados, lo que indica una convergencia en el rendimiento entre los modelos abiertos y cerrados.
¿Por qué Meta ha decidido entrenar un modelo de inteligencia artificial con más datos de lo óptimo?
-Meta ha entrenado un modelo con más datos de lo óptimo para ayudar a la comunidad, a pesar de los costos de entrenamiento más altos, con el objetivo de reducir los costos de inferencia marginales para cada usuario, lo que resulta en ahorros significativos a gran escala.
¿Cuál es la diferencia entre los modelos Llama 2 y Llama 3 en términos de rendimiento?
-Llama 3 ha mejorado significativamente en términos de rendimiento en comparación con Llama 2, llegando a competir y superar a modelos de la misma categoría y a modelos privados en algunos benchmarks.
¿Cómo ha afectado el entrenamiento de Llama 3 con una gran cantidad de datos a su capacidad para programar y razonar?
-El entrenamiento de Llama 3 con una gran cantidad de datos, incluidos datos de programación, no solo ha mejorado sus habilidades para programar sino también sus capacidades de razonamiento en tareas que no están relacionadas con la programación.
¿Por qué Llama 3 podría tener preferencias para funcionar mejor en inglés?
-Llama 3 podría tener preferencias para funcionar mejor en inglés porque el 99% de los datos utilizados en su entrenamiento eran datos en inglés, lo que hace que el modelo sea más eficiente en este idioma en comparación con otros.
¿Cuál es la ventana de contexto de Llama 3 y cómo afecta esto su capacidad para procesar información?
-La ventana de contexto de Llama 3 es de 8000 tokens, lo que limita la cantidad de información que puede procesar simultáneamente. Aunque es un aumento en comparación con modelos anteriores, en el contexto actual de modelos de inteligencia artificial, se considera limitado.
¿Cómo se pueden descargar y utilizar los modelos Llama 3?
-Los modelos Llama 3 pueden descargarse y utilizarse en herramientas como LM Studio, que es un gestor de modelos de lenguaje que permite buscar, instalar y descargar modelos según los requisitos de hardware del usuario.
¿Qué implica la convergencia de los modelos de inteligencia artificial abiertos y cerrados en términos de rendimiento?
-La convergencia de modelos abiertos y cerrados en términos de rendimiento implica que los modelos de código abierto están alcanzando niveles de eficacia similares a los de modelos privados, lo que podría llevar a una mayor competencia y innovación en el campo.
¿Cómo afecta la estrategia de Meta de entrenar un modelo con más datos de lo óptimo en términos de costos?
-La estrategia de Meta de entrenar un modelo con más datos de lo óptimo resulta en un entrenamiento más caro, pero reduce los costos de inferencia, lo que es beneficioso a gran escala cuando se trata de múltiples usuarios y organizaciones utilizando el modelo.
¿Por qué es importante el tamaño del modelo de inteligencia artificial en términos de su utilización y costes?
-El tamaño del modelo de inteligencia artificial es importante porque un modelo más grande puede contener más información y ser más eficaz, pero también requiere más recursos de entrenamiento y inferencia. Un modelo más pequeño, aunque sea menos potente, es más accesible y tiene menores costes de inferencia, lo que facilita su uso en una amplia gama de dispositivos.
¿Qué se espera del modelo de inteligencia artificial de Meta una vez que haya terminado su entrenamiento?
-Se espera que el modelo de inteligencia artificial de Meta, una vez finalizado su entrenamiento, competa directamente con los modelos más avanzados como GP4, ofreciendo un rendimiento similar con el beneficio adicional de ser un modelo de código abierto y, por lo tanto, más accesible para la comunidad.
Outlines
🎤 Introducción y disculpas previas
El hablante comienza el video saludando a su audiencia y pidiendo disculpas por varios motivos: problemas de audio con el micrófono, su voz afectada por una gripe, y la falta de energía durante la grabación debido a su estado de salud. También menciona su intención de discutir un tema relevante en el mundo de la inteligencia artificial, específicamente la revolución de los modelos de lenguaje open source impulsados por Meta.
📈 Impacto de la IA y evolución de los modelos open source
Se discute el impacto significativo de la inteligencia artificial en el mundo actual, especialmente después del auge de Chat GPT. Se destaca el papel de Meta en la creación de un modelo open source que ha permitido a la comunidad científica y tecnológica avanzar en la investigación y desarrollo de modelos de lenguaje. Se menciona la estrategia de Meta de liberar modelos open source que mejoran continuamente y se integran en servicios populares como WhatsApp e Instagram.
🚀 Lanzamiento de Llama 3 y su importancia
El hablante presenta Llama 3 como una nueva actualización en la familia de modelos de Meta, compuesto por cuatro modelos de diferentes tamaños. Destaca la relevancia de estos modelos, especialmente los instruct, que están diseñados para funciones de chatbot y asistencia. Se menciona la capacidad de Llama 3 de competir con otros modelos de la industria y su potencial para ser la base de futuros modelos mejorados.
🤖 Evaluación de Llama 3 y su rendimiento
Se proporciona una comparación detallada del modelo Llama 3 con otros modelos en el mercado, destacando su rendimiento en diferentes pruebas y evaluaciones. Se menciona que el modelo de 8 mil millones de parámetros de Llama 3 supera a modelos de la misma categoría en varios benchmarks, y se explora la preferencia de los usuarios por este modelo en comparación con otros en evaluaciones humanas.
🌐 Multilingüismo y futuro de los modelos de IA
Se discute la necesidad de modelos multilingües y la promesa de Meta de desarrollarlos en el futuro. Se señala que la mayoría de los datos utilizados para entrenar Llama 3 son en inglés, lo que podría limitar su eficacia en otros idiomas. Sin embargo, se muestra optimismo en la capacidad de la comunidad para mejorar y adaptar estos modelos a través del fine-tuning y la optimización.
📚 Cambio en la arquitectura de Llama 3 y su entrenamiento
El hablante aborda la arquitectura de Llama 3, señalando que no ha cambiado significativamente desde la versión anterior, pero ha mejorado en su rendimiento. Se atribuye este mejoramiento a la calidad de los datos utilizados para su entrenamiento, particularmente el aumento en la cantidad de datos de programación, lo que mejora no solo la programación sino también la capacidad de razonamiento del modelo.
🧳 Analogía de la maleta y capacidad de los modelos de IA
Se utiliza la analogía de una maleta para describir la capacidad de un modelo de IA para almacenar información. Se explica que cuanto más datos se introducen en un modelo, mayor es el esfuerzo necesario en el entrenamiento. Se discute cómo Meta ha logrado 'apretar' una gran cantidad de datos en un modelo de un tamaño determinado, lo que podría no ser computacionalmente óptimo pero es beneficioso para la comunidad.
🔍 Disponibilidad y utilidad del modelo Llama 3
Se informa sobre la disponibilidad del modelo Llama 3 para su descarga y uso en diversas plataformas y herramientas, como Hugging Face's Model Hub y LM Studio. Se destaca la utilidad de estos modelos para tareas específicas de procesamiento del lenguaje natural y se ofrece orientación sobre cómo pueden ser implementados y utilizados por los usuarios.
🌟 Cambio de fase en el desarrollo de modelos de lenguaje
El hablante reflexiona sobre el rápido avance de los modelos de lenguaje y cómo la comunidad open source se acerca al rendimiento de los modelos cerrados. Se sugiere que se está viviendo un cambio de fase en el que los modelos open source están alcanzando niveles comparables a los modelos privados. Se anticipa que OpenAI podría estar presionado para innovar y lanzar algo nuevo que quite el pulso a la competencia open source.
Mindmap
Keywords
💡Inteligencia Artificial
💡Modelos de Lenguaje
💡Open Source
💡Chat GPT
💡Parámetros del Modelo
💡Benchmark
💡Hacking Face
💡LM Studio
💡Cuantización
💡Multilingüismo
💡Contexto de Ventana
Highlights
Meta ha lanzado una nueva familia de modelos llama 3, que incluye cuatro modelos con características comunes.
Los modelos de llama 3 varían en tamaño, con un modelo pequeño de 8000 millones de parámetros, un mediano de 70,000 millones y uno grande de 400,000 millones de parámetros.
Llama 3 demuestra un rendimiento significativo en benchmarks, superando a modelos de su misma categoría y competidores comerciales.
Los modelos instruct de llama 3 están fine-tuneados para funciones de chatbot asistencial, lo que los hace relevantes para servicios de IA.
Meta ha utilizado una estrategia de entrenamiento intensivo con un gran volumen de datos, lo que ha permitido a los modelos absorber información a un nivel inusual.
El modelo de 8000 millones de parámetros de llama 3 ha demostrado una capacidad de razonamiento y programación mejorada gracias a la calidad y cantidad de datos de programación utilizados en su entrenamiento.
Los modelos de llama 3 están disponibles para descargar y usar en diversas plataformas, lo que promueve su adopción y optimización por la comunidad.
Los modelos de llama 3 han sido evaluados positivamente en pruebas humanas, obteniendo preferencias por parte de los usuarios en comparación con otros modelos privados.
A pesar de su rendimiento, los modelos de llama 3 tienen una ventana de contexto limitada, lo que podría ser un desafío para tareas que requieren procesamiento de información extensa.
Meta ha prometido lanzar modelos multilingües y con capacidad multimodal en el futuro, lo que podría mejorar la representación y eficacia de llama 3 en otros idiomas además del inglés.
El modelo grande de llama 3 con 400,000 millones de parámetros está en desarrollo y muestra promesas de competir directamente con modelos como GP4 de OpenAI.
La comunidad open source está experimentando un auge en el desarrollo de modelos de lenguaje competitivos, impulsados en parte por el lanzamiento de llama 3.
La estrategia de Meta de ofrecer modelos de gran tamaño y capacidad a la comunidad podría ser un factor disruptivo en el mercado, alentando la innovación y reduciendo costos de inferencia.
Los modelos llama 3 están listos para ser utilizados en aplicaciones prácticas, desde la generación de texto hasta la automatización de procesos de lenguaje natural.
La calidad de los datos y la cantidad utilizada en el entrenamiento de llama 3 han sido clave para su rendimiento, demostrando la importancia del dataset en el desarrollo de modelos de IA.
El lanzamiento de llama 3 sugiere un cambio de fase en el desarrollo de modelos de lenguaje, donde los modelos open source están alcanzando niveles de rendimiento similares a los modelos cerrados.
La presión competitiva en el mercado está impulsando a las grandes empresas como OpenAI a innovar y desarrollar tecnologías que mantengan su liderazgo en inteligencia artificial.
La rápida evolución de los modelos de lenguaje open source está acercándose rápidamente al potencial de los modelos privados, lo que podría llevar a un nuevo paradigma en la IA.
Transcripts
Hola chicos y chicas qué tal estáis
Bienvenidos a un nuevo directo ad
suv perdonadme de primeras varias cosas
una es el audio eh este micrófono se
jubila hoy llega micrófono nuevo bien el
audio del canal va a mejorar segundo mi
voz mi voz estoy llevo una semana con
gripe eh Y tengo la voz fatal Además hoy
quería cubrir este tema con un vídeo no
con un directo con lo cual me he grabado
dos horas he hecho la grabación entera
de todo el metraje cuando me iba a poner
a editarlo dicho es que se escucha mal
me falta energía porque no termino de
hablar bien cuando estoy grabando porque
tengo la voz rara bueno fatal
fatal pero aquí está la actualidad y el
análisis
eh estoy gripos Vale noos Voy a
contagiar Eso es lo bueno eh pero nada
simplemente estamos aquí hoy reunidos
hermanos y hermanas porque meta lo ha
vuelto a hacer meta ha vuelto a
revolucionar el mundo de la Inteligencia
artificial el panorama de los modelos
Open source en concreto los modelos de
lenguaje que es quizás de todas las
posibles eh línea de investigación que
hay en el mundo de la Inteligencia
artificial la que ahora mismo es más
popular tras el Boom de chat gpt y todo
lo que ha venido a posterior y aquí meta
Eh pues está jugando un juego que es
bastante interesante y que vamos a estar
comentando con la salida de este nuevo
modelo vamos a analizarlo vale Quiero
situar primero eh qué es esto de llama
ya habéis visto los vídeos tenemos
vídeos en el canal cubriéndolo pero es
muy interesante porque estamos en una
tercera versión de una familia de modelo
de una generación de tecnologías que
cada vez que salen ponen todos todo
patas arriba vale Y a lo mejor no es tan
evidente porque luego es cierto que lo
que es la marca yama se diluye Pero eso
sigue teniendo efectos importantes en
mucho de lo que está pas pasando hoy en
día entonces nos situamos finales de
2022 sale chat gpt chat gpt explota eh
pone en valor todo lo que la tecnología
de Deep learning lleva durante bueno
durante años investigando en el campo
del procesamiento del lenguaje natural y
de repente pone en valor que los modelos
de lenguaje Más allá de generar texto
pueden servir dentro de asistentes de
chatbots para resolver tareas
inteligentes muy Guay todo el mundo le
gusta gpt Open Ai le sorprende y de
repente la comunidad Open source que ya
venía calentita del pasado
e pues ya venía calentita porque con la
parte de generación de imágenes en 2022
habíamos conseguido con stable diffusion
tener un modelo en abierto que competía
con lo que Open Ai ofrecía pues ahí en
valenton nada decía Oye podemos entrenar
nosotros nuestro propio chat gpt Open
source Y esto es una cosa que a
principios de 2023 no se sabía si se iba
a poder conseguir recordaréis que desde
el canal impulsamos iniciativas como la
de Open assistant creo que se llamaba eh
que era una iniciativa donde recabamos
datos entrenamos se entrenó a un modelo
pero que al final la realidad ha hecho
que esa iniciativa pues no hiciera falta
y al final ya no ha continuado se ha
descontinuado porque tenemos opciones
Open source a punta pala y gran parte
del motivo de que exista me voy aljar un
poquito el micrófono y apte de que
exista eh esta revolución de tantos
modelos Open source es culpa de meta
meta a principios del año de del año
pasado en febrero de 2023 el año pasado
es que parece que ha pasado c o 6 años
no no el año pasado a principios de
2023 saca un modelo Open source bueno
Open weights no libera los parámetros de
un modelo que que en principio iba a
estar destinado para la comunidad
científica y solo se podía acceder a
través de un
formulario a los pocos días ese modelo
ya estaba en el Torrent ya se había
filtrado y en ese momento pues ya no
tienes control evidentemente aquí hay
quien todavía duda si sí si no yo tengo
Claro que meta sabía lo que iba a pasar
lo que por un tema de bueno por evitar
que se hablara sobre si estaban
liberando una tecnología peligrosa el
año pasado esto era un poco más sensible
que lo que es ahora eh Pues por eso
mismo intentar hacerlo Yo creo que de
esta forma un poco rara cuando sale
llama lo que llama permite Es que la
empresa meta ha hecho ya esa inversión
de dinero ese pre-entrenamiento que es
la parte más costosa de entrenar a esta
tecnología y se la ha dado a a la
comunidad para que la comunidad ahora
pueda hacer con ello lo que quiera para
que pueda hacer fine tunings para que
puedan hacer optimizaciones para que
puedan hacer eh versiones diferentes del
modelo lo que quieras y esto es super
interesante porque permitió que empezara
a explotar y eclosionar toda esta
industria de los modelos Open source que
hemos visto durante
2023 salen modelos sale falcon salen eh
vicuña salen bueno alpaca no un montón
de alternativas de modelos de diferentes
organizaciones y meta se da cuenta de
que esta estrategia le ha funcionado muy
bien porque tiene de repente a toda la
gente trabajando para desarrollar y
mejorar modelos que son los modelos que
luego ellos también van a utilizar en
sus propios servicios y aplicaciones en
WhatsApp en instagram eh en Facebook es
la estrategia perfecta para meta tengo a
todo el mundo trabajando para nosotros y
además nos aplauden Mark Zuckerberg ha
pasado de ser un reptiliano
rarunos Mola este tío nos cae bien esa
es la estrategia que está siguiendo eh
meta Vale entonces esto es muy
interesante porque ya meta se pone este
sombrero y dice vale como no puedo por
ahora competir con los mayores los
mayores el año pasado era Microsoft con
Open Ai y Google que estaba ya
entrenando su sistema gemini dice Bueno
pues me meto en el partido cojo la
pelota le doy una patada Y aquí no juega
nadie rompo el tablero tiro el tablero y
y vengo yo con mis modelos en abiertos e
intento fastidiar los la fiesta llama
era bastante competitivo para lo que
teníamos en aquel entonces pero en marzo
del año pasado sale gpt 4 cambian las
tornas el modelo más potente jamás visto
Y desde ese momento los modelos privados
siguen mejorando y meta hace su segundo
movimiento aparece llama 2 en verano en
julio de 2023 aparece la segunda versión
de yama una versión mejor que la primera
con un cambio que de nuevo pone todo
patas arriba el modelo que antes era de
licencia para uso no comercial pasa a
tener una licencia comercial esto
significa que ahora cualquiera que
descargue el modelo puede integrarlo en
sus productos puede integrarlos en sus
servicios puede sacarle partido puede
montar negocio puede aprovecharlo
económicamente
esto es un cambio de paradigma brutal
porque esto incentiva mucho el
investigar este tipo de tecnologías y la
vuelve mucho más atractivas vale el
tener un estándar abierto que podemos
todos eh trabajar con él que podemos
modificar que podemos eh integrar en
nuestros proyectos hace que el modelo
llama se
vuelva la y de ahí empiezan a
aparecer más modelos empiezan a aparecer
nuevos actores aparece la gente de
Mistral aparecen
eh la gente de cojar aparecen antropic
también como modelo privado empieza a
desarrollar más más más más y ahora sí
damos un salto 10 meses más tarde desde
julio del año pasado hasta el día de
ayer el día de ayer Casi casi un año más
tarde nos trae una nueva actualización
del modelo llama y aparece llama 3 Ah y
la pregunta de millónes Carlos llama 3
es mejor es un modelo que revoluciona es
un salto incremental Qué es llama 3 Pues
llama 3 señoras y
señores llama
3 es un modelo vamos a dejarlo ahí en
que es ostras ostras y quiero que veamos
un poquito eh lo importante bueno
tenemos que entender la salida de yama 3
yama 3 no es en concreto ningún modelo
sino es una familia de modelos que
cumplen unas características comunes que
en este caso es la arquitectura los
dataset con los que se han entrenado y
tal eh En este caso como sucedió con las
versiones anteriores yama 3 viene con
cuatro modelos no empezamos a abrir los
regalos de Navidad y meta nos ha
regalado cuatro modelos nuevos dos
modelos como era habitual eh que son los
modelos base esto es cuando tú entrenas
un modelo de lenguaje los modelos
encargados de aprender a predecir el
siguiente token de texto punto no son
chat gpt son gpt vale son la parte de
aprender a continuar una frase aprender
a predecir la siguiente palabra y luego
están los modelos instruct los modelos
instruct son los modelos que ahora sí
han sido fine tuneados para cumplir esta
labor de chatbot asistencial con lo cual
tenemos dos categorías de modelos a
vosotros la que más os va a interesar es
la segunda categoría porque es la que
normalmente se utiliza la mayoría de
servicios perplexity haing chat eh No sé
servicios de ia cuando vosotros habláis
con el chatbot estáis hablando con los
modelos instruct y luego estos modelos
tiene dos tamaños un tamaño pequeño un
tamaño
mediano y un tamaño grande vale en en la
familia de llama 2 en la segunda
generación tenemos estos tenemos tres
tamaños El pequeño el mediano y el
Grande vale el Happy me el menú normal y
el menú Big
Mac El pequeño en llama 2 era el de 7
billones de parámetros Perdón 7000
millones de parámetros
el mediano era 13000 millones de
parámetros y el grande era 70.000
millones de parámetros Pues ahora
tenemos un modelo que es 8000 millones
de parámetros El pequeño y un modelo que
es el 70,000 millones de parámetros
el
grande no no es el grande es el
mediano el mediano de antes o sea el
mediano de ahora era el que antes era el
grande el de 70,000 millones de
parámetros
y Carlos Si este es el mediano Cuál es
el
Grande nos sujetamos a la
mesa sujetamos a la mesa chicos estáis
agarrados el grande es un modelo de
400000 millones de parámetros
Carlos no te he entendido cuánto
400000 millones de parámetros Carlos que
satura el micrófono 400000
de parámetros
Eh Esto es un modelo que si lo pensamos
es dos o
2,5 veces el tamaño de gpt3 por
ejemplo vale si lo pensamos gpt 4 es un
modelo de
1,8 billones de parámetros billones con
b pero es un mixter of expert es decir
es un modelo que los parámetros activos
que tienen como recordaréis del vídeo
que que os enseñé de mixter of expert no
se activan todas las partes del modelo
sino que se activan solamente ciertas
partes en cada
inferencia los parámetros que se activan
en gpt 4 son 220.000 millones de
parámetros y estamos hablando de que
meta ha sacado un modelo o va a sacar un
modelo de 400.000 millones de parámetros
o sea en parámetros activados casi lo
duplica de hecho es 4 5000 millones de
parámetros
es una locura es una locura 400000
millones de parámetros
vale vamos a hablar de esto ahora pero
bueno quiero que veamos un poco lo lo
importante que es
el a ver dónde está la información aquí
quiero que veamos que también rinden los
modelos porque esto también es bastante
bastante interesante si billones en o
sea 1,8 cuando digo billones es porque
en inglés es trillions gpt 4 1,8
trillions en español 1,8 billones cuando
digo 1000 millones es porque en inglés
es billones es un follón Pero bueno así
es como ha surgido la cosa entonces
fijaos qué tamban bien rinden estos
modelos pues bastante bastante bien el
modelo grande lo dejamos para luego el
modelo pequeño simplemente tenemos que
darnos cuenta de lo siguiente el modelo
de 8000 millones de parámetros el 8b lo
tenemos aquí si lo comparamos con
modelos de su categoría
los
revienta vale pensad modelo de su
categoría Gema de Google es el modelo
Open source que ellos sacaron siguiendo
una estrategia similar a meta es un
modelo de 7000 millones de parámetros
más los parámetros de embedding 7 com
algo Mistral 7000 millones de parámetros
en la misma categoría estos dos modelos
para diferentes benchmarks que son Bueno
pues ya sabéis conjuntos de pruebas que
intentan evaluar el conocimiento general
de los modelos eh su capacidad de
razonamiento human eval pues pruebas de
programación matemáticas bueno todo tipo
de pruebas fijaos como el modelo de meta
8000 millones de parámetros misma
categoría consigue un rendimiento bueno
bastante bien puntos porcentuales por
encima aquí un 10% por encima un 15% por
encima Pero es que cuando vamos bajando
estos evals de repente duplica vale casi
el doble más del
doble vale más del doble más que el
triple en este caso
Okay un modelo de la misma categoría o
sea el modelo 8b en estas capacidades
evaluadas bastante bastante Bestia y a
la derecha quizás más interesante
tenemos el modelo 70b y fijaos que el
modelo 70b a ver si hago un poco más de
zoom Ahí
está de nuevo supera en algunas
características en otras las Iguala a
modelos
comerciales modelos privados como Google
gemini Pro 1.5 o Cloud 3 sonet que son
modelos bastante bastante competentes
modelos bastante bastante competentes
son los modelos que están en la familia
intermedia vale de de de la Suite Pues
de en este caso de Cloud están los tres
tamaños Pues el modelo intermedio de
meta compite con el modelo mediano de
empresas privadas recordemos un modelo
que podréis Descargar que podéis
Descargar y podéis utilizar en vuestro
ordenador si tenéis la capacidad
computacional para moverlo es una pasada
esto es una pasada vale Esto está
bastante bien porque pensad que este
modelo como es costumbre los modelos
llama luego van a pasar a ser la base de
muchos otros modelos que van a ir
apareciendo las próximas semanas y los
próximos meses modelos que van eh a
mejorar van a sacar más rendimiento Pues
en programación en matemática para
reentrenar con mejor calidad de datos
diferentes cosas con lo cual tener de
base un modelo de este tipo es una muy
buena noticia Es una muy buena noticia
modelos que por ejemplo el 8b ronda los
67 8 GB de tamaño ahora vamos a comentar
esto y el modelo de 70 Pues creo que
está en unos 40 40 y pico gigas vale el
Grande obviamente no es para todos los
tipos de Hardware Aunque hay opciones
cuantizadas que van a reducir este de
tamaño para que podáis utilizarlo en
vuestro Hardware quienes tengáis una
tarjeta medianamente potente pero el
pequeño es bastante competente y el
grande es un muy buen Punto de partida
para mucha de la tecnología que la
comunidad va a desarrollar
ahora no solo tenemos que fiarnos de los
eval y de los benchmarks al final pasa
muchas veces que los benchmarks son un
poco tramposos porque a veces se suelen
eh filtrar algunas de estas métricas
dentro Entonces quiero que veamos otros
datos que nos dan por aquí por ejemplo
este me parece interesante an que
es en una evaluación humana si yo os
pongo a vosotros dos pruebas diferentes
o sea dos resultados diferentes Qué
resultado preferís en cada caso el de
meta llama 370b o el de otro modelo
privado no entonces Aquí vemos que para
los modelos de clod para los modelos
Mistral medium y para el modelo gpt 3.5
y obviamente para el modelo llama 2 los
usuarios han preferido tienen
preferencia
por el modelo de yama 370b lo cual de
nuevo Pues también está bastante bien en
un 60 por de la pes 63,2 63,7 bastante
bastante bien Y en este listado puesto
que no
está puesto que no está Google gemini
intuyo que en ese caso Google gemini en
evaluaciones humanas pues estaría
seguramente un poquito por encima de de
meta llam 3es
vale bastante bastante eh bien y luego
otra que podemos evaluar que tengo por
aquí abierta que siempre nos tenemos que
fiar es el famoso llm
arena vamos a ver que este es lo mismo
No en abierto Pues cuál sería entre dos
resultados lo que la gente está votando
más entre diferentes modelos y aquí
podemos ver que si ya está actualizado
llama ya se sitúa en la posición
70b la posición 70b la cabeza ya me
falla en la quinta posición
vale Casi casi a la par con clot 3 y por
encima de command r Plus que es un
modelo que era bastante competente y que
estábamos todos celebrando hace dos
semanas en Twitter que si no recuerdo
mal Creo que es un modelo de 120.000
millones de parámetros si no recuerdo
Pues llama
370b se pone por encima vale os paso la
página del ranking que la estáis
preguntando por el
chat para que la tengáis y luego una
cosa que estaba que estaba viendo ahora
y esto es interesante comentarlo en
inglés parece que el modelo incluso es
mucho más competente pasa que mira
fijaos
bueno bueno
amigos si nos ponemos solo en la
categoría en inglés vale los votos de
proms basados al inglés en este caso
llam se pone en primera posición con gpt
4 y clot baja bastante Géminis baja
ojito ojito a esto eh ojito a esto
em esto por qué sucede por qué en inglés
parece que ocupa una posición superior
Pues porque el modelo ha sido
principalmente entrenado en inglés Esto
es una cosa que desde nuestro punto de
vista podríamos criticarle como un punto
negativo al modelo Y es que el 99% de
los datos utilizados son datos en inglés
Eso hace que el modelo tenga
preferencias para funcionar mejor en
este idioma y a lo mejor si lo habéis
probado en español o en cualquier otro
idioma habréis comprobado que no es tan
bueno Esto es un punto negativo y esto
nos instruye a utilizar el modelo sobre
todo en inglés si queréis Igualmente
meta ha prometido que a futuro eh con la
salida del modelo grande que todavía se
está entrenando y con
em y con otras cosas que van a sacar van
a sacar modelos multilenguajes con lo
cual ahí el español pues podrá estar
mejor representado eh Y modelos con
multimodalidad también que es otra cosa
que les al ecosistema de meta no
Entonces en ese sentido pues es s super
interesante Ok y quiero aprovechar ya
que estamos para mostrar también el
modelo grande porque tremenda
bestialidad no la podemos
dejar sin mirar Vale entonces
fijaos el modelo grande es este de aquí
el de 405 millones de parámetros Este
modelo todavía se está
entrenando todavía se está
entrenando y es un modelo que si compará
estos evals que nos están poniendo aquí
el famoso mml el gpq human evals si lo
compará con gpt 4 con la versión más
avanzada si lo compará con clod
opus son modelos que están casi casi a
la par noan por encima Está bueno un
poquito por debajo pero es un modelo que
sienta en la mesa de los mayores y es un
modelo que recordemos en principio van a
liberar quién lo va a utilizar ni idea
porque esto 400,000 millones de
parámetros Pues será un modelo para para
industria vale para grandes eh
requisitos de de Hardware pero es un
modelo que ya compite cara a cara con
gpt 4 es decir vamos a acabar el año con
un modelo Open source con el rendimiento
de gpt 4 y esto es
importante vale
y ojo todavía se está entrenando estos
evals los han sacado con un checkpoint a
día de ayer del
entrenamiento que están teniendo todavía
puede
mejorar otro punto negativo que lo acabo
de leer en el chat muy bien ventana de
contexto muy baja 8000 tokens la ventana
de contexto cuánta cantidad de
información le podemos pasar al modelo
para que procese eh cuando le damos 8000
esto duplica lo que llama dos ofrecía
está muy bien el problema aquí es que eh
una ventana de contexto de 8000 a día de
hoy para los estándares de hoy es muy
poquito gbt 4 cuando salió tenía 32.000
eh actualmente Open Ai ofrece 128.000 eh
creo que antropic ofrece no sé si
era también lo mismo 128,000 pero
ampliable a 1 millón Google ofrece un
millón ampliable a 10 millones
internamente es decir no es una ventana
de contexto con la que se pueda trabajar
para muchos de las cosas que a día de
hoy se están haciendo aún así
seguramente lo acaben solucionando
porque la gente lo está criticando
bastante la comunidad seguramente saque
ampliaciones de ventana de contexto con
diferentes técnicas que existen entonces
bueno Seguramente se puede llegar a
32000 tokens sin mucho problema Y si con
fine tuning se puede ampliar lo iremos
viendo pero que de partida no tenga una
ventana de contexto mayor pues es un
poco decepcionante vale de tarea para
llama 4 que por cierto ya lo están
entrenando
entonces hay una cosa el directo hoy va
a ser breve simplemente quiero como
cubrir la noticia y daros toda la
información pero hay una cosa importante
que no quiero e dejar pasar y
es cómo han conseguido
esto Cómo han conseguido esto Cómo han
conseguido de repente que llama
3 funcione tan tan tan bien por encima
de llama 2 e incluso siendo más
competente que modelos de de su misma
categoría modelos 70b y modelos 8
Carlos han introducido alguna mejora
de
de han introducido alguna mejora a nivel
de
arquitectura no sigue siendo eh llamados
vale sigue siendo un modelo tipo
Transformer denso decoder no hay mixter
of expert no hay Mambo no hay yamba no
hay nada no la arquitectura la misma
vale que han tocado
entonces datos los datos del
modelo bueno han cambiado vamos a
decirlo así han cambiado los datos en
calidad por ejemplo le han metido más
datos de
programación eso está Guay porque el
modelo cuando le metes le ha metido
cuatro veces más datos de programación
Esto está superb porque por una parte el
modelo programa mejor eso siempre es una
muy buena noticia Pero además es
interesante porque está comprobado que a
un modelo de lenguaje cuando le metes
datos de programación no solo mejoran
los datos de programación o sea las
habilidades de programar sino también
mejoran eh las capacidades de razonar
del
modelo es una buena noticia esto eh
chavales saber programar nos da mejor
capacidad de razonar para tareas que no
tengan que ver con la programación Esto
es algo que con los modelos de lenguaje
se observa Aunque no es extrapol habla
los humanos vale E eso Por una parte la
calidad de los datos el mix el cóctel de
datos que han preparado es diferente y
en ese sentido parece que ha mejorado
pero lo importante lo s super importante
es con cuántos datos han entrenado el
modelo con cuántos datos han entrenado
el modelo
chavales madre mía a mí esto Mira me
gusta me gusta la
analogía me me gusta ver lo siguiente
con los modelos de Inteligencia
artificial para mí un modelo de
Inteligencia
artificial es como una caja vale como
una cajita como una maleta pensemoslo
como una maleta de viaje
una maleta donde nosotros lo que
queremos es conseguir meter la mayor
cantidad de cosas que nos puedan ser
útiles vale intentamos meter meter meter
pero claro en tu maleta No te cabe todo
lo que tienes en casa como no te cabe
todo lo que tienes en casa tienes que
meter lo que bueno te puede ser más de
utilidad general eh Para tu viaje para
tu tarea entonces en ese sentido los
modelos de Inteligencia artificial son
parecidos nosotros metemos un montón de
datos vale datos datos datos datos datos
en el modelo e intentamos exprimir en el
proceso de entrenamiento pues estos
datos para sacar Pues bueno guardamos
aquellos datos que sean importante
memorizar pues datos factuales sobre
cuál es la capital de España o cosas así
intentamos A lo mejor también meter
reglas generalizadas a partir de los
datos que puedan servirnos para varias
cosas todo esto está ahí dentro del
modelo y esto lo conseguimos meter en el
modelo codificado dentro de los
parámetros del modelo vale Y esto Mola
porque el término con el que se habla de
puede almacenar los datos del modelo es
la capacidad del modelo vale está
relacionado con esta idea de guardar
cosas cuánto cabe en mi modelo con lo
cual entre más parámetros tiene mi
modelo más cosas caben en mi maleta eso
está bien ok y me gusta la analogía de
la maleta porque como en las maletas hay
un punto en el que si tú metes cosas ya
no cabe
más a menos que aprietes un poquito
más si aprietas un poco más
A lo mejor entra un poco más y si
aprietas y haces más más más más más
fuerza a lo mejor entra más
vale Aquí esta analogía lo que te quiere
decir es si tú quieres meter más datos
dentro de un modelo puedes meterlos pero
te va a hacer falta aplicar más fuerza
vas a tener que dedicar más coste
energético en este caso en el proceso de
entrenamiento pues más coste
computacional más tiempo de
entrenamiento para que tu modelo siga
aprendiendo nueva cosas vale esto es
superimportante quieres meter más cosas
en la maleta vas a poder meter pero vas
a tener que hacer fuerza para poder
meter un poco más okay esto se
entiende pues meta lo que ha hecho ha
sido meter cosas en la maleta apretar un
poco meter otro poco más apretar un poco
más con más fuerza un martillo
golpear pum pum prensa hidráulica
aplastarlo todo acelerador de partículas
presionar el universo plegarlo meterlo
en la maleta y cerrar eso es lo que ha
hecho meta aquí vale Y esto Mola porque
hay una empresa de maleta llamada Deep
Mind que sacó un paper que es este de
aquí el de Chinchilla vale esta gráfica
superfamosa en el mundo de la ia a
ver esta gráfica es muy famosa en el
mundo de la ia porque básicamente te
relaciona Cuál es el punto óptimo en el
que tú en un modelo puedes meter una
cantidad de datos eh o sea cuál es la
relación idónea para que
computacionalmente sea óptimo meter una
cantidad de ciertos datos en un modelo
de cierto tamaño vale esto es como yo
tengo una maleta de este tamaño Cuánta
ropa debería de meter en esta maleta
para que el esfuerzo el coste
computacional sea óptimo okay Entonces
esta gráfica pues por ejemplo nos dice
lo siguiente Oye De qué tamaño es el
modelo que ha entrenado meta Vale pues
el modelo es de tamaño 8b no vamos a
El pequeño el 8b nos vamos para
acá el
8b el
8b te sitúa en este punto de la Gráfica
choca aquí y Cuando bajas para acá te
marca un punto fijaos que abajo es
escala logarítmica con lo cual pues
vamos a poner 150,000 millones de
parámetros Perdón 150,000 tokens o
150,000 200,000 tokens Es decir para una
maleta de 8b lo idóneo que deberías de
meter es 150.000 eh
tokens de dato durante el entrenamiento
p pi pi durante el entrenamiento
deberías de meter esa cantidad de
información si metes más está mal no no
está mal pero estás haciendo un esfuerzo
extra que te saldría más rentable para
tu entrenamiento Sería más óptimo si en
vez de una maleta de ocho cogieras
una maleta de 10 vale si tú quieres
meter más datos si te mueves para la
derecha Pues a lo mejor te compensa
una maleta de 10 vale No me seas
bestia no aprietes todo mucho vale Pues
en este caso
meta es que nos vamos fuera de la
Gráfica meta para una maleta de 8 vale
si nos situamos aquí para una maleta de
8o no ha metido
150.000 tokens de datos no ha metido un
trillón de datos o sea un billón de
datos Perdón no ha metido 10 billones de
datos ha metido 15 billones de datos
15 billones de
datos 15 billones de datos eso es
muchísimo muchísimo es muchísimo eso es
super ineficiente a nivel de
entrenamiento es decir meta lo que ha
dicho es Oye yo Este modelo te voy a
meter hasta el último
calcetín aunque me cueste la vida Aunque
tenga que dedicar energía aquí lo que
haga falta para comprimir esta
información y meterla dentro del modelo
y que y que te lleves la maleta con todo
lo que necesitas es s s s
e es un entrenamiento carísimo para
ellos porque lo que te está diciendo es
contra no no entrena un modelo mucho más
grande vale entrena un modelo mucho más
grande podría ser que a lo mejor el o
sea yo he dicho 15 trillones sí no Es
que creo que era 15 trillones creo que
no me estoy equivocando que es una
bajada creo que está por aquí sí
eh Podrían haber hecho un entrenamiento
mucho más óptimo con un modelo más
grande pero meta ha sido s super
inteligente y y son super majos por
ellos aquí está el tweet que lo dice
dice
sí entrenamos en mucho más de lo que
Chinchilla o sea hemos entrenado el
modelo mucho más que en el óptimo que
Chinchilla nos recomienda por lo que a
sabienda estamos eh intercambiando
capacitación para ayudar a la comunidad
con los costes de inferencia es decir
meta hecho esto de una forma super
inteligente porque es sabemos que
estamos entrenando el modelo de forma s
subóptima o sea estamos haciendo un
esfuerzo muy extra por meter un poquito
más de información y el modelo se seguía
entrenando eh o sea las curvas podían
seguir progresando estamos incurriendo
en un coste de entrenamiento super
alto pero con el fin de no tener que
hacer un modelo más grande sino para
poder dejártelo en la maletita pequeña
porque para la comunidad tener maletitas
pequeñas es la leche significa que
vosotros con un modelo de 8 millones de
8,000 millones de parámetros lo podéis
ejecutar en vuestra gpus la mayoría de
todos vosotros 8 GB caben perfectamente
en muchas de las gpus comerciales que
tenemos y tener menos parámetros también
hace que el coste de inferencia que de
forma marginal por cada usuario cluse es
muy pequeñito Comparado con todo lo que
sería el coste de entrenamiento pero
claro multiplícalo por todos los
usuarios por todas las organizaciones
por todas las empresas que van a
utilizar Este modelo ese coste de
inferencia agregado si tú lo has
reducido porque tu modelo es más pequeño
es una ventaja o sea han decidido
apostar todo el gran esfuerzo en el
entrenamiento para que luego la
inferencia que va a ser masiva porque
este es un modelo que va a tener una
utilización masiva tenga mayores ahorros
esto es super interesante esto es s
super interesante vale es una apuesta
que meta ha hecho y que ha dejado a todo
el mundo en plan Ok y que yo creo que
está abriendo un camino para que otras
organizaciones y más gente pues se
plantee eh escapar un poco de lo que es
el óptimo de Chinchilla no que es esta
gráfica que hemos visto donde siempre se
busca este equilibrio entre Cuántos
datos tengo Y qué tamaño tiene que tener
mi modelo para hacer entrenamientos que
son subóptimos pero que beneficien a la
comunidad por eh unos costes de
inferencia más reducidos vale entonces
eso está bastante
Guay esto de los billones en español en
y billones en inglés es estresante lo sé
lo odio es Quizás lo que más odio del
mundo de la ia y ojalá lleguemos ya no
sé a órdenes de magnitud donde no haya
tanto lío con las con las
métricas Vale entonces Esto es lo que
están ofreciendo Aquí está nuestra amiga
la llama y es todo todo una locura vale
es todo todo una locura Esto entonces el
modelo está disponible el modelo lo
podéis Descargar lo podéis utilizar
podéis utilizarlo en hagin chat por
ejemplo vale hagin chat que es la el
chat
de de la gente de de hacking Face a ver
si no me equivoco aquí tenemos meta Uy
pero el System prompt creo que
tendríamos que
buscarlo A ver vamos a ver si por de
salida tiene Bueno no más rápido lo voy
a probar en el m Studio bueno tenéis un
montón de herramientas Para probarlo
tenéis haing chat podéis probarlo en
seguramente perplexity ya lo tenga
desplegado en su laboratorio y también
tenéis que recordar que en el dot csv
lap en el canal secundario de de este
canal eh donde hacemos cosas más
prácticas y vamos probando diferentes
cositas hay un tutorial donde os enseño
a utilizar esta herramienta de aquí esta
herramienta de aquí es lm Studio y es un
bueno es una interfaz ahí también está
oyama hay gente que prefiere una yy
gente que prefiere otra Elm Studio
básicamente un gestor de modelos de
lenguaje donde podéis Buscar todos los
modelos que van saliendo podéis
instalarlos descargarlos y según los
requisitos de Hardware que tengáis pues
podéis utilizarlo en en vuestro equipo
Entonces es s sencillo por ahora solo
está el modelo eh el 8b eh seguramente a
lo largo del día de hoy aparezca el
modelo 70b y y nada simplemente
descargarlo y cuando lo tengáis
descargado vale entre los modelos Eh
pues simplemente seleccionar el que
queráis yo en mi caso puedo seleccionar
aquí el modelo
e este de aquí
Exacto el modelo fijaos vamos a buscar
un
momento si me meto aquí mira si me meto
en en la parte de la herramienta donde
está el modelo 8b el modelo 8b puro o
bueno esto ya tiene cuantización o seaa
a 8 bits el modelo
funciona ocupando o 8,54 GB de memoria
este funcionaría en una tarjeta gráfica
medianamente potente a partir de ahí hay
opciones
hasta 5 GB ocupando en memoria que
podéis Descargar y utilizar sin problema
entonces esto es una muy buena noticia
esto es una muy buena noticia el modelo
qué tal funciona a ver el de 8b dentro
de ser muy competente para varias tareas
no va a funcionar por
ejemplo muy muy por encima de chat gpt
3.5 por ejemplo vale para tener
conversaciones profundas seguramente
tenga alucinaciones seguramente tenga
ciertas cosas pero para ciertas tareas
Pues a lo mejor eh generación de datos
sintéticos a lo mejor quieres eh
automatizar algún proceso de
procesamiento lenguaje natural A lo
mejor quieres hacer alguna llamada
alguna función de una aplicación estos
modelos Eh sí los podéis utilizar y si
lo tengo cargado aquí creo que lo tengo
cargado lo tengo cargado en gpu puedo
dar la nueva conversación le puedo decir
hola vale Y creo que esto está
funcionando correctamente fijaos me ha
dicho Hola cómo estás Hello how are you
I'm here to help you with anything you
need What is your Mind today se ha
pasado el inglés le voy a decir aquí en
la a la derecha en el System promt que
me hable Speak in spanish
please que me hable en español y vamos a
ver
si qué tal
estás A
ver estoy bien gracias por preguntar soy
una Inteligencia artificial diseñada
para ayudarte con cualquier tarea o
consulta que tengas bla bla bla bla bla
estoy listo para responder a tus
pregunta Le voy a decir Oye Qué pesa más
la típica Pregunta 1 kil de plom o medio
kil de plumas razona tu respuesta paso a
paso excelente pregunta primero debemos
definir Qué es pesar más en este
contexto se refiere a cuál objeto tiene
una masa mayor la masa se mide en
unidades como el kilogramos 1 kil de
plomo pesa exactamente 1 kil medio kilo
de plumas suponemos que son plumas
ligerísima como las de una B pesaría
cero qué tonto eres la razón es que las
plumas no tienen masa significativa
Aunque pudieran tener algún peso debido
a su estructura y composición es ante en
comparación bla bla bla bla vale en este
caso el modelo está razonando fatal
y y bueno Pues habría que evaluar si en
inglés funciona mejor si funciona Peor
si a lo mejor este tipo de preguntas
todavía no las razona chat gpt 3.5 creo
que también esta pregunta me la falla
entonces bueno podéis jugar con esto
podréis jugar con el modelo 70b cuando
salga el modelo de 400 B no sé qué
pasará con ese modelo no sé qué utilidad
va a tener dentro de todo el Boom de la
de lo que está cediendo y la gran
pregunta es Y ahora
qué y ahora
qué Qué pasa ahora a
ver yo esto lo definí el otro día en
Twitter como que estamos viviendo un
Cambio de fase desde mi punto de vista y
esto se explica muy bien con la grf esta
gráfica de aquí estamos viviendo un
Cambio de fase a mi gusto y el Cambio de
fase viene representado por lo siguiente
fijaos esta gráfica lo que nos está
mostrando es el rendimiento de los
modelos de lenguaje con
el con el el benchmark mml que es uno de
los más populares que se utilizan vale
que mide la inteligencia de estos
sistemas en la línea roja tenemos los
modelos
cerrados y en la línea verde los modelos
abiertos y aquí vemos el desarrollo
temporal que ha tenido esto hasta abril
del 2024 qué observamos en la
tendencia la tendencia lo que nos
muestra es los modelos cerrados y los
modelos abiertos
convergen a un punto en algún momento en
el
futuro los modelos cerrados y abiertos
convergen Y eso pues parece muy
interesante vale parece que fijaos
gracias a la salida de
llama gracias a la salida de llama
eh A partir de Aquí empieza emp a
florecer algunos modelos a partir de la
salida de llama 2 empieza a explotar
todo esto Y empezamos p a tener nuevos
competidores y muchos más modelos que no
están listados aquí y poco a poco si os
dais cuenta si situar en esta gráfica lo
que llama tres rinde el modelo más
grande el de 400000 millones de
parámetros que tiene un 0,86 estaría
aquí es decir ya habría llegado al nivel
de los modelos Open source perdón de los
modelos cerrados esto es
una muy buena noticia pero también me
parece que supone un cierre de fase si
vamos a seguir viendo modelos en Open
source o sea modelos abiertos Open
weights cada vez más rápidos más
potentes más inteligentes más capaces
todo eso lo vamos a ver pero creo que
estamos en el punto en el que ahora las
grandes y sobre todo Open Ai le toca dar
el paso si os dais cuenta en esta
gráfica hay un único punto que es un
outlier frente al resto de la
competencia tanto abierto como cerrado y
es gpt
4 llevamos un año intentando escalar el
monte gpt 4 y ahora Estamos en la Cumbre
y cuando estamos en la Cumbre nos damos
cuenta que la montaña le crecen patas y
vuelve a crecer Open Ai creo que tiene
ahora la presión del mercado obviamente
están liderando pero están viendo como
rápidamente se les acercan creo que
tienen la la la presión para sacar algo
nuevo y creo desde mi punto de vista ya
lo he comentado otras veces creo que
estamos cerca cerca cerca muy cerca en
una un un mes dos meses de que Open Ai
saque algo nuevo y que sea un cambio de
paradigma que ya no sea continuista en
esta evolución de los modelos de
lenguaje sino que abre un nuevo camino
donde la comunidad Open source de nuevo
pues lo verá y dirá ostras podríamos
hacer un modelo de este tipo sí no no sé
venga va Lo intentamos y acabar llegando
también es muy buena noticia y esto hay
que comentarlo que desde que sale gpt 4
y rompe esta esta tendencia hasta que
ido el modelo de meta de
llama ha pasado un año año y medio como
máximo año y medio eso significa que eh
para el tipo de árbol de tecnología que
estamos desbloqueando un año y medio
para el potencial que estamos
desbloqueando es nada es nada y le deja
muy poca ventaja a los modelos privados
para poder competir vale hay empresas
como antropic que ahora están viendo que
ostras que la comunidad Ahora tiene un
modelo eh Open source competente Casi
casi como lo que yo tengo y lo que
ofrezco como servicio Vale entonces
eh estamos moviéndonos muy rápido eso
está muy Guay lo estamos haciendo de la
mano de meta eso no hay que olvidarlo si
meta cierra el Grifo se enos jode el
invento por ahora luego pueden haber
otros competidores tenemos a Mistral a
la gente de Francia que también están
haciendo un trabajo increíble siempre
hay nuevos actores que se quieren
beneficiar de la buena imagen que te da
dar modelos en abierto y parece que
marzer eh que ayer lo confirmaba en un
podcast ya están entrenando la cuarta
versión de yama y van a sacar modelos
más potentes en el futuro seguramente
continuando con esta línea tan
impresionante que son los modelos llama
que siempre que llegan eh generan un
terremoto con esto chicos es un poquito
lo que quería comentar quería hablaros
de de la noticia me parecía muy
importante quería soltar toda esta eh
información que ya he grabado antes hace
2 horas pero bueno eh estaré leyendo los
comentarios que dejéis abajo sabéis que
tenéis el tutorial en el ssv lap donde
está toda la información de cómo usar el
m Studio y cómo eh utilizar ciertos
truquitos para que uses parte de la gpu
de la cpu bastante sencillo de la
herramienta si queréis ver algún vídeo
interesante Pues esperad a la semana que
viene que tengo vídeos preparados pero
es que la actualidad me tiene con la
lengua fuera y si queréis ver un vídeo
También está el de modelos de eh del
mundo que sacamos hace una semana y pico
eh que es un vídeo bastante con teoría
con Cos conceptos bastante interesantes
que conocer y que seguramente os va a
interesar si no lo habéis visto pues lo
buscáis en el canal chicos chicas Muchas
gracias Me despido a la gente del chat
que estaba por aquí que os estaba
leyendo con el rabillo del ojo y nos
vemos en un próximo directo en un
próximo vídeo chao chao
Voir Plus de Vidéos Connexes
¡EJECUTA tu propio ChatGPT en LOCAL gratis y sin censura! (LM Studio + Mixtral)
Fase 1 KDD Cup 2024 | Innova-tsn
Todo LO QUE HA PASADO en el mundo de la IA GENERATIVA desde ChatGPT
Pasado, Presente y Futuro de la IA - ¡Del Deep Learning 1.0 a Google Gemini!
BitNets: La ERA de las REDES NEURONALES de 1 BIT!
Procesos de software
5.0 / 5 (0 votes)