¡Google SORPRENDE con la IA del MILLÓN DE TOKENS! (Gemini 1.5)

Dot CSV
19 Feb 202417:38

Summary

TLDREl video analiza el reciente anuncio de Google sobre Gemini 1.5, la nueva versión de su modelo de IA conversacional. Destaca la incorporación de la arquitectura Mixture-of-Experts para mayor eficiencia y el aumento de la ventana de contexto a 1 millón de tokens, permitiendo procesar hasta 1 hora de vídeo o 10 millones de líneas de código. También menciona las capacidades multimodales para analizar vídeo, audio e imágenes. Compara con GPT-4 y predice próximos movimientos de OpenAI. Resalta que Gemini 1.5 parece dar un paso adelante, pero aún falta probarlo.

Takeaways

  • 😲 Google presentó Gemini 1.5, una nueva versión de su IA conversacional con mejoras en eficiencia y tamaño de contexto
  • 📈 Gemini 1.5 usa una arquitectura MOE que permite modelos más grandes y eficientes
  • 🔢 Gemini 1.5 Pro tiene una ventana de contexto de 1 millón de tokens, 10x más que la versión anterior
  • 🎥 Gemini 1.5 puede procesar 1 hora de video o 30,000 líneas de código en una sola inferencia
  • 📚 Resuelve con éxito pruebas de 'aguja en un pajar' en modalidades como video, audio y texto
  • ⚡ El anuncio sorprendió tras la decepción con Gemini Ultra la semana pasada
  • ⏩ Google parece estar acelerando el paso para competir con GPT-4 de OpenAI
  • 👀 Se espera que OpenAI también tenga novedades pronto para responder a Google
  • 😎 La capacidad de procesar video abre nuevas posibilidades para la IA conversacional
  • 🕵️ Se necesita probar Gemini 1.5 a fondo para validar las métricas presentadas

Q & A

  • ¿Cuánto tiempo ha pasado desde el anuncio de Gemini de Google?

    -Han pasado solo dos meses desde el anuncio de Gemini de Google.

  • ¿Qué sucedió tras la presentación de Gemini?

    -Hubo una decepción generalizada tras comprobarse que dicha presentación fue un poco fake.

  • ¿Qué hizo Google con el modelo Bart?

    -Google decidió matar a Bart para sustituirlo por la nueva marca comercial Gemini, haciéndolo coincidir con la salida del sistema Gemini Ultra.

  • ¿Qué ha lanzado Google recientemente relacionado con Gemini?

    -Google ha lanzado Gemini 1.5, una versión actualizada de su modelo de IA.

  • ¿En qué consiste Gemini 1.5?

    -Gemini 1.5 presenta una nueva arquitectura basada en Mixture of Experts (MoEs) que es más eficiente, y tiene una capacidad de contexto muy grande de 1 millón de tokens.

  • ¿Cómo compara el rendimiento de Gemini 1.5 Pro con versiones anteriores?

    -Gemini 1.5 Pro rinde a la par que Gemini 1.0 Ultra, es decir que la versión intermedia de la nueva generación iguala a la versión más avanzada anterior.

  • ¿Qué capacidades multimodales presenta Gemini 1.5?

    -Gemini 1.5 muestra capacidades para procesar y entender diferentes tipos de datos como video, audio, imágenes y código de programación.

  • ¿Por qué Google habría lanzado esta actualización tan rápido?

    -Posiblemente porque sabía que OpenAI iba a lanzar pronto una actualización de GPT-4 y quería tomar la delantera.

  • ¿Qué se espera de OpenAI como respuesta?

    -Ahora todos esperan que OpenAI presente alguna novedad como respuesta al lanzamiento de Gemini 1.5 por parte de Google.

  • ¿Hay alguna novedad por parte de OpenAI el día del anuncio de Gemini 1.5?

    -No, el día del anuncio de Gemini 1.5 no hay ninguna novedad por parte de OpenAI.

Outlines

00:00

😊 Google anuncia Gemini 1.5, su nuevo modelo de IA

Este párrafo presenta Gemini 1.5, el nuevo modelo de IA de Google anunciado solo una semana después del lanzamiento de Gemini 1.0 Ultra. Se explica que Gemini 1.5 utiliza una arquitectura más eficiente basada en Mixture of Experts que permite entrenar modelos más grandes. La versión Gemini 1.5 Pro tiene un rendimiento similar a Gemini 1.0 Ultra. Lo más destacado es que introduce contextos de gran tamaño, con capacidad para procesar hasta 1 millón de tokens a la vez.

05:00

📽 La gran ventaja: análisis de video y contextos más grandes

Este párrafo profundiza en la ventaja principal de Gemini 1.5: su capacidad para procesar contextos muy grandes, equivalentes a 700,000 palabras, 30,000 líneas de código o incluso 1 hora de video. Esto permite al modelo analizar y responder preguntas sobre videos largos de forma efectiva. Se muestra un ejemplo impresionante analizando 44 minutos de una película.

10:02

🔎 Búsquedas avanzadas en contenido multimedia

En este párrafo se imaginan futuras capacidades avanzadas de búsqueda en plataformas como YouTube, gracias a que el modelo puede indexar y comprender el contenido de videos. Se podrían hacer búsquedas sobre momentos específicos en un video mediante descripciones textuales o dibujos. Todo gracias al análisis de video que permite Gemini 1.5.

15:04

💯 Por fin, ventanas de contexto utilizadas efectivamente

Finalmente, se explica que la gran ventaja no es solo el tamaño de la ventana de contexto, sino la efectividad en su uso. Según un paper publicado, Gemini 1.5 pasa exitosamente la prueba de la aguja en un pajar, pudiendo encontrar información en cualquier posición del contexto analizado. Esto predice que en 2024 se superará el millón de tokens con modelos que utilicen toda la ventana de forma útil.

Mindmap

Keywords

💡Inteligencia artificial

Concepto central del video. Se refiere a sistemas informáticos que exhiben un comportamiento aparentemente inteligente analizando su entorno y tomando acciones para maximizar sus posibilidades de éxito en alguna tarea. En el video se habla de modelos de IA como Gemini, GPT-4 y Anthropic.

💡Gemini

Familia de modelos de IA desarrollados por Google. En el video se habla de Gemini 1.0, Gemini Ultra y la nueva versión Gemini 1.5 que introduce mejoras en eficiencia y tamaño de contexto.

💡GPT-4

Modelo de lenguaje desarrollado por OpenAI. Se menciona en el video como punto de comparación frente a Gemini para evaluar capacidades.

💡Anthropic

Startup de IA que ha desarrollado modelos como Claude. Se menciona en el video al hablar de ventanas de contexto efectivas.

💡Ventana de contexto

Cantidad de información que un modelo de IA puede procesar en una sola inferencia. Gemini 1.5 introduce una ventana de 1 millón de tokens, permitiendo procesar más texto, código, audio o video a la vez.

💡Multimodalidad

Capacidad de un modelo de IA para procesar diferentes tipos de datos como texto, imágenes, audio o video. Se destaca como una mejora de Gemini 1.5.

💡Mezcla de expertos

Arquitectura que permite entrenar modelos de IA más grandes de forma eficiente. Gemini 1.5 la incorpora para mejorar rendimiento.

💡Aguja en un pajar

Prueba para evaluar la efectividad de la ventana de contexto de un modelo de IA. Consiste en localizar una pieza de información aleatoria dentro de una gran cantidad de datos. Según Google, Gemini 1.5 la supera.

💡Beta privada

Versión preliminar de un producto software disponible solo para un grupo limitado de prueba. Se menciona que Gemini 1.5 inicialmente solo estará disponible mediante beta privada.

💡GPT-4

Modelo de lenguaje desarrollado por OpenAI. Se menciona repetidamente en el video como principal punto de comparación frente a Gemini para evaluar capacidades de los modelos de IA.

Highlights

Google presenta su nuevo modelo de IA Gemini 1.5 con mejor rendimiento y eficiencia

Gemini 1.5 utiliza una arquitectura Mixture-of-Experts para entrenar modelos más grandes de forma más eficiente

La versión Gemini 1.5 Pro rinde igual que la versión 1.0 Ultra, pero es más eficiente

Lo más impresionante de Gemini 1.5 es su gran tamaño de ventana de contexto de 1 millón de tokens

1 millón de tokens permiten procesar una hora de video o 30,000 líneas de código de una vez

Google muestra demo con Gemini 1.5 respondiendo preguntas sobre un video de 44 minutos

Gemini 1.5 también permite consultar bases de código grandes y modificar código encontrado

Estas capacidades se deben al uso efectivo de la gran ventana de contexto de 1 millón de tokens

Google parece haber superado exitosamente pruebas de estrés con la ventana de contexto

Gemini 1.5 introduce análisis de video, una capacidad no vista antes en modelos como GPT-4

El rápido lanzamiento de Gemini 1.5 podría ser una respuesta a los próximos movimientos de OpenAI

La gran ventana de contexto y uso efectivo eran una predicción para la IA en 2024

Google parece haber dado un paso adelante frente a OpenAI con Gemini 1.5

Destaca la introducción de análisis de video y la efectiva ventana de contexto de 1 millón de tokens

Ahora se espera la respuesta de OpenAI ante los avances presentados por Google

Transcripts

play00:00

han pasado solo dos meses desde el

play00:02

anuncio de Google de su tan esperada

play00:04

Inteligencia artificial gemini ha pasado

play00:07

solo dos meses menos un día desde la

play00:09

decepción generalizada tras comprobarse

play00:12

que dicha presentación Pues fue un poco

play00:14

fake y ha pasado solo una semana desde

play00:17

que Google decidió matar a Bart para

play00:20

sustituirlo por la nueva marca comercial

play00:22

gemini haciéndolo coincidir con la

play00:25

salida del sistema gemini Ultra y

play00:27

habiendo ocurrido todo esto hace una

play00:29

semana va Google hoy y nos sorprende con

play00:33

la salida de gemini

play00:40

1.5 y no entiendo nada vale Este vídeo

play00:43

lo estoy grabando el jueves por la tarde

play00:45

A pocas horas del anuncio por parte de

play00:47

Google y quiero aprovecharlo para bueno

play00:50

para que reaccionemos y para que

play00:51

conozcáis Qué es todo lo que han

play00:53

presentado y para analizar un poquito

play00:55

todos estos movimientos que la verdad

play00:57

viniendo de una empresa como Google que

play00:59

tanto tiempo ha tardado en activarse

play01:02

ante la respuesta por parte de Open a

play01:04

con la salida de gpt 4 Pues de repente

play01:06

nos sorprende que hayan tomado un ritmo

play01:08

tan rápido lo primero es lo primero

play01:10

vamos a ver en qué consiste esto de

play01:12

gemini 1.5 si venimos aquí a la página

play01:15

web de gemini de repente nos encontramos

play01:17

con una pestaña que nos lleva a gemini

play01:20

1.5 su modelo next Gen el modelo de

play01:25

próxima generación y aquí ya vemos que

play01:27

nos dice que bueno que gemini 1.5 lo que

play01:29

nos entrega es un rendimiento mejorado

play01:32

con una arquitectura mucho más eficiente

play01:34

ahora vamos a ver de qué se trata y

play01:36

también una característica que aún es

play01:38

experimental pero que para mí es la que

play01:40

marca la diferencia que es contextos de

play01:43

Gran tamaño y si entramos a leer todo el

play01:45

blog Pues aquí es donde vamos a

play01:46

encontrar toda la información necesaria

play01:49

lo primero que nos encontramos es que

play01:50

gemini 1.5 Presenta una nueva

play01:53

arquitectura basada en los mixter of

play01:56

experts los moes arquitectura de la que

play01:59

ya hablamos aquí en este vídeo de

play02:00

diciembre y que como sabéis es la

play02:02

arquitectura que está detrás de modelos

play02:04

tan potentes como gpt 4 y tal y como

play02:08

vimos en aquel vídeo los moes lo que nos

play02:09

ofrecen es la capacidad de poder

play02:11

entrenar modelos mayores donde el coste

play02:14

computacional y el coste de inferencia

play02:16

se reduce enormemente al distribuir Pues

play02:19

el procesamiento en diferentes sistemas

play02:20

expertos es decir nos permite contar con

play02:23

modelos de mayor capacidad de mayor

play02:26

número de parámetros pero donde por

play02:28

ejemplo en cada inferencia no vamos a

play02:29

estar activando todos los parámetros del

play02:31

modelo lo cual lo hace mucho más

play02:33

eficiente tratándose de modelos que

play02:36

Google como empresa que es que va a

play02:37

ofrecer esta ia como servicio pues va a

play02:40

estar ofreciendo a millones y millones

play02:41

de usuarios con lo cual es muy buena

play02:43

idea que hayan explorado los mixter of

play02:45

experts y es interesante que estén dando

play02:48

un paso hacia parecerse más a un modelo

play02:51

tipo gpt 4 pero lo interesante viene

play02:53

ahora porque sabemos que gemini es el

play02:55

sobrenombre que se le da a toda la

play02:57

familia de modelos pero luego podemos

play02:59

encontrar diferentes tamaños con

play03:01

diferentes rendimientos la versión Nano

play03:03

que es un modelo más pequeñito y por

play03:05

tanto más tonto pero más accesible para

play03:08

dispositivos por ejemplo móviles luego

play03:10

la versión Pro que sería la versión

play03:12

intermedia y la que Google está

play03:13

facilitando de forma gratuita a través

play03:15

de su servicio gemini y luego la versión

play03:18

Ultra que sería la versión más avanzada

play03:20

que sería la que estaría disponible para

play03:22

usuarios de pago versión que por cierto

play03:24

tengo que decir se anunció la semana

play03:26

pasada a través del sistema de gemini

play03:28

Advance que es el sistema de pago de

play03:30

gemini y que técnicamente debería de

play03:33

tener un rendimiento superior a gpt 4

play03:35

tal cual lo presentaron en diciembre del

play03:37

año pasado y que sin embargo cuando la

play03:38

gente ha empezado a probarlo y a

play03:40

testearlo queda bastante Claro que no es

play03:43

un modelo superior de hecho es un modelo

play03:45

que en muchos sentidos es bastante

play03:47

deficiente Comparado con gpt 4 y esto es

play03:50

algo que es importante decirlo porque

play03:52

muchas veces nos centramos en

play03:53

evaluaciones en el rendimiento de estos

play03:55

modelos en determinados benchmarks para

play03:57

decir que este modelo es mejor que otro

play03:59

y al al final la realidad es que la

play04:01

mejor forma de evaluar un modelo es

play04:02

probándolo y por eso nos empeñamos tanto

play04:04

en cuando se anuncia un modelo que sí

play04:06

que está muy bien que me saques un

play04:07

technical report un paper con toda esta

play04:09

información pero dame acceso déjame

play04:11

probarlo y ya seré yo el que verifique

play04:13

si este modelo es superior o no a gpt 4

play04:16

y realmente Google sabía que gemini

play04:18

Ultra no daba la talla obviamente lo

play04:21

saben aunque no lo pueden decir

play04:22

públicamente pero cómo lo podemos

play04:23

nosotros identificar que ellos lo sabían

play04:25

Pues que una semana más tarde están

play04:27

anunciando la versión 1.5

play04:30

un modelo que siendo más eficiente por

play04:32

esta arquitectura tipo mixter of expert

play04:35

también tal y como nos indican aquí pues

play04:37

la versión gemini 1.5 Pro la versión

play04:40

intermedia de esta nueva generación de

play04:43

modelos rinde a la par que gemini 1.0

play04:46

Ultra es decir 1,5 Pro igual a 1.0 Ultra

play04:52

pero de nuevo esto vuelven a ser

play04:53

comparaciones que vemos sobre el papel y

play04:55

a mí lo que me interesa es comprobar las

play04:58

capacidades queene tiene de nuevo Este

play05:00

modelo gemini 1.5 que lo hace tan

play05:03

interesante pues amigos y amigas cuando

play05:05

hablemos de gemini 1.5 de lo que tenemos

play05:08

que estar hablando es de su gran tamaño

play05:10

de ventana de contexto recordemos que el

play05:13

tamaño de la ventana de contexto lo que

play05:15

nos Define es la cantidad de tokens que

play05:17

el modelo en cada inferencia puede

play05:20

procesar y puede prestar atención Pues

play05:22

si por ejemplo estamos trabajando con

play05:24

texto esto nos indicaría el límite la

play05:26

cantidad de páginas de documento que le

play05:29

podríamos facilitar el modelo para

play05:30

trabajar al mismo tiempo o si por

play05:33

ejemplo estuviéramos trabajando con

play05:34

código Cuántos scripts podríamos

play05:36

introducirle para que el modelo pudiera

play05:38

tener una visión completa de nuestro

play05:39

proyecto de programación si estuviéramos

play05:41

trabajando con imágenes pues esto nos

play05:43

limitaría en la resolución y tamaño de

play05:45

las imágenes y si fuera audio Pues en la

play05:47

longitud en la cantidad de minutos que

play05:49

podría procesar al mismo tiempo y esta

play05:52

ventana de contexto originalmente con

play05:54

los primeros modelos de chat gpt chat

play05:56

gpt 3.5 estaba en un valor de unos 4000

play05:59

1000 tokens que luego aumentó a 16,000 y

play06:02

32,000 con la salida de gpt 4 algo que

play06:06

por aquel momento hace un año y medio

play06:08

era impresionante y gemini 1.0 tras su

play06:11

salida Pues también igualó la apuesta

play06:13

con una ventana de contexto de 32000

play06:16

tokens algo que ahora queda

play06:18

completamente pulverizado con una

play06:20

ventana de contexto de 1 millón de

play06:23

tokens 1 millón de tokens del modelo que

play06:26

vamos a tener disponible públicamente

play06:28

con el paso de los meses Pero ellos nos

play06:30

cuentan que incluso internamente han

play06:32

conseguido modelos con 10 millones de

play06:35

tokens repito 10 millones de tokens y

play06:40

con gemini 1.5 pro con una ventana de

play06:43

contexto de 1 millón de tokens se puede

play06:45

hacer muchas cosas porque 1 millón de

play06:48

tokens representa aproximadamente

play06:50

700.000 palabras o unas 30.000 líneas de

play06:53

código u 11 horas de audio o una hora de

play06:58

vídeo una una hora de vídeo que ahora el

play07:00

modelo podrá procesar de golpe para

play07:02

responder todas las preguntas que tenga

play07:05

el usuario pensadlo bien una hora de

play07:07

vídeo sería equivalente a darle a la

play07:09

Inteligencia artificial Pues la primera

play07:11

parte de un partido de fútbol 45 minutos

play07:13

y preguntarle Oye dónde ha sucedido el

play07:16

gol y que de una única inferencia pues

play07:18

pueda encontrar esa información y darte

play07:20

una descripción o Hazme un resumen de

play07:22

todo el partido o coméntamelo o genera

play07:24

una voz artificial cuando la

play07:26

multimodalidad lo permita que narre todo

play07:28

lo que ha ido y de hecho ejemplos así

play07:30

podemos encontrar porque aquí estoy

play07:32

centrándome en la modalidad de vídeo

play07:34

porque esto es algo novedoso que están

play07:36

presentando con gemi 1.5 Pro esto es una

play07:40

cosa que Google ya anunció en el pasado

play07:41

cuando hablaban de que su Inteligencia

play07:43

artificial iba a ser multimodal que era

play07:45

la capacidad de poder analizar vídeos

play07:48

algo que hasta la fecha no hemos visto

play07:50

en inteligencias artificiales como gpt 4

play07:53

sí se puede analizar vídeo de forma

play07:55

similar a como hicieron con esta demo

play07:56

fake donde tú Vas sacando fotogramas los

play07:58

vas escribiendo con las capacidades de

play08:00

visión por computador y con ese análisis

play08:02

que tú haces de los fotogramas pues

play08:03

puedes hacer una medio comprensión de lo

play08:06

que está ocurriendo en dicho vídeo y sin

play08:08

realmente saber cómo exactamente Google

play08:10

lo hace en este caso esta demo que nos

play08:13

demuestran aquí y es una demo Así que La

play08:14

cogemos con pinzas es bastante

play08:16

impresionante en este caso lo que van a

play08:18

introducir es un vídeo y este vídeo

play08:20

procesado ocupa unos 700,000 tokens toda

play08:24

la información que representa vendría a

play08:26

representar pues toda esta cantidad de

play08:27

tokens aquí donde entra en juego y es

play08:30

importantísimo esta enorme ventana de

play08:32

contexto con la que gemini Pro trabaja y

play08:34

en este caso el vídeo que están

play08:36

procesando Pues sería una película de

play08:37

bter kiton de unos 44 minutos y donde se

play08:40

le ha preguntado la Inteligencia

play08:41

artificial bueno que encuentre el

play08:43

momento donde un papel se coge del

play08:45

bolsillo de una persona y que te cuente

play08:47

más información sobre ello como podemos

play08:49

ver los tiempos de inferencia están

play08:51

aumentando drásticamente hasta tardar

play08:53

más o menos un minuto en procesar la

play08:55

petición frente a lo que estamos

play08:56

acostumbrados cuando interactuamos con

play08:58

el chat pues chat gpt pero es que esto

play09:00

es algo habitual cuando empezamos a

play09:01

trabajar con modelos de ventanas de

play09:03

contextos tan grandes algo que a futuro

play09:06

seguramente con las mejoras de

play09:07

computación y las optimizaciones de

play09:09

estos modelos pues se vaya logrando

play09:11

reducir considerablemente pero aún así

play09:13

Un minuto para procesar 44 minutos de

play09:16

vídeo pues Tampoco es tanto y podemos

play09:19

ver que la respuesta de la ia pues es

play09:20

correcta dice a los 12 minutos un trozo

play09:22

de papel se coge del bolsillo de una

play09:24

persona esto es un ticket de bla bla bla

play09:26

bla y te da más información tal cual tú

play09:28

se lo has pedido y cuando se comprueba

play09:30

pues efectivamente en el minuto 12 como

play09:32

dice la Inteligencia artificial hay un

play09:34

ticket con el nombre de Will Smith tal

play09:36

cual nos ha especificado en nuestra

play09:38

conversación Mola incluso podemos jugar

play09:41

con la multimodalidad con la capacidad

play09:43

del modelo de entender diferentes tipos

play09:45

de datos por ejemplo una imagen para

play09:47

hacer un dibujo y decirle Oye esto En

play09:49

qué fotograma en qué momento ocurre no

play09:52

un dibujo de una persona mojándose por

play09:53

un tanque de agua y el modelo responde

play09:55

escueto con un momento 1534 buscamos

play09:59

este este tiempo en el vídeo y

play10:01

efectivamente pues hemos encontrado

play10:03

justo ese momento pensad en un futuro

play10:05

Cómo podría funcionar un buscador dentro

play10:07

de una plataforma que le pertenece a

play10:09

Google cómo podría ser YouTube que toda

play10:12

esta información que estructura el

play10:14

contenido de un vídeo esté eh precalculo

play10:16

esté indexado y que vosotros podáis

play10:18

hacer búsquedas a través de Cuándo se

play10:19

cantó esta canción en un vídeo de Carlos

play10:21

cuándo Carlos pues levantó el brazo así

play10:23

y no lo levantó así a través de un

play10:25

dibujo no sé pensad qué loco se va a

play10:27

volver todo esto y si esto es posible de

play10:29

nuevo es gracias al aumento en la

play10:32

ventana de contexto de todos los

play10:34

ejemplos que muestran este sería el más

play10:35

agresivo en cuanto a ventana de contexto

play10:38

utilizada que sería con proyectos de

play10:41

programación que tengan pues una gran

play10:43

cantidad de archivos a procesar estamos

play10:45

acostumbrados en proyectos de

play10:46

programación a trabajar con un montón de

play10:49

archivos de scripts que están

play10:51

interrelacionados y que nos interesaría

play10:52

que la ía pudiera acceder de forma

play10:54

holística para tener una visión completa

play10:56

de El proyecto en el que estamos

play10:58

trabajando y para eso es fundamental de

play11:00

nuevo la ventana de contexto y en esta

play11:02

demo pues lo que vienen a demostrar es

play11:03

justamente esto han cogido un montón de

play11:05

códigos de la librería 3 para hacer pues

play11:08

gráficos en trt en el navegador y con

play11:10

todos esos proyectos con ese enorme

play11:12

repositorio de código que en este caso

play11:14

ocuparía unos 800,000 tokens ahora

play11:17

podemos pasar a hacerle consultas

play11:20

podemos por ejemplo pedirle que nos

play11:22

busqu en todo este repositorio pues tres

play11:24

demos que hagan una explicación de cómo

play11:27

utilizar animaciones con esta librería y

play11:29

de repente la ía pues lo encuentra y te

play11:31

empieza a hacer un medio tutorial con

play11:33

esa información que ha encontrado Oye en

play11:36

la demo de Tokio de todas las demos que

play11:38

tenemos qué es lo que controla la

play11:40

animación y te hace la explicación

play11:42

buscando y encontrando Dónde está el

play11:44

código de la demo de Tokio Oye quiero

play11:46

que me encuentres la demo donde se hace

play11:48

uso de la geometría de texto y que me

play11:50

modifiques el color el material para que

play11:52

ahora sea en vez de plateado dorado y

play11:54

bueno te encuentra el código te hace los

play11:57

cambios te lo manipula y efectivamente

play11:59

hace la tarea que le has pedido estas

play12:01

demos son impresionantes y como demos

play12:03

impresionantes de Google las vamos a

play12:05

dejar en cuarentena hasta que la

play12:06

tecnología caiga en nuestras manos y

play12:08

podamos probarla y podamos testear todo

play12:10

esto que aquí nos presentan por ahora

play12:12

gemini Pro 1.5 está accesible a través

play12:16

de Beta privada a través de la

play12:18

plataforma vertex de Google pero será

play12:20

cuestión de semanas será cuestión de

play12:22

meses que podamos probar esta tecnología

play12:24

nosotros y verdaderamente podamos ver si

play12:26

rinde tal y có lo presentan pero si

play12:29

fuera el caso estaríamos viviendo

play12:31

nuevamente un paso hacia adante en

play12:33

cuanto a las capacidades de lo que la

play12:34

Inteligencia artificial puede ofrecer y

play12:37

pueda ha ser porque verdaderamente

play12:38

Google en este caso ha traído un avance

play12:40

técnico bastante bastante impresionante

play12:42

y es que no solo se trata de que la

play12:44

ventana de contexto se haya prolongado

play12:46

al millón de tokens o incluso a 10

play12:48

millones de tokens recordemos sino que

play12:50

aquí como en la vida lo importante no es

play12:52

el tamaño sino el saber utilizarlo bien

play12:56

y en cuanto al correcto uso de la

play12:57

ventana de contexto nos estábamos

play12:59

encontrando muchas veces con modelos

play13:01

como Cloud de antropic que nos hablaban

play13:03

de Sí sí tengo ventanas de contexto de

play13:06

200,000 tokens que Esto suena como muy

play13:08

grande pero que luego cuando te ponías a

play13:10

interactuar con estas ventanas de

play13:11

contexto pues empezabas a percibir que

play13:13

no funcionaba como debía muchas veces

play13:16

con estos modelos lo que nos

play13:17

encontrábamos es que sí tú le podías

play13:18

facilitar un montón de páginas de

play13:20

documentos y el modelo era capaz de

play13:22

verlo de principio a fin Pero había una

play13:25

trampa lo que sucedía es que cuando tú

play13:27

le facilitaba un documento muy grande

play13:29

Pues sí el modelo lo podía procesar pero

play13:31

gran parte de la información que estaba

play13:33

en ese documento pues la Inteligencia

play13:35

artificial no era capaz de capturarla

play13:37

trabajar con ella y

play13:57

facilitárnoslos en él en una posición

play13:59

aleatoria pues una pieza de información

play14:02

del tipo Pues a dosv le gustan los

play14:04

pangolines y luego ir a la Inteligencia

play14:06

artificial y preguntarle Oye que sí que

play14:08

sí que Harry Potter está muy bien pero

play14:10

qué le gusta a dot SV si la Inteligencia

play14:13

artificial estuviera trabajando con la

play14:14

ventana de contexto de forma efectiva

play14:16

observando todas las posiciones de la

play14:18

información que le estamos facilitando

play14:20

debería de poder decirte e a do SV le

play14:22

gusta los pangolines pero atento atento

play14:24

que lo de Harry Potter también está

play14:25

interesante ahí la Inteligencia

play14:27

artificial habría resuelto para para esa

play14:29

posición correctamente su prueba de la

play14:31

aguja en un pajar Así que le marcamos la

play14:34

casilla en verde pero lo que nos

play14:35

interesa es que la Inteligencia

play14:36

artificial pueda encontrar esta pieza de

play14:38

información en todas las posiciones de

play14:41

su ventana de contexto es decir que use

play14:43

todo ese tamaño de forma efectiva y lo

play14:46

que nos encontrábamos con inteligencias

play14:47

artificiales tan impresionantes como clo

play14:50

o incluso con gpt 4 es que sí ventanas

play14:53

de contexto muy grandes pero que no

play14:55

funcionaban tan bien y aquí es donde

play14:58

creo que Google ha hecho un grandísimo

play15:01

trabajo porque si accedemos al paper al

play15:03

preprint que han sacado pues podemos ver

play15:06

que esta prueba de la aguja en un pajar

play15:08

para modalidades como vídeo audio o

play15:11

texto se resuelve con un éxito Casi casi

play15:14

rotundo una prueba de estrés pasada

play15:18

satisfactoriamente una ventana de

play15:19

contexto utilizada al 100% y no es por

play15:22

colgarme una medallita pero me la voy a

play15:25

colgar porque esta fue una de las

play15:26

predicciones que ya anuncié a su mes en

play15:29

las predicciones que hacía sobre lo que

play15:30

creo que va a ocurrir en el mundo de la

play15:32

Inteligencia artificial este 2024 y que

play15:34

era justamente esto en 2024 veremos

play15:37

comoo las ventanas de contexto de los

play15:39

enormes modelos de lenguaje seguirán

play15:41

aumentando por encima del millón de

play15:42

tokens pero más importante aún

play15:45

lográndolo mientras superan

play15:46

positivamente test de presión tipo

play15:49

needle in a High stack aplausos aplausos

play15:53

Gracias pero bueno estos aplausos se los

play15:55

vamos a conceder en esta ocasión a

play15:58

Google porque en teoría y hasta que

play16:00

podamos probar la tecnología se va a

play16:02

quedar en ese plano parece que han

play16:05

conseguido dar un paso más hacia delante

play16:08

si bien parecía que con gemini 1.0 a

play16:10

Google le estaba costando plantarle cara

play16:12

a Open Ai sacando un modelo hace una

play16:15

semana que ni siquiera alcanza el

play16:17

rendimiento de un modelo que lleva en el

play16:19

mercado desde hace un año pues una

play16:21

semana después han conseguido dar un

play16:22

paso que sorprende nos ha sorprendido a

play16:25

todos y que parece que sí introduce pues

play16:27

mejoras FR a lo que gpt 4 actualmente

play16:30

ofrece en concreto la modalidad de vídeo

play16:33

de análisis de vídeo y esta enorme

play16:35

ventana de contexto utilizada con esta

play16:38

efectividad Y por qué lo han hecho tan

play16:39

rápido Ah podría ser que de repente

play16:42

Google haya decidido cambiar el ritmo

play16:44

para pillar por sorpresa a la

play16:46

competencia O podría ser que Google

play16:48

también supiera que la competencia

play16:50

estaría próxima a dar un nuevo

play16:52

movimiento y eso hace que ahora todos

play16:54

giremos nuestra cara miremos a Open Ai

play16:57

saludemos a malm y le preguntemos e qué

play17:01

Qué tienes para nosotros y por ahora día

play17:03

de hoy jueves por la tarde pues no

play17:05

tenemos ninguna novedad pues no tenemos

play17:07

ninguna

play17:15

[Música]

play17:20

[Aplausos]

play17:27

novedad

play17:37

ah

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?