Google I/O 2024 keynote in 17 minutes

The Verge
14 May 202417:03

Summary

TLDRDans cette conférence Google IO, la société a annoncé une série d'améliorations et de lancements technologiques impressionnants. Le nouveau système Gemini 1.5 Pro, avec un contexte étendu à 1 million de jetons, sera disponible pour les développeurs et les consommateurs dans 35 langues. Google prévoit d'élargir la fenêtre de contexte à 2 millions de jetons, un pas en avant vers l'objectif ultime de contexte infini. Les outils génératifs de médias, tels que Image 3, Music AI Sandbox et le modèle de vidéo VR, offriront des expériences plus immersives et personnalisées. La sixième génération de TPU, Trillium, apportera une amélioration significative des performances de calcul. De nouvelles fonctionnalités dans Google Search, comme la raison multi-étapes et la recherche vidéo, rendront la recherche d'informations plus efficace. Les utilisateurs de Gmail mobile bénéficieront de nouvelles capacités telles que la synthèse et la réponse aux questions directement dans l'application. Gemini Nano, avec ses capacités multimodales, améliorera l'accessibilité pour les utilisateurs. Les modèles Gemini 1.5 Flash et Pro seront tarifés compétitifs, et l'introduction de Poly Gemma, le premier modèle de langage vision open, promet de nouvelles possibilités pour les développeurs. L'ensemble de ces annonces montre l'engagement de Google pour l'innovation et l'amélioration continue de l'expérience des utilisateurs.

Takeaways

  • 🚀 Lancement d'une nouvelle expérience de recherche améliorée avec Gemini, qui sera disponible pour tous les développeurs à l'échelle mondiale.
  • 📈 Gemini 1.5 Pro, avec un contexte de 1 million de tokens, sera directement accessible pour les consommateurs dans Gemini Advanced et sera utilisable dans 35 langues.
  • 🔍 Expansion de la fenêtre de contexte à 2 millions de tokens, représentant une étape supplémentaire vers l'objectif ultime du contexte infini.
  • 📱 Progrès dans l'assistance IA avec le projet Astra, qui comprend des outils génératifs pour l'image, la musique et la vidéo.
  • 🎥 Introduction d'Imagine 3, un modèle plus photoréaliste avec des détails enrichis et moins d'artefacts visuels.
  • 🎼 Mise en place de Music AI Sandbox, un ensemble d'outils IA musicale professionnel pour créer de nouvelles sections instrumentales et transférer des styles entre pistes.
  • 📹 Présentation du modèle de vidéo génératif le plus performant appelé VR, capable de créer des vidéos 1080p de haute qualité à partir de textes, d'images et de vidéos.
  • 🧠 Intégration de la raisonnement à plusieurs étapes dans Google Search pour répondre à des questions plus complexes.
  • 📧 Nouveaux développements dans Gmail mobile avec des fonctionnalités telles que la synthèse des e-mails et la réponse aux questions directement dans les cartes mobiles.
  • 📊 Prochain lancement de la sixième génération de TPUs appelée Trillium, offrant une amélioration significative des performances de calcul par rapport à la génération précédente.
  • 💬 Prochaine disponibilité d'un nouveau tableau de bord Gemini pour Gmail, avec des capacités telles que la création de documents et la visualisation des revenus.

Q & A

  • Quelle est la nouvelle expérience que Google lance pour les utilisateurs américains ?

    -Google lance une expérience entièrement repensée des aperçus de l'IA, qui sera disponible pour tous les utilisateurs américains cette semaine et sera étendue à d'autres pays sous peu.

  • Comment Gemini facilite-t-il le processus de paiement dans une station de stationnement ?

    -Gemini utilise la reconnaissance des images pour identifier la voiture qui apparaît fréquemment, triangule la vôtre et vous donne directement le numéro de plaque. Cela permet de simplifier le processus de paiement.

  • Quels types de recherches peut-on effectuer avec Gemini 1.5 Pro ?

    -Avec Gemini 1.5 Pro, on peut effectuer des recherches multimodales qui reconnaissent différents contextes, allant de la natation en bassin à la plongée sous-marine, et cela avec un contexte long pouvant traiter des centaines de pages de texte, des heures d'audio ou de vidéo, voire des dépôts de code complets.

  • Quelle est la capacité de contexte de Gemini 1.5 Pro ?

    -Gemini 1.5 Pro peut gérer jusqu'à 1 million de jetons de contexte, ce qui permet d'obtenir des réponses plus riches et détaillées.

  • Comment Gemini peut-il aider dans la planification d'un voyage ?

    -Gemini peut rassembler diverses informations à partir de la recherche, des extensions utiles comme Maps et Gmail, pour créer un plan de vacances personnalisé présenté dans la nouvelle interface dynamique de Gemini.

  • Quels sont les avantages de l'utilisation de Gemini pour la résolution de problèmes scolaires ?

    -Gemini peut aider à résoudre des problèmes scolaires complexes en fournissant des instructions étape par étape directement là où l'utilisateur travaille, par exemple en circonscrivant la partie exacte d'un problème qu'un élève est bloqué.

  • Quelle est la fonctionnalité de Gemini qui permet de répondre à des questions complexes directement dans Gmail mobile ?

    -La nouvelle fonctionnalité de carte mobile de Gemini permet de lire un résumé des informations clés dans une carte superposable, d'où il est possible de poser des questions directement et d'obtenir des réponses rapides sur n'importe quoi dans la boîte de réception sans avoir besoin de rechercher ou d'ouvrir les e-mails.

  • Comment Gemini aide-t-il dans l'organisation et le suivi des reçus de facture ?

    -Gemini propose de créer un dossier Drive, de déplacer les reçus dedans, d'extraire les informations pertinentes et de générer automatiquement une feuille de calcul pour suivre les dépenses, tout en offrant la possibilité de visualiser la répartition par catégorie.

  • Quelle est la nouvelle fonctionnalité de Gemini qui permet de personnaliser l'IA pour créer des experts personnels sur n'importe quel sujet ?

    -Les 'gems' sont des fonctionnalités Gemini qui permettent aux utilisateurs de créer des experts personnels sur des sujets spécifiques en écrivant une seule fois des instructions. Ces 'gems' seront disponibles pour répondre aux besoins futurs des utilisateurs.

  • Quels sont les avantages de l'utilisation de Gemini Nano dans le contexte de l'accessibilité ?

    -Gemini Nano améliore l'accessibilité en fournissant des descriptions plus riches et plus claires des photos envoyées aux utilisateurs, même sans connexion réseau, grâce à ses capacités multimodales.

  • Quels sont les prix pour l'utilisation de Gemini 1.5 Pro et Gemini 1.5 Flash ?

    -Gemini 1.5 Pro coûte 7 dollars pour 1 million de jetons, avec un rabais de 50% pour les prompts jusqu'à 128k jetons, soit 3,50 dollars. Gemini 1.5 Flash commence à 35 cents pour 1 million de jetons.

Outlines

00:00

🚀 Lancement de Gemini 1.5 Pro et nouvelles capacités

Le texte décrit le lancement de la nouvelle expérience Gemini 1.5 Pro avec une fenêtre de contexte de 1 million de jetons, qui sera disponible pour tous les développeurs à travers le monde. Cela inclut la possibilité d'interroger des contextes longs tels que des pages de texte, des heures d'audio ou de vidéo, et du code. Gemini 1.5 Pro permettra aux utilisateurs de traiter des questions complexes et de recevoir des réponses détaillées. La fonctionnalité de multimodalité permet de poser des questions plus larges et de recevoir des réponses plus riches. Le texte mentionne également l'expansion de la fenêtre de contexte à 2 millions de jetons et l'introduction de Gemini 1.5 Flash.

05:01

🎥 Projet Astra et génération de médias

Dans ce paragraphe, on annonce Project Astra, une avancée future de l'IA. On parle également de l'introduction de nouveaux outils génératifs pour l'image, la musique et la vidéo. Imagine 3 est présenté comme un outil plus photoréaliste avec des détails enrichis et moins d'artefacts visuels. On mentionne également la création de vidéos haute qualité avec le modèle VR, qui prend en charge des instructions textuelles, des images et des vidéos. Un outil expérimental appelé Video FX est également mentionné pour éditer des vidéos plus longue et créer des storyboards.

10:01

🧠 Amélioration des TPUs et nouvelles fonctionnalités de recherche

Le texte parle de la sixième génération de TPUs, Trillium, qui apporte une amélioration significative des performances de calcul par rapport à la génération précédente. Il annonce également l'introduction de la raison multi-étapes dans Google Search, permettant aux utilisateurs de poser des questions complexes et d'obtenir des réponses détaillées et structurées. On décrit également de nouvelles capacités pour Gmail mobile, notamment la possibilité de résumer des emails et de poser des questions directement à partir des cartes mobiles.

15:03

🤖 Intégration d'IA dans les outils de productivité

Ce paragraphe décrit l'intégration d'IA dans divers outils de productivité, y compris la création d'un assistant virtuel nommé Chip, qui peut effectuer des tâches spécifiques telles que le suivi des projets et l'organisation des informations. On mentionne également la possibilité d'avoir des conversations approfondies avec Gemini à l'aide de la voix et la création de 'gems', des experts personnels sur des sujets spécifiques. On décrit également une nouvelle expérience de planification de voyages qui permet de créer des itinéraires personnalisés en utilisant les informations de recherche et les extensions utiles comme Maps et Gmail.

📈 Analyse de données et nouvelles fonctionnalités Gemini

Le texte explique comment Gemini peut aider à analyser des données et à générer des visualisations, comme pour visualiser les revenus d'une activité annexe. On annonce également l'élargissement de la fenêtre de contexte à deux millions de jetons plus tard dans l'année. Gemini devient contextuellement conscient, permettant aux utilisateurs d'interagir de manière plus intuitive avec les applications. On mentionne également l'amélioration de l'accessibilité avec Gemini Nano, qui fournira des descriptions plus riches et claires des photos, même sans connexion réseau.

📉 Coûts et nouveaux modèles Gemini

On donne des informations sur les coûts de l'utilisation de Gemini 1.5 Pro et Gemini 1.5 Flash, ainsi que l'annonce de la prochaine génération de Gemini, Gemini 2, qui sera disponible en juin. On mentionne également l'expansion de Synth ID à de nouvelles modalités et l'ouverture de Synth ID text watermarking. On introduit également Learn LM, une nouvelle famille de modèles basés sur Gemini et finement ajustés pour l'apprentissage, avec des 'gems' préfabriqués qui seront disponibles dans l'application Gemini et l'expérience Web.

Mindmap

Keywords

💡Google IO

Google IO est une conférence annuelle organisée par Google qui met en avant les nouvelles technologies et les innovations de l'entreprise. Dans le script, cela marque le début de l'annonce de nouvelles fonctionnalités et de produits liés à l'intelligence artificielle.

💡AI overviews

AI overviews fait référence à une fonctionnalité qui fournit des aperçus détaillés et des informations structurées sur divers sujets à l'aide de l'intelligence artificielle. Dans le contexte du script, cela signifie l'amélioration de l'expérience utilisateur en fournissant des réponses plus riches et contextuelles.

💡Gemini

Gemini est le nom d'un produit ou d'une fonctionnalité dans le script qui semble offrir des capacités de recherche avancées et de traitement du langage naturel. Il est mentionné comme capable de reconnaître les contextes variés et d'interagir avec les utilisateurs sur de nombreux sujets.

💡Multimodality

Le terme 'multimodality' fait référence à la capacité d'un système d'intelligence artificielle à traiter et à intégrer des types de données multiples, tels que le texte, l'audio et la vidéo. Dans le script, cela est lié à l'expansion des questions que l'on peut poser et des réponses que l'on reçoit, améliorant ainsi l'interactivité et la richesse de l'information.

💡1 million token context window

Un 'token' en traitement du langage naturel est une unité de texte, généralement un mot ou un caractère. Un contexte de 1 million de tokens permet à Gemini 1.5 Pro de traiter et de comprendre de grandes quantités d'informations. Cela est crucial pour la compréhension approfondie du contexte et pour fournir des réponses détaillées et précises.

💡Project Astra

Project Astra est mentionné comme un progrès futur dans le développement de l'aide à l'intelligence artificielle. Bien que le script ne fournisse pas de détails spécifiques, il est présenté comme une innovation qui devrait améliorer les capacités d'assistance et les expériences des utilisateurs.

💡Imagine 3

Imagine 3 est décrit comme un modèle génératif de média qui produit des images plus photoréalistes avec des détails enrichis et moins d'artéfacts visuels. Cela indique une évolution dans la capacité de l'IA à générer du contenu médiatique de haute qualité.

💡TPUs (Tensor Processing Units)

Les TPU, ou Unités de Traitement Tensoriel, sont des unités de calcul spécialisées développées par Google pour l'apprentissage automatique et les tâches liées à l'IA. La sixième génération, Trillium, offre une amélioration significative en termes de performance de calcul, ce qui permettra d'exécuter des modèles d'IA plus complexes et plus rapidement.

💡Google Search updates

Les mises à jour de Google Search mentionnées dans le script incluent la raison de plusieurs étapes et la capacité à traiter des questions plus complexes, comme trouver les meilleurs studios de yoga avec des offres d'introduction et des informations sur la distance. Cela montre l'intégration croissante de l'IA pour améliorer l'expérience de recherche des utilisateurs.

💡Gmail mobile

Le script fait référence à de nouvelles fonctionnalités pour Gmail mobile, notamment la possibilité de résumer des emails et de poser des questions directement à partir des cartes mobiles. Cela montre comment l'IA est intégrée dans les produits existants pour offrir une expérience utilisateur plus efficace et personnalisée.

💡Gemini Advanced

Gemini Advanced est mentionné comme une version améliorée d'un produit ou d'une fonctionnalité qui offre des capacités étendues, telles que la planification de voyages personnalisés et la création d'experts personnels sur n'importe quel sujet. Cela met en évidence l'élaboration continue des outils d'IA pour répondre aux besoins spécifiques des utilisateurs.

Highlights

Google IO 2023 introduced a fully revamped AI experience with new features and improvements.

Gemini, Google's AI assistant, is set to launch a new version with expanded capabilities across 35 languages.

The context window for Gemini 1.5 Pro is being expanded to 2 million tokens, a significant step towards infinite context.

Google is introducing a lighter weight model called Gemini 1.5 Flash, offering more accessible AI capabilities.

A new feature called 'flash' is being introduced, which is a lighter model compared to Pro, with up to 1 million tokens available in Google AI studio and Vertex AI.

Project Astra is a new initiative in AI assistance that will allow users to interact with AI through sound and code analysis.

Imagine 3, a new generative media tool, offers more photorealistic images with richer details and fewer visual artifacts.

Google and YouTube are building Music AI Sandbox, a suite of professional music AI tools for creating and transforming music.

A new generative video model called VR is capable of creating high-quality 1080p videos from text, image, and video prompts.

TPUs are advancing with the sixth generation, Trillium, offering a 4.7x improvement in compute performance per chip.

Google search will soon feature multi-step reasoning to help users find the best solutions to complex questions.

Google is working on integrating video into search queries, allowing users to ask questions directly with a video.

A new Gemini powered side panel will be available next month with three new capabilities for Gmail mobile.

Gmail mobile will receive updates including a summarize option and a Q&A feature for quick answers within emails.

Google is prototyping a virtual Gemini powered teammate, Chip, designed to monitor and track projects, organize information, and provide context.

Live, a new Gemini feature, will allow users to have in-depth conversations with Gemini using voice and visual input.

Gems, personalized AI experts on any topic, will be introduced, allowing users to create personal experts for various subjects.

Gemini Advanced is introducing a new trip planning experience that gathers information from various sources to create a personalized vacation plan.

Google is expanding the capabilities of its AI models, including doubling the long context window to two million tokens and introducing context awareness.

Talk Back, an accessibility feature, is being enhanced with multimodal capabilities of Gemini Nano for richer and clearer descriptions.

Google is introducing new pricing models for Gemini 1.5 Pro and 1.5 Flash, making them more accessible to developers.

Poly Gemma, the first Vision language open model, is now available, and Jimma 2, the next generation of Gemma, will be available in June.

Synth ID is expanding to include text and video modalities, with plans to open source Synth ID text in the coming months.

Learn LM, a new family of models based on Gemini and fine-tuned for learning, is being developed with pre-made gems for educational purposes.

Transcripts

play00:00

[Applause]

play00:02

[Music]

play00:06

Google we all ready to do a little

play00:09

Googling welcome to Google IO it's great

play00:11

to have all of you with us we'll begin

play00:13

launching this fully revamped experience

play00:16

AI overviews to everyone in the US this

play00:19

week and we'll bring it to more

play00:21

countries soon with Gemini you're making

play00:24

that a whole lot easier say you're at a

play00:26

parking station ready to pay now you can

play00:30

simply ask photos it knows the cars that

play00:33

appear often it triangulates which one

play00:35

is yours and just tells you the license

play00:38

plate number you can even follow up with

play00:41

something more complex show me how Luci

play00:44

swimming has progressed here Gemini goes

play00:48

beyond a simple search recognizing

play00:50

different contexts from doing laps in

play00:53

the pool to snorkeling in the ocean we

play00:56

are rolling out as photos this this

play00:58

summer with more capabilities to come

play01:01

multimodality radically expands the

play01:03

questions we can ask and the answers we

play01:04

will get back long context takes this a

play01:08

step further enabling us to bring in

play01:10

even more information hundreds of pages

play01:13

of text hours of audio a full hour of

play01:17

video or entire code repost you need a 1

play01:20

million token context window now

play01:22

possible with Gemini 1.5 Pro I'm excited

play01:25

to announce that we are bringing this

play01:26

improved version of Gemini 1.5 Pro to to

play01:30

all developers globally Gemini 1.5 Pro

play01:34

with 1 million contexts is now directly

play01:37

available for consumers in Gemini

play01:39

Advanced and can be used across 35

play01:42

languages so today we are expanding the

play01:45

context window to 2 million

play01:49

tokens this represents the next step on

play01:51

our journey towards the ultimate goal of

play01:54

infinite context and you couldn't make

play01:55

the PTA meeting the recording of the

play01:58

meeting is an hour along if it's from

play02:01

Google meet you can ask Gemini to give

play02:03

you the

play02:04

highlights there's a parents group

play02:06

looking for volunteers you're free that

play02:08

day of course Gemini can draft a apply

play02:12

Gemini 1.5 Pro is available today in

play02:14

workspace Labs notebook LM is going to

play02:17

take all the materials on the left as

play02:19

input and output them into a lively

play02:23

science discussion personalized for him

play02:26

so let's uh let's dive into physics

play02:27

what's on deck for today well uh we're

play02:30

starting with the basics force and

play02:31

motion okay and that of course means we

play02:33

have to talk about Sir Isaac Newton and

play02:35

his three laws of motion and what's

play02:37

amazing is that my son and I can join

play02:39

into the conversation and steer it

play02:42

whichever direction we want when I tap

play02:46

join hold on we have a question what's

play02:48

up

play02:49

Josh yeah can you give my son Jimmy a

play02:53

basketball

play02:57

example hey Jimmy that's a fantastic

play03:00

idea basketball is actually a great way

play03:03

to visualize force and motion let's

play03:05

break it down okay so first imagine a

play03:07

basketball just sitting there on the

play03:09

court it's not moving right that's

play03:11

because all the forces acting on it are

play03:13

balanced the downward pull of grav it

play03:16

connected the dots and created that age

play03:18

appropriate example for him making AI

play03:22

helpful for everyone last year we

play03:24

reached a milestone on that path when we

play03:26

formed Google Deep Mind So today we're

play03:29

introducing

play03:30

Gemini 1.5 flash flash is a lighter

play03:33

weight model compared to Pro starting

play03:35

today you can use 1.5 Flash and 1.5 Pro

play03:39

with up to 1 million tokens in Google AI

play03:41

studio and vertex AI today we have some

play03:44

exciting new progress to share about the

play03:47

future of AI assistance that we're

play03:49

calling project Astra tell me when you

play03:52

see something that makes

play03:54

sound I see a speaker which makes sound

play04:00

what is that part of the speaker

play04:03

called that is the Tweeter it produces

play04:06

high frequency

play04:08

sounds what does that part of the code

play04:13

do this code defines encryption and

play04:16

decryption functions it seems to use AES

play04:20

CBC encryption to encode and decode data

play04:23

based on a key and an initialization

play04:25

Vector

play04:27

IV what can I add here here to make this

play04:30

system

play04:33

faster adding a cache between the server

play04:36

and database could improve speed today

play04:39

we're introducing a series of updates

play04:41

across our generative media tools with

play04:43

new models covering image music and

play04:46

video today I'm so excited to introduce

play04:49

imagine 3 imagine 3 is more

play04:52

photorealistic you can literally count

play04:54

the whiskers on its snout with richer

play04:55

details like this incredible sunlight in

play04:58

the shot and fewer visual artifacts or

play05:00

distorted images you can sign up today

play05:02

to try imagine 3 in image FX part of our

play05:05

suite of AI tools at labs. gooogle

play05:08

together with YouTube we've been

play05:09

building music AI sandbox a suite of

play05:13

professional music AI tools that can

play05:15

create new instrumental sections from

play05:17

scratch transfer Styles between tracks

play05:20

and more today I'm excited to announce

play05:22

our newest most capable generative video

play05:25

model called

play05:27

VR VR creates high quality 1080p videos

play05:31

from text image and video prompts it can

play05:35

capture the details of your instructions

play05:36

in different Visual and cinematic Styles

play05:39

you can prompt for things like aerial

play05:41

shots of a landscape or time lapse and

play05:43

further edit your videos using

play05:45

additional prompts you can use vo in our

play05:48

new experimental tool called video FX

play05:51

we're exploring features like

play05:52

storyboarding and generating longer

play05:54

scenes not only is it important to

play05:57

understand where an object or subject

play05:58

should be in space it needs to maintain

play06:00

this consistency over time just like the

play06:03

car in this video over the coming weeks

play06:06

some of these features will be available

play06:08

to select creators through video effects

play06:10

at labs. gooogle and the weit list is

play06:13

open now today we are exited to announce

play06:16

the sixth generation of tpus called

play06:19

Trillium Trillium delivers a 4.7x

play06:23

Improvement in compute performance per

play06:25

chip over the previous generation will

play06:28

make Trillium available to our Cloud

play06:30

customers in late 2024 we're making AI

play06:33

overviews even more helpful for your

play06:35

most complex questions to make this

play06:37

possible we're introducing multi-step

play06:39

reasoning in Google search soon you'll

play06:41

be able to ask search to find the best

play06:43

yoga or Pilates studios in Boston and

play06:46

show you details on their intro offers

play06:48

and the walking time from Beacon Hill

play06:50

you get some studios with great ratings

play06:52

and their introductory offers and you

play06:54

can see the distance for each like this

play06:57

one it's just a 10-minute walk away

play07:00

right below you see where they're

play07:01

located laid out visually it breaks your

play07:04

bigger question down into all its parts

play07:07

and it figures out which problems it

play07:09

needs to solve and in what

play07:11

order next take planning for example now

play07:15

you can ask search to create a 3-day

play07:16

meal plan for a group that's easy to

play07:19

prepare and here you get a plan with a

play07:22

wide range of recipes from across the

play07:24

web if you want to get more veggies in

play07:26

you can simply ask search to swap in a

play07:28

vegetarian dish and you can export your

play07:30

meal plan or get the ingredients as a

play07:32

list just by tapping here soon you'll be

play07:35

able to ask questions with video right

play07:38

in Google search I'm going to take a

play07:40

video and ask

play07:42

Google why will this not stay in

play07:46

place and a near instant Google gives me

play07:50

an AI overview I guess some reasons this

play07:53

might be happening and steps I can take

play07:55

to troubleshoot you'll start to see

play07:57

these features rolling out in search in

play07:59

the coming weeks and now we're really

play08:02

excited that the new Gemini powered side

play08:05

panel will be generally available next

play08:10

month three new capabilities coming to

play08:13

Gmail mobile it looks like there's an

play08:17

email threat on this with lots of emails

play08:19

that I haven't read and luckily for me I

play08:22

can simply tap the summarize option up

play08:26

top and Skip reading this long back and

play08:28

forth now Gemini pulls up this helpful

play08:32

Mobile card as an overlay and this is

play08:35

where I can read a nice summary of all

play08:38

the Salient information that I need to

play08:40

know now I can simply type out my

play08:43

question right here in the Mobile card

play08:45

and say something like compare my roof

play08:48

repair bids by price and availability

play08:50

this new Q&A feature makes it so easy to

play08:53

get quick answers on anything in my

play08:55

inbox without having to First search

play08:56

Gmail then open the email and then look

play08:58

for the specific information and

play09:00

attachments and so on I see some

play09:02

suggested replies from Gemini now here I

play09:04

see I have declined the service

play09:06

suggested new time these new

play09:09

capabilities in Gemini and Gmail will

play09:11

start rolling out this month to Labs

play09:14

users it's got a PDF that's an

play09:16

attachment from a hotel as a receipt and

play09:19

I see a suggestion in the side panel

play09:21

help me organize and track my receipts

play09:24

step one create a drive folder and put

play09:27

this receipt and 37 others it's found

play09:30

into that folder step two extract the

play09:33

relevant information from those receipts

play09:35

in that folder into a new spreadsheet

play09:37

Gemini offers you the option to automate

play09:40

this so that this particular workflow is

play09:43

run on all future emails Gemini does the

play09:46

hard work of extracting all the right

play09:48

information from all the files and in

play09:50

that folder and generates this sheet for

play09:52

you show me where the money is

play09:54

spent Gemini not only analyzes the data

play09:57

from the sheet but also creates a nice

play10:01

visual to help me see the complete

play10:03

breakdown by category this particular

play10:06

ability will be rolling out to Labs

play10:08

users this September we're prototyping a

play10:12

virtual Gemini powered teammate Chip's

play10:16

been given a specific job role with a

play10:18

set of descriptions on how to be helpful

play10:20

for the team you can see that here and

play10:22

some of the jobs are to Monitor and

play10:23

track projects we've listed a few out to

play10:25

organize information and provide context

play10:27

and a few more things are we on

play10:31

track for

play10:34

launch chip gets to work not only

play10:36

searching through everything it has

play10:38

access to but also synthesizing what's

play10:40

found and coming back with an up-to-date

play10:44

response there it is a clear timeline a

play10:47

nice summary and notice even in this

play10:48

first message here chip Flags a

play10:51

potential issue the team should be aware

play10:52

of because we're in a group space

play10:54

everyone can follow along anyone can

play10:56

jump in at any time as you see someone

play10:59

just did asking chip to help create a

play11:01

doc to help address the issue and this

play11:04

summer you can have an in-depth

play11:06

conversation with gini using your voice

play11:09

we're calling this new experience live

play11:12

when you go live you'll be able to open

play11:15

your camera so Gemini can see what you

play11:17

see and respond to your surroundings in

play11:20

real time so we're rolling out a new

play11:22

feature that lets you customize it for

play11:25

your own needs and create personal

play11:27

experts on any topic you want we're

play11:30

calling these gems just tap to create a

play11:34

gem write your instructions once and

play11:36

come back whenever you need it for

play11:39

example here's a gem that I created that

play11:41

acts as a personal writing coach it

play11:44

specializes in short stories with

play11:46

mysterious twists and it even Builds on

play11:48

the story drafts in my Google Drive gems

play11:52

will roll out in the coming months that

play11:54

reasoning and intelligence all come

play11:56

together in the new trip planning

play11:58

experience in in Gemini Advanced we're

play12:01

going to Miami my son loves art my

play12:04

husband loves seafood and our flight and

play12:06

hotel details are already in my Gmail

play12:09

inbox to make sense of these variables

play12:12

Gemini starts by gathering all kinds of

play12:15

information from search and helpful

play12:17

extensions like maps and Gmail the end

play12:20

result is a personalized vacation plan

play12:23

presented in Gemini's new Dynamic UI I

play12:27

like these recommendations but my family

play12:29

likes to sleep in so I tap to change the

play12:33

start time and just like that Gemini

play12:37

adjusted my intinerary for the rest of

play12:39

the trip this new trip planning

play12:41

experience will be rolling out to Gemini

play12:43

Advanced this summer you can upload your

play12:45

entire thesis your sources your notes

play12:48

your research and soon interview audio

play12:51

recordings and videos too it can dissect

play12:54

your main points identify improvements

play12:57

and even roleplay as your profession

play13:00

maybe you have a side hustle selling

play13:01

handcrafted products simply upload all

play13:04

of your spreadsheets and ask Gemini to

play13:06

visualize your

play13:08

earnings Gemini goes to work calculating

play13:11

your returns and pulling its analysis

play13:13

together into a single chart and of

play13:15

course your files are not used to train

play13:17

our models later this year we'll be

play13:20

doubling the long context window to two

play13:23

million tokens we're putting AI powered

play13:26

search right at your fingertips create

play13:29

let's say my son needs help with a

play13:30

tricky physics word problem like this

play13:33

one if he stumped on this question

play13:36

instead of putting me on the spot he can

play13:38

Circle the exact part he's stuck on and

play13:41

get stepbystep

play13:42

instructions right where he's already

play13:44

doing the work this new capability is

play13:47

available today now we're making Gemini

play13:51

context aware so my friend Pete is

play13:55

asking if I want to play pickle ball

play13:56

this weekend so I'm going to reply and

play13:58

try to be funny and I'll say uh is that

play14:00

like tennis but with uh pickles and I'll

play14:04

say uh create image of tennis with

play14:08

Pickles now one new thing you'll notice

play14:10

is that the Gemini window now hovers in

play14:12

place above the app so I stay in the

play14:15

flow okay so that generated some pretty

play14:17

good images uh what's nice is I can then

play14:19

drag and drop any of these directly into

play14:22

the messages app below so like so cool

play14:25

let me send that and because it's

play14:27

context aware Gemini knows I'm looking

play14:30

at a video so it proactively shows me an

play14:33

ask this video chip what is is can't

play14:38

type the two bounce rule by the way this

play14:41

uses signals like YouTube's captions

play14:43

which means you can use it on billions

play14:45

of videos so give it a moment and there

play14:49

starting with pixel later this year

play14:51

we'll be expanding what's possible with

play14:53

our latest model Gemini Nano with

play14:56

multimodality so several years ago we

play14:58

developed talk back an accessibility

play15:01

feature that helps people navigate their

play15:03

phone through touch and spoken feedback

play15:06

and now we're taking that to the next

play15:07

level with the multimodal capabilities

play15:09

of Gemini Nano so when someone sends

play15:12

Cara a photo she'll get a richer and

play15:14

clearer description of what's happening

play15:17

and the model even works when there's no

play15:18

network connection these improvements to

play15:21

talk back are coming later this year 1.5

play15:24

Pro is $7 per 1 million tokens and I'm

play15:29

excited to share that for prompts up to

play15:31

128k it'll be 50% less for

play15:36

$3.50 and 1.5 flash will start at 35

play15:41

cents per 1 million tokens and today's

play15:45

newest member poly Gemma our first

play15:49

Vision language open model and it's

play15:51

available right now I'm also too excited

play15:55

to announce that we have Jimma 2 coming

play15:59

it's the next generation of Gemma and it

play16:01

will be available in June today we're

play16:04

expanding synth ID to two new

play16:07

modalities text and

play16:09

video and in the coming months we'll be

play16:12

open sourcing synth ID text water

play16:15

marking I'm excited to introduce learn

play16:18

LM our new family of models based on

play16:22

Gemini and fine-tuned for learning we're

play16:25

developing some pre-made gems which will

play16:28

be available in the Gemini app and web

play16:30

experience including one called learning

play16:33

coach I have a feeling that someone out

play16:35

there might be

play16:36

counting how many times we have

play16:38

mentioned AI today we went ahead and

play16:42

counted so that you don't have

play16:45

[Applause]

play16:48

to that might be a record in how many

play16:50

times someone has said

play16:54

AI here's to the possibilities ahead and

play16:57

creating them together thank you

Rate This

5.0 / 5 (0 votes)

Étiquettes Connexes
Google IOInnovation IAExpérience UtilisateurIntelligence ArtificielleGemini 1.5 ProMultimodalitéProjet AstraGénération MédiasTPUs TrilliumGoogle SearchGmail MobileGénie AIVacances PersonnaliséesPlanification VoyageAide ScolaireConception VisuelleAccessibilitéTalk BackModèle GemmaSynth IDApprentissage IA