Arriva Google Gemini 1.5 ed è RIVOLUZIONARIO [Analisi completa]

Raffaele Gaito
19 Feb 202425:21

Summary

TLDRThe script unveils a detailed analysis of Google's Gemini 1.5 Pro, a groundbreaking AI model capable of processing up to 1 million tokens, a staggering leap from previous limitations. The narrator highlights the model's ability to comprehend lengthy texts, videos, and images, showcasing impressive demonstrations of its capabilities. The video delves into the technical aspects, architectural innovations, and potential real-world applications of this powerful AI. The narrator's excitement is palpable, hinting at a future where AI pushes boundaries and revolutionizes how we interact with information.

Takeaways

  • 🤖 Google has announced Gemini 1.5, a powerful language model capable of processing up to 1 million tokens (700,000 words or 30,000 lines of code), a significant leap from previous models.
  • 📈 Gemini 1.5 Pro is claimed to be almost as powerful as Gemini 1.0 Ultra, but with less computational power required.
  • 🔍 The increased context window allows for processing longer documents, videos, and audio, enabling more comprehensive analysis and understanding.
  • 🌐 Gemini 1.5 utilizes a mixed architecture, including the Mixture of Experts (MoE), to handle large-scale inputs efficiently.
  • 🔑 Initially, Gemini 1.5 will be released with a 128-token context window, but higher token limits (up to 1 million) will be available for enterprise customers, likely with tiered pricing.
  • 💻 Demonstrations showcased Gemini 1.5's ability to process long documents, answer questions based on the content, and even correlate information from images with the text.
  • 👓 The model exhibited improved multimodal understanding, accurately identifying and interpreting visual information in conjunction with textual data.
  • 📝 For coding tasks, Gemini 1.5 demonstrated proficiency in comprehending and modifying large codebases across various programming languages and frameworks.
  • ⚖️ Google emphasized its commitment to ethical AI development, safety testing, and risk mitigation for the new model.
  • 🔮 The author expressed excitement about the advancements made by tech giants like Google and OpenAI, raising the bar for AI capabilities in areas like language understanding and multimodal processing.

Q & A

  • What is Gemini 1.5?

    -Gemini 1.5 is a new AI model released by Google, which is an update to their previous Gemini models. It boasts significant improvements, including the ability to process up to 1 million tokens, which is a substantial increase compared to previous models.

  • What are the key features of Gemini 1.5?

    -The key features of Gemini 1.5 include its ability to process up to 1 million tokens, allowing it to handle large amounts of data like full books or hours of video/audio transcripts. Additionally, it showcases improved multimodal capabilities, enabling it to understand and reason about images, videos, and code snippets in conjunction with textual information.

  • What is the significance of the 1 million token limit?

    -The ability to process up to 1 million tokens is a significant achievement for Gemini 1.5. It allows the model to handle much larger contexts and information sources compared to previous models, potentially enabling more comprehensive and accurate responses for complex queries.

  • How does Gemini 1.5's performance compare to other AI models?

    -According to the script, the performance of Gemini 1.5 Pro is claimed to be comparable to the previous Gemini 1.0 Ultra model, but using less computational power. Additionally, Google suggests that Gemini 1.5 outperforms other models in various benchmarks, though the script notes that benchmarks should be taken with a grain of salt.

  • What examples or demonstrations were shown in the script?

    -The script mentions three video demonstrations showcasing Gemini 1.5's capabilities. The first involved processing a 402-page transcript of the Apollo 11 mission and answering questions about it, both textual and multimodal (combining text and images). The second demo involved processing a 44-minute silent film and answering questions about specific events and scenes. The third demo focused on understanding and modifying code snippets, including multimodal prompts involving images.

  • How does Gemini 1.5 handle multimodal inputs?

    -The script highlights Gemini 1.5's improved multimodal capabilities, allowing it to understand and reason about images, videos, and code snippets in addition to textual information. The demonstrations showcased its ability to answer questions by combining information from multiple modalities, such as identifying specific scenes in a video based on textual and image prompts.

  • What concerns or limitations were mentioned regarding Gemini 1.5?

    -The script acknowledges that while the demonstrations were impressive, they were curated examples by Google, and the model's performance may not be perfect in real-world scenarios. Additionally, it mentions that while Gemini 1.5 initially launches with a 128-token window, larger windows (up to 1 million tokens) may be available at higher pricing tiers.

  • How does the script compare Gemini 1.5 to other AI advancements?

    -The script compares the significance of Gemini 1.5's advancements to OpenAI's recent announcement of Sora, which raised the bar for video understanding capabilities. It suggests that Gemini 1.5's ability to process up to 1 million tokens is a similarly groundbreaking achievement that sets a new standard in the field of large language models.

  • What is the author's overall impression of Gemini 1.5?

    -The author seems genuinely impressed and excited about Gemini 1.5's capabilities, describing them as "mind-blowing" and a "revolution." They highlight the significance of the 1 million token limit and the improved multimodal capabilities as major advancements that raise the bar in the field of AI models.

  • Does the script mention any potential applications or use cases for Gemini 1.5?

    -The script does not explicitly mention specific applications or use cases for Gemini 1.5. However, it suggests that the ability to process large amounts of data, such as full books or hours of video/audio transcripts, could enable more comprehensive and accurate responses for complex queries, potentially benefiting various industries and applications that require in-depth analysis or understanding of large datasets.

Outlines

00:00

📽️ Introduction and Overview of Gemini 1.5

This paragraph introduces the video topic, which is an analysis of Google's recent announcement of Gemini 1.5. The speaker expresses excitement about covering this topic, particularly after the previous video on Sora. The paragraph mentions plans to analyze the announcement text, watch demo videos shared by Google, and discuss the implications of Gemini 1.5. The speaker also encourages viewers to support the channel through donations or YouTube subscriptions.

05:01

🔍 Exploring the Key Features of Gemini 1.5 Pro

This paragraph delves into the details of Gemini 1.5 Pro, the intermediate version of Gemini. It highlights the significant increase in context window size, allowing up to 1 million tokens, which is considerably larger than previous models like GPT and Cloud. The speaker expresses amazement at this substantial leap in context understanding and processing capabilities. The paragraph also discusses the potential pricing tiers for different token window sizes and provides examples to illustrate the practical implications of such a large context window.

10:03

🚀 Demonstrations and Use Cases of Gemini 1.5

In this paragraph, the speaker walks through the first of three demo videos provided by Google. The video demonstrates Gemini 1.5's ability to process and understand long-form content, such as a 402-page PDF transcript from the Apollo 11 mission. The model can accurately answer questions, extract specific quotes, and even comprehend multimodal inputs like images in the context of the loaded PDF. The speaker emphasizes the impressive context understanding and reasoning capabilities showcased in the demo.

15:03

🎥 Additional Demonstrations: Video and Code Understanding

This paragraph covers the remaining two demo videos from Google. The first video showcases Gemini 1.5's multimodal understanding by loading a 44-minute silent film and accurately identifying specific scenes and details based on prompts and additional image inputs. The second video demonstrates the model's ability to understand and modify code snippets across various programming languages and contexts, even when prompted with multimodal inputs like screenshots. The speaker highlights the significant advancements in context understanding and reasoning presented in these demos.

20:09

📈 Performance Benchmarks and Ethical Considerations

In this paragraph, the speaker briefly touches on performance benchmarks provided by Google but expresses skepticism about their real-world applicability. The paragraph then shifts focus to Google's stated commitment to ethical AI development, including safety testing, risk assessment, and responsible deployment practices. The speaker acknowledges Google's efforts in these areas while maintaining a balanced perspective on the potential implications of such powerful language models.

25:09

🔗 Closing Remarks and Additional Resources

In the final paragraph, the speaker reiterates the significant advancements represented by Gemini 1.5 and draws parallels with OpenAI's Sora announcement, which raised the bar for video understanding. The speaker encourages viewers to check out the analysis of Sora on the channel and expresses excitement about the promising developments in the field of artificial intelligence in the coming months. The paragraph also includes a link to the speaker's AI Academy for those interested in further learning and training opportunities.

Mindmap

Keywords

💡Gemini 1.5

Gemini 1.5 refers to an upgraded version of Google's large language model (LLM), presumably following an earlier version such as Gemini 1.0. In the video, the creator discusses the features and improvements of Gemini 1.5, particularly focusing on its computational efficiency and the significant increase in token limit. This model is presented as an advancement in the field of artificial intelligence, capable of handling more complex tasks with greater efficiency.

💡Token

In the context of language models like Gemini 1.5, a 'token' can represent a piece of text, such as a word or part of a word. The video highlights the increased token capacity of Gemini 1.5, reaching up to one million tokens. This expansion allows for processing larger documents and more comprehensive data sets, leading to more detailed and accurate responses from the model.

💡Multimodal

Multimodal refers to the ability of AI models like Gemini 1.5 to understand and generate responses based on different types of data inputs, such as text, images, and possibly video. The video script discusses Gemini 1.5's multimodal capabilities, highlighting how the model can analyze and respond to complex queries involving both text and visual elements, enhancing its practical applications.

💡PDF Transcript

The PDF Transcript mentioned in the video refers to a specific application of Gemini 1.5 where it processes a large document, such as a 400-page transcript of the Apollo 11 mission. This demonstrates the model's capability to handle vast amounts of text, showcasing its potential in document analysis and information retrieval from extensive sources.

💡Contextual Understanding

Contextual Understanding in AI refers to a model's ability to grasp the larger context of a discussion or document, rather than just analyzing isolated pieces of information. In the video, Gemini 1.5's enhanced contextual understanding is highlighted, showcasing its ability to process and interpret large blocks of text or multimedia content, leading to more accurate and relevant responses.

💡Mixture of Experts (MoE)

Mixture of Experts (MoE) is an architectural approach mentioned in the video in relation to Gemini 1.5. It allows the model to efficiently manage large and complex tasks by dividing them into smaller, specialized segments handled by 'expert' modules. This contributes to the model's improved performance and scalability.

💡Token Window

The Token Window refers to the amount of text (in tokens) that the model can consider at one time. In the video, the initial release of Gemini 1.5 is said to handle a 128-token window, with plans to expand. This limitation affects how much context the model can maintain at once, influencing its understanding and generation capabilities.

💡Sora

Sora appears to be another AI model or technology referenced in the video, possibly as a point of comparison with Gemini 1.5. While specific details are not provided, it suggests that Sora represents a benchmark or notable development in the AI field, against which Gemini 1.5's advancements are measured.

💡Benchmark

In the video, 'Benchmark' refers to performance tests that compare Gemini 1.5's capabilities with other models or standards in the industry. Benchmarks are used to evaluate aspects like speed, accuracy, and efficiency, providing a quantitative measure of a model's performance.

💡Enterprise Customers

Enterprise Customers are mentioned in relation to the pricing and access tiers of Gemini 1.5. This implies that different versions or capacities of the model, such as token limits, may be available depending on the customer's organizational needs and financial capacity. It reflects the commercial aspect of deploying AI solutions in business environments.

Highlights

Google announced Gemini 1.5, an AI model that can process up to 1 million tokens, allowing it to handle massive amounts of data like an entire book or hours of video/audio content.

The Gemini 1.5 Pro model is claimed to be almost as powerful as the previous 1.0 Ultra model, but using less computational power.

Gemini 1.5 can process up to 700,000 words, 11 hours of audio, or 30,000 lines of code in a single prompt.

Google demonstrated Gemini 1.5's ability to understand long contexts by loading a 402-page PDF transcript and accurately answering questions based on its content, even extracting specific quotes.

Gemini 1.5 showcased multimodal capabilities, correctly interpreting images and identifying the related moment in a 44-minute video it was given.

Google provided examples of Gemini 1.5's coding abilities, including modifying code, altering animations, and identifying code snippets from screenshots.

The speaker expressed excitement about the significant leap in capabilities represented by Gemini 1.5, likening it to OpenAI's recent Sora announcement for video analysis.

The initial release of Gemini 1.5 Pro will have a 128 token window, with larger token windows likely available at higher pricing tiers for enterprise customers.

Gemini 1.5 utilizes a mixed architecture, including the Mixture of Experts (MoE) approach, which allows for scaling to large contexts more efficiently.

The speaker acknowledged that the demos were curated to showcase the best performance, but still found the capabilities impressive and indicative of a revolution in AI.

The speaker expressed some skepticism towards benchmark claims, emphasizing the importance of real-world testing for practical applications.

Google highlighted its efforts in ensuring the ethical and safe development of Gemini 1.5, including testing for potential risks and harmful outputs.

The speaker promoted their AI Academy, offering training and expert instruction on artificial intelligence for professional development.

The speaker encouraged viewers to support their YouTube channel through donations or a monthly subscription, which provides additional features.

The speaker expressed anticipation for more exciting developments in AI capabilities from tech giants like Google and OpenAI in the coming months.

Transcripts

play00:00

wagliù ma veramente pensavate che non

play00:02

facevo un video su Gemini 1.5 Certo che

play00:05

lo faccio è uscito quello su Sora E mo

play00:09

ci vediamo pure quello su Gemini 1.5 non

play00:11

vi preoccupate so che è andate di fretta

play00:13

nei commenti m'avete bombardato su

play00:15

questo mi mette D l'ansia da prestazione

play00:18

e Vabbò uno c'ha a volte pure impegni di

play00:21

altra cosa e quindi non sempre riesco a

play00:22

registr in tempo reale vediamo un

play00:25

pochino cosa ha combinato Google con

play00:26

questo Gemini 1.5 veramente è arrivato

play00:30

poco dopo l'annuncio di Gemini ultra no

play00:32

tutto quello che abbiamo visto eh in un

play00:34

video recentemente qui sul canale se non

play00:36

l'avete visto andatevelo a recuperare

play00:38

come sempre mi voglio fare un po'

play00:39

insieme a voi una bella analisi

play00:41

dell'annuncio nell'annuncio c'è diciamo

play00:43

la parte testuale che voglio leggere

play00:44

insieme a voi condividere due

play00:46

ragionamenti ci sono anche tre video di

play00:48

Demo che ci ha condiviso Google ci

play00:50

guardiamo pure quei video perché secondo

play00:51

me nei video c'è un botto di roba

play00:54

interessante prima di tuffarci nel vivo

play00:56

di questo contenuto Ovviamente vi

play00:58

ricordo che potete supportare questo

play00:59

canale se vi piace la roba che vi porto

play01:01

qui sopra gratis Reaction analisi news

play01:05

tutorial Veramente c'è di tutto su

play01:07

questo canale potete cliccare il

play01:09

pulsantino qui sotto Grazie e lasciare

play01:11

una piccola donazione di qualche euro

play01:13

oppure vi fate l'abbonamento mensile al

play01:15

canale YouTube che vi sblocca pure delle

play01:16

funzionalità extra andiamo a vedere un

play01:19

pochino cosa ha combinato Google con

play01:21

Gemini 1.5 Ovviamente questo link ve lo

play01:23

lascio qui sotto in descrizione Per

play01:26

tutti quelli che poi vogliono

play01:28

approfondire con con calma E vabbè

play01:31

ovviamente qui parte dicendo No proprio

play01:32

quello che dicevamo prima quindi il

play01:33

fatto che arriva poco dopo l'annuncio di

play01:36

Gemini Advanced l'annuncio dell' 1.0

play01:39

ultra e così via Di questo ne abbiamo

play01:41

parlato in un altro video andatevelo a

play01:42

rivedere con calma se se ve lo siete

play01:44

perso lo trovate sul sul canale di

play01:46

qualche di qualche giorno fa eh ta Vabbè

play01:50

qua ci dice diciamo parte un po' con la

play01:51

cosa un po' più

play01:53

interessante Innanzitutto il fatto che

play01:56

la Pro di 1.5 Ricordatevi che jamini

play01:59

viene tre dimensioni Ok quindi la Pro è

play02:01

quella intermedia la Ultra è la più mega

play02:04

super potente Deluxe Quindi praticamente

play02:07

ci dice che la 1.5 Pro è quasi potente

play02:11

quanto la 1.0 Ultra ok utilizzando meno

play02:15

potenza computazionale la cosa veramente

play02:18

interessante che secondo me è fuori di

play02:20

testa cioè questa annuncia sono un sacco

play02:22

di cose Ma la cosa veramente fuori

play02:24

di testa è è questa qui che vi ho

play02:26

sottolineato adesso qua no Quindi il il

play02:28

fatto di aver aperto alla allargato il

play02:30

contesto veramente a dei numeri che sono

play02:32

che sono veramente clamorosi clamorosi

play02:35

veramente wagliù Cioè veramente fuori di

play02:37

testa qua è uno di quei salti in avanti

play02:40

no veramente enormi Così come ho fatto

play02:42

come vi ho detto nel video di openi

play02:44

quando annuncio Sora che va Ha detto

play02:46

vabbè Sora ha proprio alzato l'asticella

play02:48

di tantissimo rispetto agli altri text

play02:50

video Secondo me Gemini 1.5 con questa

play02:53

possibilità di arrivare fino a 1 milione

play02:55

di token Anche qui ha proprio alzato

play02:58

l'asticella di tantissimo

play03:00

rispetto a agli altri cioè rispetto a c

play03:04

GPT ma anche rispetto a Diciamo ad altri

play03:07

ad altri prodotti come Cloud no che ci

play03:09

avevano già un contesto un po' più

play03:11

grandicello Eh vabbè ovviamente ci dice

play03:14

che avere delle finestre più grandi

play03:15

permette di fare delle cose senza

play03:17

precedenti eccetera eccetera adesso li

play03:19

vediamo in dettaglio Quali sono quali

play03:21

sono queste cose vabbè qua si continua a

play03:23

dire questa roba qua diciamo per chi è

play03:25

un pochino più smanettone e e vuole

play03:28

sapere anche la parte un po' più eh

play03:30

tecnica è interessante vedere che

play03:32

eh C'è diciamo Qua c'è un misto di di

play03:36

architetture Eh perché l'1.5 viene

play03:39

utilizzata anche la Moe che sarebbe

play03:41

mixed of Experts ehm diciamo vi lascio

play03:44

qualche riferimento qua sotto il link

play03:46

proprio qua che c'è il paper ufficiale

play03:48

di che cosa significa la mixture Experts

play03:50

è un'architettura particolare fatta a

play03:52

layer Diciamo che permette di scalare

play03:54

anche su

play03:55

ehm diciamo anche su contenuti molto

play03:58

molto grandi senza appes sentire la

play04:00

complessità e così via diciamo c'ha

play04:01

delle delle all'interno c'ha delle

play04:04

intuizioni secondo me veramente geniali

play04:06

No per la direzione nella quale si può

play04:08

andare per

play04:09

scalare con con gli llm diciamo delle

play04:12

limitazioni che si erano trovate in

play04:13

passato forse vengono superate con con

play04:15

Moe e eccetera eccetera Vabbè quindi

play04:18

diciamo

play04:19

eh la la la la la la versione 1.5 uscirà

play04:24

in in Pro non è ancora disponibile

play04:26

questa roba qua eh prima che venite a

play04:28

commentare qui sotto Ma dove lo posso

play04:29

provare quando la posso provare eccetera

play04:31

eccetera si parla di prestazioni simili

play04:33

alla 1.0 ultra questo è interessante

play04:37

Secondo me questa è una cosa super

play04:38

interessante cioè il fatto che si parla

play04:40

di 1 milione di token Ma quando uscirà

play04:45

uscirà con una finestra Da 128 ok Questo

play04:49

ovviamente è subito una di quelle cose

play04:51

che mi ha fatto un po' storcere il naso

play04:52

no che ho detto vabbè Google Non mi dire

play04:53

che stai rifacendo lo stesso errore cioè

play04:55

fare il mega annuncio clamoroso e poi

play04:57

fare una mezza ciofeca No secondo me

play04:59

Questo invece no questo è semplicemente

play05:00

un un voler uscire a scaglioni quindi a

play05:03

quanto pare esce con una versione da 128

play05:06

token quindi diciamo più o meno simile

play05:07

alle cose che ormai abbiamo già sul sul

play05:10

mercato e e poi probabilmente ci saranno

play05:14

delle fasce di prezzo no eh diverse per

play05:18

chi vuole utilizzare il prodotto con un

play05:20

numero maggiore di token visto che qua

play05:22

si parla No Enterprise customers up to 1

play05:25

Million tokens quindi fino a 1 milione

play05:27

quindi probabilmente ci sarà da 128 da

play05:29

256 da 512 che ne so è è una così è un

play05:33

volo che mi sono fatto io nel leggere

play05:35

questa questa cosa qua però immagino che

play05:37

magari con degli scaglioni di prezzo no

play05:39

si possa arrivare a a

play05:42

diversi diverse fasce fino ad arrivare a

play05:44

quella di 1 milione di token qui diciamo

play05:46

per qualcuno che più o meno si vuole

play05:47

fare

play05:49

un'idea come vi dicevo prima no con con

play05:51

Cloud che al momento era quello un po'

play05:53

più grandicello sul mercato parlavamo di

play05:55

200.000 Gemini 1.5 Pro 1 milione 1

play05:59

Milion più o meno a cosa può

play06:00

corrispondere no qua ci sono un po' di

play06:02

di cose interessante 700.000 parole eh

play06:06

può significare un' ora di video può

play06:08

significare 11 ore di audio e così via

play06:10

Qua c'è diciamo un paragone con quello

play06:11

che c'è con GPT 4 turbo con Gemini 1.0

play06:16

in in versione Pro ovviamente E vabbè

play06:18

Questo è un bel così parallelismo al

play06:20

volo Se volete vedere com'è paragonato

play06:21

con con con con gli altri competitor e

play06:24

come vi dicevo diciamo misto di

play06:27

architetture di Transformer mo e qua ci

play06:31

sono diciamo un po' di dettagli più

play06:32

tecnici per chi gli piace spulciare

play06:34

questa roba qua è bello perché su questo

play06:35

qua ovviamente ogni link porta il

play06:37

riferimento al proprio Paper Quindi se

play06:39

volete diciamo andatevi a leggere i

play06:40

Paper poi vi guardate questa roba un po'

play06:42

più in dettaglio E vabbè qua si parla

play06:45

del del grande annuncio quindi il fatto

play06:46

che c'è la finestra molto più ampia

play06:48

molte più token significa che abbiamo

play06:50

possiamo processare molte più

play06:52

informazioni nello stesso prompt no

play06:55

Quindi significa avere delle risposte

play06:57

molto più consistenti non per

play07:00

la memoria lungo la strada Se vi è

play07:02

capitato a volte di fare delle

play07:03

operazioni molto molto lunghe con questi

play07:04

strumenti sapete che significa No che

play07:05

perdono la memoria Magari se avete

play07:07

caricato un grosso file se avete

play07:09

elaborato delle risposte molto molto

play07:10

lunghe e così via e eccetera eccetera

play07:14

Beh quindi Che significa può processare

play07:15

fino a un'ora di video fino a 11 ore di

play07:18

audio 30.000 linee di codice 700.000

play07:21

parole parliamo veramente di numeri che

play07:22

sono che sono che sono pazzesche e

play07:25

adesso ci guardiamo il primo libro Il

play07:27

primo video ho detto Libero perché in

play07:29

questo Diciamo in questa prova qua

play07:32

caricano un un 400 400 pagine un

play07:36

transcript di 400 pagine dalla missione

play07:38

Apollo 11 sulla luna Allora ci mettiamo

play07:41

in play questo video qua is a demo of

play07:43

Long contex understanding an

play07:45

experimental feature in our newest Model

play07:47

Gemini 1.5 Pro We walk through a Screen

play07:50

Recording of example prompts using a 402

play07:53

page PDF of the Apollo 11 transcript

play07:55

Which Comes out to Almost 330,000 tokens

play08:00

cosa ha detto qua praticamente carica

play08:02

adesso questo file questo file è 400

play08:04

pagine ci ha detto più o meno pure a

play08:05

quanti token corrisponde adesso quello

play08:07

che vedremo e carica il file quindi

play08:09

riesce a gestire tutti questi token e

play08:11

adesso gli farà delle domande No dice

play08:13

adesso facciamo delle domande e vediamo

play08:16

il prompt come si comporta No cioè come

play08:17

reagisce lo strumento al al prompt che

play08:20

gli

play08:28

diamo

play08:39

ovviamente ci sta dicendo Guardate che

play08:41

qua dal video potete pure percepire

play08:42

Quanto è il tempo di per processare il

play08:46

file che tra l'altro è impressionante

play08:49

cioè la velocità con la quale sta

play08:50

processando un PDF di 400 pagine e poi

play08:54

avete visto la domanda no gli fa una

play08:56

domanda specifica per far capire

play08:58

Ovviamente che che adesso Gemini 1.5 è

play09:02

in grado di andarsi a leggere tutto quel

play09:03

libro Ecco cosa significa per una una

play09:05

finestra così ampia No diciamo

play09:07

concretamente significa quello significa

play09:09

che prima magari non potevo caricare 400

play09:11

pagine di PDF adesso posso e posso

play09:13

interrogare no fargli delle domande

play09:28

specifiche

play09:29

Vabbè quindi adesso sta facendo la

play09:31

controprova per far vedere ha detto

play09:33

Trovami delle citazioni estrai delle

play09:34

citazioni e e adesso l'ha pigliata una e

play09:38

fa vedere Effettivamente che nel pdf C'è

play09:39

giusto per far vedere che quella roba

play09:41

esiste non se la sta inventando il tool

play09:43

e che è stato in grado di leggere fino a

play09:45

quel livello di

play09:52

profondità qua è figo perché fa vedere

play09:55

diciamo anche un'altra cosa No mette

play09:56

alla prova anche la multimodalità Quindi

play09:58

dice adesso ho appena caricato 400

play10:00

pagine di file vi faccio vedere come è

play10:02

in grado di Bam subito andarsi a

play10:04

prendere la diciamo andarmi a prendere

play10:07

delle citazioni estr armi del testo

play10:08

eccetera eccetera mo cosa faccio gli

play10:10

butto dentro un'immagine tra l'altro

play10:12

vedete un'immagine disegnata veramente

play10:13

così come se fosse fatta da diciamo da

play10:15

da da da un bambino non di qualità

play10:17

particolarmente eccelsa e gli fa un

play10:19

prompt

play10:24

sull'immagine Quindi gli ha chiesto che

play10:26

momento è questo no vedete c'è un piede

play10:28

che sta per per toccare il

play10:35

suolo Ecco gli dice questo questa

play10:38

immagine che mi ha caricato rappresenta

play10:39

il primo passo dell'uomo sulla

play10:42

luna Vabbè ovviamente qua sottolinea il

play10:45

fatto di dice non gliel'abbiamo dovuto

play10:47

spiegare Cioè non gli abbiamo detto cosa

play10:49

contiene l'immagine No vabbè lo sappiamo

play10:51

Perché i modelli adesso diciamo tutti

play10:52

gli strumenti che hanno la multimodalità

play10:54

sono in grado di leggere un'immagine

play10:56

capirla e spiegarcelo quindi in questo

play10:58

caso anche se AB Bozzato ha capito che

play10:59

quello era uno uno stivale diciamo un

play11:02

piede umano quello era una superficie No

play11:04

il suolo e quindi c'era questo primo

play11:06

passo mettiamola

play11:18

così e quindi adesso dice Adesso la

play11:20

facciamo ancora più difficile gli ho

play11:22

caricato 400 pagine di PDF io ho

play11:25

caricato l'immagine del primo passo

play11:26

dell'uomo sulla luna Adesso gli chiedo

play11:29

vammi a recuperare nel pdf il momento

play11:31

Esatto nel cui accade questa cosa qua no

play11:33

Quindi quello che ti ho fatto nel

play11:34

secondo prompt collegano con quello del

play11:36

primo

play11:50

PR Quindi qua prima ha fatto la premessa

play11:53

diciamo se portando un po' di acqua al

play11:54

suo Mulino dicendo Guarda in questi

play11:56

strumenti Ovviamente la precisione non è

play11:58

mai al 100 per però guardiamo quando ha

play12:01

trovato questa roba

play12:05

qua e dice ha beccato esattamente nel

play12:07

transcript il momento nel quale dice

play12:09

questo è un piccolo passo per l'uomo e

play12:11

un grande passo per

play12:13

l'umanità Gem 1.5 Pro Ok questo primo

play12:17

video è finito un minuto e mezzo Diciamo

play12:19

già qua ci dà un po' un'idea di quello

play12:22

che succede concretamente quando hai a

play12:24

disposizione un milione di token cioè

play12:27

guagliù avete vite Quanti sono un

play12:29

milioni di token Cioè veramente cioè

play12:31

immaginate Come sempre gli scenari No

play12:34

usciamo per un attimo da questi da

play12:36

queste demo che ovviamente le aziende ci

play12:37

preparano ad hoc per farci gasare per

play12:39

farci fare noi i video su YouTube

play12:41

immaginiamo nel lavoro nel momento in

play12:43

cui posso caricare dentro un libro

play12:45

intero Che significa poter fare delle

play12:47

operazioni su un libro intero no analisi

play12:49

di qualche tipo recuperare informazioni

play12:52

anche molto in profondità eccetera

play12:54

eccetera ho detto il Libo perché qua si

play12:56

fa semio del PDF no Però proviamo ad

play12:58

strar a portare n nostro lavoro e ognuno

play13:00

poi ci vede un un'utilità nell'avere un

play13:03

milione di token a disposizione ehm Qua

play13:06

c'è un secondo video perché ci dice che

play13:08

al di là della diciamo

play13:10

della del numero grande no del numerone

play13:13

che sì è figo però diciamo è un numero

play13:14

che attira l'attenzione Ma andiamo nel

play13:16

concreto ci dice in realtà c'è anche

play13:19

proprio un riesce a ragionare meglio no

play13:22

a fare meglio quel lavoro di come dire

play13:25

di collaborazione tra le diverse

play13:27

modalità no Quindi tra i video il testo

play13:30

le immagini eccetera eccetera anche qua

play13:33

diciamo c'è un esempio in questo caso lo

play13:35

fa con un film quindi gli carica un

play13:37

video di 44 minuti guardiamoci

play13:41

guardiamoci l'esempio in

play13:43

dettaglio Cont understanding

play13:46

experimental feature in our newest Model

play13:48

Gemini 1.5

play13:50

Pro walk through

play13:54

screen Quindi gli ha caricato un video

play13:56

di un video diamo un film muto 44 minuti

play13:59

vedete ha consumato quasi 700.000

play14:12

token cioè capita a che livello di

play14:14

dettaglio gli ha chiesto Guarda in

play14:16

questo film di 44 minuti Trovami

play14:19

l'esatto momento nel quale un foglio di

play14:22

carta viene tolto dalla tasca di una

play14:25

persona se ricordo bene quello che ha

play14:27

detto Vamo un attimo che cazzo significa

play14:30

sta roba cioè la la la comprensione che

play14:33

ha di quello che succede no e e lo

play14:35

sapete che adesso quando facciamo queste

play14:36

riflessioni pensiamo sempre al fatto che

play14:38

ste aziende stanno andando nel nella

play14:40

direzione delle gi no E sappiamo che

play14:42

nella direzione delle gii una delle cose

play14:44

più importanti è proprio la comprensione

play14:46

di quello che succede la comprensione

play14:48

del contesto la comprensione delle

play14:50

informazioni la comprensione di quello

play14:52

che va al di là diciamo

play14:53

dell''informazione singola esplicita in

play14:57

play15:03

Vabbè pure questo ci dice che da qua

play15:04

possiamo vedere i

play15:07

secondi

play15:11

Us

play15:19

compers Quindi qua si son fatti dare

play15:22

esattamente il diciamo il time Stamp

play15:24

quindi proprio il minuto e il secondo

play15:26

Esatto E adesso fa come a prima va nel

play15:28

video e va a quel minuto esatto per far

play15:30

vedere esattamente se succede quella

play15:31

roba lì quindi mi ha dato

play15:33

l'informazione a quando viene tirato

play15:36

fuori questo bigliettino e anche che c'è

play15:38

scritto su questo pezzo di

play15:42

carta guardate qua il modello quindi ha

play15:45

letto quel frame da quel frame ha letto

play15:47

proprio le informazioni e ci ha ridato

play15:49

quelle informazione quindi goldman and

play15:50

Co Pound Broker $4 eccetera eccetera

play16:05

Adesso fa la stessa cosa esattamente

play16:07

come sopra dice Adesso gli carico

play16:09

un'immagine disegnata proprio di merda e

play16:11

gli faccio una

play16:16

domanda Quindi dimmi il minuto esatto

play16:19

nel quale succede questa

play16:24

cosa 15

play16:27

minuti

play16:34

ovviamente Pure qua sottolineare la cosa

play16:36

il momento nel quale si rompe Che cos'è

play16:38

questa è una cisterna non vedo bene no

play16:40

si rompe questa cisterna me l'ha beccato

play16:42

esattamente e mi dice guarda che di

play16:43

solito questi modelli non sono precisi e

play16:45

lo sapete se avete letto dei PDF con

play16:47

cgpt per esempio sapete che dopo un tot

play16:50

le informazioni non le recupera più bene

play16:52

cioè se se le informazioni sono nella

play16:54

prima parte del PDF Se la cava bene Poi

play16:57

più si va avanti più invece per

play17:05

qualità Questa è la stessa identica

play17:07

frase di sopra no non gliel'abbiamo

play17:08

dovuto spiegare l'ha capito Vabbè quindi

play17:10

anche se disegnato male ha capito che

play17:11

quella era una persona sotto una

play17:13

cisterna con l'acqua che gli

play17:19

CAD 1. Vabbè quindi anche qua diciamo

play17:23

clamoroso veramente diciamo l'esempio

play17:26

non Lascia spazio all'immaginazione cioè

play17:28

chiaro che questa è una rivoluzione

play17:30

ovviamente adesso siamo tutti quanti

play17:33

consapevoli del fatto che queste demo in

play17:35

queste demo viene fatto proprio cerry

play17:37

piging molto precisi degli esempi sono

play17:39

degli esempi Curati ad hoc per far fare

play17:42

l'effetto Wow funziona sempre tutto alla

play17:46

perfezione non è detto che poi sia così

play17:48

no E soprattutto quando parliamo di

play17:50

Google sappiamo che già in passato poi

play17:51

ci ha deluso e anche su questo trovate

play17:53

diversi video sul mio canale YouTube

play17:55

però vi devo dire che sta roba è

play17:57

veramente Wow quando la guardo qua no e

play17:59

diventa veramente interessante vedere

play18:02

come dire no come si fanno proprio a Eh

play18:05

come dire c'è questa gara questa

play18:06

competizione tra questi colossi e con

play18:09

con un annuncio dietro l'altro e poi Qua

play18:11

c'è una parte relativa al codice anche

play18:13

questa super interessante ce l' andiamo

play18:15

a vedere quest'ultimo video eh prima di

play18:18

tuffarci in quest'ultimo video Vi

play18:19

ricordo che se sta roba vi piace e

play18:21

volete studiare formarvi seriamente

play18:23

sull'intelligenza artificiale entrate

play18:25

nella mia Academy si chiama ia 360 vi

play18:28

lascio link qui sotto siamo più di 1000

play18:30

persone dentro la studiate con me e con

play18:33

esperti esterni che vengo a fare delle

play18:35

lezioni degli interventi verticale su

play18:37

alcuni argomenti è pieno di roba

play18:38

interessante Quindi se la usate per

play18:40

lavoro l'intelligenza artificiale i un

play18:41

pensierino ce lo farei ma vediamoci

play18:43

questo ultimo esempio nel quale invece

play18:45

si parla di

play18:50

codice qua parliamo di 800.000

play18:57

token

play19:00

to ex code

play19:04

3js

play19:06

fogle vè quindi hanno fatto un file

play19:09

diciamo con tutto dentro con queste

play19:13

tantissime across hundreds of examples

play19:15

and picked out These three one About

play19:17

blending skeletal animations One about

play19:19

poses and One about morph targets for

play19:21

facial animations all

play19:27

choicest

play19:29

Quindi qua ci ha dato anche le

play19:31

informazione perché questa diciamo c'è

play19:33

già non ha fatto come prima nel quale ci

play19:36

ha fatto vedere il contatore no che

play19:37

saliva in tempo reale Quindi ci ha detto

play19:38

guarda in 60 Secondi più o meno ci ha

play19:41

dato le informazioni che ci servivano a

play19:44

risposto bene al nostro promt prendendo

play19:45

delle scelte molto precise da questa

play19:47

base di codice che gli è stata

play19:53

caricata Vabbè quindi diciamo su questa

play19:55

cosa vedete rag come ci stanno spingendo

play19:57

tanto eh si potrebbe andare

play20:08

Vabbè qua gli è stata fatta una domanda

play20:10

specifica su un'animazione l'ha trovata

play20:13

esattamente L'ha trovata precisamente

play20:16

dentro questo diciamo questo repositorio

play20:18

di

play20:21

codice

play20:23

usod slider

play20:27

Speed

play20:29

qua gli fa fare una modifica no Quindi

play20:31

mi dice ok Ora adesso a questo codice

play20:32

Fammi una piccola modifica gli chiedono

play20:34

una cosa specifica e lui ci mostra a

play20:37

schermo il codice

play20:48

modificato Quindi si sono proprio fatti

play20:50

modificare la demo con l'aggiunta di un

play20:51

piccolo Slider con il quale poter no

play20:53

andare a modificare la velocità della

play20:57

della

play21:09

anche loro hanno detto per l'ennesima

play21:11

volta ovviamente le risposte non sono

play21:14

mai perfette in questi modelli non si

play21:16

può mai essere precisi e sicuri al

play21:27

100%

play21:32

Adesso fa la stessa cosa degli altri no

play21:34

dici dopo aver fatto tante tante domande

play21:37

specifiche di tipo testuale quindi di

play21:39

analisi del codice Proviamo la

play21:41

multimodalità gli piazzo dentro uno

play21:43

screenshot e gli dico dove posso trovare

play21:45

questa demo all'interno del

play21:52

codice

play21:54

Mat Next

play21:57

moding

play22:02

quindi l'ha trovato Adesso gli ha

play22:04

chiesto di fare di modificare il terreno

play22:06

e renderlo più

play22:12

piatto ovviamente ci fa vedere pure la

play22:14

versione modificata No con il terreno

play22:16

che è stato

play22:26

appiattito

play22:34

Qua ovviamente hanno fatto un'altra

play22:35

modifica quindi ha detto come posso

play22:37

modificare questo testo di questa

play22:38

animazione 3D e Come posso cambiare

play22:40

anche l'effetto diciamo metallico sulla

play22:43

sul sul

play22:49

testo Vabbè ci ha dato esattamente il

play22:52

codice da utilizzare per poter fare

play22:54

questa questa modifica ottenere quindi

play22:56

una scritta diversa e un effetto diciamo

play22:57

metall izzato diverso Quindi anche

play22:59

questa diciamo la demo precisa ci fa

play23:02

vedere quindi sia come sfruttare bene

play23:04

questo milione di token a nostra

play23:07

disposizione sia come sfruttare bene la

play23:09

diciamo la multi la multimodalità Eh

play23:12

vabbè poi qua diciamo ci sono un po' di

play23:14

cose finali di chiusura cosa dice qua ci

play23:17

sono un po' di numeri quindi Benchmark

play23:18

chi diciamo batte cosa eccetera eccetera

play23:21

sui Benchmark Io ci vado sempre con i

play23:24

piedi di pombo l'abbiamo detto in più di

play23:26

un'occasione i Benchmark a volte

play23:28

lasciano il tempo che trovano perché

play23:30

sono delle situazioni diciamo precise

play23:32

specifiche No per testare per testare lo

play23:35

strumento non è la vita reale noi Questi

play23:37

strumenti dobbiamo testarli poi nella

play23:38

vita reale quindi dobbiamo scegliere uno

play23:40

o l'altro in base a quello che è più

play23:42

utile a noi nei nostri casi specifici No

play23:44

perché nel Benchmark ha preso 0.3 punto

play23:47

percentuali più di di Pippo e di e di

play23:49

Paperino quindi diciamo questa roba qua

play23:52

Io ormai la la la la la leggo ma mi ci

play23:54

faccio una risata soprattutto perché

play23:55

abbiamo visto Google come le ha

play23:57

utilizzate in in passato e poi c'è il

play23:59

solito bel bloccheto diciamo dove ci

play24:02

dice un po' eh In che modo loro fanno

play24:05

attenzione alla parte etica alla parte

play24:07

di sicurezza Come viene fatto il test no

play24:09

i Safety Risk eccetera eccetera questa

play24:12

roba qua abbiamo visto che ormai Google

play24:14

Microsoft Open diciamo ci ci puntano

play24:16

Veramente questo link ve lo lascio

play24:18

ovviamente qui sotto in descrizione così

play24:19

ve lo potete andare a spulciare se

play24:21

volete leggere anche le parti sulle

play24:23

quali sono andato un pochino più più

play24:24

veloce e

play24:26

cliccarci i vari eh Paper no che ci sono

play24:29

che ci sono collegati come dicevo a me

play24:32

al di là Cioè a me sconvolgono due cose

play24:35

di questo annuncio No il salto di

play24:37

qualità che viene fatto quindi passare

play24:39

da 128 200.000 a 1 milione di token

play24:42

anche se la dobbiamo vedere in termini

play24:43

di pricing e quanto Quante quanti di noi

play24:45

potremmo avere accesso a quel milione di

play24:47

token ma quello è veramente alzare

play24:49

l'asticella no e e dire ok adesso si

play24:51

gioca in un altro in un altro campionato

play24:54

cosa che esattamente invece diciamo a

play24:56

distanza ravvicinata ha fatto Open Ey

play24:58

nel momento in cui ha annunciato Sora

play25:00

quindi un altro ambito quello dei video

play25:01

e ha alzato l'asticella ha detto Ok mo

play25:03

sui video vi faccio vedere come si

play25:05

lavora seriamente giochiamo proprio in

play25:07

un'altra in un'altra categoria se non

play25:09

avete visto l'analisi che ho fatto su

play25:11

Sora cliccate il link cliccate il video

play25:13

che adesso vi metto a schermo perché

play25:14

anche lì ci sono delle cose spettacolari

play25:16

Secondo me che fanno capire che nei

play25:18

prossimi mesi ne vedremo veramente delle

play25:19

belle