Arriva Google Gemini 1.5 ed è RIVOLUZIONARIO [Analisi completa]
Summary
TLDRThe script unveils a detailed analysis of Google's Gemini 1.5 Pro, a groundbreaking AI model capable of processing up to 1 million tokens, a staggering leap from previous limitations. The narrator highlights the model's ability to comprehend lengthy texts, videos, and images, showcasing impressive demonstrations of its capabilities. The video delves into the technical aspects, architectural innovations, and potential real-world applications of this powerful AI. The narrator's excitement is palpable, hinting at a future where AI pushes boundaries and revolutionizes how we interact with information.
Takeaways
- 🤖 Google has announced Gemini 1.5, a powerful language model capable of processing up to 1 million tokens (700,000 words or 30,000 lines of code), a significant leap from previous models.
- 📈 Gemini 1.5 Pro is claimed to be almost as powerful as Gemini 1.0 Ultra, but with less computational power required.
- 🔍 The increased context window allows for processing longer documents, videos, and audio, enabling more comprehensive analysis and understanding.
- 🌐 Gemini 1.5 utilizes a mixed architecture, including the Mixture of Experts (MoE), to handle large-scale inputs efficiently.
- 🔑 Initially, Gemini 1.5 will be released with a 128-token context window, but higher token limits (up to 1 million) will be available for enterprise customers, likely with tiered pricing.
- 💻 Demonstrations showcased Gemini 1.5's ability to process long documents, answer questions based on the content, and even correlate information from images with the text.
- 👓 The model exhibited improved multimodal understanding, accurately identifying and interpreting visual information in conjunction with textual data.
- 📝 For coding tasks, Gemini 1.5 demonstrated proficiency in comprehending and modifying large codebases across various programming languages and frameworks.
- ⚖️ Google emphasized its commitment to ethical AI development, safety testing, and risk mitigation for the new model.
- 🔮 The author expressed excitement about the advancements made by tech giants like Google and OpenAI, raising the bar for AI capabilities in areas like language understanding and multimodal processing.
Q & A
What is Gemini 1.5?
-Gemini 1.5 is a new AI model released by Google, which is an update to their previous Gemini models. It boasts significant improvements, including the ability to process up to 1 million tokens, which is a substantial increase compared to previous models.
What are the key features of Gemini 1.5?
-The key features of Gemini 1.5 include its ability to process up to 1 million tokens, allowing it to handle large amounts of data like full books or hours of video/audio transcripts. Additionally, it showcases improved multimodal capabilities, enabling it to understand and reason about images, videos, and code snippets in conjunction with textual information.
What is the significance of the 1 million token limit?
-The ability to process up to 1 million tokens is a significant achievement for Gemini 1.5. It allows the model to handle much larger contexts and information sources compared to previous models, potentially enabling more comprehensive and accurate responses for complex queries.
How does Gemini 1.5's performance compare to other AI models?
-According to the script, the performance of Gemini 1.5 Pro is claimed to be comparable to the previous Gemini 1.0 Ultra model, but using less computational power. Additionally, Google suggests that Gemini 1.5 outperforms other models in various benchmarks, though the script notes that benchmarks should be taken with a grain of salt.
What examples or demonstrations were shown in the script?
-The script mentions three video demonstrations showcasing Gemini 1.5's capabilities. The first involved processing a 402-page transcript of the Apollo 11 mission and answering questions about it, both textual and multimodal (combining text and images). The second demo involved processing a 44-minute silent film and answering questions about specific events and scenes. The third demo focused on understanding and modifying code snippets, including multimodal prompts involving images.
How does Gemini 1.5 handle multimodal inputs?
-The script highlights Gemini 1.5's improved multimodal capabilities, allowing it to understand and reason about images, videos, and code snippets in addition to textual information. The demonstrations showcased its ability to answer questions by combining information from multiple modalities, such as identifying specific scenes in a video based on textual and image prompts.
What concerns or limitations were mentioned regarding Gemini 1.5?
-The script acknowledges that while the demonstrations were impressive, they were curated examples by Google, and the model's performance may not be perfect in real-world scenarios. Additionally, it mentions that while Gemini 1.5 initially launches with a 128-token window, larger windows (up to 1 million tokens) may be available at higher pricing tiers.
How does the script compare Gemini 1.5 to other AI advancements?
-The script compares the significance of Gemini 1.5's advancements to OpenAI's recent announcement of Sora, which raised the bar for video understanding capabilities. It suggests that Gemini 1.5's ability to process up to 1 million tokens is a similarly groundbreaking achievement that sets a new standard in the field of large language models.
What is the author's overall impression of Gemini 1.5?
-The author seems genuinely impressed and excited about Gemini 1.5's capabilities, describing them as "mind-blowing" and a "revolution." They highlight the significance of the 1 million token limit and the improved multimodal capabilities as major advancements that raise the bar in the field of AI models.
Does the script mention any potential applications or use cases for Gemini 1.5?
-The script does not explicitly mention specific applications or use cases for Gemini 1.5. However, it suggests that the ability to process large amounts of data, such as full books or hours of video/audio transcripts, could enable more comprehensive and accurate responses for complex queries, potentially benefiting various industries and applications that require in-depth analysis or understanding of large datasets.
Outlines
📽️ Introduction and Overview of Gemini 1.5
This paragraph introduces the video topic, which is an analysis of Google's recent announcement of Gemini 1.5. The speaker expresses excitement about covering this topic, particularly after the previous video on Sora. The paragraph mentions plans to analyze the announcement text, watch demo videos shared by Google, and discuss the implications of Gemini 1.5. The speaker also encourages viewers to support the channel through donations or YouTube subscriptions.
🔍 Exploring the Key Features of Gemini 1.5 Pro
This paragraph delves into the details of Gemini 1.5 Pro, the intermediate version of Gemini. It highlights the significant increase in context window size, allowing up to 1 million tokens, which is considerably larger than previous models like GPT and Cloud. The speaker expresses amazement at this substantial leap in context understanding and processing capabilities. The paragraph also discusses the potential pricing tiers for different token window sizes and provides examples to illustrate the practical implications of such a large context window.
🚀 Demonstrations and Use Cases of Gemini 1.5
In this paragraph, the speaker walks through the first of three demo videos provided by Google. The video demonstrates Gemini 1.5's ability to process and understand long-form content, such as a 402-page PDF transcript from the Apollo 11 mission. The model can accurately answer questions, extract specific quotes, and even comprehend multimodal inputs like images in the context of the loaded PDF. The speaker emphasizes the impressive context understanding and reasoning capabilities showcased in the demo.
🎥 Additional Demonstrations: Video and Code Understanding
This paragraph covers the remaining two demo videos from Google. The first video showcases Gemini 1.5's multimodal understanding by loading a 44-minute silent film and accurately identifying specific scenes and details based on prompts and additional image inputs. The second video demonstrates the model's ability to understand and modify code snippets across various programming languages and contexts, even when prompted with multimodal inputs like screenshots. The speaker highlights the significant advancements in context understanding and reasoning presented in these demos.
📈 Performance Benchmarks and Ethical Considerations
In this paragraph, the speaker briefly touches on performance benchmarks provided by Google but expresses skepticism about their real-world applicability. The paragraph then shifts focus to Google's stated commitment to ethical AI development, including safety testing, risk assessment, and responsible deployment practices. The speaker acknowledges Google's efforts in these areas while maintaining a balanced perspective on the potential implications of such powerful language models.
🔗 Closing Remarks and Additional Resources
In the final paragraph, the speaker reiterates the significant advancements represented by Gemini 1.5 and draws parallels with OpenAI's Sora announcement, which raised the bar for video understanding. The speaker encourages viewers to check out the analysis of Sora on the channel and expresses excitement about the promising developments in the field of artificial intelligence in the coming months. The paragraph also includes a link to the speaker's AI Academy for those interested in further learning and training opportunities.
Mindmap
Keywords
💡Gemini 1.5
💡Token
💡Multimodal
💡PDF Transcript
💡Contextual Understanding
💡Mixture of Experts (MoE)
💡Token Window
💡Sora
💡Benchmark
💡Enterprise Customers
Highlights
Google announced Gemini 1.5, an AI model that can process up to 1 million tokens, allowing it to handle massive amounts of data like an entire book or hours of video/audio content.
The Gemini 1.5 Pro model is claimed to be almost as powerful as the previous 1.0 Ultra model, but using less computational power.
Gemini 1.5 can process up to 700,000 words, 11 hours of audio, or 30,000 lines of code in a single prompt.
Google demonstrated Gemini 1.5's ability to understand long contexts by loading a 402-page PDF transcript and accurately answering questions based on its content, even extracting specific quotes.
Gemini 1.5 showcased multimodal capabilities, correctly interpreting images and identifying the related moment in a 44-minute video it was given.
Google provided examples of Gemini 1.5's coding abilities, including modifying code, altering animations, and identifying code snippets from screenshots.
The speaker expressed excitement about the significant leap in capabilities represented by Gemini 1.5, likening it to OpenAI's recent Sora announcement for video analysis.
The initial release of Gemini 1.5 Pro will have a 128 token window, with larger token windows likely available at higher pricing tiers for enterprise customers.
Gemini 1.5 utilizes a mixed architecture, including the Mixture of Experts (MoE) approach, which allows for scaling to large contexts more efficiently.
The speaker acknowledged that the demos were curated to showcase the best performance, but still found the capabilities impressive and indicative of a revolution in AI.
The speaker expressed some skepticism towards benchmark claims, emphasizing the importance of real-world testing for practical applications.
Google highlighted its efforts in ensuring the ethical and safe development of Gemini 1.5, including testing for potential risks and harmful outputs.
The speaker promoted their AI Academy, offering training and expert instruction on artificial intelligence for professional development.
The speaker encouraged viewers to support their YouTube channel through donations or a monthly subscription, which provides additional features.
The speaker expressed anticipation for more exciting developments in AI capabilities from tech giants like Google and OpenAI in the coming months.
Transcripts
wagliù ma veramente pensavate che non
facevo un video su Gemini 1.5 Certo che
lo faccio è uscito quello su Sora E mo
ci vediamo pure quello su Gemini 1.5 non
vi preoccupate so che è andate di fretta
nei commenti m'avete bombardato su
questo mi mette D l'ansia da prestazione
e Vabbò uno c'ha a volte pure impegni di
altra cosa e quindi non sempre riesco a
registr in tempo reale vediamo un
pochino cosa ha combinato Google con
questo Gemini 1.5 veramente è arrivato
poco dopo l'annuncio di Gemini ultra no
tutto quello che abbiamo visto eh in un
video recentemente qui sul canale se non
l'avete visto andatevelo a recuperare
come sempre mi voglio fare un po'
insieme a voi una bella analisi
dell'annuncio nell'annuncio c'è diciamo
la parte testuale che voglio leggere
insieme a voi condividere due
ragionamenti ci sono anche tre video di
Demo che ci ha condiviso Google ci
guardiamo pure quei video perché secondo
me nei video c'è un botto di roba
interessante prima di tuffarci nel vivo
di questo contenuto Ovviamente vi
ricordo che potete supportare questo
canale se vi piace la roba che vi porto
qui sopra gratis Reaction analisi news
tutorial Veramente c'è di tutto su
questo canale potete cliccare il
pulsantino qui sotto Grazie e lasciare
una piccola donazione di qualche euro
oppure vi fate l'abbonamento mensile al
canale YouTube che vi sblocca pure delle
funzionalità extra andiamo a vedere un
pochino cosa ha combinato Google con
Gemini 1.5 Ovviamente questo link ve lo
lascio qui sotto in descrizione Per
tutti quelli che poi vogliono
approfondire con con calma E vabbè
ovviamente qui parte dicendo No proprio
quello che dicevamo prima quindi il
fatto che arriva poco dopo l'annuncio di
Gemini Advanced l'annuncio dell' 1.0
ultra e così via Di questo ne abbiamo
parlato in un altro video andatevelo a
rivedere con calma se se ve lo siete
perso lo trovate sul sul canale di
qualche di qualche giorno fa eh ta Vabbè
qua ci dice diciamo parte un po' con la
cosa un po' più
interessante Innanzitutto il fatto che
la Pro di 1.5 Ricordatevi che jamini
viene tre dimensioni Ok quindi la Pro è
quella intermedia la Ultra è la più mega
super potente Deluxe Quindi praticamente
ci dice che la 1.5 Pro è quasi potente
quanto la 1.0 Ultra ok utilizzando meno
potenza computazionale la cosa veramente
interessante che secondo me è fuori di
testa cioè questa annuncia sono un sacco
di cose Ma la cosa veramente fuori
di testa è è questa qui che vi ho
sottolineato adesso qua no Quindi il il
fatto di aver aperto alla allargato il
contesto veramente a dei numeri che sono
che sono veramente clamorosi clamorosi
veramente wagliù Cioè veramente fuori di
testa qua è uno di quei salti in avanti
no veramente enormi Così come ho fatto
come vi ho detto nel video di openi
quando annuncio Sora che va Ha detto
vabbè Sora ha proprio alzato l'asticella
di tantissimo rispetto agli altri text
video Secondo me Gemini 1.5 con questa
possibilità di arrivare fino a 1 milione
di token Anche qui ha proprio alzato
l'asticella di tantissimo
rispetto a agli altri cioè rispetto a c
GPT ma anche rispetto a Diciamo ad altri
ad altri prodotti come Cloud no che ci
avevano già un contesto un po' più
grandicello Eh vabbè ovviamente ci dice
che avere delle finestre più grandi
permette di fare delle cose senza
precedenti eccetera eccetera adesso li
vediamo in dettaglio Quali sono quali
sono queste cose vabbè qua si continua a
dire questa roba qua diciamo per chi è
un pochino più smanettone e e vuole
sapere anche la parte un po' più eh
tecnica è interessante vedere che
eh C'è diciamo Qua c'è un misto di di
architetture Eh perché l'1.5 viene
utilizzata anche la Moe che sarebbe
mixed of Experts ehm diciamo vi lascio
qualche riferimento qua sotto il link
proprio qua che c'è il paper ufficiale
di che cosa significa la mixture Experts
è un'architettura particolare fatta a
layer Diciamo che permette di scalare
anche su
ehm diciamo anche su contenuti molto
molto grandi senza appes sentire la
complessità e così via diciamo c'ha
delle delle all'interno c'ha delle
intuizioni secondo me veramente geniali
No per la direzione nella quale si può
andare per
scalare con con gli llm diciamo delle
limitazioni che si erano trovate in
passato forse vengono superate con con
Moe e eccetera eccetera Vabbè quindi
diciamo
eh la la la la la la versione 1.5 uscirà
in in Pro non è ancora disponibile
questa roba qua eh prima che venite a
commentare qui sotto Ma dove lo posso
provare quando la posso provare eccetera
eccetera si parla di prestazioni simili
alla 1.0 ultra questo è interessante
Secondo me questa è una cosa super
interessante cioè il fatto che si parla
di 1 milione di token Ma quando uscirà
uscirà con una finestra Da 128 ok Questo
ovviamente è subito una di quelle cose
che mi ha fatto un po' storcere il naso
no che ho detto vabbè Google Non mi dire
che stai rifacendo lo stesso errore cioè
fare il mega annuncio clamoroso e poi
fare una mezza ciofeca No secondo me
Questo invece no questo è semplicemente
un un voler uscire a scaglioni quindi a
quanto pare esce con una versione da 128
token quindi diciamo più o meno simile
alle cose che ormai abbiamo già sul sul
mercato e e poi probabilmente ci saranno
delle fasce di prezzo no eh diverse per
chi vuole utilizzare il prodotto con un
numero maggiore di token visto che qua
si parla No Enterprise customers up to 1
Million tokens quindi fino a 1 milione
quindi probabilmente ci sarà da 128 da
256 da 512 che ne so è è una così è un
volo che mi sono fatto io nel leggere
questa questa cosa qua però immagino che
magari con degli scaglioni di prezzo no
si possa arrivare a a
diversi diverse fasce fino ad arrivare a
quella di 1 milione di token qui diciamo
per qualcuno che più o meno si vuole
fare
un'idea come vi dicevo prima no con con
Cloud che al momento era quello un po'
più grandicello sul mercato parlavamo di
200.000 Gemini 1.5 Pro 1 milione 1
Milion più o meno a cosa può
corrispondere no qua ci sono un po' di
di cose interessante 700.000 parole eh
può significare un' ora di video può
significare 11 ore di audio e così via
Qua c'è diciamo un paragone con quello
che c'è con GPT 4 turbo con Gemini 1.0
in in versione Pro ovviamente E vabbè
Questo è un bel così parallelismo al
volo Se volete vedere com'è paragonato
con con con con gli altri competitor e
come vi dicevo diciamo misto di
architetture di Transformer mo e qua ci
sono diciamo un po' di dettagli più
tecnici per chi gli piace spulciare
questa roba qua è bello perché su questo
qua ovviamente ogni link porta il
riferimento al proprio Paper Quindi se
volete diciamo andatevi a leggere i
Paper poi vi guardate questa roba un po'
più in dettaglio E vabbè qua si parla
del del grande annuncio quindi il fatto
che c'è la finestra molto più ampia
molte più token significa che abbiamo
possiamo processare molte più
informazioni nello stesso prompt no
Quindi significa avere delle risposte
molto più consistenti non per
la memoria lungo la strada Se vi è
capitato a volte di fare delle
operazioni molto molto lunghe con questi
strumenti sapete che significa No che
perdono la memoria Magari se avete
caricato un grosso file se avete
elaborato delle risposte molto molto
lunghe e così via e eccetera eccetera
Beh quindi Che significa può processare
fino a un'ora di video fino a 11 ore di
audio 30.000 linee di codice 700.000
parole parliamo veramente di numeri che
sono che sono che sono pazzesche e
adesso ci guardiamo il primo libro Il
primo video ho detto Libero perché in
questo Diciamo in questa prova qua
caricano un un 400 400 pagine un
transcript di 400 pagine dalla missione
Apollo 11 sulla luna Allora ci mettiamo
in play questo video qua is a demo of
Long contex understanding an
experimental feature in our newest Model
Gemini 1.5 Pro We walk through a Screen
Recording of example prompts using a 402
page PDF of the Apollo 11 transcript
Which Comes out to Almost 330,000 tokens
cosa ha detto qua praticamente carica
adesso questo file questo file è 400
pagine ci ha detto più o meno pure a
quanti token corrisponde adesso quello
che vedremo e carica il file quindi
riesce a gestire tutti questi token e
adesso gli farà delle domande No dice
adesso facciamo delle domande e vediamo
il prompt come si comporta No cioè come
reagisce lo strumento al al prompt che
gli
diamo
ovviamente ci sta dicendo Guardate che
qua dal video potete pure percepire
Quanto è il tempo di per processare il
file che tra l'altro è impressionante
cioè la velocità con la quale sta
processando un PDF di 400 pagine e poi
avete visto la domanda no gli fa una
domanda specifica per far capire
Ovviamente che che adesso Gemini 1.5 è
in grado di andarsi a leggere tutto quel
libro Ecco cosa significa per una una
finestra così ampia No diciamo
concretamente significa quello significa
che prima magari non potevo caricare 400
pagine di PDF adesso posso e posso
interrogare no fargli delle domande
specifiche
Vabbè quindi adesso sta facendo la
controprova per far vedere ha detto
Trovami delle citazioni estrai delle
citazioni e e adesso l'ha pigliata una e
fa vedere Effettivamente che nel pdf C'è
giusto per far vedere che quella roba
esiste non se la sta inventando il tool
e che è stato in grado di leggere fino a
quel livello di
profondità qua è figo perché fa vedere
diciamo anche un'altra cosa No mette
alla prova anche la multimodalità Quindi
dice adesso ho appena caricato 400
pagine di file vi faccio vedere come è
in grado di Bam subito andarsi a
prendere la diciamo andarmi a prendere
delle citazioni estr armi del testo
eccetera eccetera mo cosa faccio gli
butto dentro un'immagine tra l'altro
vedete un'immagine disegnata veramente
così come se fosse fatta da diciamo da
da da da un bambino non di qualità
particolarmente eccelsa e gli fa un
prompt
sull'immagine Quindi gli ha chiesto che
momento è questo no vedete c'è un piede
che sta per per toccare il
suolo Ecco gli dice questo questa
immagine che mi ha caricato rappresenta
il primo passo dell'uomo sulla
luna Vabbè ovviamente qua sottolinea il
fatto di dice non gliel'abbiamo dovuto
spiegare Cioè non gli abbiamo detto cosa
contiene l'immagine No vabbè lo sappiamo
Perché i modelli adesso diciamo tutti
gli strumenti che hanno la multimodalità
sono in grado di leggere un'immagine
capirla e spiegarcelo quindi in questo
caso anche se AB Bozzato ha capito che
quello era uno uno stivale diciamo un
piede umano quello era una superficie No
il suolo e quindi c'era questo primo
passo mettiamola
così e quindi adesso dice Adesso la
facciamo ancora più difficile gli ho
caricato 400 pagine di PDF io ho
caricato l'immagine del primo passo
dell'uomo sulla luna Adesso gli chiedo
vammi a recuperare nel pdf il momento
Esatto nel cui accade questa cosa qua no
Quindi quello che ti ho fatto nel
secondo prompt collegano con quello del
primo
PR Quindi qua prima ha fatto la premessa
diciamo se portando un po' di acqua al
suo Mulino dicendo Guarda in questi
strumenti Ovviamente la precisione non è
mai al 100 per però guardiamo quando ha
trovato questa roba
qua e dice ha beccato esattamente nel
transcript il momento nel quale dice
questo è un piccolo passo per l'uomo e
un grande passo per
l'umanità Gem 1.5 Pro Ok questo primo
video è finito un minuto e mezzo Diciamo
già qua ci dà un po' un'idea di quello
che succede concretamente quando hai a
disposizione un milione di token cioè
guagliù avete vite Quanti sono un
milioni di token Cioè veramente cioè
immaginate Come sempre gli scenari No
usciamo per un attimo da questi da
queste demo che ovviamente le aziende ci
preparano ad hoc per farci gasare per
farci fare noi i video su YouTube
immaginiamo nel lavoro nel momento in
cui posso caricare dentro un libro
intero Che significa poter fare delle
operazioni su un libro intero no analisi
di qualche tipo recuperare informazioni
anche molto in profondità eccetera
eccetera ho detto il Libo perché qua si
fa semio del PDF no Però proviamo ad
strar a portare n nostro lavoro e ognuno
poi ci vede un un'utilità nell'avere un
milione di token a disposizione ehm Qua
c'è un secondo video perché ci dice che
al di là della diciamo
della del numero grande no del numerone
che sì è figo però diciamo è un numero
che attira l'attenzione Ma andiamo nel
concreto ci dice in realtà c'è anche
proprio un riesce a ragionare meglio no
a fare meglio quel lavoro di come dire
di collaborazione tra le diverse
modalità no Quindi tra i video il testo
le immagini eccetera eccetera anche qua
diciamo c'è un esempio in questo caso lo
fa con un film quindi gli carica un
video di 44 minuti guardiamoci
guardiamoci l'esempio in
dettaglio Cont understanding
experimental feature in our newest Model
Gemini 1.5
Pro walk through
screen Quindi gli ha caricato un video
di un video diamo un film muto 44 minuti
vedete ha consumato quasi 700.000
token cioè capita a che livello di
dettaglio gli ha chiesto Guarda in
questo film di 44 minuti Trovami
l'esatto momento nel quale un foglio di
carta viene tolto dalla tasca di una
persona se ricordo bene quello che ha
detto Vamo un attimo che cazzo significa
sta roba cioè la la la comprensione che
ha di quello che succede no e e lo
sapete che adesso quando facciamo queste
riflessioni pensiamo sempre al fatto che
ste aziende stanno andando nel nella
direzione delle gi no E sappiamo che
nella direzione delle gii una delle cose
più importanti è proprio la comprensione
di quello che succede la comprensione
del contesto la comprensione delle
informazioni la comprensione di quello
che va al di là diciamo
dell''informazione singola esplicita in
sé
Vabbè pure questo ci dice che da qua
possiamo vedere i
secondi
Us
compers Quindi qua si son fatti dare
esattamente il diciamo il time Stamp
quindi proprio il minuto e il secondo
Esatto E adesso fa come a prima va nel
video e va a quel minuto esatto per far
vedere esattamente se succede quella
roba lì quindi mi ha dato
l'informazione a quando viene tirato
fuori questo bigliettino e anche che c'è
scritto su questo pezzo di
carta guardate qua il modello quindi ha
letto quel frame da quel frame ha letto
proprio le informazioni e ci ha ridato
quelle informazione quindi goldman and
Co Pound Broker $4 eccetera eccetera
Adesso fa la stessa cosa esattamente
come sopra dice Adesso gli carico
un'immagine disegnata proprio di merda e
gli faccio una
domanda Quindi dimmi il minuto esatto
nel quale succede questa
cosa 15
minuti
ovviamente Pure qua sottolineare la cosa
il momento nel quale si rompe Che cos'è
questa è una cisterna non vedo bene no
si rompe questa cisterna me l'ha beccato
esattamente e mi dice guarda che di
solito questi modelli non sono precisi e
lo sapete se avete letto dei PDF con
cgpt per esempio sapete che dopo un tot
le informazioni non le recupera più bene
cioè se se le informazioni sono nella
prima parte del PDF Se la cava bene Poi
più si va avanti più invece per
qualità Questa è la stessa identica
frase di sopra no non gliel'abbiamo
dovuto spiegare l'ha capito Vabbè quindi
anche se disegnato male ha capito che
quella era una persona sotto una
cisterna con l'acqua che gli
CAD 1. Vabbè quindi anche qua diciamo
clamoroso veramente diciamo l'esempio
non Lascia spazio all'immaginazione cioè
chiaro che questa è una rivoluzione
ovviamente adesso siamo tutti quanti
consapevoli del fatto che queste demo in
queste demo viene fatto proprio cerry
piging molto precisi degli esempi sono
degli esempi Curati ad hoc per far fare
l'effetto Wow funziona sempre tutto alla
perfezione non è detto che poi sia così
no E soprattutto quando parliamo di
Google sappiamo che già in passato poi
ci ha deluso e anche su questo trovate
diversi video sul mio canale YouTube
però vi devo dire che sta roba è
veramente Wow quando la guardo qua no e
diventa veramente interessante vedere
come dire no come si fanno proprio a Eh
come dire c'è questa gara questa
competizione tra questi colossi e con
con un annuncio dietro l'altro e poi Qua
c'è una parte relativa al codice anche
questa super interessante ce l' andiamo
a vedere quest'ultimo video eh prima di
tuffarci in quest'ultimo video Vi
ricordo che se sta roba vi piace e
volete studiare formarvi seriamente
sull'intelligenza artificiale entrate
nella mia Academy si chiama ia 360 vi
lascio link qui sotto siamo più di 1000
persone dentro la studiate con me e con
esperti esterni che vengo a fare delle
lezioni degli interventi verticale su
alcuni argomenti è pieno di roba
interessante Quindi se la usate per
lavoro l'intelligenza artificiale i un
pensierino ce lo farei ma vediamoci
questo ultimo esempio nel quale invece
si parla di
codice qua parliamo di 800.000
token
to ex code
3js
fogle vè quindi hanno fatto un file
diciamo con tutto dentro con queste
tantissime across hundreds of examples
and picked out These three one About
blending skeletal animations One about
poses and One about morph targets for
facial animations all
choicest
Quindi qua ci ha dato anche le
informazione perché questa diciamo c'è
già non ha fatto come prima nel quale ci
ha fatto vedere il contatore no che
saliva in tempo reale Quindi ci ha detto
guarda in 60 Secondi più o meno ci ha
dato le informazioni che ci servivano a
risposto bene al nostro promt prendendo
delle scelte molto precise da questa
base di codice che gli è stata
caricata Vabbè quindi diciamo su questa
cosa vedete rag come ci stanno spingendo
tanto eh si potrebbe andare
Vabbè qua gli è stata fatta una domanda
specifica su un'animazione l'ha trovata
esattamente L'ha trovata precisamente
dentro questo diciamo questo repositorio
di
codice
usod slider
Speed
qua gli fa fare una modifica no Quindi
mi dice ok Ora adesso a questo codice
Fammi una piccola modifica gli chiedono
una cosa specifica e lui ci mostra a
schermo il codice
modificato Quindi si sono proprio fatti
modificare la demo con l'aggiunta di un
piccolo Slider con il quale poter no
andare a modificare la velocità della
della
anche loro hanno detto per l'ennesima
volta ovviamente le risposte non sono
mai perfette in questi modelli non si
può mai essere precisi e sicuri al
100%
Adesso fa la stessa cosa degli altri no
dici dopo aver fatto tante tante domande
specifiche di tipo testuale quindi di
analisi del codice Proviamo la
multimodalità gli piazzo dentro uno
screenshot e gli dico dove posso trovare
questa demo all'interno del
codice
Mat Next
moding
quindi l'ha trovato Adesso gli ha
chiesto di fare di modificare il terreno
e renderlo più
piatto ovviamente ci fa vedere pure la
versione modificata No con il terreno
che è stato
appiattito
Qua ovviamente hanno fatto un'altra
modifica quindi ha detto come posso
modificare questo testo di questa
animazione 3D e Come posso cambiare
anche l'effetto diciamo metallico sulla
sul sul
testo Vabbè ci ha dato esattamente il
codice da utilizzare per poter fare
questa questa modifica ottenere quindi
una scritta diversa e un effetto diciamo
metall izzato diverso Quindi anche
questa diciamo la demo precisa ci fa
vedere quindi sia come sfruttare bene
questo milione di token a nostra
disposizione sia come sfruttare bene la
diciamo la multi la multimodalità Eh
vabbè poi qua diciamo ci sono un po' di
cose finali di chiusura cosa dice qua ci
sono un po' di numeri quindi Benchmark
chi diciamo batte cosa eccetera eccetera
sui Benchmark Io ci vado sempre con i
piedi di pombo l'abbiamo detto in più di
un'occasione i Benchmark a volte
lasciano il tempo che trovano perché
sono delle situazioni diciamo precise
specifiche No per testare per testare lo
strumento non è la vita reale noi Questi
strumenti dobbiamo testarli poi nella
vita reale quindi dobbiamo scegliere uno
o l'altro in base a quello che è più
utile a noi nei nostri casi specifici No
perché nel Benchmark ha preso 0.3 punto
percentuali più di di Pippo e di e di
Paperino quindi diciamo questa roba qua
Io ormai la la la la la leggo ma mi ci
faccio una risata soprattutto perché
abbiamo visto Google come le ha
utilizzate in in passato e poi c'è il
solito bel bloccheto diciamo dove ci
dice un po' eh In che modo loro fanno
attenzione alla parte etica alla parte
di sicurezza Come viene fatto il test no
i Safety Risk eccetera eccetera questa
roba qua abbiamo visto che ormai Google
Microsoft Open diciamo ci ci puntano
Veramente questo link ve lo lascio
ovviamente qui sotto in descrizione così
ve lo potete andare a spulciare se
volete leggere anche le parti sulle
quali sono andato un pochino più più
veloce e
cliccarci i vari eh Paper no che ci sono
che ci sono collegati come dicevo a me
al di là Cioè a me sconvolgono due cose
di questo annuncio No il salto di
qualità che viene fatto quindi passare
da 128 200.000 a 1 milione di token
anche se la dobbiamo vedere in termini
di pricing e quanto Quante quanti di noi
potremmo avere accesso a quel milione di
token ma quello è veramente alzare
l'asticella no e e dire ok adesso si
gioca in un altro in un altro campionato
cosa che esattamente invece diciamo a
distanza ravvicinata ha fatto Open Ey
nel momento in cui ha annunciato Sora
quindi un altro ambito quello dei video
e ha alzato l'asticella ha detto Ok mo
sui video vi faccio vedere come si
lavora seriamente giochiamo proprio in
un'altra in un'altra categoria se non
avete visto l'analisi che ho fatto su
Sora cliccate il link cliccate il video
che adesso vi metto a schermo perché
anche lì ci sono delle cose spettacolari
Secondo me che fanno capire che nei
prossimi mesi ne vedremo veramente delle
belle
Ver Más Videos Relacionados
The First AI That Can Analyze Video (For FREE)
Harness The Unbelievable Power of Gemini 1.5 Pro
BATALHA de INTELIGÊNCIA ARTIFICIAL! - Gemini | ChatGPT-4o
O film gerçek oluyor: Yeni GPT-4o yapay zeka modelinin sesine inanamayacaksınız!
OpenAI presenta ChatGPT-4 OMNI (GPT-4o): GPT ORA SEMBRA AVERE EMOZIONI!
HUGE AI NEWS : MAJOR BREAKTHROUGH!, 2x Faster Inference Than GROQ, 3 NEW GEMINI Models!
5.0 / 5 (0 votes)