OpenAI annuncia SORA: non credo ai miei occhi [Analisi completa]
Summary
TLDRThe video discusses the impressive advancements in AI-generated video technology, specifically focusing on Sora, a text-to-video tool that has significantly improved in quality and coherence. The creator analyzes Sora's capabilities, comparing it to previous tools and highlighting its photorealistic output. The video also touches on the strategic release of such technology, the importance of gradual implementation, and the potential implications for various industries, including the potential impact on the upcoming elections in 2024.
Takeaways
- 🚀 The introduction of Sora, a text-to-video tool by OpenAI, represents a significant leap in technology, capable of generating videos up to one minute in length with high visual quality.
- 🌟 Sora's announcement is strategically timed near other major AI announcements, suggesting a competitive landscape and a race for technological advancement in the industry.
- 🎥 The quality of Sora's video generation is impressive, with realistic reflections, coherent imagery, and detailed environments that were previously unattainable with other tools.
- 🔍 The script highlights the importance of understanding and simulating the physical world in motion, which is a core focus of OpenAI's development efforts.
- 💡 OpenAI is actively seeking feedback from industry experts and creative professionals to improve Sora and ensure its utility and safety in real-world applications.
- 🛠️ Despite its capabilities, Sora is not without flaws, as it struggles with understanding complex physics and cause-effect relationships in scenes, which OpenAI acknowledges and is working to improve.
- 🔗 The gradual release strategy and engagement with experts reflect OpenAI's commitment to responsible AI development, especially considering the potential political implications of AI-generated media.
- 🌐 The script discusses the rapid pace of AI advancements, suggesting an exponential growth in technology that could significantly impact various sectors, including media, entertainment, and beyond.
- 📈 The comparison between Sora and previous text-to-video tools like Pica and Runway showcases a significant upgrade in the capabilities and quality of AI-generated content.
- 🤖 OpenAI's focus on teaching AI to understand and interact with the real world indicates a broader goal of creating models that can assist in solving problems requiring physical interaction.
- 📚 The script emphasizes the educational aspect of OpenAI's research, integrating findings from GPT and other models to create a comprehensive understanding and application of AI.
- 🌍 The global impact of AI advancements is underscored by the mention of elections in 2024, highlighting the need for careful consideration of AI's role in shaping public opinion and information dissemination.
Q & A
What is the main topic of the video?
-The main topic of the video is the announcement of Sora, a text-to-video tool developed by OpenAI, and its impressive capabilities in generating high-quality videos from text prompts.
How does the speaker describe the quality of Sora's video generation compared to previous tools?
-The speaker describes Sora's video generation quality as a significant leap from previous tools, moving from quality level 3 to quality level 4, and is impressed by the coherence and adherence to the text prompts.
What is the significance of Sora's ability to understand and simulate the physical world in motion?
-The significance lies in its potential to help people solve problems that require interaction with the real world, marking a step forward in AI's understanding of physical dynamics and movement.
How long can Sora generate videos?
-Sora can generate videos up to one minute in length.
What is the speaker's reaction to the quality of the images produced by Sora?
-The speaker is amazed by the quality of the images, describing them as incredible and photorealistic, to the point of being indistinguishable from real videos or photographs.
What does the speaker mention about the initial release strategy of Sora?
-The speaker mentions that Sora's release strategy involves a gradual rollout, starting with red teamers (experts who test products in preview for security and functionality), then industry professionals, and finally the general public, to ensure the tool is safe and effective.
What are some of the limitations or weaknesses of Sora that OpenAI acknowledges?
-null
What is the speaker's prediction for the future of AI and the impact of tools like Sora?
-The speaker predicts that we are very close to achieving General Artificial Intelligence (AGI), as the advancements in AI technology, like Sora, are happening at an exponential rate, and the frequent, impactful announcements from tech companies suggest a significant shift in the AI landscape.
How does the speaker view the importance of the gradual release and feedback collection process for Sora?
-The speaker views the gradual release and feedback collection process as crucial for ensuring the safety and responsible use of AI technology, especially considering the potential political implications and the need to avoid misuse in sensitive contexts like elections.
What is the speaker's comparison between Sora and previous text-to-video tools like Pica and Runway?
-The speaker compares Sora favorably to previous tools, stating that Sora has raised the bar significantly and makes previous tools seem like toys in comparison, due to its advanced capabilities and higher quality video generation.
What are the potential implications of Sora's technology for the creative industry?
-The potential implications include a significant shift in the way creative content is produced, as Sora's technology lowers the barrier to entry for video production and opens up possibilities for creators that were previously inaccessible or required high levels of expertise and resources.
Outlines
🚀 Introduction to Sora: A Leap in Text-to-Video Technology
The speaker introduces Sora, a groundbreaking text-to-video tool developed by OpenAI. They discuss the announcement of this new technology, emphasizing its superior quality compared to previous text-to-video tools. The speaker highlights the impressive transition from low-quality videos to Sora's high-quality output, which can generate videos up to a minute long. They also mention the importance of understanding the implications of such technology, especially its potential impact on the industry and society as we approach 2024.
🎥 Sora's Impact on Video Production and Industry Response
The speaker delves into the impact of Sora on video production, noting the impressive quality of reflections and details in the generated videos. They discuss the significance of Sora's ability to create complex scenes with multiple subjects and accurate backgrounds. The speaker also touches on the potential of this technology to lower entry barriers and open up possibilities for creative professionals. Furthermore, they mention OpenAI's approach to engaging with industry experts and stakeholders to improve the tool and its utility for creative applications.
🌟 Sora's Limitations and OpenAI's Transparency
The speaker addresses the limitations of Sora, acknowledging that while the technology is impressive, it is not perfect. They discuss examples of errors in the generated videos and the importance of understanding the physics of the real world. The speaker also highlights OpenAI's commitment to transparency and safety, mentioning their work with red teamers to test the product and ensure it does not produce harmful content. They emphasize the gradual release strategy and the collection of feedback to improve the technology.
📈 The Accelerating Pace of AI Technology Announcements
The speaker reflects on the rapid pace of AI technology announcements, particularly in the context of the competition between OpenAI and Google. They discuss the strategic timing of Sora's announcement in relation to Google's advancements and speculate on the potential impact of these developments on the industry. The speaker also considers the broader implications of these rapid advancements, suggesting that we may be on the verge of significant breakthroughs in AI technology.
🤖 The Ethical and Political Considerations of AI Technology
The speaker discusses the ethical and political implications of AI technology, particularly in the context of the upcoming elections in 2024. They mention OpenAI's commitment to responsible AI usage and the potential risks associated with the misuse of AI for creating fake news or manipulated content. The speaker emphasizes the importance of a gradual release strategy and the need for careful consideration of the technology's impact on society and democracy.
🌐 The Evolution of AI Tools and the Future of Content Creation
The speaker compares Sora to previous AI tools, highlighting the significant leap in quality and capability that Sora represents. They discuss the potential of Sora to revolutionize content creation and the industry's response to this new technology. The speaker also reflects on the broader implications of AI advancements for the future of media and entertainment, suggesting that we are entering an era of unprecedented creativity and innovation.
Mindmap
Keywords
💡Text to Video
💡Quality
💡Announcement
💡Industry
💡OpenAI
💡Reflection
💡Physical World Simulation
💡Red Teamers
💡Artificial Intelligence
💡Causation
💡Flaws
Highlights
The introduction of Sora, a text-to-video tool by OpenAI, represents a significant leap in AI-generated video technology.
Sora can generate videos up to one minute in length, a substantial increase from previous text-to-video tools.
The quality of Sora's video generation is described as impressive, with high visual quality and adherence to the text prompt.
Sora's announcement emphasizes the AI's ability to understand and simulate the physical world in motion, which is a key focus of the technology.
OpenAI's approach includes gathering feedback from industry experts and creative professionals to improve the tool.
The announcement highlights the importance of addressing the potential risks and ethical considerations of AI-generated media.
OpenAI is working with red teamers and experts to ensure the safety and responsible use of their AI tools.
The technology behind Sora involves a diffusion model using a Transformer architecture, similar to advancements in image generation.
Sora's development signifies that AI is moving closer to the creation of General Artificial Intelligence (AGI).
The announcement's timing, close to Google's Gemini 1.5 release, suggests a strategic move by OpenAI in the AI industry.
The rapid pace of AI advancements, with significant announcements from different companies in quick succession, indicates an exponential growth in the field.
The gradual release strategy of AI tools like Sora aims to balance innovation with caution, considering potential political and societal impacts.
The potential for AI-generated videos to impact public trust and the spread of misinformation is a concern, especially in election years like 2024.
OpenAI's commitment to transparency and safety in AI usage reflects a broader awareness of the technology's societal implications.
The demonstration of Sora's capabilities includes a variety of video examples, showcasing its range and potential applications.
The comparison between Sora and previous text-to-video tools highlights the significant advancements in AI video generation.
The emphasis on the limitations and challenges of AI video generation, such as understanding cause and effect, is a key aspect of the announcement.
The announcement serves as a reminder of the rapid progress in AI, urging viewers to consider the implications of these advancements.
Transcripts
openi ha letteralmente di nuovo
scioccato
l'industria il mondo dovrei dire nemmeno
l'industria vè se se siete su questo
canale sapete a cosa mi riferisco sto
parlando dell'annuncio di Sora il loro
strumento il loro modello per generare
video quindi diciamo un text to video
tecnicamente dove scriviamo quello che
vogliamo e generiamo dei video non è il
primo che c'è in circolazione qua sopra
ne abbiamo visto anche diversi in
passato ma è il migliore è il migliore
ma no che diciamo è passato No da una
qualità tre a una qualità 4 No e che se
è passato da una qualità 3 a una qualità
300 è veramente veramente veramente
impressionante voglio fare con voi
Quindi questo video che è un po' a metà
tra due Format qua sopro no Quindi è un
po' una Reaction ad alcuni dei video che
sono stati pubblicati è un po' invece
un'analisi perché voglio andarci un po'
in dettaglio leggerci anche quello che
hanno fatto nell'annuncio e fare un po'
due ragionamenti cosa significa
l'annuncio di un prodotto come Sora a
inizio 2024 su questo secondo me c'è
parecchio da riflettere ma aspettiamo
fino alla fine del video per fare questa
riflessione tuffiamoci nel vivo Questo è
il sito ufficiale Questa è la pagina
ufficiale Voglio leggere con voi un po'
di cose analizzarle e poi ci guardiamo
anche qualche video Ovviamente prima di
farlo Vi ricordo che se volete
supportare questo canale potete farlo
cliccando il pulsantino Grazie c'è
proprio un pulsante che si chiama Grazie
sotto il video con il quale potete fare
una piccola donazione oppure se volete
fate un abbonamento c'è il pulsante pure
per l'abbonamento e quella è una è
semplicemente una donazione mensile che
fate ricorrente tutti i mesi quindi è un
modo di supportare tutta la roba gratis
di qualità che vi porto qui sopra Allora
andiamo qua sopra a vedere un po' Sora
Vabbè creare video dal testo Questo
diciamo lo sappiamo Eh tutti i video qua
dentro in questa pagina sono sta create
senza intervenire senza modifica Questa
è una bella frecciatina all'amico Google
che invece quando fa le presentazioni
diciamo ci mette un po' di no un po' un
po' di montaggio diciamo un po' di
lavoro in post produzione
Eh voglio anche leggere l'annuncio con
voi perché nell'annuncio ci sono un bel
po' di cose interessan quindi Eh stiamo
insegnando alle ai a capire e simulare
il mondo fisico in movimento questo è
interessante questa cosa la parola
understand qua è il punto principale di
tutto questo annuncio è la cosa sulla
quale non si è soffermato nessuno e sul
quale invece mi voglio soffermare un
pochino in questo video e e lo vedremo
perché c'è questa cosa la ripetono
spesso nella pagina No è in ottica di
Agi Questo è un passaggio molto molto
importante abbiamo l'obiettivo di
addestrare dei modelli che possono
aiutare le le persone diciamo a
risolvere i problemi no che che
richiedono interazione con il mondo
reale introduciamo il nostro modello
Sora è un Text to video e può generare
video fino a un minuto questo è
impressionante Qua ci sono un po' di
cose impressionante minuto Visual
Quality and hance adherences quindi la
lunghezza che non ha precedenti se avete
usato degli strumenti come può essere P
Ica no Come può essere runway eccetera e
sapete che moi lavorava su pochi secondi
di video e loro proprio alzano di
tantissimo l'asticella no Bam
all'improvviso danno un prodotto che fa
un minuto la qualità e tra un attimo la
vedremo qua sotto la qualità È
incredibile e poi proprio la la coerenza
con il prompt no Quindi l'aderenza con
quello che scriviamo questo è forse il
video che più è girato in questi Diciamo
in questi giorni che dice
Eh una donna che cammina per le strada
di Tokyo ci sono un sacco di luci
eccetera eccetera
una giacca nera un vestito
rosso Black boots quindi diciamo degli
stivali eccetera eccetera indossa degli
occhiali da sole del un rossetto non lo
leggo tutto però diciamo il video qua È
incredibile È
incredibile È incredibile la qualità
dell'immagine questa Già è una cosa
fuori di testa Cioè se avete visto
quando qua sopra ho fatto vedere dei che
ne so abbiamo parlato di per esempio di
Google Lumiere abbiamo parlato di Pica
No abbiamo parlato diverse volte di
prodotti Text to video la qualità era
molto molto scarna e e siamo passati nel
giro di pochissimo tempo veramente di
pochissimo tempo non so se vi ricordate
girava un annetto fa il video di Will
Smith che mangiava degli spaghetti No
quello era il livello a cui eravamo un
anno fa con il text to video abbiamo
fatto veramente un'esplosione cioè
questa è proprio un'esplosione la
velocità con la quale siamo arrivati qua
e se vi ricordate Io verso la fine del
2023 in diversi video ho detto
attenzione a non pigliare in giro questi
strumenti A non farvi le risatine del
cazzo che ogni tanto si fa qualcuno
quando dice Eh fanno schifo fanno cacare
Eh se questo è il livello Stiamo a posto
eccetera eccetera perché come abbiamo
visto crescere il text to image no che
nel giro di pochi anni da immagini
imbarazzanti a immagini fotorealistiche
che non riusciamo a distinguere da una
fotografia con il livello di Mid journe
e con altri strumenti del genere avevo
detto che col video sarebbe stato uguale
e il 2024 sarebbe stato l'anno
dell'esplosione dei video È
impressionante Se pensate che siamo solo
a febbraio eh È veramente veramente
impressionante Questa è clamorosa questa
immagine qua è clamorosa ovviamente ci
sono degli errorini qua e là Diciamo che
se uno guarda bene No L li nota che non
è proprio tutto perfetto eccetera
eccetera però Ricordiamoci cosa c'era
fino a diciamo fino a qualche giorno fa
No fino a prima che vedevamo Sora in
azione Cioè openi ha veramente fatto un
un salto impressionante e quando qua si
avvicina Guardate qui Cioè qua Metto
pausa perché quando si avvicina qua la
qualità impressionante No la qualità dei
riflessi guardate qua la qualità dei
capelli Cioè anche proprio l'immagine in
sé tutti gli altri strumenti fino ad ora
facevano dei video che erano anche molto
piccoli estremamente sgranati
estremamente rovinati eccetera eccetera
qua parliamo diciamo di una proprio
immagine sorgente che è di una qualità
incredibile veramente incredibile Non li
voglio vedere tutti perché su questa
pagina ce ne sono decine questo è
spettacolare il fatto che è un movie
trailer no Quindi qua è stato fatto un
movie trailer e quindi c'è proprio il ci
sono anche i tagli Cioè qua l'output è è
anche montato in un certo senso no è
proprio un una serie di clip in sequenza
uno dietro l'altro ed è un diciamo un
film di fantascienza ambientato nello
spazio eccetera eccetera con questo
astronauta con l'elmetto rosso e così
via Anche qui ci sono una valanga di
errori Però Guardate Quando si arriva a
diciamo a vedere il viso Cioè metto
pausa e e voglio farvi vedere questo
viso Cioè guagliù qua siamo a siamo a
una roba fuori di testa fuori di testa
vi dico senza unb di dubbio che questo
per me è il migliore questo è
letteralmente incredibile Cioè questo
non riuscirei a distinguerlo da un da da
da da da una ripresa fatto con un drone
fatta con con un elicottero fatto con
qualcosa questa è veramente veramente
veramente fatta bene veramente fatta
bene Qua ci sono c'è anche qualche
esempio di qualcosa non fotorealistico
quindi diciamo un po' Più stile no
cartoon un po' animazione e anche qua
immaginate proprio le implicazioni di
questa roba No il fatto di
poter produrre cose del genere con con
diciamo con con uno strumento
estremamente accessibile con dei C
estremamente accessibili no abbattiamo
una barriera all'ingresso impressionante
e cioè qua si aprono delle possibilità
veramente veramente incredibile
spettacolare veramente spettacolare
spettacolare non mi li guardo tutti
voglio voglio scendere un pochino per
leggere anche un po' cosa c'è
nell'annuncio perché secondo me poi è
interessante guardarci l'annuncio come
diceva prima al momento è stato
rilasciato solo ai Red teamers no che è
questo gruppo di persone che testano i
prodotti In anteprima per assicurarsi
che non ci siano delle cose pericolose
rischiose eccetera eccetera si chiamano
i red Team questi gruppi di diciamo di
di test di ricerca di analisi che ci
sono su questi su Questi strumenti hanno
dato l'accesso anche a un numero
ristretto di artisti di designer di
filmmaker quindi gente diciamo esperta
dell'argomento dell'Industria per
raccogliere feedback e capire un pochino
come eh migliorare lo strumento e come
renderlo utile vedete a ai Creative
professionals quindi a ai creativi a chi
questa roba la deve la deve utilizzare e
questo secondo me è interessante questo
è interessante perché E ovviamente una
delle prime cose che Uno potrebbe
pensare come sempre sicuramente pure qua
sotto ci sarà qualcuno che dirà Sai
quanta gente perde il lavoro adesso che
è uscito pure quest'altra cosa Vabbè a
posta sei sul canale YouTube sbagliato
se Commentate ancora così però è
interessante sapere che la prima cosa
che fa openi è proprio confrontarsi
invece proprio con l'industria No
proprio con gli stakeholder Con gli
esperti eccetera eccetera sta cosa la
trovo estremamente eh interessante e E
poi il fatto di diciamo di avere un un
approccio molto molto molto molto aperto
e su questo poi alla fine ci voglio fare
una una bella riflessione su questa cosa
openi qua è molto molto esplicita nel
dire stiamo dando feedback raccogliendo
feedback parliamo con persone fuori da
openi vogliamo dare al pubblico un po'
un diciamo un po' il senso di quello che
ci aspetta di quello che c'è
all'orizzonte e su questo Open Eye
Secondo me è cambiata molto negli ultimi
mesi è cambiata molto molto molto negli
ultimi mesi Sì dopo il casino con col
licenziamento di Sam Altman dopo il
fatto che qualche governo nel mondo ha
iniziato a richiedere trasparenza no a a
parlare anche di tematiche legate alla
sicurezza eccetera eccetera qua ce n'era
diciamo uno in particolare che volevo
farvi vedere Guardate
questo questo per me è incredibile cioè
su una cosa del genere Io non ho
veramente parole Non ho parole Non ho
parole perché qua nel prompt c'è scritto
che questa persona Eh è in si trova a
marrakeche durante Magic hour e quindi
Guardate nel riflesso dell'occhio quello
che si vede dietro no che c'è un il sole
di un certo tipo i colori di un certo
tipo questa roba qua è veramente
impressionante Vabbè Questa è tutta la
parte invece un po' più di animazione un
po' stile cartoon eccetera eccetera e ce
n'era un altro Ecco qua Questo qua pure
l'ho trovato veramente figo per la sua
complessità cioè il fatto che ci sono
tanti
pezzi di video di cose riprodotte dentro
degli schermi Questa è veramente Anche
qui si vedono un sacco di piccoli errori
ma ricordatevi dove eravamo Quindi come
sempre non pensate a quello che è lo
strumento oggi pensate a quello che
potrebbe
[Musica]
essere mi viene da sorridere no quando
ripenso ai commenti di qualcuno che
veniva a prendere in giro gli strumenti
di pochi mesi fa che facevano dei video
che erano imbarazzanti signori come
voleva dimostrare Quindi se state ancora
a fa commenti del genere avete capito
che siete completamente fuori strada
Questa è interessante questa roba qua
eh il il fatto di parlare di scene
complesse con soggetti multipli no con
con con con più di un soggetto
all'interno della scena che era la
grande limitazione che avevamo visto
invece nell'usare runway nell'usare Pica
no nell'usare strumenti di di questo
tipo l'accuratezza del background di
quello che succede nello sfondo e
eccetera eccetera eh E quindi dice non
solo quello che la persona ha chiesto
nel prompt ma anche quello che esiste
nel mondo fisico cioè quello attorno se
io ti dico che questa ragazza sta
camminando in un bosco tu non ti
concentri solo sulla ragazza ma il fatto
che nel bosco le foglie si muovano col
vento Gli uccellini passino in
sottofondo che una volante di vento No
faccia alzare magari del della polvere
eccetera eccetera e qua Cioè anche qui
ce ne sono alcune questa per me è fuori
di testa questa è bellissima perché
vabbè oltre a essere estremamente
realistica simula il riflesso nello
specchio cioè Guardate quant è bello
quando passa nello specchio Cioè non
nello specchio diciamo nel vetro Volevo
dire Guardate quanto è realistico questo
momento qua Cioè questo è
indistinguibile da un video da un video
reale eh Questa pure è molto molto bella
e questa per me è come prima No vale
proprio il ragionamento di prima cioè
questa qui Io non riuscirei a
distinguerla da una ripresa fatta
dall'alto di una qualsiasi costa che ne
so Questo potrebbe essere Boh un pezzo
di Costiera malfitana che ne so No un
pezzo della Costa Azzurra non lo so
comunque Potrebbe essere uno scenario
del genere veramente veramente veramente
incredibile Qua ci sono eh Un po' di
cose interessanti e qua l'aspetto più
interessante è questo No il fatto di
essere persistente sapete che abbiamo
una grossa limitazione al momento con
gli strumenti che generano Soprattutto
la parte di immagini ma vale anche per i
video Eh il fatto di poter fare lo
stesso personaggio in più contesti
diversi con abiti diversi con
espressione del viso diverse andatevi a
vedere ho fatto due video sul mio canale
YouTube dove faccio vedere come fare
questa cosa e ancora non siamo ad alti
ad alti livelli di qualità Sora da
questo punto di vista fa un un salto
enorme No io immagino che parte di
questa tecnologia poi finisca anche
dentro da lì sulla parte diciamo di di
immagini anche qua diciamo spettacolare
uno molto molto bello Era questo qua
Aspettate che ve lo faccio vedere Ecco
qua Questo per me era veramente
veramente bello veramente veramente
bello Guardate quello che succede dietro
anche se non mi concentro sulla persona
no c'è gente che qua dietro passa lui si
trova in un in un caffè a Parigi dietro
passa un poliziotto mi sembra a un certo
punto un due ragazze
Eh una signora con un cappello delle
macchine parcheggiate questa questa
parte è spettacolare No la cura dei
dettagli i riflessi cioè guardate qua i
riflessi nel vetro dell'occhiale della
finestre che c'ha di fronte e così via E
questa parte qua è la cosa più
interessante
la cosa più interessante dell'annuncio e
cioè che esplicitamente openi ha detto
questo modello ha delle debolezze alcune
cose non funzionano non riusciamo a
gestire bene alcuni aspetti della fisica
del mondo e tra un po' lo vediamo un
attimo potrebbe non capire bene il
concetto di causa effetto e perché dico
concentriamoci un attimo su questa cosa
perché questa è roba fondamentale per le
Gi quindi non pensate che questo sia uno
strumentino
per fare i video Questo è un pezzo del
puzzle che openi sta costruendo per
arrivare all' gii perché quando ti parla
di capire causa e effetto degli eventi
si sta andando in quella direzione cioè
diciamo questa è è proprio no è ovvio è
ovvio per me e mi spiace che molti dei
video che sono usciti sta roba non La
trattano fanne vedi un po' i video certo
quella parte è bello ma dobbiamo leggere
tra le righe di quello che ci sta
dicendo
Open Vedi quando dice qua una persona
potrebbe dare un morso a un biscotto ma
la scena dopo il biscotto potrebbe non
avere i segni dei denti eh può può può
fare confusione tra destra e sinistra e
tra altri elementi diciamo spaziali
eccetera eccetera e infatti Qua ci sono
alcune cose e vedete che cosa hanno
fatto hanno messo
esplicitamente dei video
sbagliati questa roba qua è senza
precedenti ed è fondamentale Secondo me
pure su questo ci torniamo ci torniamo
qua fa vedere Vabbè ovviamente qua è
stato chiesto di un far correre un
ragazzo su un tapirulan e Qua dice vabbè
Sta ovviamente sta facendo una cosa no
qua la fisica è completamente è
completamente sbagliata Qua ci sono
questi non so se sono dei cani o dei
lupacchiotti no sono dei lupacchiotti
Secondo me e vedete come escono uno da
dentro l'altro Quindi pure qua diciamo
c'è un po'
Eh ci sono un po' di problemi proprio
non solo con la fisica eccetera eccetera
Eh qua c'è un pallone da basket che deve
entrare dentro un un canestro e e qua
esplode e riesce un altro pallone che
poi passa da dentro il il ferro e hanno
messo un po' di questo secondo me è
molto bello qua si capisce proprio il
problema del del della causa effetto del
della spazialità degli oggetti no vedete
qua c'è questo questa sedia che poi
rimane là poi c'è un altro pezzo di
sedia EC C anche se il resto è
incredibilmente perfetto no però c'è
ancora qualche errore furbi molto furbi
a mostrarlo dall'inizio Qua ci sono un
po' di problemi con le mani delle delle
persone guardate le mani delle persone
che non si muovono in maniera in maniera
realistica lei soffia le candeline non
si muovono le candeline hanno tutte
quante il vento cioè il vento No la
posizione dell'aria diciamo
l'inclinazione della fiamma in modo
sbagliato eccetera eccetera super super
super interessante e poi c'è un bel
blocco sulla sicurezza dove dice
ovviamente stiamo lavorando con i red
teamers stiamo facendo dei test eh
alleniamo no con tenendo certi standard
Lo sapete che ormai diciamo queste cose
le ce le aspettiamo un po' tutti avanti
ci dice noi facciamo anche un lavoro
enorme nel cercare di bloccare i prompt
che violano le nostre Policy quelle
sulla violenza quelle con contenuti
sessuali quelle con immagini famose
Oppure dove ci sono degli IP quindi
diciamo delle intellectual property
quindi non posso fare un video dove dico
fammi Leonardo Di Caprio che gioca a
basket no nel cortile di casa mia oppure
fammi Topolino che combatte con
Vegeta su Non lo so su namec eccetera
eccetera Eh e così via E poi vabbè poi
stiamo parlando con gli educators con
gli artisti eccetera eccetera per
cercare di capire quali sono le loro
preoccupazioni e così via Vabbè Qua ci
sono un'altra valanga di esempi Diciamo
che skippo completamente qua la cosa
interessante è il fatto che spiegano un
pochino come Qual è la tecnologia che ci
deto il modello no Quindi qua si parla
di Transformer e si parla di modello di
diffusione quindi di Camo modelli di
diffusioni che siamo già abituati a
vedere nel mondo della generazione delle
immagini no se avete mai utilizzato Mid
jn eccetera eccetera sapete come lavoro
un modello di diffusione Quindi anche in
questo caso Qua c'è anche il diciamo
proio il ehm vi lascio anche questo link
qui sotto Qua c'è anche il il link
Quello un pochino più tecnico dove
spiega proprio tecnicamente Come viene
fatto tutto il passaggio Come'è
strutturata proprio dietro quindi il
modello di diffusione parte così parte
da un rumore che poi piano piano no
scompare fino ad aggiungere dettagli
eccetera eccetera qua diciamo si va un
pochino più nel dettaglio dove fa vedere
pure Cosa significa Eh no In che modo si
migliora la qualità in base a quando hai
più potenza di calcolo più dati su cui
addestrare eccetera eccetera però qua
non ci voglio scendere in dettaglio
lascio il link per i più diciamo
smanettoni E che vogliono anche vedersi
i Paper leggetevela perché là c'è sempre
un sacco di roba se vi piace se vi
piace approfondire è interessante perché
ovviamente eh la ricerca qua è tutto
integrata no Quindi dice tutto quello
che abbiamo scoperto su GPT tutto quello
che abbiamo scoperto Su dì È tutta roba
che alla fine finisce finisce insieme no
che si mischia è conoscenza che in
aienda si mischia Eh quindi è un modello
diciamo di di diffusione utilizza
un'architettura Transformer anche in
questo caso
e e poi diciamo c'è questa roba qua
secondo me estremamente interessante che
è quello che vi sto dicendo all'inizio
del video quello che stiamo facendo con
Sora per noi è un pezzo fondamentale di
quello che vogliamo fare con il
raggiungimento delle gii io vi lascio
questo link in descrizione vi lascio
questo e vi lascio anche un video di 10
minuti dove ci sono una valanga di eh
sonoo tutti quanti messi in sequenza
tutti i video qua sopra quindi se non ve
li volete vedere uno a uno vi sparate 10
minuti e c'è tutto quello che ha fatto
vedere che ha fatto vedere Open Ey e
adesso voglio fare un pochino diciamo di
riflessione finale un po' di analisi su
alcuni punti ehm è estremamente
interessante vedere come Open è ancora
al top Secondo me no è bello perché c'è
stato un momento nel quale eh openi Era
l'azienda delle a Perché tutte quante le
altre Erano ferme poi all'improvviso si
sono mosse Google in particolare e
Google ha fatto un po' di annunci eh
diciamo anche in sequenza qualcuno anche
con molta fretta qualcuno anche facendo
un piccolo pasticcio eccetera eccetera è
un po' ci siamo distratti da Open Ey
dicendo Oh cazzo Google li sta spingendo
no pensate a Gemini 1.5 sul quale tra
tra un po' esce pure un video su quello
non vi preoccupate parlerò anche di di
quello eh ma openi è ancora il top e
questo annuncio Secondo me lo dimostra e
non trovo per niente casuale che sia
stato fatto No proprio vicinissimo al
all'annuncio di Gemini 1.5 eh non è
assolutamente casuale c'avevano una roba
del genere in saccoccia No un annuncio
così veramente clamoroso e se la so
giocata questa carta nel momento più
strategico più importante nel momento in
cui il tuo prec competitor principale ti
dice Ok ora Siamo ufficialmente un
pelino sopra e poi dobbiamo vedere se
sono un pelino sopra ma ne parliamo
Nell'altro video arriva P per dire Oh
comunque no fin l'altro ieri stamo
scherzando Guarda che teniamo in in in
casa pronto e ti tira fuori il il
miglior modello
Tex video che ci sia in circolazione Io
credo che quello che loro abbiano
abbiano a porte chiuse sia della roba
che noi non immaginiamo proprio non
immaginiamo proprio stiamo giocando
veramente con le versioni più banali dei
loro dei loro prodotti dei loro modelli
Questa è una prima riflessione no Quindi
un po' questo giochetto tra Google e
openi questo annuncio ravvicinato ma
openi che proprio ci fa capire che che
loro non scherzano che non si son
distratti e che sono ancora diciamo
stanno ancora dettando legge in questo
in questo ambito eh E poi un'altra
riflessione che volevo condividere con
voi invece è la velocità degli annunci
esponenziali cioè noi pensavamo che il
2023 fosse stato un anno ricco di
annunci estremamente veloce e anche
estremamente dirompente in alcuni
momenti no ci sono stati dei momenti nei
quali bam bam bam usciva una cosa dietro
l'altro diciamo porca Ma che cazzo
sta succedendo cioè veramente non ce la
faccio manche a registrare un video che
ce ne ho altri due da fare e abbiamo
fatto solo due mesi ma nemmeno due mesi
diciamo un mese e mezzo del 2024 e
abbiamo già
diciamo una velocità che è proprio che è
proprio esponenziale No io mi immagino
proprio questa curva nella mia testa c'è
una curva ed è esponenziale e questo
qualsiasi libro vi leggete
sull'intelligenza artificiale diciamo
predice il fatto che a un certo punto si
arriva in uno stato del genere nel quale
tu ti trovi ai piedi di questa curva
pensi che stia facendo un piccolo
incremento in realtà davanti a te c'è
proprio una No la parte Bam che sale
così verso l'alto e da quel momento in
poi cambia tutto e probabilmente ci
trovamo proprio ai piedi di questa no di
questa enorme impennata perché vedere
degli annunci così veloci così in
sequenza anche di aziende diverse far
capire che c'hanno novità ogni settimana
eh Un po' perché forse se le tengono
buone no e le e le rilasciano in maniera
diciamo Eh come dire proprio così col
contagocce in maniera anche strategica
dal punto di vista di marketing e di PR
è un po' perché secondo me sfornano roba
da paura e soprattutto una scoperta
sblocca l'altra una scoperta sblocca
l'altra e e e e questo c'è scritto
esplicitamente anche nell'annuncio che
abbiamo letto poco fa questo per me
significa che diciamo questa questa roba
che noi chiamiamo egi e che sembrava
fantascienza fino a qualche tempo fa
probabilmente come abbiamo visto anche
nel video andatevelo a recuperare se non
l'avete visto il video dove parlo delle
gii degli annunci di diciamo di Mark
zager Berg e di e anche di Sam Altman
Probabilmente ci siamo veramente vicini
siamo certi del fatto che non ho più che
non è più una questione di se ma è una
questione di quando e probab prob ente
questo quando è veramente molto molto
vicino se diciamo se continuiamo ad
avere degli annunci a questa a questa
velocità collegata a questa roba qua
secondo me c'è un'altra riflessione ed è
la riflessione del non aver fatto un
rilascio ufficiale quindi attenzione Non
è come quando ci hanno dato C GPT o
quando ci hanno dato da lì o quando ci
hanno dato no altri strumenti eccetera
eccetera ce l'hanno fatto vedere ci
hanno mostrato delle demo ci hanno fatto
vedere il paper tecnico
l'annuncio i video eccetera eccetera e
Ma ci hanno detto questa roba la
rilasciamo un po' alla volta prima
passando per i red teamers poi passando
per gli esperti dell'Industria
raccogliendo feedback perché vogliamo
essere sicuri che non sia pericoloso che
non si facciano danni eccetera eccetera
e Uno potrebbe pensare ovviamente subo
Agli aspetti lavorativi l'industria
creativa chi lavora in questo settore e
così via ma secondo me qua l'aspetto
principale è l'aspetto politico il 2024
è l'anno delle inzioni in tutto il mondo
No vabbè ovviamente guardiamo tutti
quanti con interesse quello che succede
negli Stati Uniti ma diciamo ci sono
parecchi Paesi nel mondo nei quali 2024
è un anno importante dal punto di vista
delle delle elezioni e sappiamo che Open
Eye ha da poco fatto un commitment no
nell'essere molto attenta a come
l'intelligenza artificiale viene usata
Diciamo in maniera negativa pericolosa
No per in qualche modo diciamo impattare
su su su sull'esito delle elezioni e
sappiamo come i social media si sono
completamente sputtanati la reputazione
proprio quando Quando hanno diciamo
quando si sono avvicinati a Quel mondo
lì no quando i guai grossi sono arrivati
in quel mondo lì vi ricordate Cambridge
analytica no brexit Trump eccetera
eccetera sembra acqua passata ma quello
fu un momento storico per la reputazione
di Facebook in particolare non Ce la
dimentichiamo questa cosa e Sam Altman
non è un in generale diciamo le
le le le Big che si stanno muovendo
intorno alle ai Secondo me sono
estremamente caute in questo momento
proio per quella questione là abbiamo
già visto che ci sono dei casi nei quali
viene utilizzata leai per produrre fake
news per mettere in giro no immagini
video contraffatti eccetera eccetera uno
strumento di questa portata di questa
precisione di questo fotorealismo è
chiaro che loro cevano con i piedi di
piombo nell'anno delle lezioni in mezzo
in mezzo mondo ed è questo secondo me il
motivo principale per il quale loro
dicono c' abbiamo sta figata Ci avvicina
anche tantissimo alle Gi Ma ve la diamo
un po' alla vola non vogliamo fa non
vogliamo fa cazzate e l'annuncio è
strapieno di passaggi nei quali viene
Sottolineata questa cosa questo punto
qua il punto del rilascio graduale il
punto del del diciamo del interloquire
con con diciamo Con gli esperti e con
gli addetti ai lavori no E con la
politica eccetera eccetera è il punto
nel quale fanno vedere le problematiche
del del dello strumento Quindi tutti
quei video strani sbagliati eccetera
eccetera
quello serve per per Proprio per per
tranquillizzare l'audience per
tranquillizzare il pubblico Eh perché
sta roba è scioccante scioccante è
proprio la parola giusta Come così Come
è stato scioccante vedere la prima volta
c' GPT così come è stato scioccante
vedere i progressi fatti da migiori no
alcuni momenti ce l'abbiamo ben Chiari
Ma è chiaro che quando vedi un video
l'effetto diventa molto più Wow diventa
molto più Why di un testo o di una foto
perché ovviamente quello che pensi è Non
so più a cosa credere
non riesco più a capire quando guardo il
telegiornale o apro YouTube o scrollo
tiktok se quello che sto vedendo è
veramente successo o è frutto delle hai
perché nonostante sia in movimento e
quindi potrebbe essere un servizio
televisivo eccetera eccetera potrebbe
essere palesemente falso e penso che su
questa cosa Sam Altman e in tutte le
interviste ultimamente lo sta dicendo ha
capito che deve andarci proprio col
contagocce e che degli annunci troppo
wow possono far diciamo esaltare no
quelli un po' po più nerd quelli un po'
più addetti ai lavori la gente come noi
che siamo un po' più smanettoni eccetera
eccetera ma spaventare tutti gli altri
dove Per tutti gli altri intendo proprio
il grande pubblico Intendo la politica
intendo i media eccetera eccetera e
questa cosa non è assolutamente Secondo
me da sottovalutare e ed è Vabbè vabbè
poi l'ultimo punto è la differenza
abissale che abbiamo con gli strumenti
che avevamo fino a ieri questo l'ho già
detto un paio di volte durante questo
video se avete usato Pica se avete usato
runway se avete visto sto qua sopra dei
video nei quali ne parlo Sembrano dei
giocattolini adesso a confronto a Sora
no come dire l' hanno di nuovo alzato
l'asticella perciò dicevo secondo me noi
vediamo
eh estremamente in ritardo delle cose
quando loro Probabilmente in casa questa
roba ce l'hanno da tantissimo veramente
veramente veramente da tantissimo tempo
mi viene da pensare a Google lumier sul
quale io ci ho fatto un video proprio
qualche giorno fa Google lumier oggi
dopo questo aver registrato questo video
per me sembra un un giocattolo se non
avete visto il mio video che riguarda
Google lumere cliccate su quello che vi
metto a schermo e vi faccio vedere la
demo del prodotto di Google per creare
dei video che non è paragonabile
assolutamente a Sora cliccate il link
関連動画をさらに表示
Il Garante e l'Istruttoria su Sora di OpenAI
OpenAI released their new text-to-video model called Sora which generates the best video I've seen!
Ideogram 1.0 Review! FREE AI TShirt Designs with Text! New Major AI Art release
OpenAI ha già sviluppato l'AGI?! [Analisi]
Questa AI fa il mestiere di 700 persone, robotica che cambia la vita, l'AI arriva nelle tue orecchie
📣 Anteprima in Italia: Ideogram 2.0 è una bomba [Tutorial]
5.0 / 5 (0 votes)