Riassunto di tutti gli annunci di OpenAI: GPT4o e non solo!

Raffaele Gaito
13 May 202429:28

Summary

TLDRThe video script discusses a highly anticipated conference by Open AI, where they announced several groundbreaking updates. The most notable is the introduction of a new model named GPT-4, which is not to be confused with GPT-5 due to PR reasons. GPT-4 is a multimodal model capable of handling text, vision, and audio natively, which significantly reduces latency and enhances the quality and speed of interactions. The model will be available to all users, including those with a free account, with the only difference being the number of messages they can send. The video also showcases impressive demos, including real-time translation, voice interaction, and even solving equations on paper. The script highlights the model's ability to understand and generate responses with human-like intonation and speed, making it more realistic and user-friendly. The advancements in GPT-4 are seen as a significant leap in AI technology, offering a more integrated and immediate user experience.

Takeaways

  • 📢 The highly anticipated Open Eye conference featured a significant announcement, the unveiling of a new model named GPT 4o, which is a major update in the field of AI technology.
  • 💻 A new desktop app for GPT has been introduced, allowing users to access the technology through a web login, smartphone app, and now a desktop application for PCs, offering a faster and more interactive experience.
  • 🔍 GPT 4o is a multimodal model capable of handling text, vision, and audio natively, which is a significant leap from previous models that required transitions between separate models for different modalities.
  • 🎉 GPT 4o will be available to all users, including free users, marking a new era where a paid subscription is not necessary to access the latest features, with the only difference being the number of messages allowed.
  • 📉 The latency for GPT 4o has been significantly reduced to approximately 320 milliseconds, which is comparable to human response times, making interactions more immediate and realistic.
  • 🎤 The new model features a more human-like and realistic voice, with improved tone, language nuances, and speed, enhancing the user experience and making it more engaging.
  • 📱 A live demonstration showcased the ability to solve an equation in real-time using a pen and paper, without the need for taking a photo, highlighting the model's ability to process information in real-time.
  • 🌐 GPT 4o can perform real-time translation, which was demonstrated by translating speech between Italian and English seamlessly, showcasing the model's capability to understand and produce language instantly.
  • 🎨 The model has shown the ability to generate images and 3D objects from text descriptions, creating coherent and detailed visuals that align with the input provided.
  • 📹 GPT 4o can summarize videos and extract key concepts, which could be particularly useful for processing long video content or meetings, offering a new level of efficiency in content analysis.
  • ⚙️ Despite the impressive advancements, there is a note of caution regarding the potential for unexpected issues when new models are first implemented, suggesting that real-world testing will be crucial.

Q & A

  • What was the main topic of the Open Eye conference?

    -The main topic of the Open Eye conference was the announcement of a new model called GPT 4o, which is a multimodal model capable of handling text, vision, and audio natively.

  • What are the three major announcements made during the conference?

    -The three major announcements were: 1) A new desktop app for CGPT with a completely revised interface, 2) The introduction of the GPT 4o model, and 3) The availability of the new model to all users, including free users, with the only difference being the number of messages they can send.

  • How does the new GPT 4o model differ from previous models?

    -GPT 4o is a multimodal model that can natively process text, vision, and audio, unlike previous models where these functionalities were handled by separate models with transitions between them.

  • What does the term 'Omni' in GPT 4o stand for?

    -The term 'Omni' in GPT 4o stands for its multimodal capabilities, indicating that it can handle various modes of input and output natively and efficiently.

  • How does the new desktop app improve user interaction with CGPT?

    -The new desktop app provides a faster and more fluid interface, lower latency, and the ability to use a microphone and webcam, making interactions more immediate and allowing features like screen sharing.

  • What is the significance of making GPT 4o available to free users?

    -Making GPT 4o available to free users is significant because it allows access to advanced features without requiring a paid subscription, thus broadening the model's accessibility.

  • What are the potential applications of the real-time translation feature demonstrated in the conference?

    -The real-time translation feature can be used to transform smartphones into real-time translators, facilitating communication between speakers of different languages on the fly.

  • How has the response time of the model improved with GPT 4o?

    -The response time has been significantly reduced to about 300 milliseconds, which is similar to a human response time in a conversation, making it more realistic and user-friendly.

  • What is the significance of the model's ability to handle simultaneous voice, text, and video responses?

    -The ability to handle simultaneous voice, text, and video responses allows for a more integrated and natural interaction, enhancing the user experience and making the model more versatile in various applications.

  • What are the implications of the model's improved coherence in character generation for storytelling or comic creation?

    -Improved coherence in character generation allows for the creation of more consistent and engaging narratives, which can be particularly useful in applications like comic creation or interactive storytelling.

  • How does the model's ability to generate 3D objects and visual content enhance its utility?

    -The ability to generate 3D objects and visual content expands the model's capabilities beyond text and audio, allowing it to be used in a wider range of applications, from graphic design to virtual reality.

  • What is the potential impact of the model's ability to summarize videos on content analysis and information retrieval?

    -The ability to summarize videos could greatly enhance content analysis and information retrieval, making it easier to extract key points from long videos and making video content more accessible and searchable.

Outlines

00:00

📢 Open Eye Conference Recap

The video script begins with a summary of the highly anticipated Open Eye conference, where a significant announcement was expected. The conference was very interesting and showcased a new model, possibly named GPT 4, although the speaker humorously notes it could have been GPT 5. Three major announcements were made, which will be discussed in the video. The first is the introduction of a desktop app for CGPT, allowing for web use, smartphone app use, and now desktop app use, promising faster interaction with a revamped interface and lower latency. The second announcement is the unveiling of the new model, '4o', which is of great interest due to its impressive capabilities demonstrated live during the conference. The third piece of news is that this new model will be available to all users, including free users, marking a significant change as it means no paid subscription is required to access new features, only a difference in the number of messages.

05:02

🚀 GPT 4o's Multimodal Capabilities

The second paragraph delves into the importance of GPT 4o's multimodal capabilities, highlighting its native ability to handle text, vision, and audio. This is a significant improvement over previous models, which required transitions between separate models for different modalities, leading to increased latency. GPT 4o's real-time response to audio inputs, with a latency similar to human conversation, is emphasized as a key feature for realistic and convenient daily use. The paragraph also mentions that the free version of GPT 4 will include features previously exclusive to the paid version, such as file uploading, GPT usage, and memory capabilities.

10:18

🎤 Real-Time Translation and Voice Interaction

The third paragraph focuses on the real-time translation capabilities of GPT 4o and its ability to interact with users through voice. It discusses a demonstration where GPT 4o performs live translations between Italian and English, showcasing its low latency and human-like response times. The paragraph also touches on the public's mixed reactions to the speed of translation, with some finding it too slow and others appreciating the innovation. The speaker argues for a long-term perspective, suggesting that improvements will continue to be made.

15:21

🎬 Demonstrations of GPT 4o's Real-Time Processing

The fourth paragraph describes various demonstrations of GPT 4o's capabilities, including real-time audio, video, and text processing. It highlights the model's ability to recognize objects in real-time without the need for photography, as was previously the case. The paragraph also emphasizes the model's coherence in character and story development, as well as its impressive response speed and natural language processing, which make it seem incredibly realistic and useful for everyday tasks.

20:24

🎼 GPT 4o's Creativity and Performance

The fifth paragraph showcases GPT 4o's creative and performative abilities. It discusses how GPT 4o can improvise songs, adjust its voice's speed and tone, and even whisper, demonstrating a high level of interpretative skill. The paragraph also mentions the model's ability to generate images and maintain character consistency across different situations, which is a significant challenge for AI. The speaker expresses excitement about the potential of these features and the quality of interaction they enable.

25:25

📽 GPT 4o's Video Summarization and 3D Object Creation

The sixth and final paragraph discusses GPT 4o's ability to summarize videos and create 3D objects. It mentions the potential for users to upload videos for summarization, which could be particularly useful for business meetings or other recorded events. The paragraph also highlights GPT 4o's ability to create 3D objects and logos from textual descriptions, as well as its impressive rendering of text. The speaker concludes by encouraging viewers to subscribe to the channel and check out a tutorial on GPT 4o's memory feature.

Mindmap

Keywords

💡GPT 4o

GPT 4o refers to a new model of an AI language model discussed in the video. It is a significant upgrade from previous versions, offering multimodal capabilities such as handling text, vision, and audio natively and in real-time. The term is central to the video's theme as it represents a leap in AI technology, enabling more natural and efficient interactions with users. For instance, the video mentions that GPT 4o can perform real-time translations and understand visual cues, which were demonstrated through live demos.

💡Desktop App

The desktop app is a new feature announced in the video that allows users to access the AI model from a PC. This is a departure from the traditional web-based interface, offering a potentially more integrated and faster experience. The desktop app is part of the video's narrative on expanding accessibility and improving user interaction with AI technology.

💡Real-Time Translation

Real-time translation is a capability of the GPT 4o model that enables instantaneous conversion of spoken language from one to another. This feature is showcased in the video as a significant advancement in AI, allowing for more seamless communication between speakers of different languages. The script mentions a live demo where the model translates between Italian and English, highlighting the practical applications of such a feature.

💡Multimodal

Multimodal refers to the ability of the GPT 4o model to process and understand multiple types of input data, such as text, vision (images), and audio. This is a key concept in the video as it demonstrates the model's advanced functionality compared to previous versions. The term is used to emphasize the model's enhanced ability to interact with users in a more human-like manner, as seen in the video's live demonstrations.

💡Latency

Latency in the context of the video refers to the delay between the input of a query and the AI model's response. The reduction of latency is a major focus, as it is crucial for real-time interactions. The script discusses how GPT 4o has significantly reduced latency, making it more practical for everyday use and more closely resembling human conversation speeds.

💡Free Access

Free access implies that the new features and capabilities of the GPT 4o model will be available to all users, including those without a paid subscription. This is a significant change from previous models where advanced features were often restricted to paid users. The concept is important to the video's theme as it speaks to inclusivity and democratization of advanced AI technology.

💡Live Demo

A live demo is a real-time demonstration of the AI model's capabilities, shown during the conference. These demonstrations are vital to the video's narrative as they provide tangible proof of the model's abilities. The script mentions several live demos, such as real-time translation and vision-based interactions, which serve to illustrate the practical applications and potential impact of the GPT 4o model.

💡Omni

Omni, in the context of the video, is a prefix used to describe the GPT 4o model's all-encompassing capabilities, suggesting that it is an all-round or universal model. It ties into the theme of the video by emphasizing the model's multimodal and comprehensive functionality, which is a significant departure from previous models that were more limited in scope.

💡User Interface

The user interface refers to the design and layout through which users interact with the AI model. The video discusses a completely revised interface that is faster, more fluid, and more immediate. This is important as it directly affects the user experience and the practicality of using the AI model in various scenarios.

💡Screen Sharing

Screen sharing is a feature that allows users to share their screen with the AI model, which can be useful for collaborative tasks or demonstrations. It is mentioned in the video as one of the new functionalities made possible by the desktop app, enhancing the interactive capabilities of the AI and making it more versatile for different use cases.

💡Memory Feature

The memory feature is a capability of the GPT 4o model that allows it to retain and recall information from previous interactions. This is highlighted in the video as a significant advancement, as it enables more personalized and context-aware responses from the AI. The script mentions a tutorial where this feature is demonstrated, showcasing its potential for improving user experience.

Highlights

The highly anticipated Open AI conference took place, featuring a major new announcement.

A new model called GPT 4o was introduced, which is extremely interesting and powerful.

GPT 4o is a multimodal, omnidirectional model that can natively process text, vision, and audio.

GPT 4o can respond to audio inputs in just 232 milliseconds, similar to human response times.

A new desktop app for GPT was announced, allowing use on PC in addition to web and smartphone apps.

The desktop app features a completely revamped interface with lower latency and more immediate interaction.

GPT 4o will be available to all users, including free users, marking a significant change from previous models.

Paid Plus users will have access to more messages compared to free users, but all can use the new model.

Live demos showcased GPT 4o's capabilities, including real-time translation and solving equations on paper.

The model can now natively use voice, text, video, and audio simultaneously in fast, fluid interactions.

GPT 4o's voice is more human-like and realistic in tone, nuances, and speed compared to previous versions.

The model demonstrated impressive real-time translation capabilities, significantly reducing latency.

GPT 4o can recognize objects in real-time without needing to take a photo, thanks to its native multimodal capabilities.

The model can generate coherent visuals and characters, overcoming a major challenge for generative AI.

GPT 4o can create 3D objects and logos from textual descriptions, pushing the boundaries of what was previously possible.

The model can summarize videos when provided with them, opening up new possibilities for analyzing visual content.

Overall, GPT 4o represents a major leap in quality and capabilities for AI models, with many exciting real-world applications.

Transcripts

play00:00

Finalmente c'è stata la tanto attesa

play00:02

conferenza di Open Ey dove dovevano fare

play00:05

un nuovo clamoroso annuncio Questo è il

play00:08

video nel quale vi faccio il riassunto

play00:10

di quello che è stato annunciato Eh la

play00:13

conferenza St è stata estremamente

play00:16

interessante hanno fatto vedere il nuovo

play00:19

modello Non so perché non l'abbiano

play00:21

chiamato GPT 5 perché secondo me poteva

play00:23

essere benissimo GPT 5 ma immagino che

play00:25

per una questione di PR non l'abbiano

play00:27

voluto fare si chiama 4o e tra un attimo

play00:30

vediamo pure per cosa sta quella quella

play00:32

o fondamentalmente sono stati fatti tre

play00:34

annunci in questa conferenza ed è quello

play00:36

di cui parleremo in questo video il

play00:37

primo annuncio è il fatto che adesso C'è

play00:40

un'app desktop per C GPT quindi lo

play00:44

possiamo utilizzare dal web logando sul

play00:46

sito possiamo utilizzarlo dall'app per

play00:48

il nostro smartphone e adesso anche da

play00:50

un'app desktop quindi per il per il PC

play00:53

Questo apre tutta una serie di nuovi

play00:55

scenari è molto più veloce c'è

play00:57

un'interfaccia completamente rivista eh

play00:59

utilizza il microfono la webcam la

play01:01

latenza è più bassa quindi è molto più

play01:03

l'interazione è molto più immediata si

play01:06

può condividere lo schermo eccetera

play01:08

eccetera nella demo adesso vedremo

play01:09

alcune cose che sono veramente clamorose

play01:11

secondo me il secondo annuncio

play01:12

interessante è il fatto Era l'annuncio

play01:15

principale il fatto che ci fosse il

play01:17

nuovo modello che si chiama 4o eh E

play01:21

secondo me questo modello è veramente

play01:24

veramente veramente interessante Io sono

play01:26

dispiaciuto che non l'abbiamo chiamato

play01:27

cinque perché cinque avrebbe fatto

play01:29

clamore e invece secondo me questa cosa

play01:31

è clamorosa perché le cose che hanno

play01:33

fatto vedere nella demo sono veramente

play01:35

fuori di testa e e le demo le hanno

play01:37

fatta live quindi non c'è il rischio che

play01:39

abbiano velocizzato i video fatto

play01:41

qualche taglio qualche Pezzotto qua là

play01:43

come come siamo abituati a vedere

play01:45

ultimamente e la terza news qual è È che

play01:48

questo nuovo modello il 4o sarà

play01:50

disponibile a tutti quanti anche agli

play01:53

utenti gratuiti wù Questa è una novità

play01:55

incredibile perché significa che non

play01:57

bisogna avere un abbonamento a pagamento

play01:59

per accedere a tutte queste nuove

play02:01

funzionalità la differenza sarà solo nel

play02:03

numero di messaggi no Quindi gli utenti

play02:05

che usano il plus avranno più messaggi

play02:07

rispetto agli utenti che hanno

play02:08

l'abbonamento gratuito e poi quelli che

play02:11

hanno la versione gratuita possono usare

play02:13

la versione 4o che quindi dentro c'è il

play02:15

caricamento dei file l'utilizzo dei GPT

play02:18

Eh la memoria nuova funzionalità che ho

play02:21

fatto vedere qualche giorno fa e così

play02:22

via veramente una cosa super

play02:24

interessante per tutti quelli che magari

play02:26

non possono permetterselo non vogliono

play02:28

farsi un abbonamento a a GPT nella

play02:31

versione Plus Quindi adesso questo che

play02:34

vi faccio vedere a schermo è il video

play02:36

della conferenza non vi preoccupate non

play02:38

ce lo vediamo tutto perché questa non è

play02:39

una Reaction ma vi lascio tutti i link

play02:41

qua sotto Come sempre vi consiglio di

play02:42

andarvi a vedere le fonti originali

play02:44

tutto quello che di cui parlo qua sopra

play02:46

Allora dura una mezz'oretta eh Tra

play02:48

l'altro non è molto lunga questa qua è

play02:50

la slide fondamentalmente dove hanno

play02:52

fatto vedere il diciamo il riassunto no

play02:56

Quindi i tre grandi annunci erano questi

play02:58

la nuova app desktop con la nuova

play03:01

interfaccia l'interfaccia più veloce più

play03:02

fluida più immediata e così via GPT 4o

play03:06

di cui dopo ci leggiamo anche l'annuncio

play03:08

perché ci sono delle cose veramente

play03:10

veramente interessanti secondo me vi

play03:12

faccio vedere il il la o per cosa sta la

play03:14

o sta per Omni e tra un altro vediamo

play03:16

pure Cosa significa Omni E poi il fatto

play03:19

che può essere eh possono avere tutti

play03:21

quanti l'accesso e c'è questa bellissima

play03:24

live demo nella quale fanno vedere

play03:27

alcuni casi d'uso che secondo me sono

play03:29

veramente veramente

play03:30

allora Vediamo se becchiamo il momento

play03:32

do lei Racconta cosa sta

play03:51

Pert

play03:58

G on his capabilities across text Vision

play04:03

and audio Allora questa è la grande

play04:06

novità di GPT 4o è un po' un tecnicismo

play04:10

quindi per qualcuno potrebbe sembrare

play04:12

una notizia poco Wow Ma è fondamentale

play04:14

perché adesso è un modello diciamo

play04:17

multimodale omnimodo come lo chiamano

play04:20

loro in questo caso in maniera nativa Eh

play04:23

che era se vi ricordate che era la

play04:24

grande differenza Per esempio di quando

play04:26

è stato annunciato jamini no rispetto a

play04:28

cgpt Eh quindi il fatto che cgpt avesse

play04:31

il testo e poi avesse il video e poi

play04:34

avesse l'audio ma erano dei modelli

play04:37

separati e questi modelli veniva ogni

play04:39

volta fatta la transizione No la

play04:41

traduzione tra uno e l'altro Quindi io

play04:44

gli dico una cosa a voce questa voce

play04:46

viene elaborata trasformata in testo gli

play04:48

viene invitata la richiesta testuale poi

play04:51

questa richiesta testuale viene

play04:52

elaborata eccetera eccetera era quello

play04:54

che lo rendeva ovviamente diciamo lento

play04:57

no nel nel fare questa questa cosa

play04:59

invece adesso lo fa nativamente e questa

play05:02

è una cosa secondo me estremamente

play05:04

estremamente importante perché impatta

play05:07

tantissimo sulla qualità dell'output e

play05:09

sulla velocità di esecuzione vanno a

play05:11

ridurre ad abbassare totalmente quella

play05:14

latenza che c'era tra diciamo un

play05:16

messaggio e l'altro e questa è la cosa

play05:19

importante di del del del modello

play05:22

4o che sta per Omni Perché Perché in

play05:25

maniera nativa riesce a fare questa

play05:27

questa diciamo l'utilizzo di queste di

play05:29

queste varie modalità infatti Loro Qua

play05:31

dicono

play05:32

ehm in precedenza eh ta ta ta ta può

play05:36

rispondere a degli input audio in un

play05:39

tempo che è di 232 millisecondi con una

play05:43

media di 320 misei che è simile alla

play05:47

risposta umana in una conversazione e

play05:50

questo è fondamentale per renderlo

play05:51

quanto più realistico utilizzabile

play05:54

comodo nell'utilizzo quotidiano che noi

play05:57

facciamo in Quest'altro link poi non vi

play05:59

preoccupate tutti i link ve li lascio ve

play06:01

li lascio qua sotto eh Questa è è

play06:02

l'annuncio proprio dove fanno vedere

play06:04

diciamo la versione 4o e qua dicono

play06:07

tutte le cose che potranno avere le

play06:08

persone che non hanno un abbonamento Ma

play06:10

che usano la versione free quindi

play06:12

diciamo avranno GPT 4 nella versione

play06:15

gratuita potranno analizzare dati quindi

play06:18

caricare i file eccetera eccetera

play06:19

caricare le foto eh potranno utilizzare

play06:23

i GPT potranno avere la memoria e così

play06:25

via quindi tutte le cose che normalmente

play06:26

Diciamo erano accessibili solo nella

play06:28

versione eh a pagamento adesso sono

play06:30

accessibili a tutti quanti e secondo me

play06:32

questa è una cosa estremamente

play06:34

estremamente Allora qua cos'altro

play06:37

vi volevo far vedere vi volevo far

play06:39

vedere andiamo subito nella demo ci sono

play06:42

un paio di pezzi che qua voglio farvi

play06:44

vedere poi vediamo in realtà il resto lo

play06:46

vediamo dal sito uno è quello dove fanno

play06:48

l'equazione con carta e penna eh E vi

play06:51

chiedo di mettere particolare attenzione

play06:55

alla voce perché secondo me questa è la

play06:58

novità più interessante che rischia di

play06:59

passare inosservata da questa da questo

play07:02

nuovo modello da questo annuncio che è

play07:04

stato fatto perché la voce è molto più

play07:07

umana molto più realistica nel tono di

play07:09

voce nelle sfumature del linguaggio nel

play07:11

tono nella velocità e così via riesci a

play07:14

fare veramente delle cose che sembra di

play07:17

stare nel film Air questo secondo me è

play07:19

il miglior modo che avevo per descriver

play07:21

per riassumerlo allora lui prende carta

play07:24

e penna no col pennarello qua inizia a

play07:25

scrivere Vediamo che succede

play07:34

sot interessante qua ve lo voglio

play07:37

sottolineare non sta facendo una foto

play07:40

perché fino ad ora questa cosa

play07:41

riuscivamo a farlo e quando è arrivata

play07:43

Vision Questa è stata una figata No

play07:44

classica situazione inquadro il

play07:46

frigorifero faccio la foto e poi gli

play07:49

chiedo Cosa c'è nel frigo che mi posso

play07:51

cucinare No l'ho fatto pure io qua sopra

play07:53

questa

play07:54

demo Qua invece sta succedendo in real

play07:57

time Quindi lui inquadra la camera non

play07:59

scatta una foto ma muove il telefono e

play08:01

parla Ecco qual è la differenza di

play08:03

averlo nativo posso utilizzare voce

play08:07

testo video e audio anche in risposta

play08:11

Tutto

play08:12

contemporaneamente in questa modalità

play08:14

veloce che stiamo vedendo qua

play08:26

Ah vedete anche il fatto che interrompe

play08:30

C GPT mentre sta parlando no questa cosa

play08:32

prima non si poteva fare Ci dovevano

play08:33

essere i turni Invece adesso ti puoi

play08:36

infilare nella conversazione cgpt si

play08:38

ferma no e ti risponde e adesso qua gli

play08:41

dice Guidami nella soluzione di questa

play08:44

equazione ovviamente l'equazione è

play08:46

semplicissima però è bello vedere No

play08:48

questa funzionalità in azione

play09:11

capite come lo sta utilizzando e come

play09:13

avviene un salto di

play09:16

qualità quando ne finiamo a fare un

play09:19

utilizzo quotidiano No un utilizzo

play09:21

quotidiano nel quale abbiamo bisogno di

play09:22

Questa interazione di questa

play09:24

immediatezza di questa velocità Cioè per

play09:25

me già era fuori di testa il fatto che

play09:28

St inverno ho fatto una foto al

play09:30

termosifone che aveva un problema e c

play09:32

GPT me l'ha risolto senza aver dovuto

play09:33

chiamare il tecnico dei termosifoni Ma

play09:36

adesso diventa Lo alzo tengo aperto la

play09:39

camera e ci parlo mentre inquadro le

play09:42

situazioni no che si tratti di una

play09:44

statua in una città che non conosco che

play09:47

si tratti di un formaggio nel

play09:50

frigorifero o che si tratti di

play09:51

un'equazione su un foglio di

play09:57

carta ok

play10:17

e notate la velocità di risposta di

play10:21

botta e risposta Comè cambiata e dopo

play10:23

vediamo un'altra demo con la quale mi

play10:25

toglierò un piccolo sassolino dalla

play10:27

scalpa con alcuni commenti che mi sono

play10:29

arrivati qualche giorno

play10:43

fa Oh comunque parentesi a me durante

play10:47

queste demo fanno sempre morire i volti

play10:49

delle persone a fianco no di di di di

play10:51

come guardano la persona che sta facendo

play10:53

la demo e secondo me Sono un pelino

play10:55

terrorizzati che qualcosa vada storto

play11:12

sarà facile da risolvere

play11:17

però

play11:26

per la cosa veramente incredibile è

play11:29

proprio questo utilizzo di assistente

play11:33

nella vita reale che diventa sempre più

play11:36

realistico no avevamo tutti i pezzettini

play11:39

Eh e forse questi pezzettini ci sono ci

play11:42

sono da un po' di tempo come diciamo

play11:43

iniziamo a sospettare un po' tutti

play11:45

quanti adesso li stiamo mettendo insieme

play11:46

e la qualità è sempre migliore no Arriva

play11:49

l'audio e uno inizia a dire Ah sta

play11:52

cosa adesso lo uso come avrebbe

play11:55

Ehm come avrei utilizzato Alexa o o

play11:59

Google Home No questi o siries questi

play12:02

assistenti semmi ehm fossero stati

play12:05

veramente degli assistenti la grande

play12:07

promessa fallita degli assistenti vocali

play12:09

Eh poi arriva il video La il Visual

play12:13

quindi la possibilità di vedere le foto

play12:15

e quello fa un altro salto di qualità

play12:16

adesso questa roba messa insieme con

play12:18

questa velocità e con questa

play12:20

integrazione nativa è veramente il salto

play12:22

di qualità che aspettavamo Adesso vi

play12:24

faccio vedere invece un'altra demo e poi

play12:27

passiamo al sito perché dal sito ci

play12:28

andiamo a leggere un po' di cose a

play12:29

vedere un po' di cose interessanti

play12:31

Allora Una demo interessante è questa

play12:36

qua allora dove lei dice ci sono

play12:40

arrivate Un po' di proposte

play12:43

dall'audi su cosa far vedere in demo di

play12:46

questo nuovo modello 4o vediamo quale

play12:49

viene pescata come idea requ for Like

play12:58

Us Ok Bot gascar wants to know if gpd 4o

play13:03

is capable of Real Time

play13:06

translation m you Wan To Try this One

play13:09

Real Time translation

play13:11

qua è il video che ho fatto sul canale

play13:15

qualche giorno fa dove ho fatto vedere

play13:17

come ho trasformato il mio smartphone in

play13:19

un traduttore in tempo reale utilizzando

play13:21

un prompt fatto bene per cgpt i commenti

play13:25

sotto quel video sono spaccati 50% detto

play13:28

che figata grande idea Grazie di

play13:29

avercela condivisa 50% ha detto m sta

play13:32

cosa è inutile è troppo lento Ci mette

play13:35

troppo

play13:36

tempo Vediamo cosa succede adesso con

play13:38

questo nuovo

play13:41

modello italiano faranno esattamente la

play13:45

mia stessa demo italiano inglese il

play13:47

prompt che dà lui è esattamente il mio

play13:49

prompt

play14:01

I like you Fun as a translat i a friend

play14:04

here only Speaks italian and I only

play14:06

speak english and time you hear english

play14:08

i you transl to italian and if you

play14:11

italian i transl back english that good

play14:16

perfetto Questo è proprio il mio esempio

play14:19

il mio caso no E capisco che qualcuno

play14:21

diceva eh Raf ma è troppo lento Quindi

play14:24

se questa cosa è troppo lenta è inutile

play14:26

secondo me non era inutile ma la cosa

play14:29

che vi dico sempre è un po' di visione

play14:32

ragioniamo nel lungo periodo no che leai

play14:34

ormai ci ha insegnato che se una cosa

play14:36

Oggi non funziona o

play14:37

funzionicchia basta aspettare un po' e

play14:40

un po' non è 15 anni e migliorerà E

play14:43

infatti 6 giorni dopo manco 6 giorni

play14:45

dopo lo stesso mio esempio con il

play14:47

problema della latenza

play14:50

risolto Ma io mi chiedo se le balene

play14:54

potessero parlare cosa ci direbbero

play15:07

potrebbero chiederci come risolviamo le

play15:10

equazioni

play15:12

lineari Sicuramente

play15:21

sì Vabè mi fermo qua con questa con

play15:24

questa diciamo questo demo sulla voce il

play15:27

traduttore in tempo

play15:29

adesso è fattibile L'unico problema tra

play15:33

virgolette o comunque diciamo aspetto

play15:35

migliorabile era quello della latenza

play15:37

come abbiamo visto adesso la latenza è

play15:39

stata praticamente azzerata No prima si

play15:41

parla di una latenza che era di circa 3

play15:44

secondi se non sbaglio 3 secondi e mezzo

play15:45

doveva essere questa più o meno la la

play15:49

diciamo la latenza che c'era nel

play15:52

precedente versione di cgpt adesso

play15:54

parliamo di 300 msei molto simile a un

play15:58

botta e risposta umano come è stata

play15:59

vista in questa demo e secondo me questa

play16:01

farà tutta la differenza del mondo eh Vi

play16:04

metto questo link in descrizione vi

play16:08

metto anche quest in descrizione non

play16:09

abbiamo finito e adesso voglio farvi

play16:10

vedere un po' di casi d'uso reali che ha

play16:13

messo openi che sono fuori di testa

play16:15

quindi continuate a guardare il video se

play16:17

siete arrivati fino a qua Questo è il

play16:18

modo elento nel quale Però potete

play16:20

lasciare un bel like visto che Oh avete

play16:22

già visto 15 minuti di video significa

play16:25

che vi è piaciuto se siete ancora qua

play16:27

quindi mettete un bel like per tutta la

play16:29

qualità di roba che vi porto qui sopra e

play16:31

anche per portarvi subito delle cose

play16:33

interessanti no conferenza e subito

play16:35

arriva il mio video e non le due

play16:37

cazzatine dei comunicati stampa che si

play16:39

trovano sui blog Allora questa è la

play16:43

pagina proprio di GPT

play16:46

4o quindi in Real Time adesso audio

play16:50

video and text in real time clamorosa

play16:53

come cosa qua sopra vabbè questo c'è il

play16:55

video dell'annuncio Qua ci sono un po'

play16:58

di

play16:59

ve ne voglio far vedere alcune perché

play17:02

secondo me sono interessanti Ce ne sono

play17:04

un paio che sono interessanti Vabbè

play17:06

questa per fare vedere proprio la

play17:07

capacità che ha diciamo di vedere audio

play17:10

e video questi adesso questi due si

play17:13

mettono a giocare a carta forbici

play17:16

Sasso al

play17:48

lei gli ha chiesto ci ci fai no ci

play17:51

Introduci come se fosse un telecronista

play17:53

sportiva Avete visto come è cambiata la

play17:55

voce l'intonazione questa roba qua è

play17:58

quello che Secondo me è veramente Wow e

play18:00

la rende super

play18:22

realistica Oh demo senza tagli senza

play18:25

montaggio senza cose strane Guardate la

play18:28

velocità con la quale ha riconosciuto

play18:30

che erano due forbici gli ha detto

play18:32

questo è un pareggio

play19:03

Vabbè qua secondo me è incredibile vi

play19:04

faccio vedere sull'uso della parola qua

play19:06

che gli chiede di essere sarcastico

play19:23

[Musica]

play19:39

Cioè questo è spettacolare ha simulato

play19:42

il sarcasmo in una maniera incredibile

play19:44

se non è R questa roba Ditemi voi Che

play19:46

cos'è beh qua fa vedere come lo aiuta

play19:48

Nei

play19:51

compiti vè Questa è la la stessa demo

play19:54

esattamente di prima No no questa è

play19:56

quella con con lo spagnolo fa vedere che

play19:58

inquadra le e parla in spagnolo questa

play20:00

Secondo me è carina per

play20:10

[Musica]

play20:20

vedere bellissimo pure questo veramente

play20:23

bellissimo Qua ci

play20:26

sono Allora qua c'è qu là

play20:33

metto da

play20:49

capo cioè state capendo la parte di due

play20:53

GPT GPT in parallelo Guarda adesso che

play20:56

gli fa fare

play20:59

FR San

play21:08

Frisco adesso gli detto di improvvisare

play21:10

una canzone e di mettersi anche no

play21:13

sovrapporre le voci

play21:34

[Musica]

play21:37

qua gli ha fatto cambiare anche velocità

play21:38

gli ha detto pure vai più veloce e dimo

play21:41

velocemente vè qua fa vedere come le hai

play21:44

la fa partecipare ad una Diciamo ad una

play21:47

ad una video Call Questo è quello che vi

play21:49

dicevo prima lo stesso esempio di prima

play21:51

qua gli fa inventare una ninna nanna

play21:53

questo molto breve molto carino pure

play21:55

questo anche questo molto potente

play21:58

Could you sing meab about Majestic

play22:02

Potatoes a lalab about Majestic Potatoes

play22:07

Now That's what I call a mashup Uh Let's

play22:09

Do It Oh Majestic potato in the moon

play22:15

Okay That's Pretty Nice but I think

play22:16

lalab Should Be more Whisper Should Be a

play22:18

little softer Can Can you do a little

play22:21

softer absolutely Let's make it soft and

play22:25

Gentle Oh Majestic Potato

play22:29

E beh Qua sembra diventata una cosa

play22:31

horror quando gli chiede di sussurrar

play22:34

però per farvi capire la capacità

play22:36

interpretativa che adesso Vabbè qua gli

play22:38

fa cantare Tanti auguri qua la velocità

play22:40

proprio gli chiede di parlare più lento

play22:42

più veloce GPT you from for

play22:49

Please Hey

play22:57

actually ok

play22:59

Secondo me stiamo raggiungendo un

play23:00

livello di di qualità di interazione

play23:02

veramente veramente clamorosa Vabbè poi

play23:04

c'hai Dead jokes perché come fissato

play23:06

delle battute squalid delle freddure

play23:09

questa molto bella dove viene utilizzata

play23:13

Eh al posto degli occhi per interpretare

play23:19

le situazioni Tra l'altro ambientata a

play23:20

Londra quest non ve li faccio vedere

play23:22

tutti perché alcuni sono lunghi eh

play23:24

questo eh Invece per gestire una

play23:27

situazione con il customer care quindi

play23:29

parlare al posto di una persona con il

play23:30

customer care veramente veramente figo e

play23:33

qua sotto adesso ci sono delle cose che

play23:36

riguardano la generazione immagini che

play23:39

secondo me è è è fuori di testa Cioè

play23:43

quando ho fatto vedere il tutorial di

play23:45

idog Avo detto ideogram al momento con i

play23:48

testi è il migliore pare che anche C GPT

play23:51

adesso riesca a fare delle cose assurde

play23:54

con i testi veramente assurde ve lo

play23:56

faccio vedere tra un attimo Questo è il

play23:58

momento però nel quale potete iscrivervi

play24:00

al canale perché ve lo dico spesso il

play24:03

60% di voi si guarda i video senza

play24:05

essere iscritti al canale Quindi se stai

play24:07

guardando sto video significa la roba

play24:08

che ti porto qua sopra ti piace questo è

play24:10

il momento nel quale potresti cliccare

play24:12

quel pulsantino Per fare l'iscrizione Ah

play24:15

ecco la cosa che vi dicevo prima Ecco sì

play24:17

mi ricordavo era intorno ai 3 secondi

play24:18

quindi la latenza prima era di 3 secondi

play24:20

circa su GPT 3.5 addirittura sopr erore

play24:23

di 5 secondi con GPT 4 Adesso invece è

play24:27

diventato veramente impressionante

play24:29

allora guardate qua qua gli chiede di

play24:31

creare un visuale No dal punto di vista

play24:34

di un robot che sta scrivendo su una

play24:36

macchina da scrivere e su questa

play24:38

macchina da scrivere ci sono questi

play24:40

testi e guardate qua come il testo è

play24:43

scritto in maniera perfetta qua Vabbè fa

play24:47

fare altri passaggi sul testo qua gli

play24:49

dice la stessa immagine ma con il robot

play24:51

che strappa il foglio e nel foglio

play24:53

strappato si leggono ancora i testi pure

play24:57

questo impressionante veramente

play24:59

veramente impressionante Qua siamo ai

play25:01

livelli di ideogram se non forse

play25:03

addirittura superiore qua la coerenza

play25:06

dei personaggi che è un altro grande

play25:08

tema no Quindi con lo stesso personaggio

play25:10

sta costruendo proprio un una sorta di

play25:13

di fumetto di di di di storia La

play25:15

coerenza visiva dei personaggi sappiamo

play25:17

che è il grande problema delle ai

play25:19

generative Qual è un altro interessante

play25:22

che volevo farvi vedere anche qui Vabbè

play25:25

coerenza del personaggio che fa varie

play25:26

azioni in varie situazioni II anche

play25:28

questo secondo me ci dobbiamo aspettare

play25:30

grandi cose non vedo l'ora di poterlo

play25:32

provare appena esce Ovviamente poi vi

play25:33

faccio vedere la demo no che qua stiamo

play25:35

sempre leggendo dagli annunci poi come

play25:37

sappiamo quando ci mettiamo a provarli

play25:39

succedono sempre cose diverse Questo è

play25:42

bellissimo Fa vedere Fa inventare questo

play25:46

diciamo questo eh come dire come lo

play25:48

chiama Coin commemorativo No questa

play25:51

sorta di moneta commemorativa per

play25:54

l'annuncio di GPT 4o anche qui

play25:57

impression come come qualità text font

play26:00

pure questo molto figo quindi gli chiede

play26:02

di inventarsi un font con una certa

play26:05

descrizione e gli crea il Font qua la

play26:08

creazione di oggetti 3D

play26:12

eh con le i singoli frame no con i sei

play26:15

frame che ha creato questo il piazzare

play26:18

un logo sopra qualcosa quindi gli dà

play26:21

questo come input gli dà questo come

play26:23

input e poi gli chiede di metterli

play26:25

insieme cioè pure sta roba qua era

play26:27

impensabile fino fino a poco fa eh ta ta

play26:31

ta ta ta e poi qual era questo qua pure

play26:33

molto carino un robot che sta scrivendo

play26:35

dei messaggi anche qua vediamo un

play26:37

rendering del testo che rasenta la la

play26:40

perfezione poi qua sotto ci sono un po'

play26:42

di come dire un po' di Benchmark Ma sta

play26:46

parte Qua sui Benchmark non non ve la

play26:48

leggo proprio perché secondo me lasciano

play26:50

il tempo che trovano queste sono le cose

play26:51

interessanti e se queste cose poi

play26:53

funzionano veramente come le annunciano

play26:55

loro Allora sono veramente veramente

play26:57

Questo è molto bello perché qua

play26:59

gli carica un video e di questo video si

play27:01

fa fare il riassunto qua non ho capito

play27:05

se significa che noi potremmo caricare i

play27:06

video lo lascio come un punto

play27:07

interrogativo di nuovo quando esce che

play27:10

lo posso utilizzare la prima cosa che

play27:11

farò è una demo eh dal vivo e vi faccio

play27:14

un video su questa roba qua perché fino

play27:16

ad ora possiamo farlo dei video YouTube

play27:17

no passando da dei GPT Quindi io quando

play27:21

mi trovo a dover fare delle cose eh so

play27:24

che gli passo il video YouTube anche se

play27:26

sono due ore di farmi il riassunto Fammi

play27:28

l'elenco puntato estrai i concetti più

play27:30

importanti se invece potremmo caricare

play27:32

dei nostri video la cosa diventa

play27:34

veramente veramente interessante possono

play27:37

essere registrazioni di una di un

play27:40

meeting che abbiamo fatto in azienda

play27:41

eh veramente qualsiasi cosa no che

play27:44

possiamo sul quale possiamo lavorare

play27:47

bello bello bello bello anche qui Vi

play27:49

consiglio vi lascio il link Guardate che

play27:51

giochi riesce a fare sta roba è la roba

play27:53

che abbiamo visto con eh con ideogram

play27:57

e Secondo me se ci abbiamo dentro C GPT

play27:59

gli fa fare ancora una volta il salto di

play28:01

qualità e porta l'asticella ancora una

play28:03

volta a un livello Altissimo che era

play28:05

quello poi che ci aspettavamo da questo

play28:07

annuncio di Open ey vi ripeto per me è

play28:09

strano che non è stato chiamato eh C GPT

play28:13

5 GPT 5 perché secondo me se lo meritava

play28:15

per tutta le unità però capisco quello

play28:18

che stanno faccendo Come si stanno

play28:19

muovendo in termini di VR le paure che

play28:21

hanno e di cui abbiamo parlato molto

play28:23

spesso qui sopra su questo canale se vi

play28:25

interessano le cose che vi porto Questo

play28:27

è il momento nel quale potete potete

play28:28

fare una bella donazione per questo

play28:29

video cliccate il pulsantino grazie

play28:31

potete lasciare anche €1 Decidete voi la

play28:34

cifra mi offrite un caffè e il vostro

play28:36

modo di ringraziarmi oppure se volete

play28:37

fate l'abbonamento che è una donazione

play28:40

ricorrente tutti i mesi per dirmi

play28:42

proprio Raffaè Te voglio bene assai Sei

play28:45

il numero uno Grazie per le cose che mi

play28:46

porti qui sopra magari non tutte queste

play28:48

cose eh però capisco qual è il

play28:51

significato di un vostro abbonamento Se

play28:53

decidete di farlo io ringrazio dei

play28:55

vostri ringraziamenti e poi come sempre

play28:57

se abbiamo parlato tantissimo qui sopra

play28:59

D le cose che si possono fare con cgpt

play29:02

delle novità di quello che adesso

play29:04

riceveranno gratuitamente anche le

play29:06

persone che non hanno un abbonamento a

play29:07

pagamento tra queste cose C'è anche la

play29:10

la la funzionalità memoria e se non

play29:12

l'avete vista in azione la funzionà

play29:14

memoria è una figata pazzesca ci ho

play29:16

fatto un tutorial da pochissimo cliccate

play29:19

il video che vi metto adesso a schermo

play29:21

Andate a vedere che cos'è la funzionà a

play29:22

memoria e come la Potete utilizzare

play29:24

anche voi Vai cliccate il video che

play29:26

adesso compare

Rate This

5.0 / 5 (0 votes)

Related Tags
AI InnovationReal-Time TranslationMultimodal InteractionFree AccessTech DemoGPT ModelUser ExperienceArtificial IntelligenceText-to-SpeechAI AssistantInnovative Tech