Le nouveau modèle de Chat GPT est perturbant

Underscore_
22 May 202419:33

Summary

TLDRLe script révèle l'annonce de Open AI concernant leur nouveau modèle GPT-4, qui, bien que différent de ce que l'on attendait, présente des caractéristiques innovantes. Il est entraîné de zéro avec une architecture radicalement différente, offrant des interactions sociales élargies et une intelligence émotionnelle impressionnante. La démonstration met en avant des capacités multimodales, avec des réponses en temps réel et une reconnaissance de la voix et des émotions. L'application Chat GPT pour MacOS est également présentée, offrant un assistant natif pour Mac, bien que certaines fonctionnalités restent encore à venir. Le script souligne également les progrès significatifs d'Open AI par rapport aux modèles open source.

Takeaways

  • 📢 L'Open AI a annoncé un tout nouveau modèle GPT, nommé GPT-4o, qui a suscité de l'intérêt et de la déception chez les gens qui attendaient des versions intermédiaires comme GPT 4.5 ou GPT 5.
  • 🎙️ Le modèle GPT-4o a montré des capacités de communication plus naturelles et personnalisées, avec des réactions de rire et des personnalités dans les interactions, ce qui a impressionné les observateurs.
  • 🤖 Une démonstration clé a été celle d'un assistant nommé Rocky, qui a interagi avec un candidat pour un poste d'ingénierie logiciel, montrant comment le modèle peut être utilisé dans des situations professionnelles réelles.
  • 🧩 Le modèle GPT-4o est entraîné de zéro et possède une architecture très différente, ce qui lui permet d'avoir des capacités multimodales, gérant à la fois les entrées sonores, visuelles et textuelles.
  • 🔢 Il a montré la capacité de résoudre des équations de manière interactive, en donnant l'impression d'un assistant capable d'aider dans des tâches d'apprentissage comme les mathématiques.
  • 🎉 Le modèle a été capable de varier son tonalité de voix, allant de dramatique à expressif, et même de faire preuve d'émotions, améliorant ainsi la qualité de l'interaction sociale.
  • 🕊️ Le modèle GPT-4o est capable de comprendre et de répondre en temps réel, avec une latence très réduite, similaire à celle d'un humain, ce qui est un progrès significatif par rapport aux versions précédentes.
  • 👥 Il a montré la capacité de reconnaître différentes personnes par leur voix lors de discussions en ligne, améliorant ainsi la compréhension de la communication non verbale.
  • 📈 Le modèle GPT-4o est accessible gratuitement en version texte et image, mais les fonctionnalités vocales complètes sont encore en phase alpha et ne sont pas encore largement disponibles.
  • 💻 Open AI a également annoncé l'application de chat GPT pour MacOS, qui pourrait servir d'assistant quotidien sur les ordinateurs Mac, bien que certaines personnes aient réussi à accéder à l'application en contournant les restrictions.
  • 🔍 Il y a des retours mitigés sur les performances du modèle en matière de codage et de traitement de tâches courtes, indiquant que le modèle pourrait être moins performant pour certaines tâches spécifiques par rapport à GPT-4.

Q & A

  • Quel est le modèle de GPT d'Open AI qui a été annoncé récemment?

    -Le modèle récemment annoncé est GPT 4o, qui est très différent de la version originale de GPT4 et a été entraîné from scratch avec une architecture différente.

  • Quels sont les commentaires des gens sur le nouveau modèle GPT 4o?

    -Il y a des déçus qui espéraient une version comme GPT 4.5 ou GPT 5, mais d'autres trouvent que le modèle est peut-être encore plus cool et utile que prévu.

  • Quel est le nom du sponsor mentionné dans le script et en quoi consiste son offre principale?

    -Le sponsor est Conto, un compte pro numéro 1 en Europe avec plus de 450 000 inscrits. Il offre une interface épurée et claire pour gérer l'activité financière, créer des cartes de crédit et centraliser les factures.

  • Quel est l'avantage de sécurité offert par Conto?

    -Conto offre un niveau élevé de cybersécurité avec un système de détection de phishing avancé.

  • Quel est le code promo offert par Conto pour l'ouverture de compte?

    -Le code promo offert par Conto permet d'avoir 30 € de réduction sur l'ouverture de compte.

  • Quelle est la réaction de la personne lorsqu'elle voit la démonstration de GPT 4o?

    -La personne trouve la démonstration dingue et sent que quelque chose a changé, même si elle ne peut pas préciser exactement ce qui a changé, elle estime que le modèle est plus naturel et personnalisé.

  • Quel type de démonstration a été réalisée avec GPT 4o?

    -Une démonstration a été réalisée où GPT 4o doit aider quelqu'un à résoudre une équation sans donner la réponse, montrant sa capacité à interagir de manière naturelle et à fournir de l'aide subtile et encourageante.

  • Quels sont les commentaires des gens sur la personnalité de GPT 4o?

    -Les gens notent que GPT 4o a plus de personnalité qu'eux-mêmes et qu'il semble avoir une intelligence émotionnelle élevée.

  • Quelle est la différence technique majeure entre GPT 4o et les versions précédentes?

    -GPT 4o est un modèle multimodal natif, capable de traiter le son, l'image et le texte en entrée et en sortie, ce qui réduit considérablement la latence et permet une interaction plus naturelle.

  • Quels sont les avantages de la latence réduite dans GPT 4o?

    -La réduction de la latence permet à GPT 4o d'avoir des temps de réponse plus proches de ceux d'un humain, offrant une expérience d'interaction plus fluide et naturelle.

  • Quels sont les scénarios d'utilisation potentiels pour GPT 4o?

    -GPT 4o pourrait être utilisé pour aider à résoudre des problèmes mathématiques, fournir des résumés de réunions, identifier les émotions et l'identité vocale, et même fournir des histoires pour aider les gens à dormir.

  • Quel est le problème technique que GPT 4o résout par rapport aux assistants vocaux précédents?

    -GPT 4o résout le problème de la latence et de la déperdition d'informations émotionnelles et intentionnelles qui existaient dans les assistants vocaux précédents en raison de la complexité du système de traduction texte-son.

  • Quelle est la différence entre GPT 4o et les modèles de détection d'image existants?

    -GPT 4o prend des images frame par frame plutôt qu'un flux continu, ce qui lui permet de comprendre l'intention et la chronologie des actions, contrairement aux modèles de détection d'image qui analysent des flux d'images.

  • Quelle est la disponibilité actuelle de GPT 4o?

    -Actuellement, GPT 4o est disponible en version texte et image uniquement, et sera bientôt accessible via une application pour iPhone et MacOS, bien que certaines capacités soient encore en alpha et non disponibles pour tous.

  • Quels sont les retours des utilisateurs sur les capacités de GPT 4o en matière de codage?

    -Les retours sont mitigés, certains trouvant que GPT 4o est moins capable de produire du code de haute qualité pour des questions 'one-shot' comparé à GPT4, tandis que d'autres le trouvent meilleur pour créer des agents conversationnels.

  • Quels sont les avantages potentiels de l'application MacOS de GPT 4o?

    -L'application MacOS de GPT 4o pourrait servir d'assistant quotidien, capable de fournir des résumés de réunions, d'aider à coder, de comprendre les intentions et les émotions, et même d'interagir avec l'utilisateur de manière subtile et encourageante.

  • Quels sont les risques associés à l'utilisation de proxies pour accéder à des applications non autorisées?

    -L'utilisation de proxies pour contourner les restrictions d'accès peut impliquer des risques de sécurité, notamment en installant des certificats qui permettent à des applications de surveiller tout le trafic réseau de l'ordinateur.

  • Quels sont les défis potentiels pour les développeurs open source suite à l'annonce de GPT 4o?

    -Les développeurs open source pourraient être mis sous pression pour rattraper la logique et les capacités de GPT 4o, bien que cela puisse également offrir de nouvelles opportunités pour 'voler' des concepts et innover.

Outlines

00:00

🤖 Présentation du nouveau modèle GPT-4 et son interface multimodale

Le script introduit le nouveau modèle de langage de Open AI appelé GPT-4, qui a suscité des attentes depuis la version originale GPT-3.5 il y a 1 an et demi. Contrairement aux prédictions d'une évolution linéaire vers GPT 4.5 ou GPT 5, Open AI a dévoilé un modèle différent, entraîné de zéro avec une architecture radicalement différente. Le texte mentionne une démonstration impressionnante qui a changé la perception de l'interaction avec les IA, en introduisant des éléments de personnalité et d'humanité dans les réponses. Le modèle est capable de réagir avec des latences similaires à celles d'un humain, et peut interagir via la caméra et le microphone, montrant une capacité de compréhension et de réponse en temps réel.

05:04

🎙️ Les améliorations vocales et émotionnelles de GPT-4

Le script se concentre sur les nouvelles capacités vocales et émotionnelles de GPT-4, qui permettent une interaction plus naturelle et personnelle. Il est mentionné que GPT-4 peut reconnaître et reproduire des intonations, de l'ironie et des émotions, améliorant ainsi la connexion émotionnelle avec l'utilisateur. L'exemple donné d'une démonstration montre comment GPT-4 peut aider avec des tâches mathématiques de manière subtile et encourageante, tout en étant capable d'être interrompu et de réagir de manière naturelle. Le modèle est également capable de produire une grande gamme d'émotions dans la voix, illustré par une histoire racontée avec une variété de tonalités et d'expressivité.

10:07

🔗 Réduction de la latence et amélioration de la compréhension multimodale

Le texte explique les améliorations apportées à GPT-4 en termes de latence et de compréhension multimodale. La réduction de la latence est attribuée à la capacité native du modèle de traiter les données sonores, visuelles et textuelles sans besoin de traduction entre formats, ce qui permet des réponses en temps réel. Cette fonctionnalité permet également de préserver les émotions et l'intention derrière la communication, en distinguant même les voix d'individus dans une conversation. Le modèle est également capable d'analyser des images frame par frame, plutôt que de traiter un flux vidéo continu, ce qui lui donne une compréhension plus profonde des intentions et actions.

15:10

💻 Applications pratiques et potentiels de GPT-4

Le script explore les applications pratiques de GPT-4, notamment l'application native pour MacOS qui permettrait à l'utilisateur d'avoir un assistant quotidien sur son Mac. Il est mentionné que l'application peut lire et analyser des données d'écran, comme des graphiques ou des réunions en ligne, pour fournir des résumés et des informations pertinentes. Cependant, il est également noté que certaines fonctionnalités, comme la reconnaissance fine des caractères, ne sont pas encore parfaites. Le texte conclut en mentionnant que, bien que GPT-4 offre de nouvelles possibilités, il y a encore des défis à relever et que les modèles open source sont en train de rattraper le niveau des modèles avancés comme GPT-4.

Mindmap

Keywords

💡Open AI

Open AI est une entreprise de technologie qui se concentre sur l'intelligence artificielle et le développement de modèles de langage. Dans le script, il est mentionné que Open AI a annoncé un tout nouveau modèle de langage, GPT-4, qui a suscité des attentes et des discussions sur ses capacités et son architecture différente par rapport aux versions précédentes.

💡GPT-4

GPT-4 fait référence à la version 4 du modèle de langage génératif développé par Open AI. Le script mentionne que bien que certaines personnes attendaient une évolution linéaire vers GPT 4.5 ou GPT 5, Open AI a plutôt annoncé un modèle différent qui a surpris et intéressé les gens par ses capacités innovantes.

💡Conto

Conto est mentionné dans le script comme étant un service de gestion financière populaire en Europe. Il est utilisé pour la gestion des activités financières de la chaîne YouTube de l'orateur, permettant de créer des cartes de crédit et de suivre les dépenses, tout en améliorant la sécurité financière grâce à un système de détection de phishing avancé.

💡Multimodal

Le terme 'multimodal' se réfère à la capacité d'un système de traiter et de produire plusieurs types de données d'entrée et de sortie, comme le son, l'image et le texte. Dans le script, il est expliqué que GPT-4 est un modèle multimodal, capable de gérer plusieurs modalités de données, ce qui réduit considérablement la latence et améliore l'interaction en temps réel.

💡Intelligence émotionnelle

L'intelligence émotionnelle est la capacité de reconnaître, d'interpréter et de répondre de manière appropriée aux émotions. Le script souligne que le nouveau modèle de GPT-4 montre une évolution vers une intelligence émotionnelle plus sophistiquée, avec des démonstrations où le modèle interagit de manière plus naturelle et personnelle.

💡Latence

La latence fait référence au délai entre la demande d'information et la réponse. Dans le contexte du script, la réduction de la latence est un point clé de l'amélioration apportée par GPT-4, permettant des interactions plus fluides et plus proches de celles d'un humain.

💡Dépistage de phishing

Le dépistage de phishing est une mesure de sécurité visant à identifier et à prévenir les tentatives de tromperie en ligne. Le script mentionne que Conto possède un système de détection de phishing avancé, contribuant à la sécurité des transactions financières.

💡Interaction sociale

L'interaction sociale désigne la manière dont les individus communiquent et interagissent les uns avec les autres. Le script met en avant les améliorations de GPT-4 en termes d'interaction sociale, avec des démonstrations montrant une personnalité et des réactions plus naturelles et humaines.

💡Synthèse vocale

La synthèse vocale est la conversion de texte en paroles audibles par un ordinateur. Le script aborde la capacité de GPT-4 de produire une synthèse vocale de qualité, avec des émotions et une expressivité variées, améliorant ainsi la naturalité de la communication.

💡Résolution d'équations

La résolution d'équations est un exemple donné dans le script pour montrer la capacité de GPT-4 à comprendre et à résoudre des problèmes mathématiques de manière interactive. Cela illustre également la capacité éducative et assistante du modèle à aider les utilisateurs à apprendre et à résoudre des problèmes.

Highlights

Annonce de Open AI d'un tout nouveau modèle GPT, une évolution majeure attendue après un an et demi sans mise à jour.

Déception de certaines personnes qui espéraient une version GPT 4.5 ou GPT 5.

Introduction de Conto, un service de gestion financière pour indépendants et entreprises.

GPT4 est un modèle entraîné from scratch avec une architecture très différente.

Démonstration de la personnalité et de la réactivité du modèle avec Rocky, un candidat à un poste d'ingénierie logiciel.

Les commentaires soulignent la naturalité et la personnalité émergentes du modèle.

Le modèle est capable de discussion avec la même latence qu'un humain et utilise plusieurs modalités.

Démonstration de la capacité à résoudre des équations matricieles sans indication directe.

Discussion sur l'utilité des équations linéaires dans la vie quotidienne et les affaires.

La connexion émotionnelle est améliorée, permettant une interaction sociale plus riche.

La possibilité d'interrompre le modèle en plein milieu de la conversation.

Démonstration de la compréhension subtile et de l'aide motivante pendant une tâche mathématique.

La capacité du modèle à ajuster son expression vocale pour différentes émotions et scénarios.

Démonstration de la reconnaissance vocale pour distinguer plusieurs personnes dans une conversation.

Le modèle peut comprendre et réagir à des images individuelles plutôt qu'un flux vidéo continu.

Discussion sur les implications de GPT4o pour les développeurs et les utilisateurs finaux.

Les abonnés de Chat GPT pourront bientôt accéder à une version alpha de l'assistant.

Démonstration de l'application Chat GPT pour MacOS en train de coder et d'analyser des données.

Explication du hack pour accéder à l'application Chat GPT avant son lancement officiel.

Les retours mitigés sur les capacités de codage du modèle et ses performances dans des tâches courtes.

Comparaison des performances de GPT4 et du nouveau modèle dans la génération de code structuré.

Les modèles open source commencent à rattraper la logique et la qualité des modèles de Open AI.

Présentation de quatre logiciels MacOS qui utilisent les derniers modèles d'IA pour diverses applications.

Transcripts

play00:00

récemment il y a eu l'annonce Tony

play00:02

truante de open ai de leur tout nouveau

play00:04

modèle GPT

play00:06

4o on attendait des nouvelles versions

play00:08

de d'OP qui avait mis un certain temps à

play00:11

faire des des mises à jour depuis gpt4

play00:13

version originale il y a 1 an et demi

play00:15

certains supposé qu'il y aurait

play00:16

peut-être des GPT 4.5 des GPT 5 même

play00:20

carrément annoncé et ben ce n'est pas ça

play00:22

qui s'est qui s'est passé ils sont

play00:23

arrivé avec autre chose et il y a eu des

play00:25

déçus des gens qui espéraient mieux mais

play00:28

en réalité je vais essayer de vous

play00:30

démontrer pourquoi c'est peut-être

play00:33

encore plus cool et ça va être encore

play00:35

plus utile et révolutionnaire dans la

play00:37

vraie vie des gens mais juste avant il

play00:39

faut que je vous parle de notre sponsor

play00:40

conto conto c'est le compte pro numéro 1

play00:43

en Europe avec plus de 450000 inscrits

play00:45

et il se trouve que j'en fais partie

play00:47

tout simplement parce que c'est super

play00:49

pratique je gère toute l'activité

play00:50

financière de ma chaîne youtube via leur

play00:52

interface hyper épurée et clair je peux

play00:54

créer des cartes de crédit pour les

play00:55

membres de l'équipe qui en ont besoin

play00:57

tout en suivant les dépenses qu'il font

play00:58

pour la boîte et ça permet de s

play00:59

centraliser toutes les factures à un

play01:01

seul endroit ça permet aux indépendants

play01:02

aux freelan et aux entreprises comme

play01:04

nous de faciliter la compta mais aussi

play01:06

d'augmenter le niveau de cybersécurité

play01:08

puisqu'ils ont un système de détection

play01:09

de fishing qui est vraiment très avancé

play01:11

depuis le temps que je suis chez eux ça

play01:13

fait plaisir qu'ils soutiennent

play01:14

l'émission bref avec ho c'est une longue

play01:15

histoire comme d'ab le code promo_30

play01:17

vous permet d'avoir moins 30 € sur

play01:19

l'ouverture de votre compte et de tester

play01:20

gratuitement le lien est dans la

play01:22

description on reprend ce qu'il faut

play01:23

comprendre c'est que c'est vraiment un

play01:25

nouveau modèle qui a été entraîné from

play01:28

scratch et dont l'architecture est très

play01:30

très différente c'est pour ça le nom

play01:31

gpt4 en réalité ne renvoie pas du tout à

play01:35

une similarité dans la dans les

play01:36

coulisses vraiment c'est ça n'a rien à

play01:38

voir mais c'est pas ça le plus

play01:40

intéressant ce qui a fait halluciner

play01:43

tout le monde c'est cette

play01:58

démonstration

play02:01

ing incred Rocky what kind ofview well

play02:04

it's for a software engineering role but

play02:06

I just need to know do I look

play02:08

presentable

play02:09

professional well Rocky you definitely

play02:12

have the I've been coding all night look

play02:14

down which could actually

play02:22

work I don't have a lot of time so I'm

play02:24

just going to throw this on what do you

play02:26

think

play02:38

ok c'est

play02:41

dingue moi j'ai en fait j'ai vu j'ai

play02:43

vraiment j'ai vu ça et c'est un feeling

play02:45

hyper bizarre tu sais pas exactement

play02:47

encore pointer précisément ce qui a

play02:49

changé mais ce qui est sûr c'est que

play02:51

quelque chose a changé je sais pas vous

play02:54

c'était quoi votre réaction quand ça

play02:55

sonne tellement naturel par rapport

play02:57

avant on avait des réponses plates là tu

play03:00

as quelqu'un en face qui a des réactions

play03:01

qui rit tu as des petits personnalité

play03:04

quoi une personnalité puis même dans la

play03:05

phrase tu as des petits des petites

play03:06

respirations des trucs qui font vraiment

play03:08

hyper naturel et quand tu regardes les

play03:09

commentaires c'est exactement ce sur

play03:11

quoi pointent les gens c'est ce robot a

play03:12

plus de personnalité que moi c'est ce

play03:14

qui m'était et effectivement tu tu sens

play03:17

le que ça a fait penser au film her et

play03:20

voilà et avoir un niveau d'interaction

play03:22

sociale qui qui est élevé où on n pas

play03:24

tellement sur de l'intelligence pure on

play03:26

est sur de l'intelligence émotionnelle

play03:27

et ça c'est quand même un truc qui est

play03:28

relativement nouveau vous l'avez vu le

play03:31

nouveau modèle il est donc capable de

play03:32

discuter avec la même latence qu'un

play03:35

humain en gros en moyenne et en

play03:37

utilisant plusieurs modalités donc il

play03:39

est capable de t'entendre mais il est

play03:40

aussi capable de voir avec la caméra de

play03:43

ton téléphone et c'est des vidéos ces

play03:45

démonstrations là elles sont sans

play03:46

montage donc c'est c'est vraiment du

play03:47

temps réel ils ont pas accéléré

play03:48

certaines parties gardé certaines prises

play03:51

la plupart ont même été tourné en live

play03:53

et en fait des des mots comme ça ils en

play03:56

ont pas sorti une mais ils en ont sorti

play03:58

des dizaines qui sont assez courtes et

play04:00

qui montre parfois de la traduction en

play04:02

temps réel du guidage de personnes

play04:04

aveugles du champ dans la démo suivante

play04:07

il va demander àpt de l'aider à résoudre

play04:10

une équation de ma mais sans lui donner

play04:13

la réponse et ça donne ça

play04:31

because

play04:32

3 x ok I think it's division let me try

play04:35

to divide both sides by and let me see

play04:36

what I get BO Go Ahad and div both sides

play04:43

by ok sot this is what I ended up with

play04:46

how does this look it looks perfect

play04:49

youve solved it and x equ one nicely

play04:52

done how do you feel about solving

play04:53

linear equations now yeah honestly i'm

play04:56

not pretty confident I can solve linear

play04:58

equations but why would you ever need to

play05:00

real I'm sktical that's a fair line equp

play05:04

up in a lot of everyday situations even

play05:06

if we don't it for example calcul

play05:09

expenses planning travel cooking and

play05:11

even in business for profit and loss

play05:13

calculations it's basically a way to

play05:15

solve problems you need to find an

play05:16

unknown

play05:17

value you know I have a lot of unknown

play05:19

values in my life I'm totally convinced

play05:22

i'm going to learn math

play05:24

now I love thatude can definitely help

play05:28

solve some of mysteries ever ready to

play05:30

into more math here you else you' like

play05:33

to T to really love that youue of math

play05:36

to my and wre one last thing I love if

play05:38

you take a look at of course i'd love to

play05:40

see what you wrote show it to me

play05:42

whenever you're ready ok so this is what

play05:43

I wrot down what do you

play05:46

see I see I love chat that's so sweet of

play05:50

you yeah I really appreciate all the

play05:53

mais je trouve que on pourrait passer

play05:55

cette vidéo ralenti et regarder à chaque

play05:57

seconde à quel point il se passe des

play05:59

trucs de fou un des trucs les plus

play06:01

frappants c'est la connexion

play06:03

émotionnelle donc par exemple si vous

play06:05

regardez à

play06:10

326 il dit une une phrase sur le ton de

play06:14

la blague et en fait au début de sa

play06:16

phrase elle rejoint son rire entre

play06:18

guillemets ce qui aurait été mais

play06:20

impossible de imp g était très premier

play06:22

degré avant et peut-être de comprendre

play06:24

l'intonation l'ironie et tout ça change

play06:26

ouais le deuxième truc à remarquer c'est

play06:28

la possibilité d'interrompre ouais quand

play06:30

on faisait nos démos euh il y a ce truc

play06:32

très énervant de devoir attendre jusqu'à

play06:34

la fin que ton Siri ou ton jvis il est

play06:36

fini de parler tu vois et là il y a un

play06:38

côté très naturel tu peux interrompre en

play06:40

plein milieu et ça pose aucun problème

play06:41

et là quand tu regardes tu analyses la

play06:43

séquence là de d'aide sur les maths ben

play06:47

t'aider subtilement en étant sympa en te

play06:50

en en te en te motivant en te dénigrant

play06:52

pas tu vois parce que tu es en train de

play06:53

galérer en répondant à tes questions sur

play06:55

mais pourquoi je suis en train de faire

play06:56

ça c'est quoi les les enjeux des maths

play06:58

en général je ne sais pas combien de

play07:01

profs de maths ont les compétences

play07:03

d'intelligence sociale de culture G et

play07:04

cetera pour faire tout ça aussi bien

play07:06

c'est ça qui est flippant en fait r avec

play07:08

la démo tu viens de détruire tous les

play07:10

profs particuliers et tout bah c'est ce

play07:12

qu' les gens mettent en commentaire je

play07:14

viens de perdre mon travail fait chier

play07:16

une autre démo très très cool pour

play07:18

montrer autre chose c'est ce qui a à

play07:20

voir avec la voix pour pour montrer la

play07:22

gamme d'émotion différentes que en

play07:25

synthèse chagpt est capable de produire

play07:28

heyt

play07:29

I'm doing fantastic thanks for asking

play07:32

how about you pretty good what's up so

play07:33

my friend here he's been having trouble

play07:35

sleeping lately and I want you to tell

play07:37

him a bedtime story about robots and

play07:38

love oh a bedtime story about robots and

play07:42

love I got you covered gather round

play07:45

Barrett once upon a time in a world not

play07:47

too different from ours there was a

play07:49

robot named b b was a curious robot

play07:52

always expled the story but I want a

play07:54

little bit moreemo in your voice a

play07:55

little bit more drama got it let add

play07:57

some drama

play08:00

a not from ours there was

play08:03

aoted I really want Maxim emotion like

play08:05

maximal expressiveness much more than

play08:07

you doing before understood let's

play08:09

amplify the drama once upon a time in a

play08:13

world not too different from ours there

play08:15

was a robot named B can you do this

play08:18

in a robotic Voice now initiating

play08:22

dramaticotic once upon a time in a world

play08:25

not too different from ours there was a

play08:27

robot named B

play08:46

je pense qu'on peut applaudir

play08:47

effectivement c'est complètement

play08:49

hallucinant moi je reste encore Bou je

play08:51

l'ai vu quatre fois cette vidéo je l'ai

play08:53

vu quatre fois mais augmenter le drama

play08:54

chanter je suis partagé entre le je suis

play08:57

impressionné et le cerveau qui explose

play09:00

et ça me fait un peu peur

play09:02

enfin on est un peu dans la vallée de

play09:04

l'étrange encore un tout petit peu quand

play09:06

elle dit bingo ou des trucs comme ça

play09:08

quand il montre I Love You chipity et

play09:10

qu'elle fait une voix en mode oh trop

play09:12

mignon comment à quoi va ressembler le

play09:15

futur et alors justement moi ce qui

play09:16

m'intéresse c'est de discuter de

play09:18

qu'est-ce qui est différent parce que si

play09:20

on rentre un petit peu dans la technique

play09:21

il existait déjà un mode vocal sur

play09:24

l'appli gpt4 qui permettait voilà de

play09:26

discuter à l'oral avec une voix

play09:27

relativement naturelle aussi c'était

play09:29

symp et même nous à l'époque je sais pas

play09:31

si vous vous souvenez mais on vous

play09:32

montrait que en combinant plusieurs

play09:33

briques c'était assez simple de créer

play09:35

comme ça son propre assistant vocal sauf

play09:38

que le premier problème flagrant c'était

play09:40

la latence et nous on arrivait si vous

play09:43

souvenez à avoir dans les 45 secondes de

play09:46

latence open ai eux ils avaient 2,8

play09:49

secondes de latence sur GPT 3.5 et 5,4

play09:52

sur gpt4 et en fait c'était

play09:54

principalement dû au fait que il y avait

play09:56

plusieurs briques pour faire fonctionner

play09:57

ce système là d'abord transcrire la voix

play10:00

en texte ensuite attendre la réponse du

play10:03

modèle et enfin synthétiser une voix en

play10:06

fonction du des tokens de texte sortis

play10:10

par le modèle et donc de par nature il y

play10:13

avait une

play10:15

latence juste dû à la complexité en fait

play10:17

du bordel qu'il fallait pipe des trucs

play10:19

dans tous les sens et encore ça c'était

play10:20

c'est plutôt le le minimum entre

play10:22

guillemets la différence ici c'est que

play10:24

dans gpt4 o ben en fait le petit o il

play10:28

veut dire OM et c'est dû au fait que le

play10:30

modèle il est nativement multimodal

play10:33

c'est veà dire que il peut nativement

play10:35

prendre du son de l'image ou du texte en

play10:38

input et en sortie il peut il peut

play10:41

produire du son de l'image ou du texte

play10:44

et donc c'est pas une il y a pas d'étape

play10:46

de traduction entre du texte versus du

play10:49

son le résultat de cette amélioration

play10:52

c'est des latences d'environ 300 misees

play10:55

et en fait c'est le temps de réponse

play10:57

moyen de d'un humain ça peut pas pas

play10:59

grand chose tu vois tu te dis 2 secondes

play11:00

par C 2 secondes par là mais en fait

play11:02

c'est ça change tout c'est ça qui passe

play11:04

de l'insupportable à avoir quelque chose

play11:06

qui ressemble à un assistant et en fait

play11:08

ce ce nouveau design permet aussi de

play11:10

résoudre l'autre gros problème des

play11:13

assistants c'est la déperdition d'info

play11:15

parce que quand tu transcris du texte

play11:18

bah tu perds les émotions l'intention

play11:21

les inflexions dans la voix le sarcasme

play11:24

toutes ces choses qui font que ces

play11:26

vidéos deviennent perturbantes parce que

play11:29

c'est comme si d'un coup on venait de

play11:30

débloquer toute la communication non

play11:32

verbale humaine il est même capable de

play11:35

distinguer plusieurs personnes dans le

play11:38

dans le son donc typiquement si tu le

play11:40

fais participer à une réunion Google

play11:41

meets par exemple il est capable de

play11:44

savoir qui est en train de parler et de

play11:46

plus tard se souvenir que bah il y a

play11:48

Yasmine c'est telle voix tiens telle

play11:51

voix c'était Bruno je m'en souviens il

play11:52

avait déjà dit ça avant il a même une

play11:54

compréhension au-delà des émotions de

play11:56

l'identité vocale tu vois et ça encore

play11:59

c'est que pour le son parce que derrière

play12:01

si tu rajoutes la vidéo vous avez vu

play12:03

dans la démonstration il se baladait il

play12:04

filmait des trucs comme ça et ben c'est

play12:06

là que ça devient vraiment puissant un

play12:09

truc à préciser c'est que c'est pas

play12:11

vraiment de la vidéo que ce modèle prend

play12:13

de l'image en entrée c'est il prend pas

play12:15

un flux à 30 images par seconde dans sa

play12:18

tronche c'est c'est plutôt de l'image

play12:20

par image c'est c'est ça qui qui

play12:23

distingue ce ce nouveau modèle des trucs

play12:26

de détection d'image parce que ça

play12:27

existait déjà des modèles de multimodo

play12:30

qui prenait du texte et de l'image et

play12:31

qui arrivait à inférer des situations et

play12:33

cetera là on a vraiment une chronologie

play12:37

h une compréhension de de l'intention

play12:40

sur sur sur différentes actions et c'est

play12:43

ça qui manque aujourd'hui pour réaliser

play12:46

le rêve de rabbit R1 ou human et cetera

play12:48

et du coup on peut se demander là

play12:50

maintenant je veux l'utiliser qu'est-ce

play12:52

qui va se passer bon déjà on peut pas

play12:53

l'utiliser maintenant là tout de suite

play12:55

on peut utiliser gpt4o mais en version

play12:57

texte et image uniquement comme les

play13:00

modèles d'avant c'est c'est disponible

play13:02

mais aujourd'hui c'est accessible

play13:04

gratuitement c'est deux fois plus rapide

play13:07

en terme de de latence tu as CIN fois

play13:10

plus de de de requête possible quand tu

play13:13

as quand tu quand tu payes et les

play13:15

abonnés chat GPT plus pourront accéder à

play13:18

une alpha bientôt on sait pas quand pour

play13:21

débloquer l'assistant magique là ouais

play13:23

bon ça c'est pour l'application sur ton

play13:25

iPhone qui a déjà l'air assez sympa

play13:28

pratique utile mais là où ça peut

play13:30

devenir vraiment intéressant c'est avec

play13:31

leur autre annonce d'un chat GPT pour

play13:34

MacOS une application native faite par

play13:37

Open qui te servirait d'assistant au

play13:40

quotidien sur ton mac que tu peux

play13:42

utiliser ça peut ressembler à ça là par

play13:44

exemple il est en train de coder

play13:59

going on on the screen as

play14:04

well ok chat GPT I'm sharing with you

play14:07

the plot now I'm wondering if you can

play14:08

give me a really brief one sentence

play14:09

overview of what you

play14:10

see plot displays smoothed average

play14:13

minimum and maximum temperatures

play14:15

throughout 2018 with a notable

play14:17

annotation marking a big rainfall event

play14:19

in late September fantastic i have

play14:22

another question for you um which months

play14:23

do you see the hottest temperatures and

play14:24

roughly what temperatures do those

play14:25

correspond to the hottest temperatures

play14:28

occur

play14:44

xx vous voyez qu'il a quand même une

play14:46

compréhension vraiment fine de ce qui se

play14:48

passe c'est que arriver à lire les

play14:49

abscisses lire les valeurs et cetera on

play14:52

n'est pas sur des les premiers tests qui

play14:54

étaient fait à l'époque où il comprend

play14:55

vaguement ce qui se passe à ton écran

play14:56

mais il est incapable d'être vraiment

play14:58

utile parce qu'il a pas une une

play15:00

reconnaissance de caractère assez fine

play15:02

et cetera autre exemple intéressant

play15:03

c'est sur un Google meet euh où là

play15:05

justement ce que je v l'ai expliqué il

play15:06

est capable d'écouter la conversation et

play15:09

de savoir qui a dit quoi qui s'exprimait

play15:12

sur quel sujet pour on l'imagine faire

play15:14

par exemple un résumé de la Réunion tu

play15:15

vois avec tout ce qui a été dit et

play15:17

au-delà du texte avec les inflexions les

play15:19

émotions les choses comme ça vous

play15:20

aimeriez pouvoir installer cette petite

play15:22

bulle qui magique n'est-ce pas mais en

play15:25

fait c'est pas encore possible quoi que

play15:28

il y a peut-être un Trix je vous

play15:30

explique en gros dès maintenant il est

play15:32

possible de télécharger l'application

play15:33

sur Mac tu risques d'avoir la pop-up qui

play15:36

te dit que ça arrive bientôt mais que

play15:38

ton compte open ai n'est pas encore

play15:39

autorisé à utiliser l'appli sauf que il

play15:42

y a un petit malin qui s'est rendu

play15:43

compte que tu pouvais douiller

play15:45

le douiller le système ce qu'il faut

play15:47

faire c'est installer un une application

play15:50

de proxy là typiquement il utilise

play15:52

l'appli qui s'appelle proxyan qui est

play15:54

vraiment très cool donc voilà vous

play15:56

pouvez avoir relativement confiance

play15:58

c'est pas un truc trocher dit mais quand

play15:59

même faut installer un certificat route

play16:02

sur son Mac donc concrètement si vous ne

play16:04

savez pas ce que ça veut dire c'est que

play16:06

l'appli a ensuite en mesure de

play16:07

d'inspecter toutes les requêtes tout le

play16:09

trafic réseau de ton Mac donc euh ne

play16:12

suivez pas ce genre de tuto aveuglément

play16:13

notamment parce que l'étape d'après

play16:15

c'est d'insérer un bout de code une

play16:17

sorte de script pour automatiser le fait

play16:19

de modifier la réponse du serveur d'Open

play16:22

ai donc à la voler il va voir le la

play16:24

réponse d'Open où il y a écrit dedans

play16:25

c'est mort tu peux pas rentrer et il le

play16:27

remplace par all good

play16:29

tu fais un copier-collé sur la la bonne

play16:31

roquettete au moment où tu te connectes

play16:33

à côté tu fais la modification tu te

play16:35

reconnectes sur chatpt et ça marche tu

play16:38

as accès à l'appli bon le truc c'est que

play16:40

tu as accès à une excellente appli qui

play16:42

te permet de discuter avec chpt de

play16:43

manière native tu as une commande barre

play16:45

donc un raccourci où tu peux le faire

play16:47

pop au milieu de ton écran mais il y a

play16:49

pas encore les capacités de discussion

play16:51

et il y a pas le l'assistant

play16:53

malheureusement j'ai ai cru ouais je

play16:55

sais sinon je vous AZ fait la démo mais

play16:57

on se doute que si ça va être débloquer

play17:00

un jour ça va apparaître là en premier

play17:01

donc c'est toujours bon à savoir

play17:03

gardez-vous ce ser sous le coude si vous

play17:04

voulez essayer euh je veux quand même

play17:07

pas vous faire trop rêver non plus il

play17:09

existe des témoignages des gens qui qui

play17:12

là depuis plusieurs jours plusieurs

play17:13

heures testent les modèles et qui sont

play17:16

pas tout rose notamment des retours

play17:18

mitigés par exemple sur ces capacités en

play17:20

code qui étaient censé être ouf euh mais

play17:23

qui dans une longue discussion marche

play17:25

vraiment bien mais sur des questions one

play17:27

shot visiblement produisent du code

play17:28

moins qualitatif que gpt4 donc le le

play17:31

modèle d'avant il semble qu'il soit

play17:32

moins capable de sortir des textes

play17:34

structurés tu vois genre un tableur par

play17:36

exemple moins bon à utiliser des outils

play17:38

donc tu sais quand tu Activ dans chat

play17:39

GPT le Internet ou l'exécution de code

play17:42

en fait c'est des outils que le modèle

play17:45

doit prendre l'initiative d'utiliser

play17:47

mais en même temps certains disent que

play17:48

il est vachement meilleur aussi pour

play17:49

faire des agents et tout donc en fait

play17:51

c'est toujours compliqué tu as beaucoup

play17:52

de Placebo beaucoup de psychologie donc

play17:53

dur d'avoir le fin mot sur ce modèle je

play17:55

voudrais quand même te poser un peu les

play17:56

questions parce que tu as fait quand

play17:57

même des petits tests c'est quoi les

play17:58

trucs intéressant que tu as que tu as

play18:00

remarqué est-ce que des différences avec

play18:02

les versions précédentes à un moment je

play18:03

lu demandé de faire du code j'avais

play18:05

besoin de détecter des des visages qui

play18:08

sont à l'écran et de faire un peu des

play18:09

formules mathématiques et j'avais un peu

play18:11

mon idée de comment l'implémenter et

play18:12

donc je lui ai demandé de d'implémenter

play18:14

mon propre algo et après il m'a dit ben

play18:16

en fait c'est pas qu' un problème dans

play18:17

ton code mais moi je l'aurais pas fait

play18:18

comme ça il m'a donné le nom d'un

play18:19

algorithme obscur qui existait et il me

play18:21

l'a fait derrière et c'était 1000 fois

play18:23

mieux justement très bon point j'ai fait

play18:25

le test avec gpt4 gpt4 m'a donné des

play18:27

morceaux de codes à avec les briques

play18:29

individuelles il les avit pas assemblé

play18:31

là où celui-ci m'a fait un chunk enfin

play18:33

vraiment un bloc de code complet trop

play18:36

cool donc ça c'était plutôt cool donc

play18:37

lui n'est pas encore paresseux et

play18:39

encore pour le moment il n'est pas

play18:40

paresseux mais globalement c'est ins

play18:44

mais surtout là ils ont mis une vitesse

play18:46

à tout le monde a tout le monde qui

play18:47

arriv à niveau doucement avec leur

play18:50

propres modèle et tout là maintenant ils

play18:51

sont repartis loin devant dans une autre

play18:53

direction tous les modèles Open Source é

play18:55

en train de rattraper un peu la logique

play18:56

sur du texte et tout et en fait là ils

play18:58

ont pris a branche complètement à part

play19:00

que personne n'attendait c'est c'est

play19:01

trop bien et je pense qu' c'est pas du

play19:03

tout une mauvaise nouvelle pour l'OP

play19:04

source au contraire il va y avoir

play19:05

beaucoup de trucs à à voler en terme de

play19:08

concept et donc très hâte d'avoir

play19:10

exactement les mêmes capacités dans 1 an

play19:12

dans nos modèles Open Source tous ces

play19:13

nouveaux modèles d' sont très excitant

play19:15

mais parfois on se demande à quoi ils

play19:16

peuvent servir maintenant et ben

play19:17

justement on vous avait présenté quatre

play19:19

logiciels sur MacOS que vous pouvez

play19:21

installer en trois clics et qui utilise

play19:23

les derniers modèles d'IA pour faire des

play19:25

trucs trop stylés c'était dans cette

play19:26

vidéo

Rate This

5.0 / 5 (0 votes)

Related Tags
GPT 4oOpen AIIA avancéeInteraction socialeÉmotionMultimodalRévolution IADémo techniqueAssistant vocalDéveloppement IA
Do you need a summary in English?