Ce qui se cache derrière le fonctionnement de ChatGPT

ScienceEtonnante
14 Apr 202327:23

Summary

TLDRLe script explore les mécanismes et les différences entre GPT et ChatGPT, un chatbot basé sur l'IA. Il explique comment GPT, un modèle de langage entraîné pour deviner le prochain mot d'un texte, est utilisé comme base pour créer des chatbots plus avancés. Le script détaille également les techniques de préprompt, de fine-tuning et d'apprentissage par renforcement avec des commentaires humains pour améliorer la pertinence et l'utilité des réponses du chatbot. Il met en garde contre les limites de ChatGPT, notamment la génération d'articles scientifiques fictifs lorsqu'il est interrogé sur des sources, et conclut sur l'importance de ces technologies dans l'avenir de l'IA.

Takeaways

  • 🧠 Le script aborde le fonctionnement et les différences entre ChatGPT et le modèle de langage GPT, soulignant que ChatGPT est un produit commercial basé sur le modèle d'IA GPT.
  • 🤖 ChatGPT est un chatbot, un 'agent conversationnel', conçu pour dialoguer avec les utilisateurs afin de les informer ou les aider, mais qui fonctionne différemment des chatbots traditionnels basés sur des mots-clés.
  • 📚 Le modèle GPT est un 'modèle de fondation' en intelligence artificielle, entraîné à deviner le prochain mot d'un texte, plutôt qu'à répondre à des questions ou à suivre des instructions.
  • 🔍 L'entraînement de GPT repose sur des données non annotées, en utilisant un processus appelé 'apprentissage auto-supervisé', où le modèle apprend à partir de textes bruts sans besoin de données marquées manuellement.
  • 📈 GPT3, la troisième itération du modèle, a été suivie de GPT3.5 et GPT4, avec une augmentation significative du nombre de paramètres et de la capacité de mémoire de l'algorithme.
  • 🔗 L'algorithme GPT ne cherche pas à produire des réponses 'vraies' ou à imiter la performance humaine, mais à générer des textes plausibles en se basant sur les données d'entraînement.
  • 💡 Pour obtenir des réponses pertinentes de GPT, il est possible d'utiliser des 'preprompts', qui sont des introductions destinées à guider le modèle dans la direction souhaitée.
  • 🛠️ OpenAI a créé InstructGPT à partir de GPT en utilisant une technique appelée 'fine-tuning', spécialement adapté pour répondre à des questions et suivre des instructions de manière plus utile et bienveillante.
  • 🔧 Une troisième couche d'apprentissage, l'apprentissage par renforcement avec feedback humain (RLHF), a été ajoutée pour améliorer la pertinence des réponses de ChatGPT en évaluant et comparant ses réponses.
  • 📝 ChatGPT a tendance à créer des références fictives lorsqu'il est question de citer des sources, un problème attribué à son incapacité à vérifier la véracité des informations et à son mode de fonctionnement basé sur la génération de textes plausibles.

Q & A

  • Qu'est-ce que ChatGPT et en quoi consiste sa différence par rapport au modèle GPT d'OpenAI?

    -ChatGPT est un chatbot ou un 'agent conversationnel' basé sur le modèle d'intelligence artificielle GPT créé par OpenAI. La différence principale est que ChatGPT est le produit commercial tandis que GPT est le modèle de base utilisé pour développer des applications comme ChatGPT.

  • Comment fonctionnent traditionnellement les chatbots en utilisant la détection de mot-clés?

    -Les chatbots traditionnels fonctionnent en détectant des mots-clés définis à l'avance et en répondant en fonction de ces mots-clés pour avoir un échange utile avec l'utilisateur.

  • Pourquoi l'approche de l'apprentissage supervisé n'est-elle pas très efficace pour créer un chatbot intelligent?

    -L'approche de l'apprentissage supervisé n'est pas très efficace car elle nécessite une énorme quantité de données de questions/réponses couvrant un large éventail de sujets et avec des réponses de qualité. De plus, il est difficile de déterminer quelle réponse est correcte et il manque la notion de continuité dans la conversation.

  • Qu'est-ce qu'un modèle de fondation (foundation model) dans le contexte de l'IA?

    -Un modèle de fondation est un modèle d'intelligence artificielle qui est d'abord entrainé sur une tâche générique et peut ensuite être adapté à d'autres tâches plus spécifiques.

  • Quel est le rôle du modèle GPT dans l'apprentissage des chatbots modernes?

    -Le modèle GPT, qui signifie Generative Pretrained Transformer, sert de base pour l'entraînement des chatbots modernes. Il est entraîné pour deviner le prochain mot d'un texte, ce qui lui permet de générer du texte de manière cohérente et continue.

  • Comment GPT est-il capable de générer du texte à partir d'un prompt?

    -GPT génère du texte en prenant un fragment de phrase ou un 'prompt' en entrée et en essayant de produire le mot suivant qui convient le mieux, en se basant sur les données qu'il a appris lors de son entraînement.

  • Quelle est la différence entre GPT3 et ses versions antérieures?

    -GPT3, sorti en juillet 2020, a amélioré ses performances avec la version 3.5 en mars 2022, et depuis mars 2023, GPT4 est disponible avec des capacités encore plus avancées, bien que les détails soient limités.

  • Comment GPT est-il capable de générer des textes de grande longueur?

    -GPT peut générer des textes de grande longueur en continuant à ajouter des mots un par un, en se basant sur le contexte donné et en répétant ce processus autant de fois que nécessaire.

  • Quels sont les défis spécifiques associés à l'utilisation de GPT pour créer un chatbot?

    -Les défis incluent le fait que GPT n'est pas entraîné à suivre des instructions ou à répondre à des questions directement, mais plutôt à poursuivre un texte. Il peut ne pas reconnaître qu'il est censé fournir une réponse à une question et peut continuer avec d'autres questions ou des textes non liés.

  • Comment OpenAI a-t-il amélioré GPT pour créer InstructGPT et ChatGPT?

    -OpenAI a utilisé des techniques telles que le fine-tuning, où GPT est spécialisé sur des textes spécifiques pour répondre aux attentes d'un chatbot, et l'apprentissage par renforcement avec des commentaires humains pour ajuster les réponses de ChatGPT pour qu'elles soient plus pertinentes et respectueuses.

  • Quelle est la méthode utilisée pour que GPT comprenne qu'il doit répondre à une question plutôt que de continuer avec une autre question ou un texte non lié?

    -Pour guider GPT vers la réponse appropriée, on utilise des preprompts qui mettent GPT dans le contexte de la tâche, comme établir une introduction qui indique que la suite doit être une réponse à une question.

  • Quels sont les problèmes liés à la génération de références fictives par ChatGPT?

    -ChatGPT peut créer des références d'articles scientifiques qui n'existent pas, car il suit le format standard des citations sans vérifier leur authenticité, ce qui peut causer des confusions ou des erreurs lorsqu'il est utilisé pour citer des sources.

Outlines

00:00

🤖 L'intelligence artificielle consciente de ChatGPT

Le script commence par une discussion sur les opinions extrêmes et souvent erronées sur ChatGPT, une IA qui manipule des mots et des phrases. L'auteur mentionne un précédent vidéo où il a parlé de l'apprentissage supervisé et du modèle GPT d'OpenAI, soulignant que depuis lors, ChatGPT est apparu, et il souhaite clarifier les différences entre ChatGPT et GPT. Il invite également les téléspectateurs à rejoindre un serveur Discord pour poursuivre la discussion.

05:02

📚 Fondements du machine learning et du chatbot

Le texte explique que les chatbots ont évolué avec l'aide de l'apprentissage automatique, en particulier l'apprentissage supervisé, où un modèle est entraîné à partir de grandes bases de données de questions/réponses. Cependant, cette approche n'est pas efficace car elle nécessite une grande quantité de données de qualité et ne tient pas compte de la continuité dans une conversation. Le script introduit le concept de 'modèle de fondation' comme une solution potentielle à ces problèmes.

10:03

🧠 Le modèle GPT et sa capacité à prédire le prochain mot

Le paragraphe décrit le modèle GPT (Generative Pretrained Transformer) d'OpenAI, qui est entraîné pour deviner le prochain mot d'un texte, une tâche qui semble absurde mais qui permet au modèle de produire du texte de manière continue. Il est entraîné à partir de textes existants, sans besoin d'annotation manuelle, ce qui facilite la création de vastes quantités d'exemples d'entraînement. Le modèle ne cherche pas à être vrai ou à répéter des phrases exactes, mais à produire des续uences plausibles.

15:05

🔍 Détails techniques du modèle GPT et de son entraînement

Ce paragraphe fournit des détails techniques sur le fonctionnement de GPT, y compris son vocabulaire de 50 000 tokens et son entraînement auto-supervisé à partir de textes tels que des livres, Common Crawl, et Wikipedia. Il explique également que le modèle est figé après son entraînement, ne connaissant pas les événements récents et n'ayant pas de mémoire des conversations précédentes. Les paramètres du modèle, comme la taille de la fenêtre de contexte, sont également discutés.

20:06

🎲 Expériences avec GPT et sa génération de续uences plausibles

L'auteur partage des expériences pratiques avec GPT, montrant comment le modèle peut générer des续uences plausibles pour compléter des phrases, même si elles ne sont pas basées sur la réalité ou la vérité. Il illustre comment GPT utilise la probabilité pour choisir le prochain mot et comment il peut être influencé par des 'preprompts' pour générer des textes spécifiques, comme dans les conversations avec des chatbots.

25:11

🤝 Utilisation de preprompts et fine-tuning pour améliorer les chatbots

Le script explique comment les preprompts peuvent être utilisés pour orienter GPT vers un type spécifique de texte, comme dans les conversations avec un professeur de physique. Il mentionne également le fine-tuning, une méthode pour spécialiser un modèle de fondation en l'entraînant sur des textes spécifiques, et l'apprentissage par renforcement avec des commentaires humains pour améliorer la pertinence des réponses de GPT.

📚 Limitations de ChatGPT et ses performances en matière de référence

Le texte conclut en discutant les limitations de ChatGPT, en particulier son incapacité à citer correctement des sources, car il est basé sur la génération de textes plausibles plutôt que sur la vérité ou la recherche d'informations. Il suggère que l'avenir pourrait apporter des améliorations en combinant les modèles de langage avec des mécanismes de recherche pour résoudre ce problème.

Mindmap

Keywords

💡ChatGPT

ChatGPT est un agent conversationnel développé par OpenAI, basé sur le modèle GPT. Dans la vidéo, l'auteur explique que ChatGPT est le produit commercial d'OpenAI, conçu pour interagir de manière conversationnelle avec les utilisateurs, en répondant à leurs questions et en offrant de l'assistance. L'auteur explore aussi les perceptions extrêmes de ChatGPT, soulignant l'importance de comprendre son fonctionnement pour évaluer ses capacités et ses limites.

💡GPT

GPT signifie Generative Pretrained Transformer. C'est un modèle d'intelligence artificielle développé par OpenAI pour manipuler le langage naturel en prédisant le prochain mot dans un texte donné. La vidéo détaille la différence entre GPT et ChatGPT, en expliquant que GPT est la base technologique sur laquelle ChatGPT est construit, et qu'il peut être utilisé pour diverses tâches de traitement du langage naturel après avoir été entraîné sur de larges corpus de texte.

💡Machine Learning

Le machine learning, ou apprentissage automatique, est une branche de l'intelligence artificielle où les modèles apprennent à partir de données pour effectuer des tâches spécifiques. Dans le contexte de la vidéo, l'auteur explique comment les modèles de machine learning sont utilisés pour créer des chatbots plus sophistiqués que ceux basés sur des mots-clés prédéfinis. L'apprentissage supervisé est mentionné comme une méthode courante pour entraîner ces modèles.

💡Apprentissage supervisé

L'apprentissage supervisé est une méthode de machine learning où un modèle est entraîné à partir de données étiquetées pour prédire les résultats sur de nouvelles données. La vidéo décrit comment cette méthode est utilisée pour la reconnaissance d'images et explique pourquoi elle n'est pas directement applicable pour créer un chatbot, en raison des besoins en données et de la variété des réponses possibles.

💡Pré-entraînement

Le pré-entraînement est le processus par lequel un modèle d'intelligence artificielle est initialement formé sur une tâche générale avant d'être affiné pour des tâches spécifiques. Dans la vidéo, le modèle GPT est décrit comme étant pré-entraîné pour prédire le prochain mot d'un texte, ce qui le rend capable de manipuler le langage de manière plausible avant d'être ajusté pour des applications spécifiques comme les chatbots.

💡Fine-tuning

Le fine-tuning est une étape supplémentaire d'entraînement où un modèle pré-entraîné est ajusté pour une tâche spécifique en utilisant des données supplémentaires et plus ciblées. L'auteur de la vidéo explique que OpenAI a utilisé cette méthode pour créer InstructGPT, une version de GPT spécialement adaptée pour suivre des instructions et répondre aux questions de manière plus utile et appropriée.

💡Apprentissage par renforcement

L'apprentissage par renforcement avec feedback humain est une technique où un modèle apprend à partir des évaluations humaines de ses réponses pour améliorer ses performances. Dans la vidéo, cette méthode est utilisée pour améliorer ChatGPT, en aidant le modèle à orienter ses réponses vers celles préférées par les humains, en comparant différentes réponses à une même question et en les classant.

💡Tokens

Les tokens sont des unités de texte, souvent des mots ou des parties de mots, utilisées par les modèles de langage pour traiter et générer du texte. La vidéo mentionne que GPT utilise des tokens pour manipuler le langage et que la taille de la fenêtre de contexte, c'est-à-dire le nombre maximum de tokens pris en compte pour prédire le mot suivant, a augmenté avec les versions de GPT.

💡Fenêtre de contexte

La fenêtre de contexte désigne le nombre maximum de tokens que le modèle GPT peut utiliser pour estimer le prochain mot dans un texte. La vidéo explique que cette fenêtre a évolué de 2048 tokens dans GPT-3 à plus de 32000 tokens dans GPT-4, permettant au modèle de prendre en compte de longues portions de texte pour ses prédictions, améliorant ainsi la continuité et la pertinence des réponses.

💡Modèle de récompense

Le modèle de récompense est utilisé dans l'apprentissage par renforcement pour guider un modèle vers des réponses préférées par les humains en évaluant et en classant différentes réponses. La vidéo décrit comment ce modèle aide à améliorer ChatGPT en utilisant les jugements humains pour affiner les réponses générées, assurant qu'elles sont plus alignées avec les attentes et préférences humaines.

Highlights

ChatGPT est un chatbot basé sur le modèle d'intelligence artificielle GPT d'OpenAI, mais avec des différences clés dans leur fonctionnement.

Les modèles GPT sont entraînés à deviner le prochain mot d'un texte, une tâche qui assure une forme de continuité et de mémoire de l'échange.

Le modèle GPT3 a été entraîné sur un large éventail de textes, y compris des livres, des sites internet et Wikipedia.

GPT3 a 175 milliards de paramètres, ce qui lui permet de traiter de grandes quantités d'informations et de générer des textes de longueur significative.

Le modèle GPT ne connait pas les événements récents car son entraînement est figé à une certaine date.

GPT ne suit pas les instructions mais cherche à compléter des textes de manière plausible en se basant sur son apprentissage.

Les pré-prompts sont utilisés pour orienter GPT vers un type de texte spécifique et améliorer la pertinence des réponses.

InstructGPT est un exemple de modèle fine-tuné à partir de GPT pour répondre à des questions de manière plus utile et bienveillante.

L'apprentissage par renforcement avec feedback humain permet à ChatGPT de proposer des réponses plus pertinentes et de s'adapter aux préférences humaines.

ChatGPT a des difficultés à citer des sources de manière précise, souvent en inventant des références qui n'existent pas.

Le modèle GPT est capable de générer des textes qui, bien qu'inventés, sont plausibles et respectent le format standard des citations scientifiques.

L'apprentissage supervisé, utilisé pour le fine-tuning, permet à des modèles comme InstructGPT de s'adapter à un style de chatbot prévu par les humains.

ChatGPT est particulièrement efficace pour répondre à des questions simples et bien documentées, mais ne fait pas plus que d'autres outils de recherche en ligne.

Le modèle montre des signes de créativité en reliant des informations qui n'ont pas forcément de lien évident.

L'évaluation des réponses par des humains dans le cadre de l'apprentissage par renforcement sert également à s'assurer que le modèle reste approprié et respectueux.

La combinaison de fine-tuning, d'apprentissage par renforcement et de pré-prompts permet de spécialiser un modèle de fondation en un chatbot efficace.

Les modèles de langage comme GPT ont tendance à interpoler efficacement des situations nouvelles, basées sur des cas similaires vus lors de leur entraînement.

Transcripts

play00:00

« C’est incroyable, ChatGPT est une intelligence artificielle consciente »

play00:04

« C’est nul, il répète des trucs faux lu sur Internet, et il ne sait même faire

play00:08

12 + 33 »

play00:10

Oui, je sais, tout le monde a déjà beaucoup parlé de ChatGPT. Et la plupart des réactions

play00:15

qu’on trouve dans la presse ou sur les réseaux sociaux ont tendance à tomber dans un extrême

play00:19

ou un autre, en se basant juste sur quelques exemples bien choisis. Mais si on allait un

play00:25

peu plus loin ?

play00:26

Dans une vidéo précédente, j’avais déjà traité la question de ces algorithmes qui

play00:30

savent manipuler des mots, des phrases, des textes; ce domaine qu’on appelle le traitement

play00:35

du langage naturel. Et à l’époque j’avais notamment parlé du fameux modèle GPT d’OpenAI.

play00:41

Mais c’était en novembre 2021, et donc avant la déferlante ChatGPT.

play00:46

Car oui, GPT et ChatGPT c’est pas tout à fait pareil. Et aujourd’hui, je voudrais

play00:52

justement faire la lumière sur le fonctionnement et la différence qu’il existe entre ChatGPT,

play00:57

qui est en quelque sorte le produit commercial d’OpenAI, et GPT qui est le modèle d’intelligence

play01:02

artificielle qui lui sert de base.

play01:04

Et je suis persuadé qu’en comprenant un peu mieux tout cela, ça permettra d’avoir

play01:08

un regard plus affiné sur les questions que pose ChatGPT, les possibilités qu’il offre,

play01:13

les dangers qu’il représente, et sur ce qu’il faut en attendre, ou au contraire

play01:17

ne pas en attendre. Alors c’est parti.

play01:19

Mais avant ça je voudrais vous parler d’un super VPN que j’utilise…non je déconne.

play01:23

Par contre je profite de cette interruption pour vous inviter à rejoindre le serveur

play01:27

Discord que j’ai créé, le lien est en description. Et c’est le meilleur moyen

play01:30

de venir prolonger la discussion, papoter, poser des questions à moi ou à d’autres

play01:34

etc. Venez c’est sympa. Fin de la parenthèse. Revenons à ChatGPT.

play01:36

Comme vous le savez sans doute, ChatGPT c’est un chatbot, un « agent conversationnel »

play01:41

en bon français, c’est-à-dire un programme qui se propose de dialoguer avec vous, notamment

play01:45

dans le but de vous renseigner ou vous aider. Les chatbots ça existe depuis longtemps,

play01:50

et la plupart fonctionnent selon un principe de détection de mot-clés.

play01:54

[MIA On en trouve par exemple sur certains sites Internet pour faire de l’assistance,

play01:59

et ça marche plus ou moins bien on va dire. Il faut vraiment tomber sur les bons mots-clés

play02:05

pour que l’échange soit utile.]

play02:08

Mais depuis quelques années, il devient possible de développer des chatbots qui ne sont plus

play02:14

programmés à la main, à partir de mots-clés définis à l’avance, mais en utilisant

play02:18

des modèles issus de cette branche de l’intelligence artificielle qu’on appelle le « machine

play02:23

learning. »

play02:24

J’en ai souvent parlé, l’approche la plus fréquente en machine learning c’est

play02:27

ce qu’on appelle l’apprentissage supervisé. Rappelons vite-fait l’exemple classique

play02:31

de la reconnaissance d’image. Imaginons qu’on veuille fabriquer un algorithme qui

play02:35

sache reconnaitre ce qu’il y a sur une image.

play02:38

[SUPERVISE On choisit un modèle avec plein de paramètres, à qui on peut présenter

play02:42

une image en entrée, et qui va produire un mot en sortie. Initialement le modèle va

play02:47

raconter n’importe quoi, mais on va progressivement l’entrainer en lui présentant plein d’exemples

play02:52

de ce qu’on souhaite qu’il fasse.

play02:53

On prend une grosse base de données d’images qui sont déjà classifiées, on présente

play02:58

successivement ces exemples à notre modèle, et on ajuste ses paramètres pour qu’il

play03:02

produise le maximum de bonnes réponses. C’est ce qu’on appelle la phase d’entrainement,

play03:07

qui peut durer assez longtemps, et qui demande souvent beaucoup de données.

play03:10

Une fois que c’est fait, le modèle est donc entrainé, et il peut être utilisé.

play03:14

Si l’entrainement a été un succès, quand on lui présentera ensuite des images qu’il

play03:17

n’a jamais vues, notre modèle devrait leur associer la bonne classification.]

play03:22

Ce principe d’apprentissage supervisé a déjà des tas d’applications concrètes,

play03:26

comme la reconnaissance d’image, la détection de fraude ou de spam, etc. Alors intuitivement,

play03:32

si on veut faire un chatbot, on se dit qu’on pourrait avoir la même approche.

play03:35

Un chatbot est censé nous fournir certaines réponses pertinentes quand on lui pose des

play03:40

questions. Donc on pourrait entrainer un modèle à partir d’une base de données de questions/réponses

play03:45

existantes, en espérant qu’ainsi il apprenne à répondre intelligemment à n’importe

play03:50

quel type de requête.

play03:51

Le problème, c’est que cette approche n’est pas très efficace. On peut citer plusieurs

play03:55

raisons. Déjà pour que ça marche, il faudrait une énorme quantité de données, c’est

play04:00

à dire un grand nombre d’échanges questions/réponses. Il faudrait que ça couvre un maximum de sujets,

play04:05

et avec des réponses de qualité, rédigées par des humains. Et on n’a pas vraiment

play04:09

ce genre de données en quantité aujourd’hui.

play04:12

Ensuite quand on imagine un échange avec un chatbot, il n’y a jamais une bonne réponse

play04:16

unique qu’on est en droit d’attendre. Pour la même question, il peut y avoir des

play04:20

tas de réponses pertinentes plus ou moins équivalentes, mais formulées de façon potentiellement

play04:24

très différentes.

play04:25

Donc ça n’est pas simple pour la phase d’entrainement de faire comprendre au modèle

play04:30

à quel moment une réponse qu’il propose est bonne, et à quel moment c’est à côté

play04:34

de la plaque.

play04:35

Et enfin, dernier obstacle, si vous avez utilisé ChatGPT vous avez remarqué que vous pouvez

play04:39

avoir toute une conversation avec. Il y a une notion de continuité dans l’échange.

play04:44

Il utilise les questions et réponses précédentes du dialogue pour poursuivre.

play04:47

Or si vous entrainez un modèle simplement sur des couples de questions/réponses, chaque

play04:52

question sera traitée indépendamment de ce qui pourrait la précéder dans l’échange,

play04:56

et ça n’est pas vraiment ce qu’on veut. On veut une continuité dans la conversation.

play05:01

Donc pour faire un chatbot efficace en utilisant du machine learning, avoir une approche directe

play05:06

d’apprentissage supervisé, ça ne semble pas vraiment indiqué. Et c’est pour cela

play05:10

qu’on va devoir procéder en plusieurs étapes, en utilisant comme base ce qu’on appelle

play05:14

parfois un modèle de fondation.

play05:17

Un modèle de fondation, c’est un modèle d’intelligence artificielle qui est entrainé

play05:21

sur une certaine tâche assez générique, mais dans le but d’être ensuite adapté

play05:26

à d’autres tâches plus spécifiques. Il existe plusieurs modèle de ce type dans le

play05:30

domaine du langage naturel, et celui qui va nous servir d’exemple aujourd’hui, c’est

play05:34

donc le modèle GPT créé par l’entreprise OpenAI.

play05:38

GPT, ça veut dire Generative Pretrained Transformer, et c’est un modèle de manipulation du langage

play05:44

naturel qui est entrainé spécifiquement sur une tâche qui peut paraitre un peu absurde

play05:49

au premier abord : ce modèle cherche en permanence à deviner le prochain mot d’un texte.

play05:54

[GPT Ca veut dire qu’il prend en entrée un morceau de phrase ou de texte, ce qu’on

play05:59

appelle le « prompt », et il va essayer de produire en sortie un mot qui en soit une

play06:04

suite possible. Par exemple si on lui rentre « La souris est mangée par le », l’algorithme

play06:09

est censé essayer de compléter le texte de façon crédible, par exemple ici avec

play06:13

le mot « chat ».

play06:14

Et ça doit marcher aussi avec un mot qui n’est pas forcément le dernier de la phrase.

play06:18

Si je lui rentre juste « la souris », on peut imaginer comme suite possible le mot

play06:22

« est », ou bien « mange », ou encore « verte », etc.

play06:26

En gros c’est de la complétion automatique, mais qui doit fonctionner potentiellement

play06:31

à l’échelle d’un texte entier.]

play06:32

Pour que notre modèle de langage soit bon à ce petit jeu, il va falloir l’entraider

play06:37

à partir de données existantes. C’est-à-dire lui présenter des morceaux de phrases réelles,

play06:42

et ajuster les paramètres du modèle pour qu’il soit de plus en plus performant à

play06:46

produire le mot suivant.

play06:47

Il y a plusieurs raisons pour lesquelles ce principe de « deviner le prochain mot d’un

play06:52

texte » est une idée bizarre mais intéressante. Tout d’abord, ça n’est pas une tâche

play06:56

qu’on fait généralement en tant qu’être humain.

play06:59

Quand on parle d’algorithmes de reconnaissance d’image ou de détection de fraude, on essaye

play07:03

de concevoir des modèles d’IA qui soient capables d’imiter et de dépasser les performances

play07:08

des humains sur ces tâches. Ici deviner le prochain mot d’un début de texte, personne

play07:13

ne fait ça dans la vraie vie, ça n’a aucun intérêt pratique.

play07:16

Deuxième particularité, on l’a vu, dans cet exercice il n’y a généralement pas

play07:20

*une* bonne réponse unique. Dans certains cas, il y a des réponses qui semblent plus

play07:25

naturelles, mais si je complète « la souris est mangée par le » avec le mot « corbeau »,

play07:30

c’est un peu inattendu mais c’est pas si mal. Pour compléter une phrase, on peut

play07:34

avoir en général plein de réponses plus ou moins plausibles.

play07:37

Et il faut bien comprendre ce que veut dire « plausible » ici : ça ne veut pas dire

play07:41

que c’est vrai, il n’y a aucune notion de vérité dans la façon dont le modèle

play07:44

est entrainé. Si je dis « La souris est mangée par le », il n’y a pas de vraie

play07:49

réponse universelle à la question de ce qui vient derrière.

play07:52

Plausible ça veut dire que cette façon de compléter la phrase ressemble à ce qu’on

play07:58

trouverait dans les textes qui ont servi à entrainer le modèle. « Chat » est très

play08:01

naturel, mais « corbeau », pourquoi pas.

play08:04

Et attention, si un modèle répond « Corbeau » pour compléter cette phrase, ça ne veut

play08:08

pas forcément dire que quelque part dans les textes de son entrainement on trouve « la

play08:13

souris est mangée par le corbeau ». Non, il ne se contente pas de répéter des phrases

play08:16

existantes.

play08:17

D’ailleurs j’ai regardé, nulle part sur internet on ne trouve cette phrase exacte.

play08:21

Il n’empêche que si je vous dit « la souris est mangée par le corbeau », ça

play08:24

ne vous choque pas. Si on pense aux mots « corbeau », « manger », et « souris » : le sens

play08:29

et les relations de ces différents termes font que cette façon de compléter est raisonnable.

play08:34

Ca ressemble à ce qu’on aurait pu trouver dans les textes d’entrainement.

play08:37

Une façon que j’aime bien de le présenter, c’est de dire qu’un modèle comme GPT

play08:42

va chercher une façon de compléter qui soit ressemble à des choses existantes, soit du

play08:47

moins ne dépareillerai pas trop avec les textes existants. Si demain je lis sur un

play08:51

site internet « La souris est mangée par le corbeau », ça n’aura rien d’incongru.

play08:55

Ca ne dépareillerai pas.

play08:57

Donc je résume : pour compléter, le modèle ne cherche pas à dire quelque chose de vrai,

play09:02

il ne sait même pas ce que sait que la vérité; le modèle ne cherche pas forcément à reproduire

play09:05

exactement un texte existant, mais il fabrique une phrase plausible, qui ne dépareillerait

play09:11

pas trop au milieu de tout ce qu’il a pu ingurgiter durant son entrainement.

play09:15

Evidemment cette méthode qui consiste à essayer d’ajouter un mot de plus à un texte,

play09:20

ça a un gros avantage : on peut répéter ça plusieurs fois de suite. Et donc à partir

play09:24

d’un simple début de phrase, on peut demander au modèle de continuer à ajouter des mots,

play09:29

un par un, jusqu’à former un texte aussi grand qu’on veut.

play09:32

[TEXTELONG Ici si je lui dis « La souris est mangée par le » et que je lui demande

play09:36

de prolonger le texte suffisamment, voici le genre de résultat que j’obtiens. C’est

play09:41

plausible, ça sonne bien français, ça a du sens.]

play09:44

Bien, voyons plus précisément maintenant comment on procède en pratique pour créer

play09:48

un modèle comme GPT. Première précision un peu technique, les modèles de langage

play09:53

travaillent en général non pas au niveau des mots, mais au niveau de ce qu’on appelle

play09:56

des tokens.

play09:57

Un token, c’est en gros soit un mot, soit une portion de mot. Les mots les plus longs

play10:03

peuvent être faits de deux ou trois tokens. En pratique ça ne change pas grand chose,

play10:07

mais ça peut expliquer pourquoi un modèle comme GPT va parfois prédire certains mots

play10:11

en plusieurs morceaux successifs.

play10:12

Ce que j’ai utilisé jusqu’ici, c’est la troisième itération de GPT, qu’on appelle

play10:17

GPT3, qui est sorti en juillet 2020. Il a connu une amélioration en GPT3.5 en mars

play10:23

2022, et depuis mars 2023, on peut même avoir accès à GPT4, dont on ne sait malheureusement

play10:29

pas grand chose.

play10:31

GPT3 possède un vocabulaire d’environ 50 000 tokens, et qui n’est pas spécifique

play10:35

d’une langue en particulier. Ces tokens permettent de former des mots anglais, français,

play10:40

espagnols, etc. Pour faire simple dans la suite, je vais parler indifféremment de « mot »

play10:44

ou de « token », ça revient presque au même pour nous.

play10:47

Ensuite, comment se passe la phase d’entrainement du modèle ? Je vous ai dit que dans des tâches

play10:51

d’apprentissage supervisé, comme la reconnaissance d’images, il fallait disposer de grandes

play10:55

bases de données, qui illustrent sur de nombreux exemples la réponse qu’on attendrait.

play11:00

[ANNOTATION L’inconvénient, c’est que ces bases de données doivent être fabriquées

play11:03

en quelque sorte à la main, puisqu’à un moment donné, c’est généralement un humain

play11:08

qui doit indiquer que ceci est un chat et ceci une voiture. On dit qu’il faut annoter

play11:12

la base de données. Et c’est souvent ce processus d’annotation qui limite la quantité

play11:17

des données disponibles.]

play11:18

[SELF SUPERVISED Dans le cas de la prédiction du prochain mot d’un texte, c’est très

play11:22

simple. Il suffit de prendre par exemple une phrase prise dans un livre ou sur un site

play11:26

internet, de la couper n’importe où et de fournir ça au modèle pour qu’il s’entraine

play11:30

à deviner le prochain mot. Avec une seule phrase, on peut même créer tout plein d’exemples

play11:34

en la coupant à différents endroits.]

play11:36

Il n’y a donc pas besoin d’un processus d’annotation spécifique, où un humain

play11:41

devrait faire une partie du travail. On peut prendre des tonnes de textes et générer

play11:45

des milliards d’exemples pour entrainer le modèle. On parle parfois d’apprentissage

play11:50

auto-supervisé, self-supervised learning en anglais. Dans le cas du modèle GPT3 d’OpenAI,

play11:55

on a certaines indications quant au corpus de texte qui a été utilisé pour entrainer

play12:00

le modèle.

play12:01

[CORPUS Il y a du texte de Common Crawl, donc simplement ramassé sur internet, des bases

play12:05

de données de livres, et aussi tout Wikipedia en anglais. Sachant que certaines de ces sources

play12:11

ont eu plus de poids que d’autres dans la phase d’entrainement. On peut espérer que

play12:14

Wikipédia pèse un peu plus dans son apprentissage que Reddit ou 4chan.

play12:19

Et même si on trouve plein de langues différentes dans les textes du corpus d’entrainement,

play12:23

une moitié environ c’est de l’anglais, sans surprise.]

play12:26

Un point important, c’est que dans un fonctionnement classique, l’entrainement a lieu une fois,

play12:31

et ensuite le modèle est figé. C’est la raison pour laquelle les connaissances de

play12:34

GPT sont en général limitée à une certaine date, il ne connait pas les événements récents.

play12:39

Et aussi cela explique que d’une conversation à l’autre, il n’a aucune mémoire de

play12:43

ce que vous avez pu déjà discuter. Ces deux limitations disparaitront peut-être à l’avenir,

play12:49

mais dans le modèle de base, c’est comme ça que ça se passe. C’est un modèle figé.

play12:52

Je ne vais pas rentrer dans les détails techniques de fonctionnement du modèle, et des réseaux

play12:56

de neurones qu’il y a derrière. J’en ai déjà parlé dans ma vidéo précédente

play12:59

sur le sujet, mais il y a quelques points qui sont intéressants à mentionner.

play13:03

Sur la taille déjà, GPT3 est un modèle qui possède 175 milliards de paramètres,

play13:09

ce qui est assez invraisemblable. Pour GPT4 on ne sait pas vraiment. Peut être 6 à 10

play13:13

fois plus.

play13:14

Ensuite que donne-t-on exactement au modèle lors de la phase d’entrainement ? Je l’ai

play13:18

évoqué, GPT ne va pas s’entrainer à trouver le prochain mot d’une simple phrase, mais

play13:21

potentiellement d’un texte tout entier, constitué éventuellement de plusieurs phrases.

play13:25

Ce qui permet d’assurer une forme de continuité et de mémoire de l’échange.

play13:29

La taille maximum de texte qu’il prend en compte pour estimer le prochain mot, on appelle

play13:34

cela la fenêtre de contexte. Cette taille dépend de la version de l’algorithme. Dans

play13:40

GPT3 c’était 2048 tokens, puis c’est passé à 4096 pour la version 3.5 et apparemment

play13:45

jusqu’à plus de 32000 pour la version 4.

play13:48

Ca veut dire, pour la version la plus puissante, qu’on peut lui filer un texte d’environ

play13:52

25000 mots, et que tous ces mots pourront potentiellement être pris en compte pour

play13:56

décider du simple mot suivant. Une autre façon de le dire : GPT4 peut, si besoin,

play14:01

se rappeler d’une information qui était situé 25 000 mots plus tôt dans le texte.

play14:05

Ce qui fait une centaine de page en format standard.

play14:08

Parlons maintenant de ce qui est donné en sortie par l’algorithme. On l’a dit, quand

play14:12

on cherche à trouver le prochain mot d’une phrase ou d’un texte, il n’y a généralement

play14:15

pas une seule réponse possible. Et justement, le modèle ne va pas nous fournir un seul

play14:20

mot, mais une liste de mots envisageables avec des probabilités associées.

play14:24

[PROBAS Par exemple « Chat » à 90%, « Chien » à 7%, « Corbeau » à 1%, etc. Et à partir

play14:31

de ces estimations, on peut demander ensuite à tirer au hasard le mot suivant parmi cette

play14:37

liste, en suivant les probabilités fournies.]

play14:39

[PROBAS Sur le site d’OpenAI, on peut accéder à GPT3 en mode dit « Playground », c’est

play14:44

là que j’ai testé les exemples que je vous ai montré. Quand on lui demande de compléter,

play14:48

le modèle va tout de suite nous tirer au hasard le prochain mot parmi ses réponses

play14:52

possibles, mais en cochant une option dans l’interface, on peut visualiser les probabilités

play14:56

qu’il avait proposé.]

play14:58

Alors allons-y, faisons quelques expériences pour bien comprendre ce qu’il se passe,

play15:01

je vais les faire en anglais puisque c’est la langue à laquelle GPT3 a été le plus

play15:05

exposé. Ce sera certainement un peu meilleur.

play15:07

[COLOMB Si j’écris la phrase : « Christophe Colomb a découvert l’Amérique en » il

play15:13

me propose comme complétion : 1492. Super, on s’y attendait. Mais il faut bien comprendre

play15:19

pourquoi le modèle de langage nous donne cette réponse : ça n’est pas qu’il a

play15:22

un concept de de vérité sur cette question. Pour lui c’est même pas une question.

play15:26

C’est juste que dans les textes qui ont servi à son entrainement, les mots « Christophe

play15:30

Colomb », « découverte » « amérique » sont en général toujours très fortement

play15:34

associés au mot 1492. Et donc pour lui, 1492 est de loin la suite la plus naturelle à

play15:41

ce début de phrase.]

play15:42

[PROBAS (On peut observer les probabilités des différents mots que GPT a considéré

play15:45

: on voit qu’on y trouve aussi « Octobre » dans les suite possibles pour cette phrase.

play15:50

C’est cohérent, Colomb a touché les côtes des Bahamas le 12 octobre 1492.]

play15:53

Mais attention, je le rappelle, quand on utilise GPT pour compléter une phrase, on ne va pas

play15:59

forcément produire des choses « vraies ».

play16:01

[DL1492 Par exemple si je tape « David Louapre a découvert l’Amérique en », ça n’a

play16:07

aucun lien avec la réalité. Mais GPT s’en moque, il ne va pas refuser de répondre sous

play16:12

prétexte que c’est faux. Il fait donc la seule chose qu’il sache faire : il propose

play16:16

un mot pour compléter la phrase.

play16:17

Et là il me propose aussi 1492. Même si on voit dans les probabilités qu’il aurait

play16:23

pu proposer d’autres choses.

play16:24

Comme toujours, il essaye de générer le prochain mot d’une façon qui colle le plus

play16:29

avec son corpus d’entrainement, ou ici, d’une façon qui dépareille le moins possible.

play16:34

Même si « David Louapre » ça ne colle pas, les mots « amérique » « découverte »,

play16:37

il associe cela toujours fortement à 1492.]

play16:40

Un autre test pour bien illustrer ce qu’il se passe dans la tête de GPT.

play16:44

[BOND Si je tape comme prompt « Dans le film de James Bond « La trahison ne se cache

play16:50

jamais », l’acteur qui joue James Bond s’appelle » … et là vous voyez qu’il

play16:54

n’y a pas de notion de vrai ou faux, le film n’existe même pas, c’est un titre

play16:57

inventé.

play16:58

Mais GPT cherche des complétions plausibles, qui ne dépareillent pas trop. Il me propose

play17:03

naturellement « Daniel Craig », mais si on regarde les probabilités, on voit qu’il

play17:08

considérait aussi en bonne position « Pierce », pour Pierce Brosnan, Sean pour Sean Connery,

play17:12

etc.

play17:13

Ce sont toutes des complétions raisonnables. Même si ce film n’existe pas, une telle

play17:17

phrase n’aurait pas trop dépareillé dans le corpus initial.

play17:22

Petite variation : si je précise que le film est vieux, les probabilités changent. Eh

play17:27

bien oui, cette précision augmente la probabilité qu’il propose un des premiers acteurs qui

play17:31

ont joué James Bond comme Sean Connery ou Roger Moore.]

play17:34

Donc retenez ça : GPT cherche le prochain mot d’une façon qui soit raisonnable, qui

play17:38

ne dépareille pas trop vis-à-vis de son corpus. Et « raisonnable », « plausible »,

play17:42

c’est à prendre en compte non pas dans le sens de « proche de la vérité »,

play17:46

mais dans le sens de : ça n’aurait pas été absurde de lire ces mots là associés

play17:51

ensembles de cette façon dans le corpus d’entrainement.

play17:53

Et on peut lui faire écrire des paragraphes entiers de choses qui n’existent pas.

play17:56

[LICORNES Ici si je commence à lui parler de licornes argentées, et que je lui demande

play18:01

de compléter plein de fois de suite, il m’invente tout un texte. Et le texte est pas mal, à

play18:06

part pour les licornes elles-mêmes, ça pourrait tout à fait être issu d’un article de

play18:09

journal.]

play18:10

Et pour finir, si je tape un peu n’importe quoi, GPT va quand même essayer de compléter

play18:16

ce texte de la façon la moins improbable pour lui. Bon je pense que vous avez compris

play18:21

comment ça fonctionne.

play18:22

Bien alors est-ce qu’on peut faire un chatbot avec ce genre de choses ? Eh bien pas tout

play18:27

à fait. Evidemment, on peut essayer de taper des questions en guise de prompt, et espérer

play18:32

une réponse en retour. Mais en fait, ça n’est même pas garanti.

play18:36

GPT ne considère pas qu’on s’adresse à lui et qu’on lui pose une question, il

play18:41

considère qu’il faut compléter le texte. Un texte qui commence par une question, ça

play18:45

peut se poursuivre par une réponse, mais pas forcément.

play18:48

[LUNE Si je tape : « Quelle est la masse de la Lune », il est tout à fait possible

play18:51

qu’il complète avec une réponse censée, mais il peut aussi très bien compléter par

play18:56

« Quelles sont les lois de la gravitation ? » « Qu’est-ce que la rotation de la lune

play18:59

? » etc.

play19:00

Eh oui, la phrase « quelle est la masse de la Lune » peut très bien se trouver

play19:04

dans un exercice ou un sujet d’examen, et donc compléter une question par une autre

play19:09

question, ça n’est pas absurde. C’est une complétion plausible.]

play19:13

On voit avec ça que comme GPT n’est pas entrainé à suivre des instructions mais

play19:17

à juste compléter un texte, il n’est pas complètement adapté pour faire un chatbot.

play19:22

Une possibilité pour l’emmener dans la direction où on veut, c’est de faire ce

play19:25

qu’on appelle un preprompt.

play19:27

Avant votre prompt, qui est votre question, vous écrivez une intro qui va en quelque

play19:32

sorte mettre GPT dans l’ambiance du genre de texte qu’on veut le voir rédiger.

play19:37

[PREPROMPT Par exemple, « Ceci est une conversation entre un humain et un professeur de physique »

play19:42

: - Quelle est la masse de la Lune ? » Et là il y a des chances que GPT soit plus enclin

play19:47

à compléter selon ce qu’on désire. Comme s’il s’agissait vraiment d’une discussion

play19:51

avec un prof de physique.]

play19:52

Avec la méthode du preprompt, on peut en quelque sorte invoquer des personnes avec

play19:57

qui on va pouvoir dialoguer. En faisant un preprompt qui invite un spécialiste de tel

play20:01

ou tel sujet, on augmente les chances que GPT nous complète notre phrase avec quelque

play20:05

chose de pertinent.

play20:06

Cette idée du preprompt est également à la base de certaines applications comme Replika

play20:11

qui vous proposent de parler avec un ou une amie virtuelle. Avec un bon pre-prompt l’échange

play20:17

produit pourra plus ou moins ressembler à celui qu’on aurait avec quelqu’un de réel.

play20:20

Donc si maintenant on veut que GPT se comporte comme un chatbot omniscient et sympathique,

play20:25

il suffit de lui indiquer dans le preprompt. Un truc du genre « Ceci est une conversation

play20:30

entre un humain et un chatbot très savant, et qui est toujours gentil, utile, poli, bienveillant

play20:35

et aidant ».

play20:36

[SYDNEY On ne connait pas exactement le preprompt utilisé par ChatGPT, c’est secret, et manifestement

play20:41

il évolue. Mais certains auraient réussi à obtenir celui de Sydney, la variante utilisée

play20:47

par le moteur Bing.

play20:48

Voici ce que ce serait, c’est assez long vous voyez, et ça contient plein d’instructions

play20:53

assez précises sur sa façon de répondre, et notamment le fait de ne pas révéler qu’il

play20:58

s’appelle Sydney.]

play20:59

Mais attention, utiliser un pre-prompt, ça ne fait pas tout. Pour bien vous montrer les

play21:03

limites, il y a un point amusant.

play21:04

[COMPLETION DIALOGUE Si vous posez une question dont la réponse est courte et que vous demandez

play21:08

à GPT de compléter, parfois il va non seulement donner la réponse, mais écrire la question

play21:13

suivante, voire carrément toute la suite du dialogue.

play21:16

Ou bien des fois il va choisir de compléter la question par un truc que je n’ai pas

play21:21

demandé.]

play21:22

Une dernière fois pour la route : GPT n’est pas entrainé à répondre à des questions

play21:24

ou à suivre des instructions, mais à prolonger des textes. Pour essayer de corriger un peu

play21:29

cela dans le modèle, il existe une méthode : ce qu’on appelle le fine-tuning. Le réglage

play21:34

fin.

play21:35

Le fine-tuning, c’est l’idée de prendre un modèle déjà entrainé, comme GPT, et

play21:39

de le spécialiser en prolongeant son entrainement sur des textes bien choisis, qui ressemblent

play21:45

plus à ce qu’on attend de lui.

play21:46

[FONDATION FINETUNING L’entrainement initial c’est pour apprendre les grandes règles

play21:49

de vocabulaire, de syntaxe, de grammaire, de relations entre les mots etc. C’est pour

play21:53

ça qu’on parle d’un modèle de fondation. Et ensuite on spécialise le modèle sur la

play21:57

tâche qui nous intéresse vraiment grâce à du finetuning.]

play22:00

OpenAI a ainsi créé InstructGPT, qui a été « fine-tuné » à partir de GPT en étant

play22:07

exposé à des réponses rédigées par des humains, et qui correspondaient au style qu’on

play22:11

attendrait d’un chatbot utile et bienveillant. Cette phase correspond donc à un apprentissage

play22:15

supervisé plus classique, puisque l’on utilise cette fois bien des données crées

play22:19

à la main par des humains.

play22:22

En combinant preprompt et finetuning, on arrive à des résultats plus proches de ce qui est

play22:27

attendu d’un chatbot. Mais pour augmenter encore la qualité, OpenAI a utilisé en plus

play22:31

une troisième technique : l’apprentissage par renforcement avec feedback humain.

play22:37

[jingle]

play22:39

Pour permettre à ChatGPT de proposer des réponses encore plus pertinentes, OpenAI

play22:46

a ajouté une troisième couche d'apprentissage, utilisant cette fois ce qu'on appelle l'apprentissage

play22:50

par renforcement. L'idée est de partir de réponses fournies par ChatGPT à certaines

play22:55

questions, et de faire évaluer ces réponses par des humains.

play22:58

Ca n’est pas comme la phase de finetuning où des humains devaient carrément proposer

play23:02

des réponses, là ils doivent juste juger les réponses que fournit ChatGPT. Une façon

play23:08

simple, ce serait de leur demander de noter la qualité de la réponse, par exemple entre

play23:11

0 et 20.

play23:12

[RLHF En pratique comme tout le monde n'a pas les mêmes échelles de notation, on procède

play23:16

plutôt par comparaison : pour une même question, on demande à un humain de comparer différentes

play23:21

réponses produites par ChatGPT, et de les classer entre elles.

play23:25

A partir de ces évaluations, on peut entrainer ce qu'on appelle un modèle de récompense,

play23:30

qui va servir à aider le modèle de langage à s’orienter vers des réponses qui ressemblent

play23:35

à celles qu’attendent ou que préfèrent les humains. Du moins les humains qui ont

play23:39

fait les évaluations dans cette phase d’apprentissage par renforcement.]

play23:43

Cette phase est d'ailleurs aussi une façon à ce stade de s'assurer que le modèle ne

play23:48

sort pas de réponses qui pourraient être jugées illégales, dangereuses, haineuses

play23:52

ou tout simplement inappropriées pour l'usage auquel il est destiné.

play23:56

[RESUME Si on combine donc l'ensemble des ingrédients qu’on a mentionné : fine-tuning,

play24:01

apprentissage par renforcement avec feedback humain, et preprompt, on comprend qu’il

play24:04

est possible de spécialiser un modèle de fondation.

play24:07

Et d’en faire ainsi un chatbot comme ChatGPT, qui soit plus pertinent, utile et plus respectueux

play24:13

que GPT, qui avait simplement ingurgité tous les textes d’internet.]

play24:17

Alors à l'issue de tout ça : qu'est-ce qu'il faut penser de ChatGPT ? Sur des questions

play24:21

ayant une réponse simple et déjà bien documentée, il fonctionne très bien. Mais en soi ça

play24:26

n'apporte pas grand chose de plus que Wikipédia ou une recherche Google.

play24:29


Ce que l'on sait des modèles de machine learning, c'est qu'il sont souvent assez bons

play24:33

pour interpoler, c'est-à-dire bien traiter une situation nouvelle, mais qui soit suffisamment

play24:39

proche d'un ensemble de cas qu'ils ont pu voir dans leur entrainement.

play24:42

Et on peut souvent le vérifier ici : le modèle peut produire des réponses intéressantes

play24:47

et même inventives à des questions originales ou pas forcément toujours bien formulées.

play24:52

On décrit parfois l'intelligence ou la créativité comme la facilité à relier des choses qui

play24:57

n’ont pas forcément de lien apparent ou évident. Et de ce point de vue là, c’est

play25:01

intéressant de voir que ChatGPT montre des signes indéniables de certaines de ces capacités.

play25:05

On pourrait passer des heures à passer en revue ce que ChatGPT fait bien, et ce sur

play25:11

quoi il échoue lamentablement. Mais d'une part vous en avez certainement déjà vu passer

play25:14

plein d'exemples, d'autre part, ça bouge tellement vite que tout ce que je pourrai

play25:18

raconter sera peut-être caduc dans quelques semaines.

play25:21

Un point sur lequel j’ai envie quand même commenter, et sur lequel ChatGPT est particulièrement

play25:25

mauvais, c'est le fait de citer des sources. Si on le fait parler d'un phénomène scientifique,

play25:30

et qu'on lui demande les références des publications d'où il tire ses conclusions,

play25:34

on obtient la plupart du temps des articles complètement inventés qui n'existent absolument

play25:39

pas.

play25:40

Ca peut paraitre assez embêtant, mais à nouveau si on réfléchit à comment fonctionne

play25:45

le modèle, on l'explique assez bien. GPT ne raisonne pas, il ne cherche pas sur Internet,

play25:49

il n'a pas de mémoire explicite : il se contente de générer des textes plausibles dont les

play25:54

mots collent bien ensemble.

play25:56

Et quand on regarde le format des citations d'articles scientifiques, franchement tout

play26:00

se ressemble. Et donc n'importe quel séquence de mots qui respecte vaguement le format standard,

play26:06

ça passera à ses yeux comme une complétion tout à fait crédible pour faire office de

play26:11

référence scientifique.

play26:12

D'autant que bien souvent dans un article scientifique, les références sont groupées

play26:16

en un gros paquet à la fin, et en lisant uniquement ces sections, on a bien du mal

play26:20

à deviner le contexte de chacune de ces citations.

play26:24

Et pour ChatGPT, c'est un peu pareil, une référence random avec à peu près les bons

play26:28

auteurs et le nom d'un journal qui existe vraiment, il invente un volume et un numéro

play26:33

de page, et ce sera jugé comme parfaitement raisonnable étant donné son mode de fonctionnement.

play26:38

Ce problème spécifique des sources semble assez difficile à résoudre en se basant

play26:42

uniquement sur le principe d'un modèle de langage. Mais on peut imaginer qu'en couplant

play26:47

ces modèles a des mécanismes de recherche sur Internet ou dans des bases de données,

play26:51

cette question des sources inventées finira par être résolue.

play26:54

Merci d’avoir suivi cette vidéo, comme toujours abonnez-vous, rejoignez aussi le

play26:59

Discord de science étonnante, le lien est en description, c’est le meilleur moyen

play27:02

d’avoir des nouvelles qui ne soient pas filtrées par l’algo Youtube, et on se retrouve

play27:06

très vite pour une nouvelle vidéo. A bientôt. POSE MINIATURE

Rate This

5.0 / 5 (0 votes)

Related Tags
ChatGPTIAChatbotsModèle GPTApprentissage AutomatiqueLangage NaturelMachine LearningIntelligence ArtificielleTecnologieScience des Données
Do you need a summary in English?