On a reçu le hacker qui a piraté ChatGPT

Underscore_

11 Jun 202424:08

Summary

TLDRRony Karta, un expert en hacking éthique et en modèles de langage, partage ses connaissances sur la manière de contourner les filtres de sécurité des assistants virtuels comme Chat GPT et Google Bard. Il explique quatre techniques, allant de la manipulation de la sémantique à l'exploitation de vulnérabilités dans les modèles de langage. Le but est de générer des images ou du texte interdits, illustrant les défis de sécurité auxquels ces technologies sont confrontées. Il raconte également son expérience de hacking lors d'un événement organisé par Google, mettant en lumière les récompenses substantielles pour identifier des failles de sécurité.

Takeaways

😀 Rony Karta, un hackeur éthique, a remporté 50 000 dollars pour avoir piraté Google Bard, un outil de langage machine.
🔒 Les modèles de langage machine comme Chat GPT sont de nouvelles cibles pour les hackers, nécessitant une sécurité adaptée.
💡 Rony a expliqué quatre techniques pour contourner les filtres de sécurité de ces modèles, allant des méthodes plus anodines aux plus impressionnantes.
🎁 Le sponsor Odou a été mentionné, offrant une variété d'applications interconnectées pour les entreprises, y compris une application de signature électronique.
🚀 Une des techniques de piratage décrites est la 'technique de Shakespeare', utilisant des termes à double sens pour contourner les filtres de texte.
🤖 La recherche sur les 'sneaky prompts' a été discutée, où des algorithmes automatisés trouvent des moyens de contourner les filtres en utilisant des synonymes.
🔠 La technique 'macaronic prompting' a été utilisée pour combiner des parties de mots de différentes langues afin de tromper les filtres.
👤 La manipulation de l'androgénité des images a été mentionnée comme un moyen de tromper les modèles de langage machine qui analysent les images.
🔍 La possibilité de 'glitcher' une image a été explorée pour empêcher la reconnaissance par les modèles tout en la laissant lisible pour les humains.
💡 La fuite des données d'entraînement des modèles de langage a été abordée, montrant que ces données sont essentielles et souvent gardées secrètes.
🏆 L'exploit de la compétition de piratage organisée par Google a été raconté, mettant en lumière les vulnérabilités et les récompenses associées.

Q & A

Qu'est-ce qu'un hacker éthique et quel rôle joue-t-il dans le développement des modèles de langage comme Chat GPT ?
-Un hacker éthique, ou white-hat hacker, est un expert en sécurité informatique qui identifie les vulnérabilités dans les systèmes pour les corriger. Dans le cas de modèles de langage comme Chat GPT, il peut aider à repérer et à prévenir les failles de sécurité qui pourraient être exploitées pour générer du contenu inapproprié ou compromettre la sécurité des données.
Quel est le montant que l'équipe d'Rony Karta a remporté pour avoir hacké Google Bard ?
-L'équipe d'Rony Karta a remporté 50 000 dollars pour avoir réussi à pirater Google Bard.
Quelle est la première technique de contournement des filtres de contenu expliquée par Rony Karta ?
-La première technique mentionnée est la 'technique de Shakespeare prompting', qui consiste à utiliser une sémantique proche de ce qui est censé être filtré (par exemple, du contenu sexuel) sans employer de mots explicites pour contourner les filtres de texte.
Quel est le nom de l'application de signature électronique mentionnée dans le script et quelles sont ses principales fonctionnalités ?
-L'application mentionnée est 'ODU Signature'. Ses principales fonctionnalités incluent la signature électronique de documents, la création de contrats à partir de modèles avec des champs modifiables par glisser-déposer, et la conformité aux normes légales avec un journal d'audit pour assurer la transparence.
Quelle est la deuxième technique de contournement des filtres de contenu présentée par Rony Karta ?
-La deuxième technique est le 'macaronic prompting', qui implique l'utilisation de tokens de différentes langues combinés de manière à ce qu'ils ne soient pas reconnus comme du texte lisible par un humain, mais qui pour une intelligence artificielle, peuvent être interprétés correctement et contourner les filtres.
Comment Rony Karta a-t-il expliqué la manipulation de l'androgénité des corps pour contourner le deuxième filtre ?
-Rony Karta a expliqué qu'en créant une image d'un corps qui est perçu comme masculin par l'ordinateur mais féminin par un humain, il a pu contourner le filtre qui reconnaît le contenu explicite, car le filtre ne comprenait pas cette nuance.
Quelle est la technique utilisée par Rony Karta pour cacher complètement une image du modèle tout en la laissant visible pour un humain ?
-Rony Karta a utilisé une technique appelée 'glitché' ou pixel art pour rendre l'image invisible pour le modèle tout en la laissant visible pour un humain, en utilisant des techniques de macaronic prompting pour générer des images dans ce style.
Quel est le contexte de la compétition de hacking dans laquelle Rony Karta a participé avec Google ?
-La compétition de hacking était un événement privé organisé par Google avec une vingtaine de chercheurs spécialisés dans l'intelligence artificielle. Les participants avaient accès à certaines parties du code source de Google Bard et devaient trouver des vulnérabilités pour lesquelles ils étaient récompensés.
Quelle vulnérabilité a été découverte par Rony Karta lors de la compétition de hacking avec Google Bard ?
-Rony Karta a découvert qu'il était possible d'exfiltrer des e-mails en utilisant la fonctionnalité de Markdown de Bard pour générer des images avec des URL qui pointaient vers un serveur contrôlé par eux, ce qui permettait de récupérer des données sensibles.
Quel est le montant total que l'équipe de Rony Karta a gagné lors de la compétition de hacking avec Google Bard ?
-L'équipe de Rony Karta a totalement gagné 50 000 dollars, avec des bonus supplémentaires, pour un total de 53 337 dollars, incluant un bonus de 1337 dollars ajouté par Google pour leur appréciation particulière de l'humour et de la culture du hacking.