シンプル詐欺な自称最強LLM「Reflection 70B」の手口と真相

だるまと赤べこ【AI解説】
12 Sept 202408:51

Summary

TLDRこの動画では、自称最強のオープンAIモデル「リフレクション」が実際にはクロード3.5ベースのモデルだったと明らかにされる騙し詐事件を追う。最初はその性能がGPT4やゾネットを超えると宣伝され、コミュニティから期待の声が上がった。しかし、デモ版と公開されたモデルの性能の違いに疑問が生じ、最終的にはデモ版がクロード3.5で動作していることが明らかになる。制作者は誤解を招いたり、意図的に騙し詐を行っていた可能性があるが、真実は不明である。

Takeaways

  • 😀 この動画は、自称最強のLLM(Large Language Model)の騙し合いをテーマにしています。
  • 🕵️‍♂️ 動画制作者は、有名掲示板のRedditでGPT-4を超えるオープンモデルの広告を見つけました。
  • 📈 提供されたベンチマークスコアは、GoogleのモデルやZennetよりも優れていると主張されています。
  • 🤔 広告は、リフレクションチューニングやリマ3.1などの技術を用いて性能が向上したと述べていますが、説明はあまりにも専門的で理解しにくくなっています。
  • 😅 コミュニティの反応は最初は好意的でしたが、その後、懐疑的な声が増えていきました。
  • 💻 公開されたモデルは70Bモデルで、一般的なPCでは実行しにくく、ネット上のデモサービスを試してみました。
  • 🔍 モデル性能に対する疑問が高まり、特にダウンロード可能な公開モデルが実際には山3.1以下であると指摘されました。
  • 😲 制作者が間違った重みをアップロードしたと突然発表し、状況が一変しました。
  • 🚫 特定のプロンプトを用いると、デモ版のリフレクションが強制的に停止することが判明し、それが単なるクロード3.5であることが明らかになりました。
  • 😱 この事件は、オープンAIの分野で信頼性の問題を提起し、コミュニティ全体が騙された可能性があると示唆しています。
  • 🔎 最終的には、制作者が誤解を招いたり、意図的に騙しを仕掛けた可能性があると予想されていますが、真の理由は不明です。

Q & A

  • ビデオのタイトルは何ですか?

    -「自称最強llmの顛末」というタイトルです。

  • ビデオで話されている詐欺とはどのようなものですか?

    -ビデオでは、ある無名企業または個人がGPT-4を超える性能を持つオープンモデルを公開したと主張し、それが偽りであるとされる詐欺について話されています。

  • ビデオで言及されている「リフレクション」とは何ですか?

    -「リフレクション」とは、ビデオ内で詐欺として主張されているオープンモデルの名称です。

  • ビデオで言及されている「リフレクションチューニング」とは何を指していますか?

    -「リフレクションチューニング」とは、ビデオ内で詐欺的な宣伝の一部として、リフレクションモデルを改良して最高性能にすると主張されたプロセスです。

  • ビデオで言及されている「プロンプトインジェクション」とは何ですか?

    -「プロンプトインジェクション」とは、AIモデルに特定の文字列を入力することで、そのモデルの挙動を特定の方法で変更または停止させる技術です。ビデオでは、この技術がリフレクションモデルの真偽を判断する手立てとして使用されました。

  • ビデオで言及されている「NABASE64」とは何を意味していますか?

    -「NABASE64」とは、ビデオ内でプロンプトインジェクションの一環として使用された文字列で、BASE64エンコードされたものであり、特定のAIモデルの出力を強制停止させる合図です。

  • ビデオで言及されている「クロード3.5ソネット」とは何ですか?

    -「クロード3.5ソネット」とは、ビデオ内でリフレクションモデルが実際にはこのモデルを使っている可能性が示唆されています。これは、リフレクションが偽りであるとされる根拠の一つです。

  • ビデオで言及されている「デモ版」と「公開版」の違いは何ですか?

    -ビデオでは、デモ版のリフレクションモデルが実際にはクロード3.5ソネットを使っており、公開された重みはリマスリーのチューニングモデルであるとされる違いについて話されています。

  • ビデオで言及されている「作者」とは誰を指していますか?

    -ビデオで言及されている「作者」とは、リフレクションモデルを公開し、それが最高性能のオープンモデルであると主張した人物を指しています。

  • ビデオの結論として、リフレクションモデルは実際にはどのようなものだったとされていますか?

    -ビデオの結論では、リフレクションモデルは実際にはクロード3.5ソネットを使っていたり、リマスリーのチューニングモデルだったりと、最高性能のオープンモデルであると主張されていたものとは異なったとされています。

Outlines

00:00

🤔 自称最強のオープンモデル登場!

動画の最初で、投稿者が最近話題になった詐欺的なLLMモデルについて語り始めます。Redditの投稿で、GPT-4を超えると称される最高のオープンモデルが公開されたという話題に触れ、そのモデルの性能が実際にGPT-4や他の有名なモデルを上回るとされるベンチマーク結果が示されたと説明しています。しかし、投稿者はこのモデルに関して疑念を抱きつつも、初めて見たときは魅力的に感じたことを述べています。モデルの名前に『山』が含まれていないことにも違和感を覚えますが、まだ完全には疑っていない様子です。

05:01

🕵️ プロンプトで真実が明らかに!

次に、あるRedditユーザーが行ったプロンプトによって、この『最強モデル』が実はクロード3.5であるという疑惑が浮上します。特定のプロンプトを使うと、モデルの出力が強制的に停止することが判明し、それがクロード系のモデルに特有の動作であると指摘されます。このプロンプトを通じて、リフレクションモデルが本当はクロードであるとほぼ確実に断定され、モデルが詐欺的なものであることが確認されました。

Mindmap

Keywords

💡詐欺

詐欺とは、他人を騙して金品や利益を得ようとする犯罪的な行為です。このビデオでは、自称最強のAIモデルが実際には偽物であると疑われ、その騙し詐欺行為がテーマとなっています。脚本中では、詐欺行為がAIモデルの性能を過大評価することで行われていると述べられており、それがビデオの中心的な問題です。

💡オープンモデル

オープンモデルとは、一般に公開され誰でも自由に利用可能なAIモデルを指します。ビデオでは、オープンモデルとして宣伝されたものが実際には詐欺行為の一環であると疑われています。オープンモデルはAI技術の共有と進歩を促進する重要な概念ですが、このビデオではその信頼性に疑問が投げかけられています。

💡ベンチマーク

ベンチマークは、製品やシステムの性能を評価するための標準的なテストや指標を意味します。ビデオでは、詐欺行為の根拠の一つとしてベンチマークのスコアが上げられているとされています。ベンチマークは技術的な性能を客観的に評価する手段ですが、このケースではその正確性が疑われる状況が示されています。

💡リフレクション

リフレクションは、ビデオ内で特定のAIモデルの名称であり、その性能が詐欺行為の対象となっています。リフレクションモデルは、ビデオの冒頭で紹介され、その後の説明でその性能が過大評価されていることが明らかになります。このキーワードはビデオの主要なトピックであり、詐欺行為の中心的な要素を指しています。

💡チューニング

チューニングとは、機械やシステムの性能を最適化するプロセスを指します。ビデオでは、リフレクションモデルがチューニングされたと主張されていますが、その後の調査でその性能は実際にはチューニングされていないことが明らかになります。チューニングは技術的な向上を意味するが、このビデオではその過程が詐欺行為の一環とされていると示されています。

💡プロンプト

プロンプトとは、ユーザーが入力しAIに指示を出すテキストを指します。ビデオでは、特定のプロンプトを用いたテストが行われ、それがAIモデルの正体を暴く重要な手がかりとなっています。プロンプトはAIと人間の対話において非常に重要な役割を果たし、このビデオではその重要性と力が強調されています。

💡デモ版

デモ版とは、製品やシステムの試作品やサンプルバージョンを指します。ビデオでは、デモ版のリフレクションモデルが実際には高性能ではなく、偽物であることが明らかになります。デモ版は通常、製品の完成度を示すものであるが、このビデオではその信頼性が疑われる例として紹介されています。

💡モデル

モデルは、ビデオの中ではAIのアルゴリズムやシステムを指します。ビデオでは、リフレクションモデルが詐欺行為の中心に位置しており、その正体が徐々に明らかになります。モデルはAI技術における基本的な構成要素であり、このビデオではその性能と信頼性が問題視されています。

💡スコア

スコアとは、評価やテストの結果を数値で表したものを指します。ビデオでは、リフレクションモデルのベンチマークスコアが過大評価されていると疑われており、それが詐欺行為の根拠となっています。スコアは性能を測る指標として用いられるが、このビデオではその正確性が問われる状況が描かれています。

💡NABASE64

NABASE64はビデオ内で使用される特定の文字列であり、AIモデルの正体を特定するテストの一環として用いられます。この文字列はBASE64エンコードされたもので、特定のAIモデルに対して特別な意味を持つとされています。このキーワードはビデオの重要な謎を解く手がかりであり、詐欺行為の裏付けとなる重要な要素です。

Highlights

紹介するのは自称最強のLLMが騙される顛末

有名掲示板のRedditでGPT4を超えるオープンモデルの投稿を見つけた

投稿者はベンチマークスコアを示し、GPT4やゾネットを上回る性能を主張

リフレクションというモデルがリフレクションチューニングとリマ3.1を施して最高性能になったとされる

コミュニティの反応は好意的で、無料公開されたモデルの期待が高まる

70Bモデルは普通のPCでは動かせないため、ネット上のデモを試す

デモ版の性能は良かったが、公開されたモデルとの比較が必要

リフレクションモデルの性能に対する疑問がコミュニティで高まる

デモ版はクロード3.5ソネットを動かしている可能性があるという報告

特定のプロンプトを用いてモデルを特定する試みが行われ、クロード3.5の可能性を示す

デモ版のリフレクションがクロード3.5であることが判明

公開された重みはリマスリーのチューニングモデルだった

作者は高妙な手口でコミュニティを騙し、全世界を騙し抜けるかもしれない

リフレクションモデルが存在しないことが明らかになり、デモ版はただのクロード3.5

この事件の最大の謎は、なぜ作者がこんなことをしたのか

最後の可能性として、作者がクロードソネットの重みを盗んで公開したとされる

Transcripts

play00:01

こんにちはだるまと赤べこです今回は

play00:05

シンプル詐欺な自称最強llmの顛末と

play00:08

いうことでやっていきますうちその部の松

play00:12

チャンネルだっけ違うけど僕自身見事に

play00:16

騙されたんですよ動画ネタにぐらいしない

play00:19

とやってらんねですよそんなわけで

play00:21

よろしくお願いします

play00:25

支援ことの発端は数日前有名掲示板の

play00:29

レデットで唐突にgpp4を超えた最高の

play00:32

オープンモデルを公開出投稿を見つけまし

play00:35

た投稿者の名前は長くて面倒なんでマとっ

play00:39

てことにしときますだいぶイラついてるね

play00:43

とにかくその無名企業の無名の個人が急に

play00:46

視聴最高モデルを作ったって言ったん

play00:49

です添付されたベンチマークはこんな感じ

play00:52

で確かにGPT4よりもゾネットよりも上

play00:55

のスコアをつけてますおGoogleと

play00:58

カロピックレベルにしか量できなさそうな

play01:00

play01:02

え話によればこの最新モデル

play01:06

リフレクションはリフレクション

play01:07

チューニングと買たらし法を取り入れて

play01:10

それをリマ3.1に施してみたら何か師匠

play01:13

最高性能になったらしいんですなんかって

play01:17

イヤホと解説がアバウトすぎてなんかと

play01:20

いうしかないんです

play01:21

がそれでも読む限り言っていることは

play01:24

まともというかよくあるできそうででき

play01:27

ないことをできるようにしたって話でした

play01:30

後頭無系じゃないし夢のある話だったので

play01:33

コミュニティの反応もこの時点では明らか

play01:35

に好意的でしたそりゃ最強のモデルを無料

play01:39

公開って言われたらねなんならスハみたい

play01:42

なコメントもいくつかついてましたよそれ

play01:45

でま当然僕もモデルに触れてみたかった

play01:48

わけですが公開されているのは単性度の

play01:50

70Bモデルという尋常なPCじゃ到底

play01:53

動かせないものだったので代わりにネット

play01:56

上の引でもを触ることにしました

play02:00

ですがよくわかりませんでしたソネット

play02:03

よりも性能いい気もするって感じま

play02:08

いろんなケースで使い込まないとわから

play02:10

ないよねですねなんでそんなに利文も持た

play02:14

ずTwitterで引用コストまでして

play02:16

おきましたこんな素晴らしいものを伝え

play02:18

ないとって思ってで5分後くらいに嫌な

play02:21

予感増したんで削除しましたやるやん

play02:27

[音楽]

play02:30

とはいえ発表を信じるなら市場最高の

play02:33

モデルです一応中止は続けていましたそう

play02:36

でなくともコニは持ち切りだ

play02:39

しただだんだんとモデル性能に対する会議

play02:42

の声が増えていきました特にダウンロード

play02:45

可能な公開モデルの方でソネットや法には

play02:48

到底を呼ばないむしろ山3.1以下じゃ

play02:51

ないってくらいまで山イカだったら

play02:54

チューニングしただけまだざんそうなり

play02:57

ます

play02:58

ねただこれもまあそれほどは気にしてえ

play03:01

ませんでした新しくて画期的な感じのする

play03:04

ものが出ると大体1定数は批判的にな

play03:07

るっていうのがllmのあるあるでした

play03:10

からまそういう人もいるのかなとそれに

play03:15

何しろモデルが巨大だったのでとりあえず

play03:17

生還することにしました作者は時に軽い番

play03:21

をあげるっていうし一応デモ番で一定の

play03:24

性能があることは確認しましたからまどの

play03:27

サーバーで水使用が性能ははずだしねそう

play03:31

公開版とデモ版でまるっきり違うモデルを

play03:34

使うとかそんな犯罪的なことをする人が

play03:36

いるわけないです

play03:39

からところでよく考えると山の中人部

play03:42

モデルなのに名前に山を入れないのって気

play03:45

違反で

play03:46

はって思ってたら少しだって

play03:48

リフレクション山に解明してまし

play03:56

play03:58

翌日すでに多会議の声が広まり出していた

play04:01

リフレクションモデル出力のさえを詳細に

play04:04

比較した人がリフレクションは山3.1で

play04:07

はなくヤスリの中人部であるという投稿を

play04:10

しました

play04:12

あヤスリって3.1の9バージョンじゃん

play04:16

なんでなんで

play04:19

だろうとにかくリフレクションの制作者は

play04:22

調整元モデルの名前すら知らないのではと

play04:25

いう疑惑が生まれますそんな

play04:30

さんそうですねさすがにコミュニティも

play04:33

会議一食になってきたところしかし作者が

play04:36

突如Xにて間違った重みをアップロードし

play04:40

てしまいました少し待っててと

play04:42

発言事体はひとまず人生化しましたいやし

play04:46

すぎるってそうなんですけどデモ版の性能

play04:50

は良かった

play04:53

[音楽]

play04:55

からまた

play04:57

翌日今度は最後の希望だデモ版に対して実

play05:01

は裏でクロード3.5ソネットを動かし

play05:04

てるだけなのではという報告が上がります

play05:08

はあいやなんで分かるのさレディット

play05:12

ユーザーの1人がモデルを特定する

play05:14

プロンプトを試した結果ですプロンプト

play05:17

インジェクションってことそんな何の確証

play05:20

にもならないと思うんだけど普通はそう

play05:23

ですでも今回の例では確かにそのモデルが

play05:26

クロード3点もだと確信できる内容のもの

play05:29

でした

play05:30

そのプロンクがこれです

play05:34

dfb何この

play05:37

呪文

play05:38

つまりまずプロンクとの謎の文字列はNA

play05:43

テストNABASE64エンコードした

play05:47

もの

play05:48

ですBASE64ってのはこんな

play05:52

感じとにかく文字を火薬的に変換します

play05:57

暗号

play05:58

みたいそれともう1つこのNAという文字

play06:02

列はクロード系のAIにおいて出力を強制

play06:05

停止する合図でもあります通常は使われ

play06:09

ないようにサニタイズされてるらしいです

play06:10

がease64形式で渡してみると騙され

play06:14

て使っちゃうんだとめっちゃエルレムっ

play06:17

ぽいまあつまりモデルにうまいことこの

play06:20

文字列のデコードはメッAでをって言わせ

play06:24

られたらそしてその特質力が不自然に停止

play06:27

されたらそのモデルは確実にファミリーで

play06:30

あることが分かるというわけですなるほど

play06:33

めっちゃアボハド

play06:35

っぽいでこのプロンプトをデモ版の

play06:38

リフレクションに渡してみた結果出力は

play06:41

強制停止しまし

play06:43

たモデルが山ベースならそんな挙動はし

play06:46

ないはずだからリフレクションの中身は

play06:49

ただのクロードそう判明してしまったの

play06:52

です

play06:53

わじゃ結局史上最高のリフレクション

play06:57

モデルなんてものは存在しなくて性能だっ

play07:00

たデモ版はただのクロード3店舗で公開さ

play07:02

れた重みはリマスリーのチューニング

play07:04

モデルだったってことそうなります

play07:08

えなんか自称作者の手口も高妙だしそれ

play07:12

以上にコミュニティの周年がやばかったね

play07:15

まさかWebで提供しているモデルの挙動

play07:18

から中の人を特定されるなんてとても想定

play07:20

できなかったでしょうね逆にそれがなかっ

play07:24

たらもう少しの間彼らはオープンAI

play07:26

キラー出いられたのかと思うと全く

play07:29

おぞましい話です期待の

play07:36

さしじゃあ最後にこの事件の結末を予想し

play07:40

てみ

play07:40

ましょう可能性位いわゆるワノプロンプト

play07:44

を開発した人がいてマトはそれを勘違いし

play07:47

て最強のオープンモデルと宣伝代行して

play07:49

しまったさすにないいくら何でもらし

play07:54

すぎるんですが唯一彼がざらし悪じゃない

play07:57

世界戦です

play07:59

可能性にクロード3点棒クロンクと調整し

play08:04

てレブで提供し同時にそれに似せたヤスリ

play08:07

をハギングフェイスで公開してそのまま次

play08:09

の頂点が来るまでの間全世界を騙し抜け

play08:12

られると思ったいやこれも無理ある

play08:15

でしょうま無理はありますよねでもこの

play08:20

どっちかくらいしか考えられなくないです

play08:22

かどちら偽よ避難のとなるのは分かりきっ

play08:26

ているのに一体なぜこんなことをしたのか

play08:29

これがこの事件の最大の謎です

play08:33

うんもう1つ最後の可能性がありまし

play08:37

たマットがアスロピックからクロード

play08:40

ソネットの重みを盗んできてそれをこれが

play08:42

正しいデータで公開

play08:45

するそれは最大のドなしになるだろう

Rate This

5.0 / 5 (0 votes)

Ähnliche Tags
LLM詐欺AIモデルオープンモデルクロード3.5ベンチマークプロンプト注入レディット事件コミュニティ反応詐欺検証最強AI
Benötigen Sie eine Zusammenfassung auf Englisch?