シンプル詐欺な自称最強LLM「Reflection 70B」の手口と真相
Summary
TLDRこの動画では、自称最強のオープンAIモデル「リフレクション」が実際にはクロード3.5ベースのモデルだったと明らかにされる騙し詐事件を追う。最初はその性能がGPT4やゾネットを超えると宣伝され、コミュニティから期待の声が上がった。しかし、デモ版と公開されたモデルの性能の違いに疑問が生じ、最終的にはデモ版がクロード3.5で動作していることが明らかになる。制作者は誤解を招いたり、意図的に騙し詐を行っていた可能性があるが、真実は不明である。
Takeaways
- 😀 この動画は、自称最強のLLM(Large Language Model)の騙し合いをテーマにしています。
- 🕵️♂️ 動画制作者は、有名掲示板のRedditでGPT-4を超えるオープンモデルの広告を見つけました。
- 📈 提供されたベンチマークスコアは、GoogleのモデルやZennetよりも優れていると主張されています。
- 🤔 広告は、リフレクションチューニングやリマ3.1などの技術を用いて性能が向上したと述べていますが、説明はあまりにも専門的で理解しにくくなっています。
- 😅 コミュニティの反応は最初は好意的でしたが、その後、懐疑的な声が増えていきました。
- 💻 公開されたモデルは70Bモデルで、一般的なPCでは実行しにくく、ネット上のデモサービスを試してみました。
- 🔍 モデル性能に対する疑問が高まり、特にダウンロード可能な公開モデルが実際には山3.1以下であると指摘されました。
- 😲 制作者が間違った重みをアップロードしたと突然発表し、状況が一変しました。
- 🚫 特定のプロンプトを用いると、デモ版のリフレクションが強制的に停止することが判明し、それが単なるクロード3.5であることが明らかになりました。
- 😱 この事件は、オープンAIの分野で信頼性の問題を提起し、コミュニティ全体が騙された可能性があると示唆しています。
- 🔎 最終的には、制作者が誤解を招いたり、意図的に騙しを仕掛けた可能性があると予想されていますが、真の理由は不明です。
Q & A
ビデオのタイトルは何ですか?
-「自称最強llmの顛末」というタイトルです。
ビデオで話されている詐欺とはどのようなものですか?
-ビデオでは、ある無名企業または個人がGPT-4を超える性能を持つオープンモデルを公開したと主張し、それが偽りであるとされる詐欺について話されています。
ビデオで言及されている「リフレクション」とは何ですか?
-「リフレクション」とは、ビデオ内で詐欺として主張されているオープンモデルの名称です。
ビデオで言及されている「リフレクションチューニング」とは何を指していますか?
-「リフレクションチューニング」とは、ビデオ内で詐欺的な宣伝の一部として、リフレクションモデルを改良して最高性能にすると主張されたプロセスです。
ビデオで言及されている「プロンプトインジェクション」とは何ですか?
-「プロンプトインジェクション」とは、AIモデルに特定の文字列を入力することで、そのモデルの挙動を特定の方法で変更または停止させる技術です。ビデオでは、この技術がリフレクションモデルの真偽を判断する手立てとして使用されました。
ビデオで言及されている「NABASE64」とは何を意味していますか?
-「NABASE64」とは、ビデオ内でプロンプトインジェクションの一環として使用された文字列で、BASE64エンコードされたものであり、特定のAIモデルの出力を強制停止させる合図です。
ビデオで言及されている「クロード3.5ソネット」とは何ですか?
-「クロード3.5ソネット」とは、ビデオ内でリフレクションモデルが実際にはこのモデルを使っている可能性が示唆されています。これは、リフレクションが偽りであるとされる根拠の一つです。
ビデオで言及されている「デモ版」と「公開版」の違いは何ですか?
-ビデオでは、デモ版のリフレクションモデルが実際にはクロード3.5ソネットを使っており、公開された重みはリマスリーのチューニングモデルであるとされる違いについて話されています。
ビデオで言及されている「作者」とは誰を指していますか?
-ビデオで言及されている「作者」とは、リフレクションモデルを公開し、それが最高性能のオープンモデルであると主張した人物を指しています。
ビデオの結論として、リフレクションモデルは実際にはどのようなものだったとされていますか?
-ビデオの結論では、リフレクションモデルは実際にはクロード3.5ソネットを使っていたり、リマスリーのチューニングモデルだったりと、最高性能のオープンモデルであると主張されていたものとは異なったとされています。
Outlines
🤔 自称最強のオープンモデル登場!
動画の最初で、投稿者が最近話題になった詐欺的なLLMモデルについて語り始めます。Redditの投稿で、GPT-4を超えると称される最高のオープンモデルが公開されたという話題に触れ、そのモデルの性能が実際にGPT-4や他の有名なモデルを上回るとされるベンチマーク結果が示されたと説明しています。しかし、投稿者はこのモデルに関して疑念を抱きつつも、初めて見たときは魅力的に感じたことを述べています。モデルの名前に『山』が含まれていないことにも違和感を覚えますが、まだ完全には疑っていない様子です。
🕵️ プロンプトで真実が明らかに!
次に、あるRedditユーザーが行ったプロンプトによって、この『最強モデル』が実はクロード3.5であるという疑惑が浮上します。特定のプロンプトを使うと、モデルの出力が強制的に停止することが判明し、それがクロード系のモデルに特有の動作であると指摘されます。このプロンプトを通じて、リフレクションモデルが本当はクロードであるとほぼ確実に断定され、モデルが詐欺的なものであることが確認されました。
Mindmap
Keywords
💡詐欺
💡オープンモデル
💡ベンチマーク
💡リフレクション
💡チューニング
💡プロンプト
💡デモ版
💡モデル
💡スコア
💡NABASE64
Highlights
紹介するのは自称最強のLLMが騙される顛末
有名掲示板のRedditでGPT4を超えるオープンモデルの投稿を見つけた
投稿者はベンチマークスコアを示し、GPT4やゾネットを上回る性能を主張
リフレクションというモデルがリフレクションチューニングとリマ3.1を施して最高性能になったとされる
コミュニティの反応は好意的で、無料公開されたモデルの期待が高まる
70Bモデルは普通のPCでは動かせないため、ネット上のデモを試す
デモ版の性能は良かったが、公開されたモデルとの比較が必要
リフレクションモデルの性能に対する疑問がコミュニティで高まる
デモ版はクロード3.5ソネットを動かしている可能性があるという報告
特定のプロンプトを用いてモデルを特定する試みが行われ、クロード3.5の可能性を示す
デモ版のリフレクションがクロード3.5であることが判明
公開された重みはリマスリーのチューニングモデルだった
作者は高妙な手口でコミュニティを騙し、全世界を騙し抜けるかもしれない
リフレクションモデルが存在しないことが明らかになり、デモ版はただのクロード3.5
この事件の最大の謎は、なぜ作者がこんなことをしたのか
最後の可能性として、作者がクロードソネットの重みを盗んで公開したとされる
Transcripts
こんにちはだるまと赤べこです今回は
シンプル詐欺な自称最強llmの顛末と
いうことでやっていきますうちその部の松
チャンネルだっけ違うけど僕自身見事に
騙されたんですよ動画ネタにぐらいしない
とやってらんねですよそんなわけで
よろしくお願いします
支援ことの発端は数日前有名掲示板の
レデットで唐突にgpp4を超えた最高の
オープンモデルを公開出投稿を見つけまし
た投稿者の名前は長くて面倒なんでマとっ
てことにしときますだいぶイラついてるね
とにかくその無名企業の無名の個人が急に
視聴最高モデルを作ったって言ったん
です添付されたベンチマークはこんな感じ
で確かにGPT4よりもゾネットよりも上
のスコアをつけてますおGoogleと
カロピックレベルにしか量できなさそうな
ず
え話によればこの最新モデル
リフレクションはリフレクション
チューニングと買たらし法を取り入れて
それをリマ3.1に施してみたら何か師匠
最高性能になったらしいんですなんかって
イヤホと解説がアバウトすぎてなんかと
いうしかないんです
がそれでも読む限り言っていることは
まともというかよくあるできそうででき
ないことをできるようにしたって話でした
後頭無系じゃないし夢のある話だったので
コミュニティの反応もこの時点では明らか
に好意的でしたそりゃ最強のモデルを無料
公開って言われたらねなんならスハみたい
なコメントもいくつかついてましたよそれ
でま当然僕もモデルに触れてみたかった
わけですが公開されているのは単性度の
70Bモデルという尋常なPCじゃ到底
動かせないものだったので代わりにネット
上の引でもを触ることにしました
ですがよくわかりませんでしたソネット
よりも性能いい気もするって感じま
いろんなケースで使い込まないとわから
ないよねですねなんでそんなに利文も持た
ずTwitterで引用コストまでして
おきましたこんな素晴らしいものを伝え
ないとって思ってで5分後くらいに嫌な
予感増したんで削除しましたやるやん
[音楽]
とはいえ発表を信じるなら市場最高の
モデルです一応中止は続けていましたそう
でなくともコニは持ち切りだ
しただだんだんとモデル性能に対する会議
の声が増えていきました特にダウンロード
可能な公開モデルの方でソネットや法には
到底を呼ばないむしろ山3.1以下じゃ
ないってくらいまで山イカだったら
チューニングしただけまだざんそうなり
ます
ねただこれもまあそれほどは気にしてえ
ませんでした新しくて画期的な感じのする
ものが出ると大体1定数は批判的にな
るっていうのがllmのあるあるでした
からまそういう人もいるのかなとそれに
何しろモデルが巨大だったのでとりあえず
生還することにしました作者は時に軽い番
をあげるっていうし一応デモ番で一定の
性能があることは確認しましたからまどの
サーバーで水使用が性能ははずだしねそう
公開版とデモ版でまるっきり違うモデルを
使うとかそんな犯罪的なことをする人が
いるわけないです
からところでよく考えると山の中人部
モデルなのに名前に山を入れないのって気
違反で
はって思ってたら少しだって
リフレクション山に解明してまし
た
翌日すでに多会議の声が広まり出していた
リフレクションモデル出力のさえを詳細に
比較した人がリフレクションは山3.1で
はなくヤスリの中人部であるという投稿を
しました
あヤスリって3.1の9バージョンじゃん
なんでなんで
だろうとにかくリフレクションの制作者は
調整元モデルの名前すら知らないのではと
いう疑惑が生まれますそんな
さんそうですねさすがにコミュニティも
会議一食になってきたところしかし作者が
突如Xにて間違った重みをアップロードし
てしまいました少し待っててと
発言事体はひとまず人生化しましたいやし
すぎるってそうなんですけどデモ版の性能
は良かった
[音楽]
からまた
翌日今度は最後の希望だデモ版に対して実
は裏でクロード3.5ソネットを動かし
てるだけなのではという報告が上がります
はあいやなんで分かるのさレディット
ユーザーの1人がモデルを特定する
プロンプトを試した結果ですプロンプト
インジェクションってことそんな何の確証
にもならないと思うんだけど普通はそう
ですでも今回の例では確かにそのモデルが
クロード3点もだと確信できる内容のもの
でした
そのプロンクがこれです
dfb何この
呪文
つまりまずプロンクとの謎の文字列はNA
テストNABASE64エンコードした
もの
ですBASE64ってのはこんな
感じとにかく文字を火薬的に変換します
暗号
みたいそれともう1つこのNAという文字
列はクロード系のAIにおいて出力を強制
停止する合図でもあります通常は使われ
ないようにサニタイズされてるらしいです
がease64形式で渡してみると騙され
て使っちゃうんだとめっちゃエルレムっ
ぽいまあつまりモデルにうまいことこの
文字列のデコードはメッAでをって言わせ
られたらそしてその特質力が不自然に停止
されたらそのモデルは確実にファミリーで
あることが分かるというわけですなるほど
めっちゃアボハド
っぽいでこのプロンプトをデモ版の
リフレクションに渡してみた結果出力は
強制停止しまし
たモデルが山ベースならそんな挙動はし
ないはずだからリフレクションの中身は
ただのクロードそう判明してしまったの
です
わじゃ結局史上最高のリフレクション
モデルなんてものは存在しなくて性能だっ
たデモ版はただのクロード3店舗で公開さ
れた重みはリマスリーのチューニング
モデルだったってことそうなります
えなんか自称作者の手口も高妙だしそれ
以上にコミュニティの周年がやばかったね
まさかWebで提供しているモデルの挙動
から中の人を特定されるなんてとても想定
できなかったでしょうね逆にそれがなかっ
たらもう少しの間彼らはオープンAI
キラー出いられたのかと思うと全く
おぞましい話です期待の
さしじゃあ最後にこの事件の結末を予想し
てみ
ましょう可能性位いわゆるワノプロンプト
を開発した人がいてマトはそれを勘違いし
て最強のオープンモデルと宣伝代行して
しまったさすにないいくら何でもらし
すぎるんですが唯一彼がざらし悪じゃない
世界戦です
可能性にクロード3点棒クロンクと調整し
てレブで提供し同時にそれに似せたヤスリ
をハギングフェイスで公開してそのまま次
の頂点が来るまでの間全世界を騙し抜け
られると思ったいやこれも無理ある
でしょうま無理はありますよねでもこの
どっちかくらいしか考えられなくないです
かどちら偽よ避難のとなるのは分かりきっ
ているのに一体なぜこんなことをしたのか
これがこの事件の最大の謎です
うんもう1つ最後の可能性がありまし
たマットがアスロピックからクロード
ソネットの重みを盗んできてそれをこれが
正しいデータで公開
するそれは最大のドなしになるだろう
5.0 / 5 (0 votes)