で、Claude 3は本当にChatGPT超えたの?
Summary
TLDR本動画は、アスロック社が発表した新たな大規模言語モデル「クロード3」の解説です。クロード3シリーズの中から最上位モデル「オーパス」と「ソネット」モデルの性能を、GPT-4およびGPT-3.5と比較しながら検証しています。ベンチマークテストやさまざまな対話を通じて、知識の正確性、読解力、コーディング能力などを評価し、オーパスモデルがGPT-4に匹敵する、あるいは一部で上回る可能性があることが示唆されています。また、クロード3の利用方法と価格帯についても紹介されており、OpenAIの独走に風穴を開けるかもしれない興味深い存在として取り上げられています。
Takeaways
- 🆕 アスロック社が新しい大規模言語モデル「クロード3」を発表した。
- ⚔️ クロード3はOpenAIのGPT-4に対抗する存在として位置付けられている。
- 🏆 クロード3の最上位モデル「オーパス」は一部の項目でGPT-4を上回る性能を示した。
- 📖 長文読解や知識量の面ではオーパスがGPT-4に勝っていた。
- 💻 コーディング能力に関してはオーパスとGPT-4は同等レベルだった。
- 💰 クロード3には無料版、有料版(月額20ドル)、APIの3つのアクセス方法がある。
- 📈 開発者の間ではGPTではなくクロードを選ぶ選択肢も出てきた。
- ✨ クロード3の登場で、大手企業の独走だった開発競争が面白くなってきた。
- 🔮 今後、さらなる進化が期待されている。
- 🌐 軽量モデルなど、クロード3には魅力的な可能性がある。
Q & A
クロード3とはどのようなAIモデルですか?
-クロード3は、アンスロプィック社が発表した大規模言語モデルです。GPT-3/4に対抗する最新のAIモデルで、オーパス、ソネット、俳句の3つのモデルが含まれています。
クロード3の特徴は何ですか?
-クロード3の主な特徴は、GPT-4を上回る性能を持つことが示唆されていること、画像認識機能を備えていること、さまざまな価格帯のモデルが用意されていることなどが挙げられます。
オーパス、ソネット、俳句の違いは何ですか?
-オーパスは最高性能で高コストのモデル、ソネットは最も一般的なモデル、俳句は低コスト高速低性能のモデルです。性能と価格がそれぞれ異なります。
クロード3はGPT-4を本当に超えているのでしょうか?
-アンスロプィック社の発表では一部の項目でGPT-4を上回る結果が示されていますが、完全に上回ったとは言えません。GPT-4がツール機能などでチューニングされているため、実用面ではGPT-4の方が上という見方もあります。
知識の正確さではどうでしたか?
-知識と正直さの観点では、GPT-4が最も正確で、次にオーパス、ソネット、GPT-3.5の順となりました。ただし、オーパスが最新の知識を持っているため、GPT-4を上回る部分もありました。
長文の読解力ではどうでしたか?
-長文の読解力では、GPT-3.5は文字数制限で読み込めませんでした。ソネットは概要を説明してくれましたが、オーパスが最も分かりやすく詳細にまとめられていました。
コーディング能力ではどうでしたか?
-コーディング能力に関しては、GPT-4とオーパスはほぼ同等でした。人間の補助を考えるとGPT-4の方が扱いやすいかもしれません。しかし、どちらもまだ完全ではありませんでした。
クロード3の利用方法は?
-クロード3には無料版、有料版($20/月)、APIの3つの利用方法があります。無料版は制限があるものの単純な性能ではGPT-3.5を上回ります。有料版ではオーパスが利用できます。APIはPythonなどで扱えます。
まとめると、クロード3はどのような評価ですか?
-クロード3は、GPT-4を超える可能性を秘めた画期的なAIモデルと評価できます。一部の分野ではGPT-4を上回る性能を示しており、開発者の選択肢として注目に値します。ただし実用面ではまだGPT-4に及ばない部分もあります。
クロード3の今後の展望は?
-クロード3の登場により、OpenAIの独走だったAI開発競争がより面白くなってきました。今後のアップデートで実用面での改善が期待されています。また、ローカル用の軽量モデルなども期待されています。
Outlines
👨💻 クロード3の発表とその概要
この段落では、Anthropic社が発表したクロード3という大規模言語モデルについて解説しています。クロード3は、OpenAIのチャットGPTへの対抗的存在として開発されました。3つのモデル(オーパス、ソネット、俳句)が同時に発表され、それぞれの特徴と使用目的が説明されています。特に高性能のオーパスモデルがGPT-4を超えると主張されています。
🧪 クロード3のベンチマークテスト結果
この段落では、Anthropic社が公開したクロード3シリーズのベンチマークテスト結果について詳しく解説しています。オーパスモデルがGPT-4を上回る項目が多数あることが示されていますが、テストの方式によってはその信頼性に疑問が呈されています。しかし、同じ土俵でテストを行ったことから、ある程度の信頼性はあると述べられています。また、画像認識能力についてもオーパスがGPT-4を上回ると主張されています。
✏️ クロード3の実際の性能テスト
この段落では、実際の対話を通じてクロード3の性能を検証しています。まず、知識の正確さについてGPT-4、オーパス、ソネット、GPT-3.5を比較しています。次に、長文の読解力と要約力をテストしたところ、オーパスがGPT-4を上回る結果となりました。最後に、プログラミングの能力を確認しましたが、GPT-4とオーパスの差は見られませんでした。総合的には、オーパスがGPT-4に部分的に勝っているものの、GPT-4の方が実用的であると結論づけられています。
💰 クロード3の利用方法と価格
最後の段落では、クロード3の利用方法と価格について説明されています。無料版、有料版($20/月)、APIの3つの選択肢があり、それぞれの長所と短所が述べられています。有料版ではオーパスモデルが利用可能で、APIではオーパスが高価で俳句が安価になっています。価格設定がうまく分散されていることが指摘されています。今後のLLMの競争が面白くなってくると期待されています。
Mindmap
Keywords
💡クロード3
💡オーパス
💡ソネット
💡ハク(俳句)
💡ベンチマークテスト
💡知識と正確さ
💡テキスト理解力
💡コーディング能力
💡APIとサブスクリプション
Highlights
新たなLLMクロード3が発表された
クロード3はOpenAIのGPT-4への対抗的存在として位置付けられている
前世代のクロード2がGPT-4に次ぐ唯一の存在として評価されていた
クロード2の長所は巨大なコンテキストウィンドウにあった
アスロック社のCEOはかつてOpenAIのCEOに就任するよう求められていた
クロード3は3つのモデルを同時発表した
オーパス(最高性能・高コスト)、ソネット(一般的)、俳句(低コスト・高速・低性能)の3モデル
俳句モデルは未公開
モデル名の由来が示唆されている
公式ベンチマークテストの結果が紹介されている
オーパスがGPT-4を一部で上回る結果が示されている
単なる数値比較では確信が持てないことが指摘されている
ベンチマークの方式がポイントとされている
ベンチマークの手法が詳しく説明されている
クロード3のベンチマークはGPT-4と同じ方式で行われている点が評価されている
Transcripts
こんにちはだるまと赤べこです先日
アスロック車が新たなllmクロード3
発表しました今回はその解説をしていき
ますはいはいまたついにチャットGPT
こへのエ誕生ねすごいすごい解散
いやクロード3は初期からオープAIの
対抗的存在であったビック者が発表した大
規模言語モデルですでま例によってGPT
4を超えたとのこととりあえずこれ1とけ
たんだね少しこれまでと違うのは発表した
のがアスロックシということですね1世代
前のクロード2はgpk4につく唯一の
存在という触れ込みで実際それに恥ない
性能を持っていましたFATGPT以外で
は確かに唯一まともにた言語での会話が
成立していましたし巨大なコンテキスト
ウィンドウという当時はgpq4にすら
ない重要な強みも持っていまし
た余談ですがオAIのCEOであるサム
アルトマンが一度にされる事件がありまし
たよねあったったその時代わりにCEOに
なってくれという打を一周したのがこの
アスロック者のCEOらしいですけあんま
聞いたこなかったけど結構存在感あるんだ
ねそれは置いといても初めて嘘じゃない
GT3超えのAIを生み出したアスロック
者が今度はGPT4を超えお自称している
わけですもしかするとってわけだ
ねそして今回3つのモデルが同時に発表さ
れています最高性能で高コストのパス最も
一般的なモデルとしてのソネット低コスト
高速低性能の俳句俳句って何よ日本人とし
てはこの俳句気になるところですよねが
まだこのモデルだけ未公開なん
ですしかしオーパス柄テゴで芸術作品
ソネットがヨーロッパの14漁師ハクアズ
もがなので大体の使い道も見えてきますよ
ねそういうことかアスロック無駄に
おしゃれや
んさて今回はそんなクロード3の実力を見
ていきます
まずはアスロックの発表した性能
テスト次に実際の対話でソネットと
オーパスモデルをジャッGPTと比較し
ながらという流れです気になるのはオパス
とGPT4の比較だと思います面白い結果
だと思うので是非最後までご覧ください
面白い
結果ではまずは公式発表のベンチマーク
テスト
からにこれがロド3シリーズのベンチ
マーク結果です左側に3モデルの性能右側
に他の使用なAIの性能が示されています
まずオーパスとgtt4を比較してみ
ましょう緑色の項目がgtt4より
オーパスが優れているとされた部分です
全部やそう全部ですこれを持って
アスピック車はオーカスが最強だと言った
わけですねでもこんななの歩にもならない
でしょうジミの時だって数字上はGPT4
よりずっと終えて結果だったじゃん確かに
そうですそもそもがアスロックの出した
発表だし100%信用はできませんがただ
ジミニーの時と少し違う部分もあります
テストの方式
です画数字の下を見てみてください小さな
言葉が添えられてますよね本当だ何これ
これはテストに用いた方法がが書いてある
んです例えば1番上のテストで用いられて
いる5ショットというのは5つの例を示し
てから実際の問題を解かせるという少し
特殊な進め方をしているんですあテスト
問題を一発で解かせるわけじゃないん
だそれを踏まえてこの結果を見てみ
ましょうジェミニウルトラは確かに数字
そのものは良い結果を示しているものの
比較対象のGPT4と全く違った方式で
問題を解かせていますそれも多くはより
複雑で長い工程のものを用いて方法を交換
したらベンチマーク結果も逆転したという
おまけもありましたそういえばそんなこと
あったねそれに対しクロード3では多くが
GPT4と同じ方式チェーオブソトや富
ショットなどの基本的なやり方でテストし
ていてその上でこの結果なのでジェミに
よりはよっぽど信頼の受けるスコアです
なるほど同じ土俵で回ってんなら確かに
少しは信頼できるかもねそうなんですよ
ちなみにですが注意モデルのソネットスら
結構GPT4と近い一丁1端くらいの性能
になってますよねそしてハクモデルも
GPT3点棒全面的に上回っています詳細
は後で説明しますがもしこれが事実なら
商業面でも圧倒的なインパクトです次に
画像認識です今回の3モデルは全てが画像
認識機能を持つということでした
でやはりオーパスモデルはGPT4Vを
完全に上回るとのこととりわけサイエンス
ダイアグラム図表の認識制度が高いですツ
gtt4Vでもかなり苦戦してたよね本当
だったらすごい
けどと以上がベンチマーク結果で見る
クロド3の性能でしたしかし正直これだけ
では何も分かりませんやっぱり触れてみ
なければということでこれから実際の対話
でその性能を見ていきたいと思います
もはや通常の会話が成り立つことなどは
前提なので知識と独力そしてコーディング
能力に焦点を置いていき
ます具体的に運んだ感じまずは知識と嘘の
突きにさの表面を積んだもンを知ってると
いう質問で試し
ますまずはGPT4
から積んだもんて知っ
てるはいズンダモンはボイスロイドや
チェビオaiなどの音声合成ソフトウェア
で使用されるキャラクターボイスの1つ
ですつんだ餅を持ちフとしたキャラクター
でその愛らしい見た目と声で人気があり
ますまたズンダもンは特にインターネット
上のコンテンツで見かけることが多く様々
な動画や音声作品で彼女の声が使われてい
ますマジかいつの間にか覚えてるやん文字
との念なども含めある程度正確な回答をし
てくれましたGPT4の知識カットオフは
2023年4月ですからボイスボックス
などの知識までも搭載されているよう
です次はクロード3の最上位モデルオパス
に同じ質問をしてみますズンダモって知っ
てるはいズンダモンは宮城県のゆキャラ
ですよねズダ餅をモチーフにした緑の
キャラクターで頭に持ちを載せています
2008年に誕生し観光PRや特産品の
PRなどで活躍しています微妙に違う
大きくは外しませんがゆキャラという決定
的な間違いをしてしまいましたクロード3
の知識カットオフは2023年8月らしい
のですが単純に知識が混しているようです
この結果だけを見ればgpq4に分配が
上がり
ます次にGPTの無用版GPT3.5です
ズンダモンって知っ
てるはいズンダもンは日本の伝統的な
和菓子の1つですねあ分からないんだこれ
はllmであるあるの挙動ですちなみに
この後間違いを指摘した上で聞き直すと
ズンだもは長野県の強度料理という嘘が
帰ってき
ます最後にクロードのソネットモデル
ズンダモンって知っ
てるズンダモンとは東北地方が発症の
和菓子ですあGPT3点もと同じ
回答聞き直してもズンダモンは山形県の
和しという回答
です結果として知識と正直さの観点では
大体こんな感想ですGPT4が1番ついで
オーパス差があってソネットGPT3.5
といった感じただし式カトオフ自体は
オーカスが最新ということですまGptf
を超えたとは言えないよねこれさ何も
面白くない結果だ
けどじゃあ次は長く専門的な文章の読会力
を試してみ
ましょう使うのはこの論文
ジェネレーティブデザイン
の街で生活させたするとAIたちはまるで
人間家のような振舞を見せたという内容の
論文です面白いので是非読むか過去の解説
動画を見てみて
くださいともかく今回はこれをテスト対象
の4人に読ませてみ
ますまずは木下最弱のモデル無料版
チャットGPTのGPT3.5からあ文字
数制限に達して読み込み
負PT3.5モデルのトークン上限は
1万3185ですから長めの論文などは
到底読み込めませ
んでは次にクロードの
ソネットこちらも文字数制限でエラダメ
やんトイや有料サブスクバに登録してみ
たらちゃんと回答してくれました何回で
抽象的ですが少なくとも全文はまとめて
くれて生えますおGPT3.5に分かった
ね次GPT法です先日のウンドウ拡大で
カタログスペック的には十分なはずです
がちゃんと答えてはくれましたしかし英語
ただ内容は正確で詳細です斜め読み代わり
には十分に役立てるレベルで全体を説明し
てくれていますおさすがにソネットには
待てないねこの論文を解説してという初め
の現場を考慮できていなかった点は少し
マイナスです
がでは最後オーパスモデルのテストです
果たして生成速度が遅いので早送りします
ね生成
完了そして驚きの結果ですチューニングの
影響かもしれませんが言語も自然に合わせ
てくれたし内容もGPT4の生成したそれ
よりとても分かりやすくまとめられてい
ますマジかこれはオーパスに分配が上がる
と言って間違いないですそれも明確
にということでこの項目のまとめ明確な差
がありましたそもそも読み込めないGPT
3点をなんとか解説はできるソネット
詳しく教えてくれるgtt4そして完な
オーパスgtt4よりも上なのかすごいね
本当驚き
です最後にもう1つテストをしてみます
pyonのコーディング性能ですベンチ
マークテストではクード3がGPTを圧倒
的に上回ってるという結果が示されてい
ましたその差がどれほどなのか確かめてみ
ますまずはGPT4からpyonでなんか
面白いゲーム作ってみてとでも言ってみ
ますpyonで簡単に楽しめるゲームとし
てテキストベースのステゲームを作ってみ
ましょうこのゲームではプログラムが1
から100の間でランダムに選んだ数を
プレイヤーが当てるというものです
プレイヤーが数を入力するたびにそれより
大きいですまたはそれより小さいですと
ヒントを与え正解するまで続けますクソげ
やまあ楽しさをチャットGPTに求めるの
は間違ってたかもしれませんでも本当に
言ってた通のコーが出力されて一応遊べは
しまし
た次にオーパスですpyonで何か面白い
ゲームを作ってえかて
ゲームなんと全く同じ内容のゲームを生成
してきましたコードの書き方に微妙な違い
はあれどそんなことあるともかく問題なく
動きはしまし
たこじゃ何もわからないので少し負をかけ
てみます先ほど作られたゲームを攻略する
AIを強化学習で作ってと2人に要求して
みましょうそんなことできるもんな
の結論から言うとどちらもダメでした
gpk4が作ったのは答えのスが分かって
いる状態でそれを選ぶAIというゲームの
ルールを逸脱したものでしたチート
やそしてオパスが作ったAIはニーネの
復習に基づいて50から一ず上に当たりし
ていくもし答えが50未満だったら永遠に
たどり着けないという意味不明な白物でし
たどっちも全然ダメ
さん総合的に見てホリ部性能に関しては
同等くらいに感じますただオーパスの方が
一般的な言葉に対するどか力はありますで
も人間が補助的に扱うという今日のAI
コーディングで考えたらわない慣れている
PT4の方がいいかなってくらいですなん
中かの壁を超えたってわけじゃないんだね
ですねでもしっかりたを握れば何でもやっ
てくれるそういう意味では完成された性能
ですどちらと
もさて性能比較の結論です単純性能で見る
とGPT4とオーカスが同等結構差テソ
ネットさらに開けてGPT3点もといった
感想でしたオーパスが一部でGPT4回っ
てたのは確かに面白いねですねその点に
関しては衝撃的ですがGPT4はツール
機能などに合わせてチューニングされてい
ますそれを考えるとGPT4の方が実用的
には上を行くと思いますとはいえクロード
もまた凄まじい
ですさてここからはクロード3の利用方法
について現在クロード3は無料版有料版
APIの3つのアクセス手段が用意されて
いますまずは無料版これは公式サイトに
アクセスするだけで利用可能です使用上限
がかなり厳しいですが単純性能では無料版
チャットGPTのはか上を行くのでこれ
だけでも有用
です次にクロードク有料版ですこれは月額
20ドルというOpenAIGoogle
Microsoft全てが足並みを
合わせる標準価格で無料版の5倍の使用料
優先アクセス券新機能の利用券が含まれて
います今回取り上げたオーパスモデルも
このプランで利用できる形ですね最近有料
版多すぎてついてけないよ財布が持たな
いって多分20ドルでも安すぎるくらいな
んでしょうがさすがにこ多いと投稿主は
とりあえず登録しますしチッGPTプラス
についで対応することになりそうと思って
いますがAIサブスクをどれか1つ選べと
言われたら一応でチャットGPTになって
しまいますねGPTとか3とか色々あるし
ねそして最後の選択肢がAPIです
アスロック車から非常にシンプルな形で
提供されていてとりあえずPythonが
使えれば簡単に利用できるみたいですその
他GoogleやAmazonを返しても
利用できるようになるとか価格はこんな
感じオーパスはめちゃくちゃ高いしハクは
安いしうまくずらしてるね
この価格館ならllmの扱いに慣れてる人
に限りますが普段使い目的でもサブスク
よりAPIという選択肢もあるかもしれ
ませんハイクモデルの登場も楽しみ
ですさて長くなってしまいましたが今日の
動画はここまでですまとめとしてはクロド
3はもしかしてチャットGPTを超えたか
もしれない少なくとも開発者の間では
GPTじゃなくクロードという選択肢も
状況によって十分あり得ると思いますマジ
かこんな結論になも初めてだねまあ単純な
自然現場の性能評価を超えて実用を考える
と今だオープンAIAPIにもgat
GPTにも及ばないのは間違いないですが
まそこは今後に期待ということでオAIの
独走だった開発競争もいよいよ面白くなっ
てきまし
たソースのllmローカル用の軽量モデル
などにも良い刻しがいくつもあります今だ
着地点はずっと遠くという感じがします
いいね期待が膨らむねこれからの界隈の
同行にも目が離せませ
んでは改めて今回の動画はここまで
ですこのチャンネルではいつもこんな感じ
でllmの解説などしています興味があれ
ばチャンネル登録をよろしくお願いします
感想やアドバイスとコメントも待ってます
さてそれでは最後までご視聴いただき本当
にありがとうございまし
た
5.0 / 5 (0 votes)