OpenAIのGPT4oは本当に圧倒的に強いのか?解説してみた

にゃんたのAI実践チャンネル
1 Jun 202420:36

Summary

TLDR本日はAI言語モデルの比較をテーマに、特にGPT4オムニとGoogleのジェミニ系列の性能を検証しました。GPT4オムニは言語モデル性能で圧倒的に強いとされており、0ショットcotというテクニックを用いて88.7%の高精度を記録していますが、実際にはクロード3のオーパスと僅差とのことです。一方、画像認識ではジェミニ1.5ProがGPT4オムニを上回る性能を示しており、価格面でもジェミニ1.5フラッシュはコストパフォーマンスが高いと評価されています。この動画では、最新のAI言語モデルの動向を解説し、生成AIを活用したい視聴者に有益な情報を提供しています。

Takeaways

  • 😀 GPT4Omniverse(GPT4オムニ)が無料ユーザーにもリリースされた後、多くの人が興味を持ち始めている。
  • 🤖 オープンAI以外にも多くの企業がAIモデルを開発しており、画像処理やコスト効率の良いモデルを探求する人もいる。
  • 🆕 Googleが新しいモデル「ジェミニ」を発表し、GPT4Omniverseと比較されることが増えた。
  • 📊 GPT4オムニとクロード3(Cerebras3)の性能比較では、GPT4オムニが圧倒的に強いとされているが、実際は僅差であると感じる人もいる。
  • 📈 0ショットcotという評価指標ではGPT4オムニが88.7%、クロード3が86.8%と、GPT4オムニがわずかに優れているが、大きな差ではない。
  • 🔍 画像認識のモデル比較では、GPT4オムニが圧倒的に強いとされているが、Googleのジェミニ1.5Proも非常に高性能であると評価されている。
  • 💰 コスパの良いモデルとしてGoogleのジェミニ1.5フラッシュが勧められており、価格も比較的リーズナブルである。
  • 📈 ジェミニ1.5Proは画像認識において非常に高精度であり、GPT4オムニと比較しても優れているとされている。
  • 🔧 言語モデルを組み込む際には、精度だけでなくコストも考慮する必要があると示唆されている。
  • 🌐 Googleは独自の計算チップTPUを持っており、今後の言語モデル市場での競争力は高まっていくと予想されている。

Q & A

  • GPT4オムニとGoogleのジェミニモデル、どちらが強いのでしょうか?

    -言語モデルの性能に関してはGPT4オムニが圧倒的に強いとされていますが、実際の差はかなり僅差です。一方、画像認識に関してはジェミニ1.5Proの方が強いとされています。

  • 0ショットcotとはどのような評価手法ですか?

    -0ショットcotは、言語モデルの評価手法の一つで、プロンプティングを行わずにモデルの精度を測る方法です。

  • 言語モデルの精度を上げるためのテクニックとしてフューショットプロンプティングとは何ですか?

    -フューショットプロンプティングは、言語モデルに質問と回答の例を多く与えることで、モデルの精度を上げるテクニックです。

  • ジェミニ1.5Proのアップデートでどのような性能向上が見込まれていますか?

    -ジェミニ1.5Proのアップデートでは、入力できる文章の長さが2倍に増加し、様々な評価指標での精度も大幅に向上することが見込まれています。

  • 言語モデルを組み込む際のコストパフォーマンスを考慮すると、どのモデルがおすすめですか?

    -コストパフォーマンスを考えるとGoogleのジェミニ1.5フラッシュがおすすめです。高い精度と比較的低い価格のバランスが良く、初手として試してみるのも良いでしょう。

  • 言語モデルの精度を評価する際に使用されるmmlUとは何ですか?

    -mmlUは、言語モデルを広く評価する際に使われる手法の一つで、様々なタスクに対してモデルの性能を比較するための指標です。

  • ジェミニ1.5フラッシュの価格設定にはどのような特徴がありますか?

    -ジェミニ1.5フラッシュの価格は、入力するトークン数によって変動します。128トークン以下であれば0.35ドルですが、それ以上になると価格が倍増するという特徴があります。

  • GPT4オムニとクロード3のオーパス、どちらのモデルがプログラミング関連の質問に適していますか?

    -個人的な経験ではクロード3の方が正しい答えを出力するケースが多く、プログラミング関連の質問にはクロード3の方が適していると感じています。

  • ジェミニ1.5ProとGPT4オムニを比較した際の画像認識の性能はどのようになっていますか?

    -ジェミニ1.5Proは画像認識の能力においてはGPT4オムニよりも強く、多くの評価指標で精度が上がっている結果となっています。

  • 言語モデルの精度を評価する際に使用されるcot技法とは何ですか?

    -cot技法は言語モデルの精度を上げるためのテクニックの一つで、モデルに段階的に思考させることで回答の精度を上げます。

Outlines

00:00

🤖 GPT4Omniの強さと比較

ビデオではGPT4Omniが他のAIモデルと比較してどれくらい強力なのかをテーマに展開しています。GPT4Omniがリリースされてからの話題として、Googleのジェミニやその他のAIモデルが開発されている状況を紹介し、どのモデルが本当に強いのかを比較検討しています。特にGPT4OmniとGoogleの新しいモデルジェミニフラッシュについて、最新の情報をもとに評価と比較を行い、どちらが効果的でコストパフォーマンスが良いかを分析しています。

05:02

📊 GPT4OmniとClaude3の性能比較

GPT4OmniとClaude3の言語モデル性能を比較しています。公式の評価制度に基づいてGPT4Omniが圧倒的に強いとされている一方で、実際の比較では僅差しかないと主張。0ショットcotという評価指標について説明し、GPT4Omniが88.7%、Claude3が86.8%というスコアを出し、その評価方法について疑問を呈します。また、5ショットcotでの比較も取り上げ、どちらが優れているかを考察しています。

10:03

🖼️ 画像認識モデルの比較

言語モデルだけでなく、画像認識能力を持つマルチモーダルなモデルについても議論しています。OpenAIが公開した画像認識の評価結果をもとに、GPT4Omniが圧勝しているとされている状況を紹介。一方で、Googleのジェミニ1.5Proの性能も大きく向上し、新しいバージョンでは多くの評価指標で精度が向上していると報告。GPT4Omniとジェミニ1.5Proの比較を通じて、どちらが画像認識において優れているかを検討しています。

15:05

💰 コスパの良いモデルの選択

言語モデルをサービスに組み込む際のコストパフォーマンスについて話しており、Googleの新しいモデルたちが非常に良い状況にあると評価しています。モデルの強さと価格のトレードオフを考慮し、特にジェミニ1.5フラッシュが価格と性能のバランスが良く、良い選択肢になると紹介。ただ、入力トークン数に応じて価格が変動する点には注意を喚起。GPT4Omni、Claude3、ジェミニ1.5Proの価格帯と比較を通じて、どのモデルが適切かを判断する指針を提供しています。

20:06

📚 総括と今後の展望

ビデオの総括として、GPT4Omniはスペック的には強力だが、Claude3のオーパスと比べて性能差は小さいと結論づけています。画像認識に関してはジェミニ1.5Proが強いと評価。コスパの観点からはジェミニ1.5フラッシュが優れていると紹介。Googleの言語モデルが最近の発表で状況が変わってきていると感じ、今後の盛り返すことも期待していると語ります。最後に、公式LINEアカウントの紹介と、今後も情報を共有していく旨を述べています。

Mindmap

Keywords

💡GPT4オムニ

GPT4オムニはOpenAIが開発した言語モデルの一つで、非常に高い性能を持っているとされています。ビデオでは、他のモデルと比較して圧倒的に強いとされているが、実際の性能差は微妙に僅差であると説明されています。例えば、言語モデルの性能を評価する際には、0ショットcotという技術が用いられており、その結果88.7のスコアを出すことができたと紹介されています。

💡ジェミニ

ジェミニはGoogleが開発した言語モデルで、新しいモデルとして発表されました。ビデオでは、ジェミニ1.5Proというバージョンが言語モデルとしての性能においてGPT4オムニと比較され、多くの評価指標で精度が向上していると説明されています。また、ジェミニ1.5フラッシュというモデルも紹介されており、価格と性能のバランスが良く、新しい選択肢として提案されています。

💡0ショットcot

0ショットcotは言語モデルの性能評価における用語で、プロンプティング技術を使用せずに達成したスコアを指します。ビデオでは、GPT4オムニがこの設定で88.7のスコアを出したと紹介されています。これは言語モデルの精度を上げるために用いられるテクニックの一つであり、ビデオのテーマに密接に関連しています。

💡マルチモーダルモデル

マルチモーダルモデルとは、言語だけでなく画像や音声など複数のデータタイプを扱うことができるモデルのことを指します。ビデオでは、最近のトレンドとしてマルチモーダルモデルが話題に挙げられており、仕事などで画像を扱う際にどのモデルを使うかという問題意識が示されています。

💡言語モデルの評価

言語モデルの評価とは、そのモデルの性能を定量的に測るプロセスを指します。ビデオでは、様々な評価指標や技術(例えば0ショットcot)が用いて、GPT4オムニやジェミニなどのモデルを比較評価している様子が説明されています。言語モデルの性能を理解するために重要な概念です。

💡プロンプティング

プロンプティングは、言語モデルに対して答えを求める前に与えるヒントや質問と答えの例を指します。ビデオでは、プロンプティングを通じて言語モデルの精度を上げる技術としてフューショットプロンプティングが紹介されており、その効果が言語モデルの性能評価にどのように影響するかが説明されています。

💡チェインオブソート

チェインオブソート(cot)は、言語モデルが論理的に一歩ずつ回答を生成するプロンプトテクニックです。ビデオでは、cotを使用することでモデルの精度が向上することが研究結果として紹介されており、言語モデルの評価において重要なテクニックとされています。

💡コスパ

コスパとは、コストパフォーマンス比の略で、モデルの性能とそのコストとのバランスを指します。ビデオでは、言語モデルを組み込む際のコスト面を考慮し、ジェミニ1.5フラッシュがコスパが良いと紹介されています。これは、言語モデルの選択において重要な要素です。

💡mmlU

mmlUは、言語モデルを広く評価する際に使われる手法の一つです。ビデオでは、GPT4オムニとクロード3のオーパスをmmlUスコアで比較評価している様子が説明されています。これは言語モデルの性能を比較する際の重要な指標として位置づけられています。

💡画像認識

画像認識とは、画像を解析し、その内容を理解する能力を指します。ビデオでは、言語モデルだけでなくマルチモーダルモデルにおける画像認識能力にも触れており、ジェミニ1.5Proがその分野で強い性能を有していることが紹介されています。

Highlights

GPT4Oの無料リリースと他社モデルとの比較

Googleのジェミニ新モデルの発表

各社の言語モデルの性能評価とその問題点

GPT4Oの言語モデル性能に関する詳細

ゼロショットCOTとフューショットプロンプティングの説明

言語モデルの精度向上テクニック:チェインオブソート(COT)

GPT4OとClaude 3の比較と評価方法の問題点

GPT4OのゼロショットCOTスコアとフューショットプロンプティングの影響

画像認識モデルの性能比較とジェミニ1.5 Proの強さ

Googleのジェミニ1.5 Proのアップデートとその影響

ジェミニ1.5 Proの性能向上とその結果

MMMUスコアとGPT4Oの評価結果の詳細

ジェミニ1.5 Proのコストパフォーマンスの良さ

Googleモデルの料金体系とその利用方法

サービスに組み込む場合の最適なモデル選択肢

ジェミニ1.5フラッシュの初手としての利便性

CL3のオーパスと他のモデルのコスト比較

GPT4Oとクロード3のオーパスのコストと精度の差

Googleの言語モデルの精度向上と将来性

最後にLINE公式アカウントと講座の紹介

Transcripts

play00:00

はい皆さんこんにちはにんとですえ本日は

play00:02

本当にGPT4Oが最強なのかという

play00:05

テーマで話していこうと思いますえ先日

play00:08

GPT4Oが無料ユーザーにもリリースさ

play00:11

れたのでまこれを気に生成AI使って

play00:14

みようかなという人も多いんじゃない

play00:15

でしょうかでそうした時にオープンA以外

play00:18

にもいろんな会社がモデルを開発してたり

play00:21

するので例えばえ画像を扱いたい場合は

play00:24

どうすればいいんだろうとかもう少し安い

play00:27

モデルを使いたい場合はどうすればいいん

play00:28

だろうとかえそういうに思って人もいるか

play00:30

もしれませんで先日GPT4オニが発表さ

play00:34

れた翌日にGoogleからはえジェミニ

play00:38

の新しいモデルというのが発表されました

play00:41

まなのでこれも含めて結局どれが強いん

play00:43

だろうというところは結構分かりにくいか

play00:46

なと思います特にGoogleからはえ

play00:49

新しいジェミニフラッシュというモデルも

play00:51

公開されたりしてたのでこちらについても

play00:53

気になってるという人もいるかもしれませ

play00:55

んそこで今回はGPT4オムニが本当に強

play01:00

のかというところだったりとかえコスパが

play01:02

いいモデルはどれなのかというところに

play01:04

ついて最新の状況をまとめていきます特に

play01:07

新しいモデルが出たら各社え自分たちの

play01:10

開発したモデルが強いですよっていう風に

play01:12

宣伝するんですけれど実はちゃんとどう

play01:14

いう風に評価したのかというのを見てみ

play01:17

ないと本当にいいものなのかというのが

play01:19

分からなかったりしますまなのでどういう

play01:22

風に結果を見ていけば正しくモデルの性能

play01:25

を理解できるのかというところも含めて

play01:27

解説していきます仕事とかで生成Aを活用

play01:30

したいなという人は是非見ていって

play01:32

もらえればと思いますえそれでは早速て

play01:34

いき

play01:36

[音楽]

play01:38

ましょうはい最初にえGPT4OMのえ

play01:41

言語モデルの性能に関しての話です言語

play01:44

モデルの性能に関してはま人によって原語

play01:47

モデルを使う用途が違ったりするのでCL

play01:50

3の方がいいと思うとかえGoogleの

play01:52

ジェミニの方がいいと思うとか色々皆さん

play01:55

あるかと思いますで公式の制度の評価上は

play01:58

えGPT4オムニが圧倒的に強いとされて

play02:02

いますで私もこちらの動画でえGPT4

play02:05

オムニが圧倒的に強いというところで話し

play02:09

てしまったんですけども実は公式から発表

play02:11

されてるグラフに関してはえ少しおかしい

play02:14

ところがあったりしますで結論としては

play02:17

GPT4オムニがま1番強そうではあるん

play02:20

ですけれども正直えクド3のオーパスとえ

play02:23

GPT4OMには圧倒的に差が開いてるん

play02:26

じゃなくてかなり僅差だという風に考えて

play02:29

いますはいこちらがえGPT4OMが

play02:32

リリースされた時にOpenAIから公開

play02:35

されたえいろんな会社のモデルを比較した

play02:38

結果になっていますで1番左がえmmlU

play02:41

といってえ広く原語モデル評価する時にえ

play02:44

使われてる仕法になっていますでこれを

play02:47

見るとえGPT4オムニがピンク色でえ

play02:51

クド3のオーパスが緑色なので少し小さい

play02:54

んですけどもGPT4オムニがえ88.7

play02:59

でえクロード3が86.8mhz

play03:30

cotという条件でえ88.7という記録

play03:34

を出してるという風に書かれていますね

play03:36

じゃあこの0ショットcotって何だと

play03:39

いうところなんですけどもまずえ0ショッ

play03:41

トっていうのはQショットプロンティと

play03:44

いうものを行ってないよという話になって

play03:46

いますじゃあこのフューショットプロンプ

play03:48

ティンググって何だというところなんです

play03:49

けどもこれはえ言語モデルの性能を上げる

play03:52

ためのテクニックの1つになっています

play03:55

具体的にはえ言語モデルに何かを解かせる

play03:58

前にレとえその答えを与えることによって

play04:02

精度を上げるというテクニックになってい

play04:04

ますで例えばえ普通にチャットGPTを

play04:07

使ってる場合っってまこんな感じでえ単発

play04:11

で質問して使ってるかと思いますえ

play04:13

コンピューターサイエンスは何ですかて

play04:15

いう質問ですねプロンプトとして作成して

play04:17

えそれを言語モデルに入れるとえそういっ

play04:20

たイメージですねで普段の使い方としては

play04:22

まこんな感じで使っても実用上問題ない

play04:25

ケースが多かったりするので多くの人はえ

play04:28

こんな感じで使ってるかと思いますますで

play04:31

これに対してえフューショットプロンティ

play04:33

グというものはえプロンプトの中に質問と

play04:37

回答の例をたくさん入れてから最後に本当

play04:40

に聞きたい質問を入力しますでこの例だと

play04:43

え先ほどと最後の質問に関しては同じでえ

play04:46

コンピューターサイエンスと何ですかと

play04:48

いう風に聞くんですけどもでその前にえ

play04:50

プロンプトとしていくつかの質問とえ回答

play04:53

のペアを入力しておきます機械学習とは何

play04:56

ですかとかえ人工知能とは何ですかとか

play04:59

ですねそういった関連した質問とえ回答の

play05:01

ペアをプロンプトとして入れていますこれ

play05:04

今3つの質問と回答のペアを入れてるので

play05:07

3ショットという風に言ったりするんです

play05:08

けどもこういった感じでえ質問と回答の

play05:11

ペアをえプロンプトに入れてから本当に

play05:14

聞きたいことを最後に入れるとそういった

play05:16

手法をえフューショットプランティングと

play05:19

いう風に言っていますでこういう風にえ

play05:21

質問と回答のペアを入れてあげると言語

play05:24

モデルの精度が上がるというのが分かっ

play05:26

てるので大体精度の評価をする時はこの

play05:29

クニックがよく使われていますはいそして

play05:32

え先ほどの記載の方に戻ってみるとえ

play05:35

88.7のスコアはえゼロショットで達成

play05:38

してますという風に書かれてますねでこの

play05:41

ゼロショットっていうのは先ほどのえ

play05:43

フューショットプロンプティングを行って

play05:45

ませんよということを表していますなので

play05:48

えプロンプトの中に質問と回答のペアをえ

play05:51

1つも入れてませんよということですねで

play05:54

ゼロショットはえ言語モデルを評価する時

play05:56

はま精度が比較的出にくいという設定に

play05:59

なっていますでそう思うとまそれで

play06:02

88.7もスコアが出ていてまやっぱ

play06:05

GPT4オに強いなという風に思うと思う

play06:07

んですけどもえ問題はですねえその次のえ

play06:10

cotという設定になっていますでこの

play06:13

cotというのもえ言語モデルの制度を

play06:16

上げるためのテクニックの1つになってい

play06:18

ますでcotっていうのはチェインオブ

play06:21

ソートの略で簡単に言うとえ言語モデルに

play06:25

回答を生成させる時にえ一気に回答を生成

play06:28

させるんじゃなくて1歩ずつえ論理的に

play06:31

回答を生成させることで精度を上げるとえ

play06:34

そういったテクニックになっていますで

play06:36

初めて聞く人はま信じられないという風に

play06:39

感じるかもしれないですけども言語モデル

play06:41

にえ入力する時にレツthinkステップ

play06:43

バイステップとえそういった文章を入れる

play06:46

だけでモデルの回答の必が上がるとえそう

play06:49

いった研究結果が出ていますこちらですね

play06:51

え東大の方が発表された論文になってるん

play06:54

ですけどもここにも書いてあるようにま

play06:56

レッツthinkステップバイステップ

play06:57

ですねこの場合に制度が最も良くなってる

play07:00

とえそういった研究結果になっています

play07:02

日本語ではえ段階的に考えてくださいとか

play07:05

そういった言葉になると思うので言語

play07:08

モデルを使いこなしてるという人は結構

play07:10

このプロンプトを入力してるという人も

play07:13

多いかと思いますでcotのテクニックは

play07:16

これが1つのやり方でで他にもえ精度を

play07:19

上げるためのcotの書き方とかえそう

play07:21

いうのもあるんですけども長くなって

play07:23

しまうのでえここでは割愛しますポイント

play07:26

としてはえcotというテクニックで

play07:29

モデルにえ段階的に考えさせることで精度

play07:32

がかなり向上するということですねはいで

play07:35

ここまでのえ評価の背景が理解できてると

play07:38

先ほどの記載の意味が理解できるかと思い

play07:40

ますまず88.7はえ0ショットですよと

play07:44

でcotというのがありますつまりえ

play07:47

フューショットプロンプティングが使って

play07:48

ないけどもえチェインオブソートという

play07:50

プロンプトテクニックを使って88.7の

play07:53

制度が出ましたよとえそういった結果に

play07:55

なってるという風に言ってますでなるほど

play07:57

なというところでこれ下の方見てくとで

play08:00

さらにえよく行われている5ショットで

play08:03

Nocotの場合はえGPT4オムニの

play08:07

スコアは87.2%ですよとそういった

play08:10

結果が記載されていますえつまりえ0

play08:13

ショットのcotの場合は88.7だけど

play08:17

5ショットでcotやらないとえ87.

play08:20

2%だよということを言っていますはい

play08:23

じゃあこれまで最も精度が高かったクロド

play08:26

3のオーパスはまどういう風に評価してる

play08:28

のかというところなんですけどもこちら

play08:30

ロド3のオーパスがリリースされた時の

play08:33

制度の表になってるんですけども5

play08:35

ショットで

play08:58

86.8mhz18.7%の精度で比較し

play09:01

た時のえグラフを公表していますつまりえ

play09:04

条件が違うものを同じグラフで比較して

play09:08

圧勝してるように見せてるということです

play09:10

ねま同じ5ショットっていう条件でも

play09:13

0.4GPT4オムニが勝ってるので

play09:16

わずかにGPT4オニの方がいいのかなと

play09:19

いう風な感じがするんですけどもちょっと

play09:20

やり方がせこいのかなというな感じもし

play09:23

ますよねはいなのでま精度としては微妙に

play09:26

GPT4オムニが勝ってそうだなという

play09:29

ところなんですけども正直えバラつきの

play09:31

範囲ぐらいの性能の差かなという風に思う

play09:34

のでスペック上はまどっこいどっこいかな

play09:36

という風な感じがしていますで個人的な

play09:39

感覚で言うとえプログラミング関連に関し

play09:41

てはよく両方のモデルに聞いたりするん

play09:43

ですけどもクド3の方が正しい答えを出力

play09:46

するとかえそういったことも多かったり

play09:48

するので個人的にはクロド3の方がいいの

play09:51

かなっていう風な感じが少ししていますと

play09:53

はいえま精度を見ても分かるようにかなり

play09:55

僅差なのでまなかなか気持ちよい決着は

play09:58

つかなそうだなと風な感じがしますね皆

play10:01

さんはどちらの方がいいなとかあったりし

play10:03

ますか是非コメントの方で教えてもらえれ

play10:05

ばと思いますはい続いてえ画像認識の

play10:08

モデルはえどのモデルが強いのかという話

play10:11

になりますえ最近はえ言語モデルだけじゃ

play10:14

なくてま画像とか音声とかいろんなデータ

play10:17

を入れられるえマルチモーダルなモデルと

play10:20

いうのが流行ってきていますまなので仕事

play10:22

とかで画像をよく扱うとかそういった時に

play10:25

どのモデルを使おうかなという風に悩ん

play10:26

でる人もいるかもしれませんこちらは

play10:29

OpenAIが公表した画像認識の制度を

play10:32

比較した表になっていますでこれを見ると

play10:35

え各テストえGPT4オムニがえ圧勝し

play10:38

てるというのが分かります例えば1番上の

play10:41

テストだったらえGPT4オムニが

play10:43

69.16.175.10

play10:59

のjemi1.5Proが1番強いという

play11:01

風に考えられますでこの表に載っているえ

play11:05

jemi1.5Proの性能に関しては1

play11:07

つ古いバージョンのえjemi1.5

play11:09

Proの制度の結果になっていますでこれ

play11:12

はえOpenAIがえずるしてえ

play11:15

Googleの古いモデルの制度を持って

play11:17

きたとえそういったわけじゃなくて先ほど

play11:19

のえ画像認識の制度の表を発表した後に

play11:23

Googleがjemi1.5のPROの

play11:25

アップデートを発表したんですねこちらは

play11:28

えGoogleの公式が出しているえ記事

play11:31

になっていますで要約するとえjemi

play11:34

1.5のプロですねめっちゃパワーアップ

play11:35

しましたよということが書かれていますで

play11:38

先日の発表ではえjemi1.5のプロは

play11:41

入力できる文章の長さが200万トクに

play11:44

なって2倍になったのでそちらが非常に

play11:47

注目されてるんですけども実は性能自体も

play11:50

大幅にパワーアップしていますでこちらは

play11:53

えjemi1.5のプロが新しくなって

play11:56

どれぐらい性能が上がったのかというのを

play11:59

またまとめたグラフになっていますで薄い

play12:01

青がえこれまでのjemi1.5のプロの

play12:03

え精度になってるんですけども濃い青が

play12:06

新しいjemi1.Proの制度になって

play12:08

いますでこれを見ても分かるようにえ

play12:10

ほとんど全ての評価指標で精度が上がっ

play12:13

てるという結果になっていますちなみにえ

play12:15

言語モデルのところで見ていたえmmlと

play12:19

いうスコアはえこちらになっているので

play12:21

これを見るとえ新しいジニ1.5のプロは

play12:24

え85.%というところでえクド3と

play12:28

GPT4オムニには1%ぐらい及んでい

play12:31

ないようですで言語モデルに関してはえ

play12:34

jemi1.5のPROもまだまだトップ

play12:37

レベルでないんですけども画像認識の能力

play12:39

に関してはえジェミニのモデルは全般的に

play12:42

かなり強くなっていますでこちらは

play12:45

ジェミニの論文に載っていた画像認識に

play12:48

関する各種テストの結果になっています

play12:50

これを先ほどのGPT4と比較してどちら

play12:54

が強いのかというのを見ていきますでもう

play12:57

一度載せるんですけどもえOpenAの

play12:59

公表結果ではまGPT4OMがま圧倒的に

play13:03

強いとえそういった結果だったんですけど

play13:05

もこれがどうなるかと言うとえこんな感じ

play13:08

になりますちょっと見にくかったので論文

play13:11

の表の結果はま少し整理してみましたまず

play13:14

上から見ていくとmmMUUですねこれに

play13:17

関してはGPT4オムニがえ

play13:19

69.16.175.10

play13:29

いうものだったらjemi1.5Proの

play13:31

方が

play13:33

[音楽]

play13:37

63.99ドル

play13:40

ダイアグラムに関してはえGPT4オム2

play13:43

の方でテストしてないようですとチャート

play13:45

QAに関してはえこちらですね

play13:47

85.7mhz

play13:59

92.%なのでこれもジェミニ1.5

play14:02

Proのが強いというところは分かります

play14:04

はいなのでえ全般的にえジェミニ1.5

play14:07

Proの方が強くなってるとただこの

play14:10

mmuだけ異常にGPT4オムニが強いと

play14:13

いう結果になっています7%が高いという

play14:16

ところでま結構違うんじゃないかという風

play14:19

に思った人もいるかもしれませんえただ

play14:21

ですねまこれもちょっと辛くがあって

play14:24

こんな感じでえ中期がありますこれを見る

play14:26

とまもう予想できてる人もいると思うん

play14:28

ですけども先ほどと同じでMMMUとマ

play14:32

ビスタとチャートQAに関してはえ0

play14:35

ショットcotを使ってますよという風に

play14:37

書かれてますねつまりえGPT4OMに

play14:41

関してはえこのMMMUとえマスビスタと

play14:45

えチャートQAに関しては0ショットで

play14:48

cotのテクニックを使ってるというわけ

play14:50

ですねで一方でjemi1.5Proの方

play14:53

は全て0ショットで評価をしてるという

play14:56

ところなので不利なプロンプトの設定で

play14:59

性能として勝ってるということになります

play15:01

つまりえ画像認識の性能に関しては現状

play15:05

世界で最も精度が高いのはえGPT4オニ

play15:08

じゃなくてjemi1.5Proなんじゃ

play15:11

ないかという風に考えられますここら辺に

play15:14

関してはま色々ともっと検証してみないと

play15:16

分からないと思うんですけども皆さんの中

play15:18

でここら辺について何か思うことがあっ

play15:20

たら是非コメントの方で教えてもらえると

play15:22

ありがたいですはいそして次にえコスパが

play15:25

最も良いモデルはどれなのかという話に

play15:28

なります自分だけで言語モデルを使ってる

play15:30

という場合はもちろんえ最高に精度がいい

play15:33

モデルを使いたいという風に思うと思うん

play15:35

ですけどもサービスとしてえ言語モデルを

play15:38

え何かのAppleに組み込みたいなって

play15:40

時はですねあんまり高いモデルだと使い

play15:43

にくかったりするかと思いますまなのでえ

play15:45

コスパがいいモデルはどれなのかとかえ

play15:47

どれから試して使っていけばいいのかとか

play15:49

そういったことが気になってきますよねで

play15:52

実はえコスパ的にはえGoogleの

play15:54

新しいモデルたちはかなり良さそうという

play15:57

状況になっています当然えモデルを使う

play16:00

時時の価格と強さっていうのはトレード

play16:03

オフの関係になってるんですけどもそれを

play16:05

踏まえた上で並べてみるとえこんな感じに

play16:08

なっていますこれまでえ安い価格帯の

play16:10

モデルでそこそこ強いモデルといえばCL

play16:13

3のえハイクと言われるモデルが候補でし

play16:16

たで今回発表されたえjemi1.5のえ

play16:20

フラッシュというモデルですねこちらは

play16:23

モデルの強さがえクロド3のハクとかえ

play16:26

OpenAIのGPT3.5とかよりも

play16:29

かなり高くて料金としてもえ同じぐらい

play16:32

安いので上位互換になったなという風な

play16:34

感じがしていますまなのでえ何かを作って

play16:37

みる時にえジェミニ1.5のフラッシュ

play16:39

から始めるというのは良い選択肢かなと

play16:42

いう風に思いますえただ注意点が1つあっ

play16:45

てえGoogleのモデルはえ入力する

play16:47

トク数によって価格が変わってくると少し

play16:51

変わった料金体験になっていますえちなみ

play16:53

に先ほどから価格と言ってるのはWeb

play16:56

ブラウザで言語モデルを使う場合じゃなく

play16:58

てAPIと言ってえプログラミングから

play17:01

言語モデルを使う時の価格の話をしてい

play17:04

ますでこちらがえjemi1.5

play17:06

フラッシュの価格になっていますここにも

play17:08

あるようにえ入力が128系トークン以下

play17:12

の場合は0.35なんですけどもえそれ

play17:15

以上の場合はま0.7ということでえ倍に

play17:19

なるということですね出力も同様にえ倍に

play17:22

なっていますま13万文字も入れることっ

play17:24

てあんまないのかなという風に思うんです

play17:26

けども長い文章を入れる用途で使いたい

play17:28

なって場合はえジェミニのモデルは少し

play17:30

コスパが悪くなってしまうというところは

play17:33

抑えておくといいと思いますそれでも俳句

play17:35

よりも強くてま少し高いというだけなので

play17:38

初手にジェミニ1.5フラッシュを使うと

play17:41

いうのは個人的にはいいんじゃないかなと

play17:42

いう風に思いますはいそしてえ中華角帯の

play17:46

競争としてはえジェミニ1.5のPROが

play17:49

今回パワーアップされたのでクロド3の

play17:51

ソネットよりも強くてえ価格が安くなって

play17:54

いますま最初にジェミニ1.5の

play17:56

フラッシュで試してみて精度がもっと

play17:58

欲しいなという場合はまjemi1.5の

play18:01

Proを試すとそういう流れがいいんじゃ

play18:03

ないかと思いますで最後にえそれでも

play18:05

難しいという場合は少し高くなってしまう

play18:08

んですけどもOpenAIのGPT4OM

play18:11

が選択肢になるとえそういう流れかなと

play18:13

思いますちなみにCL3のオーパスに関し

play18:16

てはGPT4オニの3倍以上高いので

play18:21

サービスに入れようとするとそこら辺が

play18:23

ネックになってきそうですねはいこれまで

play18:25

まGoogleの言語モデルってま精度が

play18:28

あまり高くなくでちょっと選択肢には

play18:30

上がりにくかったかなという風に思うん

play18:31

ですけども最近の発表でまちょっと状況が

play18:34

変わってきてる感じがしますで

play18:36

GoogleはえTPUというえ独自の

play18:39

計算チップを持っていたり価格競争をし

play18:41

たらめちゃくちゃ強いと思うので今後

play18:44

盛り返してくるという可能性は十分あるな

play18:46

という風な感じがしますで10mのモデル

play18:49

ですね簡単にプログラムで使えるので興味

play18:51

がある人は是非使ってみてくださいはい

play18:54

最後にえ本日のまとめをしてみるとえ言語

play18:57

モデルとしてはえ現状GPT4オム2がえ

play19:00

スペックとしては強そうとただその性能の

play19:03

差に関してはえクロド3のオーパスと

play19:06

かなり僅差ですよと画像認識に関してはえ

play19:10

jemi1.5Proが強いというので

play19:12

制度の比較を見ても分かるように大体どの

play19:15

タスクでもjemi1.5Proの方が

play19:17

強かったですそしてえAppleにモデル

play19:20

を組み込む場合のえコスパを考えるんだっ

play19:22

たらえジェミニ1.5フラッシュがま

play19:25

かなり強いということになってきます特に

play19:27

私はこれまでままGoogleのジェミに

play19:29

ですねまあまり良くないなという風に思っ

play19:31

たんですけども少なくともスペック上はま

play19:33

状況が変わってきてるなという風な感じが

play19:35

していますまだ出たばかりで私も十分に触

play19:38

れてないのでここら辺も自分で色々試して

play19:41

みてえまた感想とかがあったらえシェアし

play19:43

ていきたいと思います皆さんも何かあっ

play19:46

たらコメントの方でお願いしますはい最後

play19:48

になりましたがえ最近公式LINEを始め

play19:51

ました概要欄の方から友達登録をして

play19:53

もらってえプレゼントというキーワードを

play19:56

入力してもらえるとえ最近話題のえDFの

play19:59

ツールをまとめた資料とかチットGPTと

play20:01

かclod3のえプロンプトをまとめた

play20:03

資料を送ってるので興味があったら友達

play20:06

登録の方お願いしますはいあとはえユミの

play20:09

方でえ講座は販売していて概要欄の方から

play20:13

割引きクーポンの方発行してるのでもっと

play20:15

精々愛学びたいという人はえぜひ見てみて

play20:18

くださいはい以上で本日の動画を終了し

play20:20

たいと思いますこの動画が良かったなって

play20:22

思人は高評価コメントチャンネル登録の方

play20:24

よろしくお願いしますはいそれではまた

play20:25

次回の動画でお会いしましょうバイバイ

play20:28

Rate This

5.0 / 5 (0 votes)

Related Tags
言語モデルGPT4オムニジェミニ1.5比較分析コストパフォーマンスAI技術画像認識マルチモーダルプロンプティングAI評価
Do you need a summary in English?