本当にGemini Pro1.5は凄いのか?論文を読んで解説してみた

にゃんたのAI実践チャンネル
21 Feb 202417:25

Summary

TLDR最近、Googleが新しい言語モデル「ジェミニプロ1.5」を発表しましたが、話題にはならなかった。一方で、OpenAIが動画生成AIを公開し、注目を集めている。ジェミニプロ1.5は、前モデルよりも性能が向上し、文章だけでなく画像や音声も扱えるマルチモーダルモデルです。特に、入力できる文章の長さが1000万文字までと大幅に増え、長文の扱いが得意とされています。しかし、実際にはその長所を活かす場面は限られるかもしれないと指摘。また、GPT4と比較して性能評価が行われ、ジェミニプロ1.5が優れていることが示唆されていますが、その評価方法には疑問の声も。この動画では、ジェミニプロ1.5の詳細とその性能を解説し、今後の可能性についても触れています。

Takeaways

  • 😀 Googleの新しい言語モデル「ジェミニプロ1.5」が発表され、SNSで話題にならなかった理由について解説。
  • 🌟 ジェミニプロ1.5は、前バージョンのジェミニプロやウルトラよりも性能が向上していると主張されている。
  • 📈 入力できる文章の上限が1000万トークンまでアップし、長文の扱いが強化された。
  • 🎯 ジェミニプロ1.5は、画像、音声、動画などマルチモーダルなデータ入力が可能で、特に長文の入力と処理能力が高いと評価されている。
  • 🤖 テスト結果によると、ジェミニプロ1.5は長文の入力を扱う能力においてGPT4を上回る可能性がある。
  • 📚 実験では、カマン語への翻訳など、限定的な用途でジェミニプロ1.5の長所が発揮されている。
  • 💡 ジェミニプロ1.5は、Googleが現在最も自信を持っているモデルではないかと推測される。
  • 🔍 論文の分析やテスト結果から、ジェミニプロ1.5が長文の扱いにおいて優れていることが示されている。
  • 📝 ジェミニプロ1.5の利用は申請制となっており、今後APIでの利用が期待されている。

Q & A

  • Googleのジェミニプロ1.5はどのような新機能が発表されましたか?

    -Googleのジェミニプロ1.5は、性能アップと入力できる長さの上限がアップされた2つの大きな変更点があります。特に入力上限は1000万トークンまで入力できるようになり、非常に長い文章やデータの扱いが可能になりました。

  • ジェミニプロ1.5が持つ「マルチモーダル」モデルとは何を意味しますか?

    -「マルチモーダル」モデルとは、テキストだけでなく音声や画像、動画など複数のデータタイプを扱える能力を持つモデルを指します。ジェミニプロ1.5はこれにより、文章だけでなく音声や動画データも処理できるようになっています。

  • ジェミニプロ1.5が扱える入力の最大文字数はどれくらいですか?

    -ジェミニプロ1.5は約1000万文字まで入力できるとされています。これは非常に長い文章やデータの扱いが可能になるため、大規模なシステムのプログラムコードを読ませたり、分厚い本を読ませたりする際に便利です。

  • ジェミニプロ1.5が行った「Needle in a Haystack」テストとは何ですか?

    -「Needle in a Haystack」テストは、長い入力情報をモデルが適切に扱えるかどうかを評価するテストです。例えば、長い文章の中にランダムに数字を埋め込んでおき、それを指し示く質問に対して正しく回答できるかどうかをテストします。

  • ジェミニプロ1.5とGPT4の性能比較では、どちらが優れていますか?

    -論文によると、ジェミニプロ1.5は言語モデルの性能においてGPT4を上回る結果を示しており、特に長文の入力を扱う能力においては優れているとされています。しかし、純粋な性能比較ではGPT4が優れている可能性もありますが、長い文章を扱う用途においてはジェミニプロ1.5が適しているとされています。

  • ジェミニプロ1.5が扱える動画の最大時間はどれくらいですか?

    -ジェミニプロ1.5は動画の入力において最大3時間の動画データを扱うことが可能です。これにより、長時間の動画データから情報を抽出したり、分析したりすることができるようになっています。

  • ジェミニプロ1.5が扱える音声データの最大時間はどれくらいですか?

    -ジェミニプロ1.5は音声データの入力において最大22時間の音声を扱うことが可能です。これにより、長時間の音声データを分析したり、処理したりすることができるようになっています。

  • カマン語への翻訳テストでジェミニプロ1.5はどのように評価されましたか?

    -カマン語への翻訳テストでは、ジェミニプロ1.5は約1000万文字の入力が可能であるため、文法書全体を入力して正しく英語に翻訳できることが示され、他のモデルよりも高精度の翻訳が期待できると評価されました。

  • ジェミニプロ1.5の利用はどのように申請すればいいですか?

    -ジェミニプロ1.5の利用申請はGoogle Japanのブログにあるウェイティングリストのリンクから行うことができます。興味がある人はリンクをクリックして申請フォームを入力し、申請を待つ必要があります。

  • Googleがリリースしたジェミニウルトラとジェミニプロ1.5はどのような違いがありますか?

    -ジェミニウルトラはより大きなモデルで、非常に高い性能を持ちますが、計算コストがかかる傾向があります。一方でジェミニプロ1.5は、入力できる長さの上限が1000万トークンまでと大幅にアップし、長文の扱いが得意とされていますが、サイズはウルトラよりも小さいです。

Outlines

00:00

📰 Googleのジェミニプロ1.5とOpenAIの対決

Googleが新たに公開したジェミニプロ1.5について説明し、その性能を評価する。同日にOpenAIが公開した動画生成AIとの比較も交え、GoogleとOpenAIが技術的に激しく競争している現状を紹介。また、Googleの言語モデルの性能評価方法や、以前のモデルであるジェミニウルトラとの比較も行う。

05:02

🔍 ジェミニプロ1.5の新機能と性能向上

ジェミニプロ1.5の新機能として、性能の向上と入力できる文章の長さの上限の引き上げが紹介される。特に、入力上限が1000万トークンまでとなっている点に注目が集まる。また、マルチモーダルなモデルとしてのジェミニプロ1.5が、文章だけでなく音声や画像も扱える能力についても触れられている。

10:04

🎯 ジェミニプロ1.5の長文入力能力の評価

ジェミニプロ1.5が長文を入力し、正確に情報を抽出する能力を評価するテスト方法である「needle in a haystack」について説明。この方法では、ランダムに埋め込まれた特定の情報(マジックナンバー)を正しく特定する能力が評価される。その結果、ジェミニプロ1.5が他のモデルに比べて優れていることが明らかにされる。

15:05

🌐 ジェミニプロ1.5の多言語翻訳能力と実用性

ジェミニプロ1.5が長文を扱う能力を応用して、英語からカマン語への翻訳など、実用的なタスクにどのように役立つかが説明される。カマン語は非常に少ない数の話者しかいない言語であり、インターネット上の情報も限られているため、このタスクは言語モデルにとって非常に困難である。しかし、ジェミニプロ1.5はそのようなタスクにおいても高い翻訳精度を示している。

Mindmap

Keywords

💡ジェミニ

ジェミニはGoogleが開発している言語モデルの名称です。このモデルは文章だけでなく、画像や音声などマルチモーダルなデータを受け取って処理することができます。ビデオのテーマはジェミニプロ1.5の発表とその性能についての説明であるため、ジェミニはその中心的な技術であり、ビデオの主要な話題となっています。

💡ジェミニプロ1.5

ジェミニプロ1.5はGoogleがリリースした最新の言語モデルで、以前のバージョンよりも性能が向上しています。ビデオではこのモデルが長文の入力を扱う能力が高いと評価されており、1000万文字まで入力できるという大きな特徴があります。これは、ビデオの主なテーマの一つであり、ジェミニプロ1.5の性能向上を示す重要な指標です。

💡マルチモーダル

マルチモーダルとは、異なるタイプのデータ(文章、画像、音声など)を扱う能力を指します。ビデオではジェミニプロ1.5がマルチモーダルなモデルであり、これにより異なるデータタイプを処理できることが強調されています。この概念は、AIの多機能性と応用範囲を広げる鍵であり、ビデオの内容を理解する上で不可欠です。

💡needleina

needleinaはビデオ内で使用される用語で、長い入力情報をモデルが適切に扱えるかどうかを評価するテストの名前です。ビデオではこのテストを通じて、ジェミニプロ1.5が长文を正しく処理できる能力を実証しています。このテストは、AIが大量のデータを扱う際の性能を測るための重要な指標です。

💡GPT4

GPT4はOpenAIが開発した言語モデルで、ビデオではジェミニプロ1.5と比較されることがあります。ビデオの内容では、GPT4とジェミニプロ1.5の性能比較が行われ、ジェミニプロ1.5が長文の入力扱いにおいて優れていることが示されています。GPT4はAI技術において重要な位置を占めており、ビデオの比較対象として頻繁に登場します。

💡翻訳

翻訳はビデオ内でジェミニプロ1.5の能力を示す例として取り上げられています。特に、レア言語への翻訳能力が強調されており、ジェミニプロ1.5が約1000万文字の入力を扱えることが、レア言語の文法書と文章を一緒に入力し、正確な翻訳を行うのに役立つとされています。この例は、AIが言語処理の限界を超える可能性を示す興味深いケースです。

💡性能評価

性能評価とは、AIモデルの能力や正確さを測定するプロセスを指します。ビデオではジェミニプロ1.5の性能が他のモデルと比較評価されており、その結果がモデルの改良や向上を示す指標となっています。特に、長文の入力と扱いが評価の焦点となっており、ビデオの主題に密接に関連しています。

💡SNS

SNSはソーシャルネットワーキングサービスの略で、ビデオではSNSでの反応や議論がジェミニプロ1.5の話題に触れられています。SNSは情報伝達と人々の反応を迅速に広める手段であり、ビデオではそのようなプラットフォームでの反応が、テクノロジーの受容と普及に与える影響を示す例として紹介されています。

💡モデルサイズ

モデルサイズはAI言語モデルの複雑さや学習データの量を示す指標です。ビデオではジェミニプロ1.5が他のモデルよりも小さいサイズながらも高性能を発揮できると説明されています。これは、モデルがリソースを効率的に使用しながらも優れた結果を出す能力を示す重要な要素です。

💡入力上限

入力上限とは、AIモデルが処理できる最大のデータ量を指します。ビデオではジェミニプロ1.5が1000万トークンまで入力できるという入力上限が強調されており、これは長文や複雑なデータセットを扱う能力を示す指標となっています。この能力は、ビデオのテーマであるジェミニプロ1.5の性能向上に直接関連しています。

Highlights

Googleのジェミニプロ1.5が新機能として発表された。

OpenAIの動画生成AIが公開され、ジェミニプロの話題が埋もれた。

ジェミニウルトラがOpenAのGPT4に匹敵すると言われている。

ジェミニプロ1.5はジェミニウルトラを超える性能があると主張されている。

Googleの言語モデルの性能評価は注意深く見る必要がある。

ジェミニウルトラはcot@32の設定でGPT4を上回る性能を示した。

論文によると、プロンプトの設定の違いによる性能比較が行われている。

ジェミニプロ1.5は入力できる長さの上限が1000万トークンに増えている。

ジェミニプロ1.5はマルチモーダルなモデルで、音声や画像も扱える。

needleinaハイSTACKという評価方法が用いられ、長い入力の情報を適切に扱うことが示された。

ジェミニプロ1.5は長文の入力を扱う能力が高いと示された。

GPT4と比較して、ジェミニプロ1.5が長文の入力を活用する能力が高かった。

カマン語への翻訳試験でジェミニプロ1.5の長所が実証された。

ジェミニプロ1.5は1000万文字の入力が可能で、翻訳などのタスクに有効。

Googleの言語モデルの性能はGPT4と比較して議論の余地がある。

ジェミニプロ1.5は利用申請が必要で、今後APIが公開される可能性がある。

動画はジェミニプロ1.5の詳細な解説を行っている。

Transcripts

play00:00

SNSとかですごいすごいという風に言わ

play00:01

れててもま一旦ですね冷静になって論文

play00:04

などをしっかり読んだ方が良いかもしれ

play00:05

ませんえジェミニは長文の入力を扱う能力

play00:09

が高いというのが分かるかと思いますはい

play00:11

皆さんこんにちはブネです本日はジェミニ

play00:14

プロ1.5本当にすごいのというテーマで

play00:17

話していこうと思いますえ先日

play00:19

Googleからえ最新のジェミニPro

play00:21

1.5というのが公開されましたしかし

play00:24

同じ日にOpenAIからえソというえ

play00:27

動画生成AIが公開されていてこちの長が

play00:30

すごすぎたのでこのGoogleの

play00:32

jemiPROの話題はほとんどSNSで

play00:34

盛り上がってませんでしたでこれは偶然な

play00:36

のか狙ってるのか分かんないんですけども

play00:38

OpenAIはGoogleが何か

play00:40

リリースしたらえすぐにそれよりも上の

play00:42

ものをですねリリースするというので非常

play00:44

にバチバチやり合ってるという状態になっ

play00:46

てますでGoogleは先日ジェミニ

play00:49

ウルトラというモデルを出したばかりでし

play00:51

たでそちについてはこちらの動画で解説し

play00:53

てるので興味がある人は見てみてください

play00:55

でこのジミニーウルトラはオープンAの

play00:57

GPT4に匹敵すると言われてたんです

play00:59

けどもえ次はこのジェミニウルトラを

play01:01

さらに超えてきたえジェミニプロ1.5と

play01:04

いうモデルが発表されましたでそもそもえ

play01:07

プロとかウルトラとかって何なのって人も

play01:09

いると思いますしえ課金した方がいいのか

play01:11

なっていう風に迷ってる人もいるかと思い

play01:13

ますただ実はGoogleの言語モデルの

play01:15

性能評価はえ結構ちゃんと見ないと怪しい

play01:18

ところがあったりしますでこういうところ

play01:20

理解しておかないと必要ないものにお金

play01:22

払ってしまうという可能性もあると思い

play01:24

ますので本日はそこら辺も含めてえどう

play01:27

いう状況なのかというのを誰でも分かる

play01:29

ように解説していきますGoogleの

play01:31

原語モデルについてもっと詳しく知りたい

play01:33

という人は是非見ていってもらえればと

play01:35

思いますえそれでは早速やっていき

play01:36

[音楽]

play01:38

ましょうはい最初にこれまでの

play01:41

Googleの言語モデルについてあまり

play01:42

情報を終えていないという人もいるかと

play01:44

思いますのでそちらから説明していきます

play01:46

えまずGoogleが開発してる言語

play01:48

モデルの名前がジェミニという風に呼ばれ

play01:51

てますでGoogleってすごくクールな

play01:53

会社というイメージがあると思うのでこの

play01:55

言語モデルのえジェミニもすごいんだろう

play01:57

なっていう風に思いますよねで実際え

play01:59

Googleの言語モデルのサイトとかを

play02:01

見てみるとえこんな感じでOpenAの

play02:03

GPT4の性能を超えたというところが

play02:06

大体的に書かれてたりしますでこれはえ

play02:08

あるテストの結果なんですけどもGPT4

play02:11

が86.4%の制度なのにGoogleが

play02:14

開発してるジェミニウルトラでは90%

play02:17

ですというところが主張されていますで

play02:19

これを見るとえジェミニウルトラの方がえ

play02:21

GPT4よりも強そうだなという風に思い

play02:23

ますよねで言語モデルの性能を評価する

play02:25

試験っていうのはえ実はたくさん行われて

play02:28

いてGoogleのページに行くとえ

play02:30

いろんな試験の結果がえ表形式でまとめ

play02:32

られていますでジェミニウルトラと

play02:34

OpenAのGPT4の結果がそれぞれ

play02:36

まとめられてるんですけれどもこれを見る

play02:38

とえ軒並みジェミニウルトラの方が性能が

play02:40

高いというのが分かるかと思いますでただ

play02:42

この数値の下の条件を見てみるとえ設定が

play02:45

違うというのが分かるかと思いますでこれ

play02:47

はえ言語モデルに与えるプロンプトの設定

play02:50

が異なるということを意味していますま

play02:52

簡単に言うと同じ条件で比較した結果では

play02:55

ないということになりますでコメマークが

play02:57

ついてるのでこの表の下のところを見て

play02:59

みるととえ少しちっちゃいんですけどもえ

play03:01

cot@32という条件でえGPT4の

play03:04

スコアは87.2900ですよという風に

play03:07

書いていますでこのジェミニウルトの

play03:09

90%もえcot@32なのでこちらの

play03:13

87.29とこちらの90%は同じ条件の

play03:16

比較結果になっていますなのでえせっかく

play03:19

同じ条件で比較してるのになぜかこの表に

play03:21

書かれてるのは同じ条件のものじゃなくて

play03:24

少し低い違う条件の結果を載せています

play03:27

これはちょっとどうなんだろうなっていう

play03:28

風に思いますよねただえそうは言ってもえ

play03:31

同じ条件で比較してえGPT4は87.

play03:34

29でジェミニウルトラ90%なので結局

play03:38

ジェミニーウルトラの方が強いじゃんと

play03:39

いう風に思った人もいるかもしれません

play03:41

しかしこれもえ論文を読みに行くとえ

play03:44

こんな感じの図がえ論文の付録部分え

play03:46

つまり補足資料として載っていますでこれ

play03:48

はGPT4とえジェミニウルトラの比較

play03:51

結果なんですけどもグレーがGPT4で

play03:53

ブルーが地面にウルトになっています横軸

play03:56

がプロンプトの設定の違いで縦軸がえ精度

play03:59

なってるんですけども先ほどあったえ

play04:01

cot@32というプロンプトはこの

play04:03

真ん中の結果になっていてこれを見るとえ

play04:06

GPT4が87.2900でジェミニー

play04:09

ウルトラは84.99ドル

play04:13

かと思いますでこれの右を見てみると

play04:16

Changeオso@32のunan

play04:19

rootedという設定方法がありますで

play04:21

この場合だとジェミニウルトラは9.0

play04:24

4%でまGPT4を超えてるという風な

play04:26

結果になっていますでこの結果がえ先ほど

play04:29

のページにのてるというわけですただこの

play04:31

アサンテルティという方法がま何なのかと

play04:34

いうのは論文で詳細が書かれていません

play04:36

でしたなんでこの方法をやるとえGPT4

play04:39

のスコアは変わらなくてえジェミニ

play04:41

ウルトラのスコアを伸びてるのかってのが

play04:42

よくわからないですしそもそもこの方法に

play04:45

ついて書かれてないとこの結果をどういう

play04:46

風に解釈していいのかってのが分からない

play04:48

かと思いますそしてこの論文はえ昨年の

play04:51

12月時点で発表されたんですけども

play04:54

GPT4のモデルのバージョンっていうの

play04:56

が11月の最新のバージョンじゃなくてえ

play04:59

ここにもあるように0613ということで

play05:02

半年前の6月13日にリリースされた

play05:04

モデルを使用しているようですたまたま

play05:06

この実験をやったのがえ11月以前だった

play05:09

ということもあると思うんですけども論文

play05:11

の別の箇所では実験はえ11月に行ってる

play05:14

ということが書かれてるのでだったら6月

play05:16

のモデルじゃなくてえ11月のモデルを

play05:18

使うべきなんじゃないかという風に思っ

play05:20

たりもしますでこういった背景からま一部

play05:23

の人たちからまどういうことだというので

play05:25

ま不審感が少し溜まってるかと思います皆

play05:28

さんも少しGoogleに対して不審感を

play05:29

持っていたりするんでしょうか私もえま

play05:32

スマホはPixel使ってたりとか

play05:33

Google大好きな人間なんですけども

play05:35

まちょっと言語モデルに関しては好評さ

play05:37

れる結果をそのまま信じられなかったりし

play05:39

ますなのでSNSとかですごいすごいと

play05:42

いう風に言われててもま一旦ですね冷静に

play05:44

なって論文などをしっかり読んだ方が良い

play05:46

かもしれませんで論文とか読んでられない

play05:48

よという人はですね私の方が解説しますの

play05:50

でチャンネル登録の方よろしくお願いし

play05:52

ますという感じ

play05:54

ですはいそれでは少し前置きが長くなった

play05:56

んですけどもえ今回新しくリリースされた

play05:59

えEMIPro1.5について説明します

play06:01

でこちらはえGoogleで開発されてる

play06:03

言語モデルになっていて大きく分けて3

play06:06

種類ありますそれぞれモデルが大きい順

play06:08

からえジェミニウルトラえプロNANと

play06:11

いう風に分かれています基本的にはえ

play06:13

モデルのサイズが大きいほど計算時間が

play06:16

かかったりする分モデルの性能が良くなり

play06:18

ますで2月の初旬にリリースされたのがえ

play06:21

こちらのジェミニウルトラになってるん

play06:22

ですけども今回はえ真ん中のえjemi

play06:25

Proのえバージョン1.0がえ

play06:27

バージョン1.5に進化しますましたと

play06:29

いう話になりますでジェミニPro1.5

play06:32

になってえ注目するべき変わったこととし

play06:34

ては2つあります1つ目がえ性能アップと

play06:37

いうことでえこれまでのジェミニPro

play06:39

1.0や先日出されたえジェミニウルトラ

play06:42

よりもえ性能が良くなりましたこちらはえ

play06:45

ジェミニプロ1.0とジェミニウルトラと

play06:47

比較した結果になっていますでジェミニの

play06:49

モデルはえ文章だけじゃなくて画像とか

play06:52

音声も扱えるマルチモーダルなモデルなの

play06:54

でそれぞれのデータの種類に対して比較が

play06:57

されていますでこれを見ると前のの

play06:59

バージョンの1.0のプロよりも全ての

play07:01

データに対して性能が良くなってるとまた

play07:04

えジェミニウルトラと比較しても文章を

play07:06

扱うタスクにおいては今回のジェミニ

play07:09

Pro1.5の方が良い結果を示してます

play07:11

画像とか音声を扱うタスクにおいては

play07:13

ジェミニウルトラの方が良いという結果に

play07:15

なっていますで真ん中のグレードのこの

play07:18

プロがえ最上位のウルトラを上回って

play07:20

しまってるというのは少しなんでだろうと

play07:22

いう感じもしますよねモデルが小さい方が

play07:25

出力する速度が早いはずなので今の状態だ

play07:27

とえウルトラを使う場面っていうは

play07:29

あんまりないんじゃないかなという風な

play07:30

感じもしますあえてここら辺を公表してる

play07:33

ということはGoogleが現在最も自信

play07:35

があるモデルはこのウルトラじゃなくて

play07:37

今回リリースされたプロの1.5という

play07:40

ことなのかもしれませんはい続いてえ注目

play07:42

するべき2つ目の特徴としては入力できる

play07:45

長さの上限がアップしたということになり

play07:47

ますOpenAIのGPT4ではえ約

play07:50

13万文字の文章を入力することができ

play07:53

ますクロド2.1というモデルでは約

play07:55

20万文字まで入れることができますこれ

play07:58

でも相当長くて本とかも入れられるんじゃ

play08:01

ないかなという風に思うんですけども

play08:02

jemiPro1.5の入力上限はいくら

play08:05

だと思うでしょうか50万えもしかしたら

play08:07

100万かもという風に思った人もいると

play08:09

思いますはい正解はなんとですね

play08:11

1000万トークンまで入力できるという

play08:13

ことでしたいやどんだけ入れられるんだと

play08:15

いう風な感じもしますよねちなみに

play08:17

トークンというのはAIで文字を扱う時の

play08:20

最小単位になっていて文字のようなものだ

play08:22

と思ってもらえばいいと思いますつまり

play08:24

最新のジェミニプロ1.5では約

play08:26

1000万文字まで入力できるということ

play08:28

になりますま相当分厚い本を読ませたりと

play08:31

か大規模なシステムのプログラムのコード

play08:33

を読ませたりとかそういう場合は便利かな

play08:35

と思うんですけども皆さんはここまで長い

play08:37

入力上限ってのはえ嬉しかったりする

play08:38

でしょうかで今回このモデルと一緒に公開

play08:41

されたえ技術論文では結構なページをさえ

play08:44

てこの長い入力ができることの利点だっ

play08:46

たりとか性能の評価結果がまとめられてい

play08:48

ましたジェミニPro1.5はジェミニ

play08:51

ウルトラよりもえ言語モデルの性能が高い

play08:53

というのであればGPT4との比較結果が

play08:56

あるのかなという風に思って読んでたん

play08:57

ですけども純粋なガチンコ対決の結果と

play08:59

いうのは載ってませんでしたでここら辺は

play09:02

えモデルの純粋な性能というよりも長い

play09:04

文章を入れられるという点で差別化を測っ

play09:07

ていこうという意図があるかもしれません

play09:08

でジェミニのモデルはえマルチモーダルな

play09:11

モデルとなっていますでマルチモーダルっ

play09:13

ていうのはえ文章だけじゃなくてえ音声と

play09:15

か画像とか動画とかえいろんな種類の

play09:17

データを入力できるということになります

play09:19

で文章の場合はえ1000万文字ぐらい

play09:22

まで入れられるという話だったんですけど

play09:23

も動画の場合はえ3時間音声に関しては

play09:26

22時間まで入力できるようでその時の

play09:29

制度がどうなるのかというテスト結果が

play09:31

検証されていましたはいこちらはえ

play09:33

needleinaハイstackという

play09:35

え長い入力の情報をモデルが適切に扱え

play09:38

てるのかというのを評価した結果になって

play09:40

います上からえ動画音声テキストの評価

play09:43

結果になっていますでこのneedle

play09:44

イアハイスタックって何ってことなんです

play09:46

けどもこんな感じで例えば桃太郎の昔話を

play09:50

書いたとしますえおじいさんとおばあさん

play09:52

が住んでいましたとかそういったことが

play09:53

書かれてますでこの時のえ文章の中にえ

play09:56

ランダムでこういった感じでマジック

play09:59

ナンバーは5番ですとかえそういったえ

play10:01

文脈に関係ない文章をえ埋め込んでおき

play10:03

ますそしてこの文章全体とえ質問文として

play10:07

マジックナンバーは何番ですかという文章

play10:09

を合わせてえ言語モデルに入力した時に

play10:12

正しくこの埋め込んだ文章の情報を参照し

play10:15

てえ質問に答えられるのかというのを評価

play10:17

する方法になっていますまちょっと難しい

play10:19

んですけどもこれで何が見たいのかと言う

play10:21

とjemiPro1.5は1000文字の

play10:24

文章を入力できるという話だったんです

play10:26

けども本当にその1000文字の文章を

play10:28

入れた時にその文章全部をえちゃんと把握

play10:31

できてるのかというのをチェックしてい

play10:32

ますこれ結構面白い方法だなっていう風に

play10:35

思いますよねえ実はこの評価方法は海外の

play10:38

YouTuberの方が考えた方法になっ

play10:40

ていますYouTubeをやってる人が

play10:41

考えた手法がGoogleの言語モデルの

play10:43

評価に使われてえ論文で引用されて

play10:46

るってのは結構すごいなっていう風に思い

play10:48

ませんかはいちょっと脱線したんですけど

play10:50

もえそのテスト結果が先ほどの図になって

play10:52

います横軸がえそれぞれの文章の長さに

play10:55

なっていて例えば先ほどの桃太郎の話だっ

play10:58

たらその桃太郎ロの物語の文章の長さに

play11:00

なります縦軸がえその文章の中のえどこに

play11:04

マジックナンバーの文章を埋め込んだのか

play11:05

という位置を表していますで緑がえうまく

play11:08

抽出できたものでえ赤が失敗したものと

play11:11

いう風になってるんですけどもテキストの

play11:12

場合はえ1000万トークンまでほとんど

play11:15

緑になってるのでかなりの割合で成功し

play11:17

てるというのが分かりますで動画とか音声

play11:19

に関しても先ほどのテストと同じように

play11:22

フレームとか音声にえマジックナンバーを

play11:24

埋め込んだみたいなんですけどもどの場所

play11:26

に入れたとしてもちゃんと抽出できたと

play11:28

いう結果のようでですなので結論えjem

play11:30

には長文の入力を扱う能力が高いというの

play11:33

が分かるかと思いますでGPT4でもえ

play11:36

同様の実験を行って結果を比較していまし

play11:39

たでテキストに関してはえGPT4も

play11:42

100%の制度だったんですけども音声に

play11:44

関してはえこういった結果になっています

play11:46

でGPT4はえマルチモーダルのモデル

play11:48

じゃないので直接音声入力ができませんな

play11:51

のでえウパーというえ音声から文字起しを

play11:54

するAIを使ってえ文章を書き起こした後

play11:57

にえGPT4を使使った場合というので

play11:59

比較がされてましたで上がジェミニPro

play12:02

1.5で下がGPT4とウパーなんです

play12:05

けどもこれを見るとこのGPT4と

play12:07

wispはえ赤いところがたくさんあって

play12:09

うまく情報を抽出できてないという一方で

play12:12

このgemiPro1.5はえ音声が長く

play12:14

なってもえ全てを認識できるというのが

play12:16

分かるかと思いますただこの比較結果論文

play12:19

載ってたんですけどもえ皆さんどういう風

play12:20

に思いますかでwispとGPT4の

play12:23

組み合わせの評価ってそれウィスパーの

play12:25

文字起しの制度の問題じゃないかという風

play12:27

に突っ込みたくなったりしますよねとは

play12:29

いえま現状GPT4では長い音声を扱え

play12:32

ないのでま無理やり比較しようとすると

play12:34

こういった形になるのもしょうがないのか

play12:36

もしれないなという風にも思いますで論文

play12:38

ではえさらに難しいタスクでの実験も行わ

play12:41

れていてここでもGPT4よりも

play12:42

ジェミニーの方が良いよというのが主張さ

play12:44

れています先ほどはえ文章の中1箇所に

play12:48

マジックナンバーは何番ですという文章を

play12:50

入れて正しくこの番号を抽出できるのかと

play12:52

いうのをやってたんですけども次はえ複数

play12:55

の場所にこのマジックナンバーの文章を

play12:57

入れてこの文章と一緒に質問した時に

play12:59

正しくこの番号を取ってくれるのかとと

play13:01

いうのを検証していましたで結果はえ

play13:04

こちらになっていて青色がえジェミニ

play13:06

Pro1.5で赤色がGPT4のターボに

play13:09

なっています横軸がえ文章の長さになって

play13:11

いてまGPT4は12万18000

play13:14

トークンまでしか入力できないのでここ

play13:16

までしかありませんと縦軸がえリコールと

play13:19

言ってこれは正解のデータをどれぐらいの

play13:21

割合で抽出できたのかというのを表してい

play13:24

ますまなのでマジックナンバーの文章がえ

play13:27

10個思い込まれた時に正しく10個正解

play13:29

できたら100%になりますしえ5個しか

play13:31

正解できなかったらこのリコールは50%

play13:34

になりますなので高いほど精度がいいと

play13:36

いうことになりますでこれを見るとえ青色

play13:38

の方がリコールが高いのでまつまり

play13:41

ジェミニプロの方が良い結果になってい

play13:43

ますなのでえGPT4ターボよりも

play13:45

ジェミニPro1.5の方が長文の入力を

play13:48

活用する能力というのについてはえ高いか

play13:51

もしれませんさすがに論文の数字はえ嘘は

play13:53

つかないかなという風に思いますので本当

play13:55

にジェミニプロの方が強いんだなという風

play13:57

に思いますはいただえマジックナンバーの

play13:59

タスクってのは結構単純なのでもう少し

play14:01

現実的なものとしてえ1000ページを

play14:03

超える本の内容をもにQ&Aで正しく回答

play14:06

できるのかというのもテストされています

play14:08

でこちらは少し難しいんですけどもラグと

play14:11

呼ばれる本の一部からえ文章を抽出する

play14:13

技術を使った場合との比較も行われてい

play14:15

ます楽に関してはこちらの動画で紹介し

play14:18

てるので興味があったら見てみてください

play14:20

で結果を見るとこのゼロショットが何も

play14:22

参照させてない時で4系リトリーブという

play14:25

のがえラグをやった時最後の業がえ文章を

play14:28

全部を入れた場合のえ結果になっています

play14:30

でこういう風に見るとクロド2.1という

play14:32

モデルよりもえジェミニプロの方が精度が

play14:34

高いというのが分かりますただえなぜか

play14:37

この試験だけえGPT4の評価結果が除外

play14:40

されていましたで理由としてはGPT4は

play14:43

本の内容をすでに学習してしまってるから

play14:45

という風に書かれてたんですけどもなんで

play14:47

そういう風に言い切れるのかというところ

play14:49

は少し論文を読んでいて分からなかった

play14:51

ですはいケチをつけてしまったんですけど

play14:52

もえ結論としてはジェミニープロは長い

play14:55

文章を入れる用途では結構使えるかもしれ

play14:58

ないということですねで長い文章を入れる

play15:00

時ってそれってどんな時なのっていう風に

play15:02

思った人も多いと思いますで論文では英語

play15:05

からカマン語への翻訳をする時に使えると

play15:08

いう有用性が示されていました皆さん

play15:10

カマン語って知ってますかカマン語はえ

play15:13

世界でも200人未満の人しか喋ってない

play15:15

言語のようですま当然このカマ語は

play15:17

インターネット上に情報がないのでその

play15:20

ままでは言語モデルに聞いても正しく翻訳

play15:22

はできませんなのでえ実験ではこのカマ語

play15:25

の文法書と一緒にえ翻訳して欲しい分を

play15:28

入れた時に正しく英語に翻訳できるのかと

play15:31

いうのを検証していましたつまりジェミニ

play15:34

Proは約1000万文字入力できるので

play15:36

翻訳して欲しい文章とこのカマ語の文法書

play15:39

まるまるを一緒に入れるというわけですね

play15:41

はい結果はこんな感じになっていますま皆

play15:43

さんも予想はつくと思うんですけどもゼロ

play15:45

ショットが何も入れてない状態でこの

play15:47

ハーフブックというのが文法書を半分入れ

play15:50

た状態フルブックってのが全部入れた状態

play15:52

になってますでGPT4とCL2.1は

play15:55

ポンを半分までしか入れられないという

play15:57

ことですねでジェミニプロ1.5はえ全部

play15:59

入れられるので当然1番精度が高いという

play16:02

結果でしたはいますごいなという風に思う

play16:04

んですけども結構用途が限定されるのかな

play16:07

という風な気もしますよねはい色々と紹介

play16:09

してきたんですけどもえまとめるとえ

play16:11

ジェミニProはウルトラより言語モデル

play16:13

の性能は高いとそしてえ長文を扱う能力が

play16:17

高いかもしれないと最後に言語モデルの

play16:19

性能に関してはえGPT4の方が良さそう

play16:22

だなという風な感じがしますで長文を

play16:24

たくさん入れられるのでえジェミニプロを

play16:26

使うとえラグという仕組みがなくんじゃ

play16:28

ないかという風な意見もあったりしますで

play16:30

ただえ言語モデルを使うたびに毎回

play16:33

テキストの情報を全部入れるのかというと

play16:35

ま明らかにそれは無駄ですし入力文字数に

play16:37

応じてモデルの利用料金がかかってくるの

play16:40

で個人的には現段階だとそこまで使いどろ

play16:43

は多くないんじゃないかなという風に思っ

play16:44

てますえ皆さんはどういう風に思った

play16:46

でしょうか感想とかあれば是非教えて

play16:48

くださいでjemiPro1.5はえ利用

play16:51

申請が必要になりますGoogle

play16:53

japanのブログの下の方にえ

play16:54

ウェイティングリストのリンクが貼って

play16:56

あるので興味がある人は概要欄にリンク

play16:58

貼っておくので申し込んでおくと良いと

play17:00

思います今後APIとかも使えるように

play17:02

なったらまた動画の方で解説していきたい

play17:04

と思いますはい以上で本日の動画を終了し

play17:06

たいと思いますえこの動画良かったなても

play17:08

人は高評価コメントチャンネル登録の方

play17:09

よろしくお願いしますえゆでもやってます

play17:11

ので概要欄から見てみてくださいえそれで

play17:12

はまた次回の動画でお会いしましょうバイ

play17:14

[音楽]

play17:24

バイ

Rate This

5.0 / 5 (0 votes)

Related Tags
ジェミニプロ1.5AI性能長文入力マルチモーダルGoogleAI言語モデル翻訳能力比較分析技術進歩AIモデル
Do you need a summary in English?