GPT-4o|ChatGPT最新モデルは何が凄いのか?

数理の弾丸 - AIコンサル&京大院生が全力解説
15 May 202422:24

Summary

TLDRこの動画スクリプトでは、OpenAIが発表した最新の言語モデルGPT-4Oについて詳しく解説しています。GPT-4Oは、自然言語だけでなく音声や画像も扱える多機能なモデルで、GPT-4ターボに匹敵する性能を持ちながら、より高速にテキストを生成できると報告されています。また、マルチモーダルタスクにおいても優れた性能を発揮し、音声認識や翻訳タスクにおいても既存のモデルを超える精度を示しています。しかし、音声会話機能はまだ提供されておらず、今後の開発に期待が高まっています。スクリプトは技術的な詳細と評価方法を交えて、AI技術の進歩とその社会的影響について考えさせられる内容となっています。

Takeaways

  • 😲 GPT-4が発表されたと話題に!これはOpenAIが開発した新しいモデルで、自然言語データだけでなく音声や画像も扱える機能を持つ。
  • 📈 GPT-4はGPT-4 Turboに匹敵する性能を持ち、さらに英語以外の言語ではその性能を超えていると報告されている。
  • 🚀 GPT-4はテキスト生成が2倍高速に改善されており、GPT-4 Turboの半分の費用で利用できるというコストパフォーマンスの向上がある。
  • 🔍 GPT-4はマルチモーダルタスクに対応しており、テキストと画像を組み合わせた問題にも対応できる能力を持っている。
  • 📊 M3EXデータセットでの評価では、GPT-4は全ての言語でGPT-4以前のモデルを超える性能を発揮していることが示されている。
  • 👂 音声認識タスクにおいても、GPT-4は最新の音声認識モデルを超える性能を持ち、低いエラー率を記録している。
  • 🗣️ 音声翻訳タスクにおいてもGPT-4は優れた性能を発揮しており、他の企業のモデルと比較しても最も良い結果を出している。
  • 💬 チャットGPTではテキストと画像の処理機能が提供されており、今後はボイスモードの提供も予定されている。
  • 🔌 APIではテキストと画像、あるいは両方を入力としてテキストを出力する機能が提供されており、今後さらに機能が拡張される可能性がある。
  • 🧠 GPT-4は単一のニューラルネットワークで全ての入力と出力を処理するという革新的な構成を取っているとされている。

Q & A

  • GPT4のアップデート版が発表されたのはいつですか?

    -GPT4のアップデート版であるGPT4Oは5月14日の午前2時に発表されました。

  • GPT4Oの主な特徴は何ですか?

    -GPT4Oは自然言語データ、音声、画像などを一つのモデルで扱えることが特徴です。また、性能が向上し、テキスト生成の速度がGPT4ターボの2倍となり、費用も半分です。

  • GPT4Oが優れている点はどのように評価されていますか?

    -GPT4Oは様々なデータセットで評価されており、GPT4よりも全ての言語で優れた性能を示しています。具体的には、マルチモーダルタスクや音声認識、音声翻訳などで他のモデルを上回っています。

  • GPT4Oのテキスト生成速度はどれくらいですか?

    -GPT4Oのテキスト生成速度はGPT4ターボの2倍速く、またその費用は半分です。

  • GPT4Oの音声生成速度はどれくらいですか?

    -GPT4Oは0.32秒で音声生成ができ、人間の反応時間に匹敵する速度で会話が可能です。

  • GPT4OのAPIが提供している機能は何ですか?

    -現在提供されているAPIでは、テキストと画像を入力としてテキストを出力する機能があり、今後は音声や映像の処理機能も提供予定です。

  • GPT4Oの技術的な新規性は何ですか?

    -GPT4Oでは、テキスト、画像、音声を一つのニューラルネットワークで処理する構成になっており、従来の複数のモデルを組み合わせたパイプラインから進化しています。

  • 従来の音声モードの処理方法とGPT4Oの違いは何ですか?

    -従来の音声モードは音声認識モデル、テキスト生成モデル、音声合成モデルのパイプラインで構成されていましたが、GPT4Oでは単一のニューラルネットワークで全ての処理を行います。

  • GPT4Oが既存のモデルを超える性能を示している具体例は何ですか?

    -GPT4OはM3EXデータセットや音声認識タスクなどで既存のモデルを超える性能を示しており、全ての言語でGPT4を超える正解率を記録しています。

  • GPT4Oの提供予定の新機能は何ですか?

    -GPT4Oは今後、ボイスモードを提供予定で、音声を入力・出力する機能が追加される予定です。また、APIにおいても音声や映像の処理機能が提供予定です。

Outlines

00:00

😲 GPT-4Oの登場とその特徴

GPT-4Oが発表されたと話題に!これはオープンAIが開発した多様なデータタイプを一つのモデルで扱える「オムニ」モデル。5月14日に発表され、自然言語データだけでなく音声や画像も処理できるという点で非常に興味深い。性能面ではGPT-4ターボと同等かそれ以上の性能が出ていると報告されており、英語以外の言語ではGPT-4ターボを超える能力を持っている。さらに、テキスト生成が2倍高速に改善されているとのこと。料金面でもGPT-4ターボの半分のコストで提供されると話題です。

05:03

📈 GPT-4Oの性能評価と比較

GPT-4Oの性能は様々なデータセットを通じて評価されている。M3EXデータセットでの評価では、GPT-4を超える正解率を示しており、言語だけでなく画像を含むマルチモーダルな問題にも対応している。音声認識においても、最新のウィスパーモデルを超える性能を発揮していると報告されている。音声翻訳においても他の企業のモデルと比較して最も優れた性能を示しており、GPT-4Oは非常に高精度な結果を出すと評価されている。

10:06

🔊 GPT-4Oの技術的構成と機能の展望

GPT-4Oはこれまでの音声モードとは異なる技術的構成を持っている。従来は音声認識モデル、チャットボット、音声合成モデルがパイプライン的に処理を行っていたが、GPT-4Oでは全ての入力と出力が同じニューラルネットワークで処理されるというシンプルかつ強力な構成を採用している。今後、テキストだけでなく画像や音声も入力し、テキストや音声、映像を出力できる機能が提供される予定で、その際の料金もGPT-4ターボの半分以下になるという利便性がある。

15:07

🤖 GPT-4Oの技術革新と多様性

GPT-4Oは技術的な革新をもたらしている。これまでのマルチモーダルモデルでは、それぞれのメディアに特化したニューラルネットワークが特徴量に変換されていたが、GPT-4Oでは全てのメディアタイプを同じニューラルネットワークで処理することができる。これは非常に大きな技術的飛躍であり、これまでの考え方を刷新している。また、この技術は言語獲得能力など人間の特有の能力にも影響を与える可能性があると議論されている。

20:10

🚀 GPT-4Oの未来性と社会的影響

GPT-4Oは技術的な進歩だけでなく、社会にも大きな影響を与える可能性がある。人間の反応速度を超える処理速度を持つことから、ビジネスのあり方やマーケティング、営業などの分野におけるAIの活用が進むことが予想される。AIによる効率化と自動化が進むことで、企業の競争力向上や新しいビジネスモデルの創出が期待されている。

Mindmap

Keywords

💡GPT4O

GPT4Oは、オープンAIが開発した新しい言語モデルです。このモデルは自然言語だけでなく、音声や画像など多種のデータを扱うことができる「オムニ」モデルという特徴を持っています。ビデオでは、GPT4Oの登場がAI技術の進歩を示しており、その多機能性と高性能が強調されています。

💡オムニモデル

オムニモデルとは、テキストだけでなく音声や画像など、さまざまなタイプのデータを一つのシステムで扱うことができるAIモデルのことを指します。ビデオではGPT4Oがこのオムニモデルとして紹介されており、その多様なデータ処理能力がその強みとされています。

💡言語モデル(LLM)

言語モデルとは、自然言語を理解し、生成するAIのモデルを指します。ビデオでは、GPT4Oが言語モデルの性能を大幅に向上させたと報告されており、その性能向上が様々なタスクにおいて優位性を持つと示唆されています。

💡性能評価

性能評価とは、AIモデルの能力や正確さを測定するプロセスです。ビデオでは、GPT4Oが様々なデータセットを用いて性能を評価していると語られており、その評価結果がモデルの優秀性を証明する根拠となっています。

💡テキスト生成

テキスト生成とは、AIが入力された情報に基づいて新しいテキストを作成するプロセスです。ビデオではGPT4Oがテキスト生成においてGPT4ターボの2倍の速度で生成が可能とされており、その高速性と高精度が強調されています。

💡マルチモーダルタスク

マルチモーダルタスクとは、画像や音声など、複数の感覚模態を組み合わせて理解する必要のあるタスクです。ビデオではGPT4Oがマルチモーダルタスクに対応し、画像とテキストを組み合わせた問題にも答えることができると紹介されています。

💡音声認識

音声認識とは、音声信号を電信号に変換し、それをテキストに変換する技術です。ビデオではGPT4Oが音声認識タスクにおいても優れた性能を発揮し、既存のモデルを超えていると報告されています。

💡API

APIとは、アプリケーションプログラミングインターフェースの略で、ソフトウェア間でデータをやり取りするための規約や手順を定めたものです。ビデオではGPT4OのAPIがテキストと画像の入力からテキストを出力する機能を提供していると説明されています。

💡ボイスモード

ボイスモードとは、音声を入力または出力として扱う機能です。ビデオではGPT4Oが今後数週間以内にボイスモードを提供予定であり、音声入力や音声出力が可能になるという情報を提供しています。

💡ニューラルネットワーク

ニューラルネットワークとは、人間の神経系をモデル化した数学的なモデルです。AI分野でよく使われるアルゴリズムの一つであり、ビデオではGPT4Oが全ての入力と出力を1つのニューラルネットワークで処理していると説明されています。

Highlights

GPT4Oという新しいモデルが発表された。これは自然言語データ、音声、画像などを一つのシステムで扱うことができる。

GPT4OはGPT4ターボに匹敵する性能を持ち、英語以外の言語ではその性能を超えている。

GPT4Oはテキスト生成が2倍高速で、正確性と速度の両面で改善されている。

GPT4OはAPIを通じて利用可能で、GPT4ターボの半分の費用で提供される。

GPT4Oはテキストだけでなく、画像や音声も扱うことができるが、音声会話はまだ利用できない。

GPT4Oは人間と同等の反応速度で音声生成が可能な0.32秒の速さを誇る。

GPT4Oはマルチモーダルタスクに対応しており、画像とテキストを組み合わせた問題にも対応可能。

GPT4Oは音声認識タスクでも既存のモデルを超える性能を発揮している。

GPT4Oは音声翻訳タスクにおいても優れた性能を持ち、他の企業のモデルと比較して最も良い結果を出している。

GPT4Oは現在提供されている機能はテキストと画像の処理に限られ、今後ボイスモードが提供される予定。

GPT4OはAPIを介してアプリケーションに組み込まれる機能も提供されており、テキストと画像を入力にテキストを出力する機能が利用可能。

GPT4Oは今後音声や映像の処理を行う機能も提供予定とされている。

GPT4Oは単一のニューラルネットワークで全ての入力と出力を処理する構造となっている。

GPT4Oは従来の音声モードと比較して、より効率的でシンプルな構造を採用している。

GPT4Oはマルチモーダルモデルとして、これまでのモデルと比べて全ての入力と出力が可能となっている点で革新的。

GPT4OはAI技術の進歩において重要な一歩を表していると期待されている。

GPT4Oの発表は技術者や利用者双方にとって非常に重要な意味を持つ。

Transcripts

play00:00

出たね

play00:02

うん出ましたね何です

play00:06

かGPT4出ましたね

play00:11

ほん何ですかそれはそれは一体何です

play00:16

かいやオープAIがまチャットGPT出し

play00:19

てるじゃないですかああいやこれのね

play00:22

アップデート版が昨日の未名に出たんです

play00:26

けど

play00:27

へえなんかあるからアップデート出ました

play00:31

とか新しいの出ましたとかうんから別何の

play00:35

気なしにそのリリースページみたいなの見

play00:38

てたんですようんだなんかえ結構とんでも

play00:43

ないことをへって書いてないと思って

play00:47

へえうんなんかシンプルにこれまでのやつ

play00:50

よりすごくなりましたっていう話にとまら

play00:53

ずうんなんていうかその研究っていう目線

play00:57

から見てもなかなかすごいことが起きてん

play00:59

じゃないかという気がしていますそうなん

play01:01

だはいなんでこの動画をきっかけにGPT

play01:06

4Oのことを知ってくれた方もいると思う

play01:08

のでず概要的なところは話しつつあ

play01:12

ちょっと技術面によった話をしていきたい

play01:14

なと思ってますはいはいでま今回の内容は

play01:18

えオーAが新たなモデルGPT4OOって

play01:22

いうのはオニのOなんですけどえを発表し

play01:26

ましたまオムニっていうのはあれですね

play01:28

いろんなタイプのデータ自然言語データと

play01:30

か音声とか画像とかうんいうのをまあ1本

play01:36

で扱えますよっていうような意味合いなん

play01:38

ですけどうんうんこれが発表されましたと

play01:40

でま公式ホームページ詳しくは見て

play01:43

いただければと思うんですがえっと5月

play01:46

14日の午前2時に発表されてでま

play01:50

リリースページというかこういうものです

play01:52

よっていう紹介のページもあるんですけど

play01:53

ま結構情報がいっぱいあってで英語で基本

play01:57

書かれてるんでまちょっと特筆し体点って

play01:59

いうのをピックアップしてちょっと砕いて

play02:02

話していこうかなと思いますお願いします

play02:06

はいでえこの動画を見ていただくことで何

play02:09

が分かるかっていうところなんですけどま

play02:11

大希望言語モデルllmの性能がま良く

play02:13

なりましたみたいな発表ってよくあると

play02:15

思うんですけど俺その良いとか悪いとかっ

play02:18

て何を持って判断してるのかっていう

play02:20

ところがクリアになるかなっていうのが1

play02:22

つうんうんでまこれは技術者っていうか

play02:25

エンジニアに限らずま利用者っていう目線

play02:28

でもどういった面で良くなっのかっていう

play02:30

のを自分で見極められるっていうのはえ

play02:32

非常に重要なところかなと思い

play02:36

ますでもう1つこのGPT4Oで使われて

play02:40

いるま技術についても簡単にだけど書いて

play02:43

あってまそこがねま発表されてない情報が

play02:47

かなり多いのでまだ分かりきらないとこは

play02:49

あるんですけどこの研究目線で見ても

play02:52

めちゃくちゃ大きなことをやってるんじゃ

play02:54

ないかという気がしていてちょっとそこを

play02:56

後半に話していこうと思いますうんうん

play02:58

はいはいじゃまず1点目この性能がいいと

play03:02

か悪いとかって何を持って判断してるの

play03:03

かって話でま結論から言うとそ評価用の

play03:06

データっていうのがいっぱいあるんですよ

play03:08

うんまそのデータを作ること自体も結構

play03:10

研究として成立するぐらいの話なんです

play03:13

けどま主にどういった点で良くなってる

play03:16

かっていうのをちょっと見ていこうと思い

play03:18

ますはいでま他方面で性能が上がりました

play03:22

と報告されてる限りではなんていうか

play03:25

いかなる面でもGPT4Oが優れてる

play03:27

みたいな感じ

play03:31

語あとプログラミングうんのところでは

play03:35

GPT4ターボこれは1個前のモデルです

play03:38

ねGPT4の高速版うんあるところの

play03:42

GPT4ターボに匹敵する性能が出ていて

play03:45

で英語以外の言語ではポターボを超えて

play03:48

いるへえいうように報告されていますうん

play03:52

のでシンプルに性能良くなってるんだけど

play03:56

さらにねあの僕勝手にままたすっげえ

play03:58

でっかいモデルが出てきたんだろうなと

play04:01

うん思っていてえま結構動作的にはラグが

play04:06

大きかったりするんだろうなと思ってたん

play04:08

ですよねうんまていうのはGPT3から

play04:10

GPT4に新しくなった時にま結構

play04:15

レスポンスとしては遅くなった印象があっ

play04:17

たので

play04:18

うーんなんですけどま引きの要件なので

play04:22

シンプルな正確さというか出力が正確であ

play04:25

るっていう面以外にま以下の点でえ改善が

play04:28

見られているというのででこの3つ上げ

play04:30

てるんですがGPT4ターボの2倍高速に

play04:33

テキスト生成ができるへえなので性能良く

play04:36

なりながらめちゃ早くなってるうんうん

play04:39

うんうんでしかもまこれAPIっていうの

play04:42

を書いてるんですがこれはプログラムを

play04:44

使って大規模言語モデルに命令を投げてえ

play04:48

答えをもらってみたいなことをするなんで

play04:50

アプリ開発とかで使うものなんですがこれ

play04:53

がですね使う使えば使うほど料金がかかる

play04:55

ものなんですけどGPT4ターボの半分の

play04:57

費用でふんうんなんで半分の値段で倍早い

play05:03

やつを使えるしかも性能がより良いって

play05:05

いうへえようなもうなんか全部のセセット

play05:07

みたいになってますでさらにまオムニって

play05:12

言っているぐらいなのでまテキストだけで

play05:14

なく画像とか音声も扱うことができてま

play05:17

これまた後で話しますけどまだ音声会話が

play05:20

できる状態にはなってないつまり機能とし

play05:23

ては用意できてるけどまだ僕らが使える

play05:26

状態じゃないっていうことですねうーまな

play05:29

のでちょっとまだ待の状態なんですが人間

play05:31

の反応時間に匹敵する速度なんで0.32

play05:34

秒で音声生成ができるとだからごく自然な

play05:39

レスポンス速度で会話ができるめっちゃ

play05:42

すごいやんめっちゃすごいあのこれなんか

play05:46

ちょっとしたことをググりたいみたいなの

play05:48

がなんか仕事の中で多発してそれがなんか

play05:51

めどくさいみたいなの結構あると思うんだ

play05:53

けどうんまこのGPT4これを片に置い

play05:58

といてなんかララ喋りながら仕事する

play06:00

みたいなことができるようになるんじゃ

play06:01

ないかっていうへえ何でも知ってる人間が

play06:05

隣にいるみたいな感覚よねそうそうそう

play06:08

しかもねげあれなんだよなんか

play06:10

デモンストレーションの動画みたいなのが

play06:12

公式ページには出てるんですけどうんあの

play06:15

スマホでうん今ここにこういうのが映って

play06:19

んだけどなんとかかんとかみたいな喋って

play06:21

動画撮りながら喋ってでそれに対して返事

play06:24

が来るみたいなだから映像と音声の

play06:27

掛け合わせみたいなこともできてるうん

play06:29

へえすげえな激ヤバなんです

play06:32

がでこのこれですね匹敵するとか超えてる

play06:36

とかうんえこの部分をどうやって評価し

play06:39

てるかっていうところでえっとホーム

play06:42

ページ見ていただくといくつかのデータ

play06:44

セットで評価をしていますでちょっといく

play06:47

つかピックアップしてみようかなっていう

play06:49

のでまずこれM3EXムっていうデータ

play06:52

セットなんですけどもこれはま問題の例が

play06:55

これとかこれと

play06:57

かな感じでえっとここが空しになってて

play07:01

そこに当てはまるものをABBCDから

play07:03

選べみたいなうんうんうんそういう問題が

play07:06

いっぱい入ってるデータセットなんです

play07:07

けどまここのの言語で書かれていてで選択

play07:10

式でかつず表が含まれているので文章読ん

play07:13

で答えるだけじゃなくてそこに置いてある

play07:16

図を理解しなきゃいけないっていうまこう

play07:19

いうテキストとか画像とかってそれぞれ

play07:22

別個ではなくって掛け合わせで理解し

play07:25

なきゃいけないようなタスクっていうのを

play07:27

マルチモーダルタスクって言んですけどま

play07:29

マルチモーダルの能力を測るっていうよう

play07:31

なデータセットになっていてでこれが実際

play07:34

の結果ですねえ横軸が

play07:37

言語で縦軸がま正解

play07:41

率になっていますでこれを見ていただくと

play07:45

青いバーがGPT4なので全身のモデルで

play07:48

で緑色のバーがGPT4Oおおですけども

play07:53

全ての言語でGPT4を超えていると

play07:57

うーんいうような形になってます

play08:00

うんまなので少なくともこの報告されてる

play08:02

範囲ではこういった問題でえ既存のモデ

play08:05

ルっていうのを超える性能になってるんだ

play08:08

なとかっていうそういった判断ができるか

play08:10

なと

play08:12

へえで他にもま何種類かあのあってここに

play08:15

書かれてる限りではないんですけどもあと

play08:17

は音声認識なので音声を入力としてそれを

play08:20

文字起こしするっていうタスクでもえ

play08:23

同じく既存のモデルを超える性能を出して

play08:25

いてうんでこのオレンジのバーがこれが

play08:28

ウィスパーの3なんでこれオーAが出して

play08:31

いる音声文字起こしのモデルで現行最新版

play08:34

なんですけどあのテキストも

play08:37

扱えるし画像も扱えるし音声も扱え

play08:40

るっていうその色々やれるモデルであり

play08:43

ながらこのま音声音声認識のモデルを

play08:47

超える性能を出しているとなんでこれ

play08:49

エラー率なんで小さい方が良いんですけど

play08:52

もおおなるほど

play08:54

うんでま横軸はこれは地域ですねどこの

play08:58

地域の言語かっていういううんうんこれを

play09:02

書いていてま言語っていうかえ話者かな

play09:04

話者がどこの地域の人かっていうことかな

play09:06

と思うんです

play09:07

がま全ての面でウィスパーを超えていると

play09:11

[音楽]

play09:12

ふはいでさらにここは他社のモデルとも

play09:16

比較をしていて音声翻訳ですね音声

play09:19

受け取ってそれを別の言語で音声として

play09:22

返すというタスクについてもこれここが

play09:25

GPT4Oなんですけど

play09:28

もあのミにこれGoogleが出してる

play09:30

モデルですねとか他のえ会社が出してる

play09:33

ものもえ比較に入れてるんですがそん中で

play09:35

最も良い性能を出している

play09:39

へえという感じで非常に高い精度を出して

play09:43

ますとであのホームページではあのGPT

play09:46

4OがGPT4とかに負けているところが

play09:50

今んとこ見つかってないから教えてくれ

play09:52

たら助かるみたいなことが書いてありまし

play09:54

たへえ全てで上回ってるうんこんな感じ

play09:59

ですごいなでこれがめっちゃ高かったら

play10:02

悩むんだけどより安いってなるともうなん

play10:05

かこれに完全に代替されるって感じがする

play10:07

よねそうだねうん買えない理由がないよね

play10:12

そうなんだよね何かあっかなで

play10:15

もマジでないなうんマジでこれ見る限りだ

play10:19

とないですねはいというところでま技術あ

play10:24

すいません性能面の工場っていうとこで

play10:26

言うとここまでなんですけどえっと

play10:28

とりあえず今提供されているものと今後

play10:31

提供予定のもっていうのがあるので

play10:33

ちょっとここについて話しておくとえっと

play10:35

チャットGPTなのでWeブラザー開いて

play10:38

あのチャットするあのあれに関しては今

play10:42

テキストと画像の処理機能ってのが提供さ

play10:44

れてますはいなのでテキストでチャット

play10:47

するとか画像生成するとかま画像と

play10:50

テキスト入れてなんか変換してもらうとか

play10:52

いったことはできるとで今後ボイスモード

play10:56

なんで音声を入力したり音声を出力たり

play11:00

するっていところが数週間のうちに提供

play11:02

する予定だという風に書いてありますふ

play11:05

うんであとはAPIこれはなんで

play11:08

アプリケーションにこのチャットボットを

play11:10

組み込むための機能なんですけどもこれに

play11:13

ついてはテキストとま画像どっちかま

play11:15

あるいは両方かなを入力としてテキストを

play11:18

出力する機能が今提供されていてで多分

play11:22

個人でさらにそれ以外の機能が使えるよう

play11:26

になるってのはかなり先なのかもしれない

play11:28

ですねあののパートナー向けになので

play11:30

パートナー企業とかそういうレベルでえ

play11:33

支援をしている企業とか向けにえ音声とか

play11:36

映像の処理っていうのを行う機能提供予定

play11:39

だという風に書かれて

play11:42

ますうんという感じですねなので続報を

play11:46

待ちたいなという感じでいますうんはいで

play11:50

ここまででまこっち性能の吉足っていうの

play11:53

は問題集みたいなでデータの集まりに対し

play11:56

てまかせ解かせて性能をっているんだと

play12:00

いうところを見てきたんですけどもまこっ

play12:02

からが特にちょっとびっくりしたとこで

play12:05

あのGPT4Oで使れて技術ながま研究と

play12:08

いう目線で見てもかなり新しいことをやっ

play12:11

てるように見えていますうんていう話をし

play12:14

ていき

play12:15

ますはいでGPT4の技術的な新規制って

play12:19

とこなんですけどえっとこれホームページ

play12:21

からえ引っ張ってきたので元の部分みたい

play12:23

方はこちら行っていただければと思うん

play12:25

ですがなんか22パラグラフぐらいで

play12:28

さらっと書いてあることをなんかうーんと

play12:32

か思いながら他のとこ読んでそのまま

play12:33

読み進んでいったらえ今なん吊ったみたい

play12:36

な気持ちになったんでちょっと引っ張って

play12:37

きているんですがあのこれま日本語に直す

play12:40

とえっとGPT4までの音声モードなんで

play12:43

音声を入力したりとか出力させた

play12:45

りっていうところのえ機能っていうのは3

play12:48

つの別々のモデルのパイプラインですと

play12:51

従来的にはこうなっていたっていう話なん

play12:53

ですがえっとまパイプラインっていうのは

play12:55

複数のモデルを組み合わせてま1本の

play12:57

データ処理の流れを作ったようものなん

play12:59

ですけど

play13:00

もままずは1つシンプルなモデルがえ音声

play13:04

をテキストに

play13:05

書き起こすで音声が入力されたらそれを

play13:08

テキストに直してでチャットボットGPT

play13:11

3.5とかGPT4とかがテキストをえ

play13:14

入力してテキストを出力するうんでその

play13:18

テキストを音声化するモデルが最後音声

play13:21

変換してえ出力が出てくるとうんいう形を

play13:25

取っていたんですけどもまちょっと本当な

play13:28

のかって思うんですけどGPT4Oでは

play13:30

テキストとま映像と音声を通じてエンツ

play13:34

エンドなんで1個のシステム情報処理の

play13:37

システムで入力から出力までを担当するて

play13:41

いう形を取っている

play13:44

おおまつまり全ての入力と出力が同じ

play13:47

ニューラルネットワークによって処理され

play13:48

ますと

play13:50

へえ書かれていてまこれ以上の記述はない

play13:53

んですけどマジ文字通り受け取ったら

play13:56

ちょっとどうやってんのかマジでわかん

play13:58

ないおおおおうんですよねでまちょっと

play14:02

もうちょっと見ていくとまGPT3.5と

play14:04

4のボイスモードドっていうのはどういう

play14:06

形になってたかというところでま人が音声

play14:09

を入力しますでそうすると音声認識モデル

play14:12

が入力された音声をテキスト化しますと

play14:15

うんでまGPT3.5とか4とかっていう

play14:18

のはまテキストからテキスト出力すること

play14:20

ができるのでえ入力のテキストに対してえ

play14:23

返答のテキストを返すまチャットテキスト

play14:26

によるチャットを行っている

play14:29

うんでこの返答として得られたテキスト

play14:32

これを入力として音声合成のモデルこれが

play14:35

ま最終的に発話としてえ音を出力すると

play14:39

うんいう形で複数モデルを組み合わせて

play14:41

実現するような体勢を取っていたんですが

play14:45

これに対してGPT4がどうやってるかと

play14:48

言うとまテキストも画像もうん音声もこれ

play14:54

もどれでも入力してオッケーでで出力とし

play14:58

てテキストもま映像もえ音声も出力する

play15:03

ことができるっていう全ての情報処理を

play15:04

単一のニラネットで行うという構成になっ

play15:07

ているとま読めるわ

play15:10

ねうん可能なのそんなことがいやいや

play15:18

なんかここ書いてあることそんまま

play15:20

受け取ったらああこうなると思うんだよね

play15:23

まそうだねそう読めるねうんで同じ

play15:27

ニューラルネットでていうのがどこまでの

play15:30

ことを意味してるのかっていうのがうん

play15:32

結構ポイントなのかなと思っていて

play15:36

ちょっとまその辺りの背景を話すとこれは

play15:38

あの1個前の動画で詳しく話してるので

play15:40

またこのページについてはそちら見て

play15:42

いただきたいんですけど例えばその

play15:44

テキストを受け取ってなんか次の単語を

play15:48

予測していくでチャットをするみたいな

play15:51

うんモデルってま基本的にベクトル列

play15:54

つまり入力された文章をちょっと細かく

play15:58

単語みたいなもので区切っていってうんで

play16:01

それをベクトルとして表現してそうすると

play16:03

まベクトルの列になるじゃないですかうん

play16:06

でこれを処理していくっていう形で設計さ

play16:09

れてるんですよねテキスト列を処理する

play16:10

前提で設計されているうんうんという感じ

play16:14

で画像を処理するネットワークとか音声を

play16:17

処理するネットワークとかっていうのも

play16:18

あのどういう形の入力が来るかっていうの

play16:21

を想定してネットワークそのものの構成が

play16:23

決まってるの

play16:25

であのこれを全部1本化するって一体どう

play16:30

いうことっていううーことなんですよね

play16:35

うんよくあるてかこのマルチモーダルの

play16:38

モデル自体は別に今回のこのGPT4Oが

play16:42

初めてではなくって色々な技術が提案され

play16:45

ているんですけども一般的にはまず

play16:47

テキストとかをあの画像とか音声とかって

play16:50

いうそれぞれに対してそれを

play16:53

まずその特徴を表すベクトルとかに変換

play16:57

する個別のニューラルネットワークを

play16:59

それぞれに用意しておく

play17:01

うんで出力されたここの部分うんここで

play17:08

出力されるなんかベクトルとかま行列とか

play17:10

何なのかは一旦置いといてここの形を揃え

play17:14

ておくことでうん中核のモデルっていうの

play17:18

が同じ形の入力を受け取れるようにする

play17:22

うんで中核モデルが出してきたベクトル

play17:26

なりなんなりベクトルの列とかかもしれ

play17:28

ないですけど対して個別の処理

play17:30

ネットワークを書いてまテキスト画像音声

play17:33

の出力に対応するっていううんうんうん

play17:36

こういう形であればこれまでもあったん

play17:38

ですよねうんうんなのでまこれのことを

play17:42

言ってるならまそんなに大きなことでは

play17:45

ないまあ分かるうんまあ分かるうんまとは

play17:49

いえねテキストと画像を扱えますとかうん

play17:54

画像と音声を扱えますとかうんっていう

play17:57

ものはこれまでも

play17:59

あったんですけど全部受付可能で全部出力

play18:03

可能っていうのは確かにすごいねへーうん

play18:07

これはかなりあのいろんな思考錯誤が必要

play18:10

なところなはずでうんで思考錯誤をするに

play18:14

は金がないと無理なんですよねうんうん

play18:16

うんなのでまオープンAならではあの

play18:18

ところなのかなと思ってるんですがま本当

play18:20

に文字通り受け取ってこういう構成を取っ

play18:23

てるならめちゃくちゃ確信的な技術なので

play18:26

うん早く論文出して欲しいなと思ってます

play18:31

へえですね結構これ面白いよねそうだねあ

play18:37

すごいことやってそうだねもしこうだっ

play18:39

たらそうなんだよねでもうGPT4あたり

play18:43

から詳細にどういう技術使ってるのかと

play18:46

かってもう公開されてないのでそうなのか

play18:51

マジでちょっと頼むオープAIって感じで

play18:55

いや気になるね俺は座って待ってるだけ

play18:58

ですけど

play18:59

知りたいね全貌をいやマジで知りたい

play19:03

ちょっと会いたいですねオプの人

play19:06

とはいありがとうございますというところ

play19:10

でまずllmの性能評価っていうのをどう

play19:13

いう風に行ってるかでま自分が見たい性能

play19:15

ま性能って言ってもいろんな側面がある

play19:17

はずなので自分が見たいところを見るには

play19:20

どういうデータで評価してるかってのを

play19:21

まず知る必要がありますよという話が1つ

play19:25

とまあとはえ報告されてる内容そのまま

play19:27

受け取ればですけどAI研究としても

play19:29

かなりインパクトの大きいことをやってる

play19:31

んじゃないかという期待を込めてこの動画

play19:33

終わろうと思いますありがとうございまし

play19:35

たありがとうございまし

play19:38

たそのもうニューラルネットノが全く別の

play19:42

気候になってきているうんもうま逆手に

play19:46

とって逆にこう人間固有とか人に正徳的に

play19:50

身についてるみたいな風に言われてはい

play19:53

はいこれをニューラルネットに学習させて

play19:55

みたらもう学習で対とできるじゃんて

play19:59

おおなるほどかま言えたりするとあの人間

play20:03

固有だっていうのを他の動物にはできない

play20:06

みたいな根拠で言っていたものがうん1つ

play20:10

反射されたりとかするってこはあり得るよ

play20:12

ねあああ確かになうんま言語を獲得する

play20:18

能力とかって人固有だっていう風に言われ

play20:21

てること結構あるしうんそうだねうんま

play20:24

ちょっとこの辺はいろんな議論があって

play20:26

難しいとこだけど

play20:29

まチャットボットで身につけられ

play20:30

るっていうことがその辺りに対してね1本

play20:35

光を差し込むみたいなことになったら

play20:37

面白い

play20:42

ああ

play20:46

難しい難しい話し

play20:49

てるそうだ

play20:54

ね確かに

play20:57

なまあとはあれかそのフレームレートって

play21:01

あるじゃんああでなんか人間のフレーム

play21:04

レート超える資格処理みたいなと思う技術

play21:07

的には多分いつかできるんじゃないかと

play21:09

思っいやできるんじゃないこのままだとだ

play21:13

もうすでに

play21:14

もう人間の反応速度と同じくらいの

play21:17

スピードでうんできるようにはなってるん

play21:20

でしょその音声に対して音声に対してね

play21:22

うん

play21:23

そうだ超えるのなんてもうすぐなんじゃ

play21:26

ない

play21:28

いやあり

play21:30

[音楽]

play21:32

えるマジで使いこなせなてやばいかもしん

play21:35

ない会社員とかいや

play21:38

マジうん本当にもう全ての業務で代わりに

play21:43

AIとかがやってくれるような時代がもう

play21:47

すぐそこまで来てる気がするねうん

play21:49

うん

play21:51

からま部署ごとにそのマーケティングと

play21:54

かま営業とか核部署ごとにノーハウがある

play21:59

じゃんうんそれ

play22:01

をAI化する技術みたいな

play22:05

うんのを持ってる

play22:08

人材が生き残っていくみたいなこともあり

play22:12

るかなあ確かになうん

play22:19

[音楽]

Rate This

5.0 / 5 (0 votes)

関連タグ
AIモデルGPT4OO発表多機能性高パフォーマンス言語モデル画像処理音声認識API技術革新未来予測