Google復活の狼煙?世界生成AI「Genie」がやばすぎた

だるまと赤べこ【AI解説】
28 Feb 202414:42

Summary

TLDRこの動画では、Googleが開発した革命的な生成AI「ジーニー」について解説しています。ジーニーは、インターネット上の映像から学習した世界モデルを基に、合成画像、写真、スケッチから無限に多様なプレイアブルワールドを生成する能力を持っています。オープンAIの「空」とは異なり、ジーニーは世界のシミュレーションではなく、実際に世界を生成することに重点を置いています。また、ジーニーは2Dゲームやロボット工学のビデオデータから学習し、それを基にリアルタイムで動作するゲームエンジンを生成することができる、という点で特徴的です。この技術が将来AI開発においてどのような影響を与えるのか、その広大な可能性について議論しています。

Takeaways

  • 😀 Googleは革命的な生成AI「ジーニー」を生み出した。
  • 🤖 ジーニーはインターネットの映像から学習された基礎的な世界モデルで、無限に多様なプレイアブルワールドを生成することができる。
  • 🌍 ジーニーはオープンAIの「空」とは異なり、物理法則を理解しながらも、世界を生成することに重点を置いている。
  • 🎮 ジーニーはユーザーが直接操作している映像を生成し、リアルタイムでゲーム環境を作り出すことが可能。
  • 👾 このAIは2Dゲームだけでなく、ロボット工学のビデオデータなど、あらゆる環境に対して学習と生成を行える。
  • 📚 ジーニーのユニークな点は、映像のみから詳細な動作を理解し、ラベルなしの映像からもトレーニングが可能なこと。
  • 🔍 ジーニーは、生成された環境内でどのようなアクションが行われるかを推測し、現実世界のシミュレーションではなく、新しい世界を生み出す。
  • 💡 ジーニーは将来のジェネラリストAIエージェントを訓練するための無限のカリキュラムを提供する可能性がある。
  • 🎨 生成のトリガーは1枚の画像であり、Googleの画像生成AI「イメージ」によって描かれた2Dゲーム風イラストからその世界を生成する例が紹介されている。
  • 🚀 ジーニーにはまだ多くの欠点があり、生成できるのは16フレームで動作は1FPSに過ぎないが、将来的にはより大規模なトレーニングにより、多様で現実的な世界を生み出す可能性を秘めている。

Q & A

  • Googleが開発した新たな生成AI「ジーニー」とは何か?

    -「ジーニー」は、インターネットの映像から学習された基礎的な世界モデルであり、合成画像、写真、スケッチなどから無限に多様なプレイアブルワールドを生成することができるAIです。

  • ジーニーが生成する「プレイアブルワールド」とは具体的にどのようなものか?

    -プレイアブルワールドは、相互作用的で操作可能な環境を指し、1つの画像から生み出される生成AIによって作られます。これにより、人々は想像上の仮想世界と対話できるようになります。

  • ジーニーとオープンAIの「空」の主な違いは何か?

    -オープンAIの「空」は物理法則を理解しつつある動画生成AIで世界のシミュレーション映像を生成しますが、ジーニーはそれを超え、根本的に世界自体を生成します。

  • ジーニーが学習するデータの種類は?

    -ジーニーは2Dゲームとロボット工学のビデオデータで学習しており、これらのデータを基に動作の理解や生成を行います。

  • ジーニーのユニークな点は何か?

    -映像のみから詳細な動作を理解し、生成された環境内でどのようなアクションが行われるかを推測できる点がユニークです。

  • ジーニーはどのようにしてアクションを理解するのか?

    -ジーニーはラベルなしの映像から行動を理解し、異なる動画で見られる同じ意味の操作(例えば、ジャンプする動作)を理解することができます。

  • ジーニーが生成できる環境の種類は?

    -ジーニーは2Dゲームだけでなく、ロボット工学の映像を含むあらゆる環境に対して学習と生成を行えます。

  • ジーニーの生成のトリガーは何か?

    -ジーニーの生成のトリガーは1枚の画像で、この画像を基にしてその世界を生成します。

  • ジーニーの将来の可能性について述べられていることは?

    -将来的には、ジーニーが作り出す環境を学習データとして用いることで、現実世界で生きるAIを生み出せる可能性があると述べられています。

  • ジーニーの現在の技術的限界は何か?

    -現在、ジーニーは16フレームで動作し、1FPSでしか動作しないため、長い時間軸に渡って一貫した自然な環境を作るためには大きな進歩が必要です。

Outlines

00:00

🔍 Googleの新AI「ジーニー」の紹介

この段落では、Googleによって開発された新しい生成AI「ジーニー」の紹介が行われています。ジーニーはインターネット上の映像から学習し、合成画像、写真、スケッチから無限に多様なプレイアブルワールドを生成する能力を持つと説明されています。オープンAIのプロジェクトと比較しながら、ジーニーがどのように異なるのか、その根本的な違いについて議論されています。ジーニーのユニークな点は、ラベルなしの映像からも学習できる点であり、これによりより詳細な動作理解と生成が可能になるとされています。また、ジーニーがどのようにしてプレイアブルワールドの基礎モデルとして機能するか、そしてそれによって人々が想像上の仮想世界と対話できるようになるプロセスについて詳しく述べています。

05:00

🎮 ジーニーによるリアルタイムゲーム生成

第二段落では、ジーニーがユーザーによって操作されるリアルタイムゲーム生成をどのように実現しているかに焦点を当てています。ジーニーが2Dゲームやロボット工学のビデオデータから学習し、それを基にアクションラベルなしの映像からも学習することができる能力を持つことが説明されています。これにより、ジーニーは映像のみから動作を理解し、生成された環境内でどのようなアクションが行われるかを推測できます。また、ジーニーが2Dゲームだけでなく、他のあらゆる環境に対しても学習を行える一般的な手法を持つこと、そしてそれによりリアルタイムで動的なゲーム環境を生成できることが強調されています。

10:04

🌐 ジーニーの将来的な応用と展望

最終段落では、ジーニーを使用して将来的にどのようなことが可能になるかについて展望が語られています。ジーニーの生成する環境を学習データとして用いることで、新しいタイプのジェネラリストAIエージェントの訓練が可能になるとされています。この点は、ジーニーがただのゲーム生成AIではなく、より広い範囲での応用が期待される「世界生成AI」としての潜在力を示唆しています。また、ジーニーの仕組みについてシンプルかつイメージしやすい説明がなされており、その学習プロセスの2つの主要なステップ(潜在的アクションモデルの学習と動的モデルの学習)が説明されています。最後に、ジーニーにはまだ多くの欠点があり、将来的な大きな進歩が必要であるが、その一般性と可能性を信じていると結論付けられています。

Mindmap

Keywords

💡ジーニー

ジーニーはGoogleによって開発された革命的な生成AIであり、インターネットの映像や画像から学習して、無限に多様なプレイアブルワールドを生成できる技術を指します。このAIは従来の世界シミュレーションではなく、実際に新しい世界を生み出すことができる点で特徴があります。動画では、ジーニーがどのようにしてこれらの世界を生成し、それが人々にどのような体験を提供できるのかを解説しています。

💡生成AI

生成AIは、データから新しいコンテンツを作り出す人工知能技術の一種です。ジーニーの文脈では、生成AIは画像、スケッチ、あるいは既存の映像からプレイアブルな環境や世界を生み出す能力を持っています。動画では、この技術がどのようにして言語、画像、動画分野に革命をもたらしているかを紹介しています。

💡プレイアブルワールド

プレイアブルワールドは、ユーザーが直接インタラクションできる仮想環境を指します。ジーニーによって生成されるこのような世界は、単なる映像や画像ではなく、実際にユーザーが操作可能な動的な要素を含んでいます。動画では、ジーニーがどのように様々なデータソースからこれらのプレイアブルワールドを生成するかを解説しています。

💡オープンAI

オープンAIは、人工知能研究と技術の開発を進める組織です。動画では、オープンAIが開発した技術とジーニーを比較し、ジーニーの独自性と進歩を強調しています。特に、オープンAIの技術が主に物理法則を理解する動画生成AIであるのに対し、ジーニーはより根本的に世界を生成するAIとして位置づけられています。

💡インタラクティブ環境

インタラクティブ環境は、ユーザーの入力や行動に反応し、それに応じて変化する環境を指します。ジーニーはこのような環境を生成するAIであり、ユーザーが1つの画像から相互作用可能な環境を生み出すことができます。動画では、この技術がどのようにユーザーと仮想世界の新しい形式の対話を可能にするかを説明しています。

💡学習データ

学習データは、AIが学習するために使用されるデータの集まりです。ジーニーの場合、インターネットの映像や画像、2Dゲームやロボット工学のビデオデータなど、多岐にわたるソースから学習します。動画では、ジーニーがラベルなしの映像からもトレーニングを行うことができ、その結果、さまざまなアクションを理解し生成する能力を持つことを説明しています。

💡シミュレーション映像

シミュレーション映像は、コンピューターによって生成された、実際には存在しないが現実的に見える映像です。ジーニーは、シミュレーションではなく、実際にユーザーが操作可能な世界を生成することを目指しています。動画では、従来のシミュレーション映像生成AIとジーニーの違い、そしてジーニーがどのように新しい世界を生み出すかを強調しています。

💡操作可能な環境

操作可能な環境は、ユーザーが直接影響を与え、変更を加えることができる仮想または物理的空間を指します。ジーニーによって生成される環境は、ただ見るだけではなく、ユーザーが実際に触れ合い、操作することができる動的な特性を持っています。この技術により、ユーザーは前例のない方法で仮想世界と対話することが可能になります。

Highlights

Googleが革命的AI「ジーニー」を生み出し

ジーニーはインターネットの映像から学習した基礎的な世界モデルであり、無限に多様なプレイアブルワールドを生成可能

オープンAIの空とは異なり、ジーニーは物理法則を理解し、世界を生成する根本的な世界生成AI

ジーニーは相互作用的で操作可能な環境を1つの画像から生み出す生成AI

ジーニーによって生成された環境は、ユーザーが直接操作可能

ジーニーは2Dゲームとロボット工学のビデオデータで学習させている

ラベルなしの映像からも行動を理解し、アクションを推測する能力を持つ

ジーニーはゲームエンジンそのものをリアルタイムで生成する

生成された世界はインタラクティブで、無限のトレーニング環境として機能可能

ジーニーの生成能力は、現実世界で生きるAIを生み出す可能性を秘めている

現実世界で生きるAIを作るためには、ジーニーが生成した世界を学習データとして使用

ジーニーの仕組みは、潜在的アクションモデルと動的モデルの2ステップ学習による

ジーニーは16フレームで動作し、1FPSで動くが、将来的にはより自然な環境生成が期待される

ジーニーが切り開く広大な可能性とその一般性による多様で現実的な世界の生成

ジーニーはAIのためのリアルかつ無限のトレーニング環境を作り出す新たな道を開く

Transcripts

play00:01

こんにちはだるまと赤べこ

play00:03

ですこの動画の結論から言うと

play00:06

Googleが革命的AIを生み出しまし

play00:09

た嘘つ嘘じゃないんですよ今回紹介するの

play00:14

はGoogleの新たな生成AIジーニー

play00:17

です果たしてこのAIが一体何者なのか

play00:20

紹介ページや論文を読んで紐解いていき

play00:23

たいと思いますがその前にまずはこの映像

play00:27

を見て

play00:28

ください

play00:58

は動画先生

play01:01

つさん今の映像を見てどう思いました

play01:05

GoogleのAI部門オープAの空を前

play01:08

にしてついにおかしくなっちゃったのか

play01:09

なっていうなんてことじゃあこの映像を見

play01:14

ても同じことが言えます

play01:21

かいやよりGOの開発者のメンタルが心配

play01:25

になってきた

play01:28

play01:30

だってオープンアイの空はこのクオリティ

play01:32

play01:33

よマジでレベルが違いすぎるじゃん話に

play01:36

ならないじゃんですよね僕も最初そう思い

play01:40

まし

play01:43

たというか初めこのジーニーの紹介を見た

play01:46

時に出てきたのは何言ってんだこいつと

play01:49

いうそれ以かの感想でした本当に記事に

play01:52

書いてある内容が理解できなかったのでが

play01:56

改めて読み返すに連れ味方は一しました

play02:01

むしろ僕のような素人でGoogle

play02:02

アンチでもこれすごいと言ってしまう

play02:05

くらいにこの動画でもそれを説明できると

play02:08

思います嘘だあの映像以上でも以下でも

play02:12

ないならどう考えてもそらかでしょうそこ

play02:15

が面白いところなんです

play02:17

よ是非動画を最後までご視聴ください

play02:21

そしてワクワクし

play02:27

ましょうさて最初から全部名するのもや

play02:30

ですからまずは引の紹介ページを翻訳し

play02:33

ながら読んでみ

play02:35

ましょう序文ジーニーはインターネットの

play02:39

映像から学習された基礎的な世界モデルで

play02:41

あり合成画像写真スケッチなどから無限に

play02:45

多様なプレイアブルワールドお生成する

play02:48

ことができ

play02:49

ますオープンアイの空と同じこと言ってる

play02:53

空も学習データの動画から物理法則を理解

play02:56

した世界シミュレーターみたいなこと言っ

play02:58

てたよねテキストワールドだっていえ少し

play03:02

違いますオープンAIの空は物理法則を

play03:06

理解しつつある動画生成AI世界の

play03:09

シミュレーション映像を生成しますしかし

play03:13

このジーニーはもっと根本的に世界生生

play03:16

AIです世界のシミュレーションではなく

play03:19

世界を生成するのです

play03:22

あ言葉のでしょ何が違うのその説明ももう

play03:27

すぐできると思います進めます

play03:31

プレイアブルワールドの基礎モデルここ数

play03:34

年言語画像さらには動画の分野において

play03:38

想像的な生成AIの数々が現れました

play03:41

そして本日私たちはAIの新たな

play03:44

パラダイムである生成インタラクティブ

play03:47

環境としてジーニーを紹介しますジーニー

play03:50

は相互作用的で操作可能な環境を1つの

play03:53

画像から生み出す生成AIですジーニーは

play03:57

世界の基礎モデルとして機能しそれにに

play03:59

よって人々は想像上の仮想世界と対話

play04:02

できるようになり

play04:03

ますやばい意味わからんというか書いてる

play04:06

文章が怖い今のと部に便乗したアグの宗教

play04:11

にしか思えないんだけどじゃあこの辺りで

play04:14

答えを説明しますこの映像実は操作してる

play04:19

らしいんです

play04:22

あこれらの映像普通に考えてどう見えます

play04:26

か昔の2Dゲムマリオとかロックマンをで

play04:29

成した動画って感じそれが違うんですここ

play04:34

には確かに動画だけが表示されていますが

play04:37

しかし実際にジーニーが生成するのは

play04:39

むしろその根本ゲームの挙動事態の方です

play04:43

あつまり今映っているこの映像

play04:47

キャラクターが走り回っていますよねこれ

play04:50

はジーニーに触れているユーザーが直接

play04:52

操作しているものだということなんです

play04:56

ゲーム機のコントローラーのボタンを押し

play04:58

てキャラクターが走ったりジャンクするの

play05:00

と同じように

play05:02

あこれ出来合いの先生動画じゃないのじゃ

play05:07

ないらしいんですユーザーが操作してるん

play05:09

だと嘘やんじゃあゲームを遊びながら続き

play05:14

が生成されるリアルタイムゲーム先生やい

play05:17

ってことじゃんこの結果だけを見ればそう

play05:20

なりますやばくねやばいですよ

play05:25

ねいやでもなんなら投主も同じようなこと

play05:28

やろうとしてたね敵の画像とステータスが

play05:32

その場で生成される

play05:33

RPG実ははいそれのアクション版って

play05:37

考えたらなんかすごいけどふんて感じじゃ

play05:41

ないていうかそれを世界生生や和ど考えの

play05:45

も無理あるでしょうと僕もそう思いました

play05:49

でそこで最初の映像と概念に戻ってきます

play05:54

結論やっぱりジーニーはデーム生生AI

play05:57

じゃなくて世界生生AIです

play06:00

それを知るためにもう少し読み進めていき

play06:04

ましょうそしてこのAIはインターネット

play06:07

などに対応に公開されているアクション

play06:09

ラベルなしの映像からもトレーニングを

play06:11

することができますジーニーは2dゲーム

play06:14

とロボット工学のビデオデータで学習させ

play06:17

ていますがこの方法は一般的であらゆる

play06:20

領域で機能しさらに大規模な学習へ拡張

play06:23

可能ですジーニーのユニークな点は映像

play06:27

のみから詳細な動作

play06:31

インターネット上の映像には通常その動画

play06:34

中の何がどのように行動しているか説明

play06:36

するラベルがありませんしかしジーニーは

play06:40

それを理解し生成された環境内でどのよう

play06:43

なアクションが行われるかを推測するの

play06:46

です日本語でOKつまり普通

play06:50

YouTube上のゲームのプレイ動画に

play06:52

はここで右に走ってここでジャンプして

play06:55

みたいな説明文はついてないですよねただ

play06:58

映像として動いているだけでその中で

play07:00

マリオが何回ジャンプしても別の動画で

play07:03

カービーがジャンプしても全て映像中の別

play07:06

の動きですがジーニーはそれらが実は同じ

play07:10

意味の操作であることを理解するというの

play07:13

です例としてここではいくつかの別の生成

play07:17

環境で同じ操作を行った記録が示されてい

play07:20

ます画面が小さくて見にくいですがよく

play07:23

見るとどれも右に女装をつけてから

play07:25

ジャンクするという同じ動作が表現されて

play07:28

いることが分かります

play07:30

もう1つのサンプルは少し右に移動して

play07:33

少し左に移動してジャンプて感じですかね

play07:37

お本当だここですごいのが説明分なしの

play07:41

データからこの現象が学習されていると

play07:44

いうこと例えばオーAIの動画生成AI空

play07:49

で同じような映像を出力したい場合右に

play07:52

走るジャンクするみたいなタブ付けがされ

play07:55

た動画データからそれぞれの言葉と動作の

play07:57

関係を理解させてその結果右に走って

play08:00

ジャンクするというプロンプトに対して

play08:02

ふさわしい動画が生成されるという流れ

play08:05

ですがジーニーはそういった説明分なしに

play08:08

これらの行動を理解するもっと根本的に

play08:12

そういう動作があるんだと言葉抜きに理解

play08:14

するんですよジーニーは出来合いのゲーム

play08:18

環境のアセット画像をリアルタイムに生成

play08:20

してるみたいな程度のものではなく言う

play08:23

なればゲームエンジンそのものをその場で

play08:25

生成しているんですぶなんか言われると

play08:29

すごいような気がしてきたようなもう少し

play08:32

読んでいき

play08:34

ましょう現在ジーニーの生成のトリガーは

play08:37

1枚の画像ということです例では

play08:40

Googleの画像生成AIである

play08:42

イメージにの描いた2dゲーム風イラスト

play08:45

をもにその世界を生成した姿が示されてい

play08:48

ますあ動いてるねまた手書きのスケッチを

play08:53

元にした生成もあるいは現実世界の主人

play08:57

からの生成すらもかの

play09:00

ですがすごいのはここからですジーニーは

play09:04

2dゲームだけでなく他のあらゆる環境に

play09:07

対しても学習を行える一般的な手法という

play09:09

ことなん

play09:11

です改めてこの動画を見直してみましょう

play09:15

ロボット工学の映像を学習データとした

play09:18

生生物らしいですがつまりこの3次元空間

play09:22

上のロボットの腕も操作可能なんですよあ

play09:26

なるほど理解したかも何次元の動画見せ

play09:30

られて一気に実感がましたゲームの映像を

play09:33

元に動かせるゲームを生成したりロボット

play09:35

の映像を元にロボットを動かせる環境を

play09:37

生成したりだからジニは本当に動かせる

play09:41

世界は1から作ってるってことなんだねで

play09:44

それを拡張していけば世界の映像を元に

play09:47

人口の世界を作れるかもてことそうなん

play09:50

ですだから世界生生AI何でしょう世界の

play09:55

シミュレーション映像を生成するのでは

play09:57

なく世界を生成すると

play10:00

いうでページの最後にはこれらの情報を元

play10:03

にした大それた予言が述べられています

play10:07

ジーニーを使用すれば将来の

play10:08

ジェネラリストAIエージェントを新しく

play10:11

生成された世界の終わりのない

play10:13

カリキュラムで訓練することができます

play10:16

これはつまりジーニーの作り出す環境を

play10:19

学習データとして用いることで例えば

play10:22

ドラえもんのように現実世界で生きるAI

play10:24

すらも生み出せてしまうかもしれないと

play10:26

いうこと

play10:28

でしょう

play10:29

生成AIを作るなら全ては学習データです

play10:32

喋るAIを作りたければ文章を学習させる

play10:35

し手を描くAIを作りたければ大量の絵を

play10:38

用意しますじゃあ現実世界で生きるAIを

play10:42

作りたかったら世界を先に作ってしまえば

play10:45

いいじゃない

play10:46

play10:48

いやダそれ過ぎてる

play10:55

でしょさてここからはお論文の内容です

play11:00

ジーニーの仕組みってどうなってるのこれ

play11:03

だけジーニーの得意性を語っておきながら

play11:06

仕組みは謎ですでは消化不良だと思うので

play11:09

とにかくシンプルに短く極力用語を使わず

play11:12

にイメージで説明するので是非聞いていっ

play11:14

てもらえればと思います逆に言うと全部

play11:18

イメージです働く細胞くらいにデフォルメ

play11:22

して表現してるので理論的には全く正しく

play11:25

ないことを許してくださいではそれをえて

play11:30

まずg2の学習には2つのステップがある

play11:33

ようです第1のステップが潜在的

play11:37

アクションモデルの

play11:39

学習これは学習データである大量の動画

play11:42

からそこで行われている行動お理解する

play11:45

ためのものです例えば先ほど触れた右に

play11:49

走るとかジャンプみたいな個別の行動を

play11:53

認識して区別しておくようなものです

play11:57

ふえ第2のステップが動的モデルの学習

play12:02

ですここで学習したそれぞれの行動が

play12:05

もたらす結果を理解します例えばマリオが

play12:09

立っていてこの後にジャンクするという

play12:11

シーンがありますこの状態の画像を

play12:14

ジーニーに見せて次にジャンプという

play12:17

アクションをしたらどうなるかを予測さ

play12:19

せるのですでジーニーが実際にマリオが上

play12:23

に飛んでいる画像を生成できたら正解そう

play12:26

やって答え合わせを繰り返して最終的に

play12:30

こんな状況ではこの行動が映像を換えると

play12:33

いうのを全体的に理解させるそうして操作

play12:37

できる世界を生成するエリアが完成すると

play12:40

いうことのようですはなるほど

play12:44

わからん僕もよく分かってないのでこの

play12:48

辺り

play12:49

ででもなんというか最もらしいですよね

play12:53

正直言って今はめちゃくちゃしょぼい80

play12:56

年代のゲームの合力だけどどこまで拡張し

play13:00

ていけるんだろうって期待を持たせてくれ

play13:02

ますそうねよくわからんけど今回のデモ

play13:05

テートで終わらない技術だってことは何が

play13:07

伝わったじゃあ最後に論文の結論お読んで

play13:12

play13:13

ましょう我々はジーニという新たな形の

play13:16

生成AIを提案しましたこれは誰もが世界

play13:20

を作り出しそこに足を踏み入れることを

play13:23

可能にするものですまだジーニーには多く

play13:26

の欠点があります生成できるのは16

play13:29

フレームで動作は1

play13:31

FPS思ったよりしょぼかった長い時間軸

play13:35

に渡って一貫した自然な環境を作るために

play13:37

は将来的な大きな進歩が必要ですそれでも

play13:42

なお私たちはジーニーが将来に切り開く

play13:44

広大な可能性を信じていますその一般性は

play13:48

より大規模なトレーニングを減ることで

play13:51

多様で現実的な世界を生み出す可能性をも

play13:53

秘めていますまた今回は言及のみでしたが

play13:57

ジーニーはAIのためのリアルかつ無限の

play14:00

トレーニング環境として有能な

play14:02

エージェントを作り出す新たな道を開く

play14:04

こともできるでしょう

play14:12

おおさてそれでは今回の動画はここまで

play14:15

ですそもそもモデルは公開されていないし

play14:19

高等無形に近いような話ばかりが語られる

play14:21

ランディングページと論文でした抽象的な

play14:25

内容になってしまいましたがどうでした

play14:27

でしょうか割と面白かったと思って

play14:31

いただけたら嬉しい

play14:33

ですでは今回も最後までご視聴いただき

play14:37

本当にありがとうございまし

play14:41

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?