Google復活の狼煙?世界生成AI「Genie」がやばすぎた
Summary
TLDRこの動画では、Googleが開発した革命的な生成AI「ジーニー」について解説しています。ジーニーは、インターネット上の映像から学習した世界モデルを基に、合成画像、写真、スケッチから無限に多様なプレイアブルワールドを生成する能力を持っています。オープンAIの「空」とは異なり、ジーニーは世界のシミュレーションではなく、実際に世界を生成することに重点を置いています。また、ジーニーは2Dゲームやロボット工学のビデオデータから学習し、それを基にリアルタイムで動作するゲームエンジンを生成することができる、という点で特徴的です。この技術が将来AI開発においてどのような影響を与えるのか、その広大な可能性について議論しています。
Takeaways
- 😀 Googleは革命的な生成AI「ジーニー」を生み出した。
- 🤖 ジーニーはインターネットの映像から学習された基礎的な世界モデルで、無限に多様なプレイアブルワールドを生成することができる。
- 🌍 ジーニーはオープンAIの「空」とは異なり、物理法則を理解しながらも、世界を生成することに重点を置いている。
- 🎮 ジーニーはユーザーが直接操作している映像を生成し、リアルタイムでゲーム環境を作り出すことが可能。
- 👾 このAIは2Dゲームだけでなく、ロボット工学のビデオデータなど、あらゆる環境に対して学習と生成を行える。
- 📚 ジーニーのユニークな点は、映像のみから詳細な動作を理解し、ラベルなしの映像からもトレーニングが可能なこと。
- 🔍 ジーニーは、生成された環境内でどのようなアクションが行われるかを推測し、現実世界のシミュレーションではなく、新しい世界を生み出す。
- 💡 ジーニーは将来のジェネラリストAIエージェントを訓練するための無限のカリキュラムを提供する可能性がある。
- 🎨 生成のトリガーは1枚の画像であり、Googleの画像生成AI「イメージ」によって描かれた2Dゲーム風イラストからその世界を生成する例が紹介されている。
- 🚀 ジーニーにはまだ多くの欠点があり、生成できるのは16フレームで動作は1FPSに過ぎないが、将来的にはより大規模なトレーニングにより、多様で現実的な世界を生み出す可能性を秘めている。
Q & A
Googleが開発した新たな生成AI「ジーニー」とは何か?
-「ジーニー」は、インターネットの映像から学習された基礎的な世界モデルであり、合成画像、写真、スケッチなどから無限に多様なプレイアブルワールドを生成することができるAIです。
ジーニーが生成する「プレイアブルワールド」とは具体的にどのようなものか?
-プレイアブルワールドは、相互作用的で操作可能な環境を指し、1つの画像から生み出される生成AIによって作られます。これにより、人々は想像上の仮想世界と対話できるようになります。
ジーニーとオープンAIの「空」の主な違いは何か?
-オープンAIの「空」は物理法則を理解しつつある動画生成AIで世界のシミュレーション映像を生成しますが、ジーニーはそれを超え、根本的に世界自体を生成します。
ジーニーが学習するデータの種類は?
-ジーニーは2Dゲームとロボット工学のビデオデータで学習しており、これらのデータを基に動作の理解や生成を行います。
ジーニーのユニークな点は何か?
-映像のみから詳細な動作を理解し、生成された環境内でどのようなアクションが行われるかを推測できる点がユニークです。
ジーニーはどのようにしてアクションを理解するのか?
-ジーニーはラベルなしの映像から行動を理解し、異なる動画で見られる同じ意味の操作(例えば、ジャンプする動作)を理解することができます。
ジーニーが生成できる環境の種類は?
-ジーニーは2Dゲームだけでなく、ロボット工学の映像を含むあらゆる環境に対して学習と生成を行えます。
ジーニーの生成のトリガーは何か?
-ジーニーの生成のトリガーは1枚の画像で、この画像を基にしてその世界を生成します。
ジーニーの将来の可能性について述べられていることは?
-将来的には、ジーニーが作り出す環境を学習データとして用いることで、現実世界で生きるAIを生み出せる可能性があると述べられています。
ジーニーの現在の技術的限界は何か?
-現在、ジーニーは16フレームで動作し、1FPSでしか動作しないため、長い時間軸に渡って一貫した自然な環境を作るためには大きな進歩が必要です。
Outlines
🔍 Googleの新AI「ジーニー」の紹介
この段落では、Googleによって開発された新しい生成AI「ジーニー」の紹介が行われています。ジーニーはインターネット上の映像から学習し、合成画像、写真、スケッチから無限に多様なプレイアブルワールドを生成する能力を持つと説明されています。オープンAIのプロジェクトと比較しながら、ジーニーがどのように異なるのか、その根本的な違いについて議論されています。ジーニーのユニークな点は、ラベルなしの映像からも学習できる点であり、これによりより詳細な動作理解と生成が可能になるとされています。また、ジーニーがどのようにしてプレイアブルワールドの基礎モデルとして機能するか、そしてそれによって人々が想像上の仮想世界と対話できるようになるプロセスについて詳しく述べています。
🎮 ジーニーによるリアルタイムゲーム生成
第二段落では、ジーニーがユーザーによって操作されるリアルタイムゲーム生成をどのように実現しているかに焦点を当てています。ジーニーが2Dゲームやロボット工学のビデオデータから学習し、それを基にアクションラベルなしの映像からも学習することができる能力を持つことが説明されています。これにより、ジーニーは映像のみから動作を理解し、生成された環境内でどのようなアクションが行われるかを推測できます。また、ジーニーが2Dゲームだけでなく、他のあらゆる環境に対しても学習を行える一般的な手法を持つこと、そしてそれによりリアルタイムで動的なゲーム環境を生成できることが強調されています。
🌐 ジーニーの将来的な応用と展望
最終段落では、ジーニーを使用して将来的にどのようなことが可能になるかについて展望が語られています。ジーニーの生成する環境を学習データとして用いることで、新しいタイプのジェネラリストAIエージェントの訓練が可能になるとされています。この点は、ジーニーがただのゲーム生成AIではなく、より広い範囲での応用が期待される「世界生成AI」としての潜在力を示唆しています。また、ジーニーの仕組みについてシンプルかつイメージしやすい説明がなされており、その学習プロセスの2つの主要なステップ(潜在的アクションモデルの学習と動的モデルの学習)が説明されています。最後に、ジーニーにはまだ多くの欠点があり、将来的な大きな進歩が必要であるが、その一般性と可能性を信じていると結論付けられています。
Mindmap
Keywords
💡ジーニー
💡生成AI
💡プレイアブルワールド
💡オープンAI
💡インタラクティブ環境
💡学習データ
💡シミュレーション映像
💡操作可能な環境
Highlights
Googleが革命的AI「ジーニー」を生み出し
ジーニーはインターネットの映像から学習した基礎的な世界モデルであり、無限に多様なプレイアブルワールドを生成可能
オープンAIの空とは異なり、ジーニーは物理法則を理解し、世界を生成する根本的な世界生成AI
ジーニーは相互作用的で操作可能な環境を1つの画像から生み出す生成AI
ジーニーによって生成された環境は、ユーザーが直接操作可能
ジーニーは2Dゲームとロボット工学のビデオデータで学習させている
ラベルなしの映像からも行動を理解し、アクションを推測する能力を持つ
ジーニーはゲームエンジンそのものをリアルタイムで生成する
生成された世界はインタラクティブで、無限のトレーニング環境として機能可能
ジーニーの生成能力は、現実世界で生きるAIを生み出す可能性を秘めている
現実世界で生きるAIを作るためには、ジーニーが生成した世界を学習データとして使用
ジーニーの仕組みは、潜在的アクションモデルと動的モデルの2ステップ学習による
ジーニーは16フレームで動作し、1FPSで動くが、将来的にはより自然な環境生成が期待される
ジーニーが切り開く広大な可能性とその一般性による多様で現実的な世界の生成
ジーニーはAIのためのリアルかつ無限のトレーニング環境を作り出す新たな道を開く
Transcripts
こんにちはだるまと赤べこ
ですこの動画の結論から言うと
Googleが革命的AIを生み出しまし
た嘘つ嘘じゃないんですよ今回紹介するの
はGoogleの新たな生成AIジーニー
です果たしてこのAIが一体何者なのか
紹介ページや論文を読んで紐解いていき
たいと思いますがその前にまずはこの映像
を見て
ください
は動画先生
つさん今の映像を見てどう思いました
GoogleのAI部門オープAの空を前
にしてついにおかしくなっちゃったのか
なっていうなんてことじゃあこの映像を見
ても同じことが言えます
かいやよりGOの開発者のメンタルが心配
になってきた
よ
だってオープンアイの空はこのクオリティ
だ
よマジでレベルが違いすぎるじゃん話に
ならないじゃんですよね僕も最初そう思い
まし
たというか初めこのジーニーの紹介を見た
時に出てきたのは何言ってんだこいつと
いうそれ以かの感想でした本当に記事に
書いてある内容が理解できなかったのでが
改めて読み返すに連れ味方は一しました
むしろ僕のような素人でGoogle
アンチでもこれすごいと言ってしまう
くらいにこの動画でもそれを説明できると
思います嘘だあの映像以上でも以下でも
ないならどう考えてもそらかでしょうそこ
が面白いところなんです
よ是非動画を最後までご視聴ください
そしてワクワクし
ましょうさて最初から全部名するのもや
ですからまずは引の紹介ページを翻訳し
ながら読んでみ
ましょう序文ジーニーはインターネットの
映像から学習された基礎的な世界モデルで
あり合成画像写真スケッチなどから無限に
多様なプレイアブルワールドお生成する
ことができ
ますオープンアイの空と同じこと言ってる
空も学習データの動画から物理法則を理解
した世界シミュレーターみたいなこと言っ
てたよねテキストワールドだっていえ少し
違いますオープンAIの空は物理法則を
理解しつつある動画生成AI世界の
シミュレーション映像を生成しますしかし
このジーニーはもっと根本的に世界生生
AIです世界のシミュレーションではなく
世界を生成するのです
あ言葉のでしょ何が違うのその説明ももう
すぐできると思います進めます
プレイアブルワールドの基礎モデルここ数
年言語画像さらには動画の分野において
想像的な生成AIの数々が現れました
そして本日私たちはAIの新たな
パラダイムである生成インタラクティブ
環境としてジーニーを紹介しますジーニー
は相互作用的で操作可能な環境を1つの
画像から生み出す生成AIですジーニーは
世界の基礎モデルとして機能しそれにに
よって人々は想像上の仮想世界と対話
できるようになり
ますやばい意味わからんというか書いてる
文章が怖い今のと部に便乗したアグの宗教
にしか思えないんだけどじゃあこの辺りで
答えを説明しますこの映像実は操作してる
らしいんです
あこれらの映像普通に考えてどう見えます
か昔の2Dゲムマリオとかロックマンをで
成した動画って感じそれが違うんですここ
には確かに動画だけが表示されていますが
しかし実際にジーニーが生成するのは
むしろその根本ゲームの挙動事態の方です
あつまり今映っているこの映像
キャラクターが走り回っていますよねこれ
はジーニーに触れているユーザーが直接
操作しているものだということなんです
ゲーム機のコントローラーのボタンを押し
てキャラクターが走ったりジャンクするの
と同じように
あこれ出来合いの先生動画じゃないのじゃ
ないらしいんですユーザーが操作してるん
だと嘘やんじゃあゲームを遊びながら続き
が生成されるリアルタイムゲーム先生やい
ってことじゃんこの結果だけを見ればそう
なりますやばくねやばいですよ
ねいやでもなんなら投主も同じようなこと
やろうとしてたね敵の画像とステータスが
その場で生成される
RPG実ははいそれのアクション版って
考えたらなんかすごいけどふんて感じじゃ
ないていうかそれを世界生生や和ど考えの
も無理あるでしょうと僕もそう思いました
でそこで最初の映像と概念に戻ってきます
結論やっぱりジーニーはデーム生生AI
じゃなくて世界生生AIです
それを知るためにもう少し読み進めていき
ましょうそしてこのAIはインターネット
などに対応に公開されているアクション
ラベルなしの映像からもトレーニングを
することができますジーニーは2dゲーム
とロボット工学のビデオデータで学習させ
ていますがこの方法は一般的であらゆる
領域で機能しさらに大規模な学習へ拡張
可能ですジーニーのユニークな点は映像
のみから詳細な動作
インターネット上の映像には通常その動画
中の何がどのように行動しているか説明
するラベルがありませんしかしジーニーは
それを理解し生成された環境内でどのよう
なアクションが行われるかを推測するの
です日本語でOKつまり普通
YouTube上のゲームのプレイ動画に
はここで右に走ってここでジャンプして
みたいな説明文はついてないですよねただ
映像として動いているだけでその中で
マリオが何回ジャンプしても別の動画で
カービーがジャンプしても全て映像中の別
の動きですがジーニーはそれらが実は同じ
意味の操作であることを理解するというの
です例としてここではいくつかの別の生成
環境で同じ操作を行った記録が示されてい
ます画面が小さくて見にくいですがよく
見るとどれも右に女装をつけてから
ジャンクするという同じ動作が表現されて
いることが分かります
もう1つのサンプルは少し右に移動して
少し左に移動してジャンプて感じですかね
お本当だここですごいのが説明分なしの
データからこの現象が学習されていると
いうこと例えばオーAIの動画生成AI空
で同じような映像を出力したい場合右に
走るジャンクするみたいなタブ付けがされ
た動画データからそれぞれの言葉と動作の
関係を理解させてその結果右に走って
ジャンクするというプロンプトに対して
ふさわしい動画が生成されるという流れ
ですがジーニーはそういった説明分なしに
これらの行動を理解するもっと根本的に
そういう動作があるんだと言葉抜きに理解
するんですよジーニーは出来合いのゲーム
環境のアセット画像をリアルタイムに生成
してるみたいな程度のものではなく言う
なればゲームエンジンそのものをその場で
生成しているんですぶなんか言われると
すごいような気がしてきたようなもう少し
読んでいき
ましょう現在ジーニーの生成のトリガーは
1枚の画像ということです例では
Googleの画像生成AIである
イメージにの描いた2dゲーム風イラスト
をもにその世界を生成した姿が示されてい
ますあ動いてるねまた手書きのスケッチを
元にした生成もあるいは現実世界の主人
からの生成すらもかの
ですがすごいのはここからですジーニーは
2dゲームだけでなく他のあらゆる環境に
対しても学習を行える一般的な手法という
ことなん
です改めてこの動画を見直してみましょう
ロボット工学の映像を学習データとした
生生物らしいですがつまりこの3次元空間
上のロボットの腕も操作可能なんですよあ
なるほど理解したかも何次元の動画見せ
られて一気に実感がましたゲームの映像を
元に動かせるゲームを生成したりロボット
の映像を元にロボットを動かせる環境を
生成したりだからジニは本当に動かせる
世界は1から作ってるってことなんだねで
それを拡張していけば世界の映像を元に
人口の世界を作れるかもてことそうなん
ですだから世界生生AI何でしょう世界の
シミュレーション映像を生成するのでは
なく世界を生成すると
いうでページの最後にはこれらの情報を元
にした大それた予言が述べられています
ジーニーを使用すれば将来の
ジェネラリストAIエージェントを新しく
生成された世界の終わりのない
カリキュラムで訓練することができます
これはつまりジーニーの作り出す環境を
学習データとして用いることで例えば
ドラえもんのように現実世界で生きるAI
すらも生み出せてしまうかもしれないと
いうこと
でしょう
生成AIを作るなら全ては学習データです
喋るAIを作りたければ文章を学習させる
し手を描くAIを作りたければ大量の絵を
用意しますじゃあ現実世界で生きるAIを
作りたかったら世界を先に作ってしまえば
いいじゃない
と
いやダそれ過ぎてる
でしょさてここからはお論文の内容です
ジーニーの仕組みってどうなってるのこれ
だけジーニーの得意性を語っておきながら
仕組みは謎ですでは消化不良だと思うので
とにかくシンプルに短く極力用語を使わず
にイメージで説明するので是非聞いていっ
てもらえればと思います逆に言うと全部
イメージです働く細胞くらいにデフォルメ
して表現してるので理論的には全く正しく
ないことを許してくださいではそれをえて
まずg2の学習には2つのステップがある
ようです第1のステップが潜在的
アクションモデルの
学習これは学習データである大量の動画
からそこで行われている行動お理解する
ためのものです例えば先ほど触れた右に
走るとかジャンプみたいな個別の行動を
認識して区別しておくようなものです
ふえ第2のステップが動的モデルの学習
ですここで学習したそれぞれの行動が
もたらす結果を理解します例えばマリオが
立っていてこの後にジャンクするという
シーンがありますこの状態の画像を
ジーニーに見せて次にジャンプという
アクションをしたらどうなるかを予測さ
せるのですでジーニーが実際にマリオが上
に飛んでいる画像を生成できたら正解そう
やって答え合わせを繰り返して最終的に
こんな状況ではこの行動が映像を換えると
いうのを全体的に理解させるそうして操作
できる世界を生成するエリアが完成すると
いうことのようですはなるほど
わからん僕もよく分かってないのでこの
辺り
ででもなんというか最もらしいですよね
正直言って今はめちゃくちゃしょぼい80
年代のゲームの合力だけどどこまで拡張し
ていけるんだろうって期待を持たせてくれ
ますそうねよくわからんけど今回のデモ
テートで終わらない技術だってことは何が
伝わったじゃあ最後に論文の結論お読んで
み
ましょう我々はジーニという新たな形の
生成AIを提案しましたこれは誰もが世界
を作り出しそこに足を踏み入れることを
可能にするものですまだジーニーには多く
の欠点があります生成できるのは16
フレームで動作は1
FPS思ったよりしょぼかった長い時間軸
に渡って一貫した自然な環境を作るために
は将来的な大きな進歩が必要ですそれでも
なお私たちはジーニーが将来に切り開く
広大な可能性を信じていますその一般性は
より大規模なトレーニングを減ることで
多様で現実的な世界を生み出す可能性をも
秘めていますまた今回は言及のみでしたが
ジーニーはAIのためのリアルかつ無限の
トレーニング環境として有能な
エージェントを作り出す新たな道を開く
こともできるでしょう
おおさてそれでは今回の動画はここまで
ですそもそもモデルは公開されていないし
高等無形に近いような話ばかりが語られる
ランディングページと論文でした抽象的な
内容になってしまいましたがどうでした
でしょうか割と面白かったと思って
いただけたら嬉しい
ですでは今回も最後までご視聴いただき
本当にありがとうございまし
た
استعرض المزيد من الفيديوهات ذات الصلة
5.0 / 5 (0 votes)