【ソニー社内講演】拡散モデルと基盤モデル(2023年研究動向)

nnabla ディープラーニングチャンネル
16 Nov 202318:40

Summary

TLDRソニーリサーチの石井がディフュージョンモデルズとファンデーションモデルズの関係について語る。拡散モデルはテキストから画像生成に注目し、最近注目されているのはStable DiffusionやDALL-E 3です。基盤モデルは多様なデータで学習し、様々なタスクに適用される。2023年のトレンドは、withファンデーションモデルで基盤モデルを積極活用し、AIエージェントに拡散モデル組み込み。asファンデーションモデルでは効率的なファインチューニング方法提案、マルチモーダルデータ生成のモデル提案も。

Takeaways

  • 🔍 拡散モデルと基盤モデルの関係についての研究動向を紹介する。
  • 🖼️ 拡散モデルは生成モデルの一種で、テキストから画像生成が最近注目されている。
  • 🌐 ステーブルディフュージョンやダリ3などのシステムは高精細な画像生成を実現している。
  • 🎵 拡散モデルは音の生成やロボティックスのモーションプランニングなど、他分野にも応用されている。
  • 🏗️ 基盤モデルは多様なデータで学習され、様々なタスクに使えるインフラのようなモデル。
  • 📈 GPTはファンデーションモデルの一種と呼ばれ、この講演ではその活用方法が紹介されている。
  • 🤖 AIエージェントに拡散モデルを組み合わせて生成ツールとして活用する動きがある。
  • 💡 効率的かつ効果的なファンチューニング方法が提案され、広く利用されるようになった。
  • 🎨 マルチモーダルデータ生成のモデル提案があり、画像と音声、テキストの組み合わせでデータを生成する。
  • 🔄 クロスモーダルな生成に特化したシステムの提案と、パラメーター効率的なファインチューニングの手法が存在する。

Q & A

  • 拡散モデルとは何ですか?

    -拡散モデルは、拡散過程に基づくデータ生成を行うモデルです。画像が徐々にノイズを取り除いて最終的に綺麗な画像を生成する過程を逆にたどることで、データを生成することを試みます。

  • テキストからの画像生成において、どうして基盤モデルが重要ですか?

    -基盤モデルは、多様なデータで学習されたモデルであり、様々なタスクに活用できます。テキストから画像を生成する際には、基盤モデルが意味情報を抽出し、生成する画像に沿った情報を渡すことで、より正確な画像生成が可能になります。

  • ダイアリー3というシステムは何の特徴がありますか?

    -ダイアリー3は、非常に詳細に書かれたプロンプトとテキストに沿って画像を生成する特化したモデルです。詳細な記述を学習することで、画像生成において実際とテキストに忠実な画像を生成する能力を身につけることができます。

  • ビジュアルチャットGPTというシステムはどのような機能を有していますか?

    -ビジュアルチャットGPTは、チャットGPTに画像処理や編集に関する機能を追加したシステムです。画像を渡したり、画像の編集を自然言語で指示することができ、また画像に関する質問や操作も自然言語で行うことができます。

  • マルチモーダルデータ生成において、どのように各モーダルを組み合わせますか?

    -マルチモーダルデータ生成では、各モーダルに対応する拡散モデルを用意し、これらのモデルを適切にコラボレーションさせることで、同時に複数のデータ(例えば画像と音)を生成します。コラボレーションの機構をうまく設計することで、生成されるデータの整合性を高めることができます。

  • コントロールネット、ローラ、アニメートディフとは何ですか?

    -コントロールネット、ローラ、アニメートディフは、画像生成モデルに対して新しい条件やオブジェクト、スタイルを効率的に学習させるための技術です。これらの方法は、既存のテキストから画像生成モデルをベースに、新しいタスクに適用するための小規模なモジュールを追加し、そのモジュールだけをファインチューニングすることで、効率的な学習を実現します。

  • ダイアリー3が学習する際に使用されるテキストは、どのように選ばれます?

    -ダイアリー3は、詳細な記述を伴ったテキストを学習データとして使用します。これは、インターネットでスクレイピングされたイメージキャプションの代わりに、より正確で忠実な画像生成を行うために使用されます。

  • ビジュアルチャットGPTが他のビジュアルファンデーションモデルを呼び出す際のプロンプトには何が含まれます?

    -ビジュアルチャットGPTが他のビジュアルファンデーションモデルを呼び出す際のプロンプトには、モジュールの名前、使い方、インプットアウトプットの定義などが含まれます。これらの情報をプロンプトに書き込んで、チャットGPTに呼び出すように指示することで、必要なビジュアルファンデーションモデルが適切に呼び出されます。

  • マルチモーダルデータ生成におけるユニファイドアプローチとコンポーザーアプローチの違いは何ですか?

    -ユニファイドアプローチは、巨大なマルチモーダル拡散モデルを学習する方法であり、非常に高価なアプローチです。一方、コンポーザーアプローチは、既存のシングルモーダル拡散モデルを使用し、これらのモデルを適切にコラボレーションさせる方法です。コンポーザーアプローチは、各モーダルの拡散モデルの性能を最大限に引き出しつつ、コストを抑えることができます。

  • ダイナリー3のような詳細なテキストを用いた学習の利点は何ですか?

    -詳細なテキストを使用した学習により、モデルはより正確で具体的な画像生成を行うことができます。これにより、画像とテキストの関係がより緊密になり、生成される画像がテキストの内容に忠実で正確なものになる可能性が高まります。

  • 拡散モデルのファインチューニングとフンチニの違いは何ですか?

    -ファインチューニングは、既存のモデルに対して新しいデータや条件を用いてモデルを微調整するプロセスです。一方、フンチニは、新しいデータや条件を用いてモデルを再学習することを意味します。ファインチューニングは、元のモデルのパラメーターを一部変更することで、新しいタスクに適応させることができますが、フンチニはより深い変更を加えることで、より特化したモデルを作成することができます。

Outlines

00:00

🤖 拡散モデルと基盤モデルの関係についての研究動向

この段落では、拡散モデルと基盤モデルとの関係性についての研究動向が説明されています。拡散モデルは、生成モデルの一種で、特にテキストから画像生成に焦点を当てています。最近注目されているステーブルディフュージョンやDALL-E 3などのシステムがこのカテゴリに含まれます。一方、基盤モデルは多様なデータで学習されたモデルで、様々なタスクに活用されるインフラのようなものです。GPTなどのモデルがファンデーションモデルの一種として広く使われることが述べられています。

05:02

📈 withファンデーションモデル:基盤モデルの活用による性能向上

この段落では、withファンデーションモデルのアプローチについて説明されています。この方法では、基盤モデルを用いて拡散モデルの性能を向上させることが焦点です。人間からのインストラクションを理解する力を基盤モデルを用いて底上げすることが一つの例として挙げられています。また、拡散モデルがファインチューニングを行わずとも多様なタスクを解決できることが述べられ、この能力は自然言語処理の分野でも見られるようになっています。

10:05

🌐 AIエージェントへの拡散モデルの組み込み

この段落では、AIエージェントに拡散モデルを組み込むことで、より高度な機能を実現する方法が説明されています。具体的な例として、ビジュアルチャットGPTというシステムが挙げられ、画像の編集や自然言語での画像に関する質問を処理できることが説明されています。このシステムは、ビジュアルファンデーションモデルを呼び出すことで、画像生成や物体検出などのタスクを実行しています。

15:08

🎨 マルチモーダルデータ生成の拡散モデル

最後の段落では、マルチモーダルデータ生成に特化した拡散モデルについて説明されています。これにより、テキストに基づいて画像と音声を同時に生成することが可能になります。ただし、各モーダルが独立に生成されるため、完全に同期されているわけではありません。この問題に対しては、大きなマルチモーダル拡散モデルを学習するか、単一モーダルの拡散モデルを組み合わせてコラボレーションさせるというアプローチが提案されています。

Mindmap

Keywords

The video is abnormal, and we are working hard to fix it.
Please replace the link and try again.

Highlights

ソニーリサーチの石井がディフュージョンモデルズとファンデーションモデルズについて語っている

拡散モデルはテキストから画像生成の分野でよく使われている

最近注目されているシステムであるダリ3は詳細なプロンプトに特化したモデル

基盤モデルを積極的に活用することで拡散モデルの性能を向上させる

AIエージェントに拡散モデルを組み合わせて生成ツールとして活用

asファンデーションモデルとして効率的なファインチューニング方法が提案されている

マルチモーダルデータ生成で画像と音声を同時に生成する試み

コーディはマルチモーダルなデータ生成を自由に組み合わせることができる

拡散モデルはノイズを除去しながらデータ生成を行う

テキストエンコーダーを使用して意味情報を抽出し、画像生成に活用

ビジュアルチャットGPTは自然言語で画像の編集や質問を理解することができる

コントロールネット、ローラ、アニメートディフは新しいタスクに適用できる戦略を採用

ユニファイドアプローチとコンポーザーアプローチがマルチモーダルデータ生成の2つの方法

コーディは各モーダルの拡散モデルを定義し、コラボレーションさせることでデータ生成

ダイナミックプロンプトを用いたビジュアルファンデーションモデルの呼び出し方法

検索ベースのアプローチがプロンプト長の制限を解消する

クロスモーダルな生成に最適化されたシステムが提案されている

Transcripts

play00:03

はいソニーリサーチの石井です今日は

play00:06

ディフュージョンモデルズwithor

play00:07

asファンデーションモデルズということ

play00:09

で拡散モデルと基盤モデルの関わりについ

play00:11

て最初の研究動向をご紹介していきたいと

play00:14

思いますよろしくお願いし

play00:16

ますさて今回の話の中心の拡散モデルです

play00:20

けれどもこれは生成モデルの一種で最近

play00:22

最もよく使われているのはテキストからの

play00:24

画像生成かなという風に思います

play00:27

ステーブルディフュージョンですとか最近

play00:28

話題のダリ3とたシステムというのは後ろ

play00:31

で拡散モデルが動くことによってこのよう

play00:33

な高精細な画像の生成を実現してい

play00:38

ますまた画像以外の分野においても音の

play00:42

生成ですとかロボティックスにおける

play00:44

モーションプランニングなどにも使われる

play00:45

例が最近では見られるようになりまし

play00:50

た一方ファウンデーションモデル基盤

play00:53

モデルというのは生成モデルに限らず多様

play00:56

なデータで学習されたモデルであって様々

play01:00

なタスクに使うことができるような

play01:02

インフラのようなモデルのことを基盤

play01:04

モデルという風に呼ぶことがあります短な

play01:08

例ですとGPTなどがえファンデーション

play01:10

モデルの一種であるという風に言われる

play01:12

ことが多いかと思い

play01:15

ますで今回の講演なんですけれども実は

play01:19

同じタイトルで昨年もえっと講演を行い

play01:22

ましたその時の講演の内容はえっと

play01:23

YouTubeの方でご覧いただけ

play01:25

ますでその時の講演ではまず

play01:29

ディフュージョンモデルwith

play01:30

ファンデーションモデルということで

play01:32

ファンデーションモデルを使うことによっ

play01:34

てえっと拡散モデルの性能を底上げできる

play01:37

ということをご紹介しましたもう少し具体

play01:40

的に言うと人間からのインストラクション

play01:42

を理解する力というのを基盤モデルを使う

play01:45

ことによってえっと底上げできるという

play01:47

ことについてご紹介しまし

play01:49

たでもう1つご紹介したのが

play01:52

ディフュージョンモデルas

play01:54

ファンデーションモデルということで拡散

play01:56

モデルというのは実はファイン

play01:58

チューニングを行ったりあるいはフンチニ

play02:00

を行わなくても多様なタスクを解くことが

play02:04

できるということについてご紹介しまし

play02:08

たこれを受けて今回の講演内容なんです

play02:11

けれどもwithとasに分けるという

play02:13

部分は同じで2023年にどのような

play02:16

トレンドだったかということについてご

play02:18

紹介していきたいと思い

play02:20

ますまずはwithファウンデーション

play02:22

モデルについては従来の延長としてさらに

play02:26

積極的に基盤モデルを活用していこうと

play02:28

いう動きがありました

play02:31

さらにAIエージェントいわゆるチャット

play02:33

GPTなどのようなエージェントに拡散

play02:36

モデルを組み込んでいこうえ生成のツール

play02:38

として組み込んでいこうというような流れ

play02:41

がありまし

play02:43

た一方asファンデーションモデルの方に

play02:46

ついてはえ効率的効果的なファン

play02:49

チューニングを行う方法についていくつか

play02:51

提案があり非常に広く用いられるように

play02:54

なりまし

play02:55

たまたマルチモーダルのデータ生成という

play02:59

ことで画像生成だけではなく画像と音

play03:02

あるいは画像とテキストなどのように複数

play03:04

のモデルにまたがるようなデータを同時に

play03:06

生成しようというモデルについていくつか

play03:08

提案がありまし

play03:10

た今回はこれらの4つの話題について簡単

play03:14

にご紹介していきたいと思いますよろしく

play03:16

お願いし

play03:19

ますまず各話題に移る前に簡単に拡散

play03:22

モデルについておさえをりたいと思います

play03:26

拡散モデルというのは拡散過程に基づく

play03:28

データ生成を行うモデルになります拡散

play03:32

過程というのは画像が入ってくるとま少し

play03:35

ずつえノイズを乗っけていって最終的に

play03:39

ピアラノイズに崩壊していくというこの

play03:41

ような過程のことを拡散過程という風に

play03:44

呼び

play03:44

ますで拡散モデルはこの過程を逆にたどる

play03:49

ことによってデータを生成しようという

play03:51

ことを考えますつまりピュアなノイズから

play03:54

始まって少しずつノイズを取り除いていく

play03:57

ことによって最終的に綺麗な画像を得よう

play04:00

というようなことを行い

play04:02

ますこの各段階の少しのノイズの除去と

play04:06

いう部分で機械学習つまりデープ

play04:08

ニューラルネットを使ってえっとこの

play04:10

ノイズ状況を実現するとそういったモデル

play04:13

になってい

play04:17

ますでこの1つ分のえっとノイズ状況の

play04:21

処理を少し詳しく書いたものがこちらに

play04:23

なり

play04:24

ますまたくさんノイズの乗ったデーターが

play04:27

入ってくるとまずデープニューラルネット

play04:30

を使ってここに載っているノイズを推定し

play04:32

てあげ

play04:33

ますそのその後えっとこれをま引き簡単に

play04:36

は引き算することによってま少しノイズを

play04:39

取り除いたデータというものを作り出し

play04:41

ますでこの処理を繰り返すことによって

play04:44

最終的には綺麗な画像を得るというような

play04:46

モデルになってい

play04:48

ますでえっとこのままだと最初のノイズに

play04:52

よってえっとどのような画像が生成される

play04:54

のか全く検討がつかないわけですけれども

play04:57

テキストからの画像生成のようにテキスト

play05:00

でどのような画像が生成されるかを制御し

play05:02

たいという場合にはこのようなモジュール

play05:05

をくっつけますつまりテキストから

play05:07

テキストの意味情報を抽出するような

play05:09

エンコーダーと呼ばれるものを用意して

play05:12

あげて抽出した意味情報をノイズ

play05:14

エスティメートに渡してあげ

play05:17

ますそうするとこのノイズエスティメート

play05:19

は例えばこの例ですと猫なんだなという

play05:22

情報を知りながらノイズを除去できるので

play05:24

えこのテキストに沿ったえっとノイズ除去

play05:27

つまり画像生成を行うことができるになる

play05:30

というそういった仕組みになってい

play05:34

ますはいということでまずは基盤モデルを

play05:37

積極的に活用することによって拡散モデル

play05:40

の性能を底上げしようという技術について

play05:42

ご紹介し

play05:45

ますこの図は先ほど出したテキストからの

play05:48

画像整水で使われているモデルと全く同じ

play05:51

図ですけれども基盤モデルを活用する最も

play05:54

単純な方法というのはこのテキスト

play05:56

エンコーダーの部分に使うというのが

play05:58

えっと最も単純な方法になりますここに

play06:01

おいてえっとテキストから学習された基盤

play06:03

モデルあるいはテキストと画像から学習さ

play06:06

れた基盤モデルを使うことによって非常に

play06:08

効率よく意味情報を取り出すことができる

play06:11

ということを実現でき

play06:13

ますでこれはえっと2022年以前にも

play06:17

あったわけですけどもこれをさらに積極的

play06:20

に活用してもっと効率的に効果的にえっと

play06:24

性能を底上げできないかということが行わ

play06:26

れてき

play06:28

ます

play06:31

まそのような方策を取ったものの1つが

play06:33

このダリー3と呼ばれるシステムになり

play06:36

ます実はダリ3というのは非常に詳細に

play06:40

書かれたプロンプとテキストに沿って画像

play06:43

を生成することに特化したモデルになって

play06:45

play06:46

ますなんですがえっとユーザーが書く

play06:49

インプットのテキストというのは必ずしも

play06:51

非常に詳しいというものではないのでこの

play06:55

詳しくないテキストから非常に詳しい

play06:57

テキストへの翻訳アップリングの部分を

play07:01

えっと基盤モデルラージランゲージモデル

play07:03

ですね大規模の言語モデルを使うことに

play07:05

よって実現しようというのがダリ3の

play07:08

システムになってい

play07:10

ますえっとフロを書いたものがこちらで

play07:13

まずインプットのテキストがあるとこれの

play07:16

アップサンプルですね詳細な記述を行った

play07:19

テキストへの変換をllmが行ってさらに

play07:22

ここからの意味の情報の抽出というのを

play07:25

テキストエンコーダーこちらも基盤モデル

play07:27

を使って行います最終的にこれを使って

play07:30

ディフュージョンモデルで画像を生成する

play07:32

とそういったような流れになってい

play07:36

ますでそもそもなぜダリー3が非常に詳細

play07:40

な記述のテキストに特化したモデルになっ

play07:43

てるかという話なんですけどこのような

play07:45

詳細な記述で学習したモデルというのは実

play07:49

はとテキストにま忠実に沿った画像生成

play07:53

するという能力を学習するために非常に

play07:56

重要であるというのがこのダリ3に受ける

play07:59

ポイントになり

play08:00

ますどういうことかと言うとま今までは

play08:04

このような画像からのテキストからの画像

play08:06

生成のモデルというのはえっと

play08:08

インターネットでスクレープされた

play08:10

イメージキャプションを使って行うことが

play08:12

普でしたなんですけどえっとこのようなジ

play08:15

キャプションというのは非常にまノイジー

play08:18

だったり非常に不正格だったものが多くて

play08:21

このようなえっと画像とテキストのペアで

play08:24

えっとテキストからの画像生成を学習して

play08:26

しまうとまここがま要するに嘘ばっかりな

play08:29

のでこれをあんまり真面目に聞いたモデル

play08:31

というのが学習されずにこのテキストに

play08:35

忠実に沿ったモデルを学習するというのが

play08:37

非常に難しいという問題がありまし

play08:39

た一方でダリ3というのはえっとこのよう

play08:43

なテキストはえっと学習ではあまりもちい

play08:46

ずに非常に詳細な記述を行ったテキストを

play08:49

代わりに使って学習を行ってい

play08:52

ますでこれによってえっとこのような詳細

play08:55

が記述に忠実にそうようなえっとテキスト

play08:58

からの画像生成までを実現できるという

play09:00

ような方法になってい

play09:02

ますまその代わりにえっとこのような術で

play09:06

変換するLMがま水論時に必要になると

play09:08

いったモデルになってい

play09:11

ますはいでは次の話題としてAIエンジン

play09:15

に組み込まれたえ方をご紹介し

play09:19

ますでここで紹介するのはビジュアル

play09:21

チャットGPTと呼ばれるシステムになり

play09:23

ますでえっとどんなことができるかと言う

play09:26

とまチャットGPTみたいな感じなんです

play09:29

けどまビジュアルと名前のついている通り

play09:31

ま画像を渡したりまこの画像の編集という

play09:34

のを自然言語でえっと行うことができたり

play09:38

あるいはこの画像に関する質問オトをま

play09:40

自然言語で実現できるとまそういったよう

play09:43

な題よになってい

play09:45

ますでえっとどうやって実現してるかと言

play09:48

とあのまチャットGPTがここにいるわけ

play09:50

なんですけどえっとこれだけではなくて

play09:53

えっとここでビジュアルファンデーション

play09:54

モデルと呼ばれている例えば画像を生成

play09:57

するステーブルディフュージョンですとか

play09:59

はえっと物体の形質を行うディテクション

play10:01

とよったモデルというのを別用意しておき

play10:04

ますでえっとチャットGPTはえっとこの

play10:07

場合に応じてこのこれらのビジュアル

play10:10

ファンデーションモデルを呼び出すことに

play10:12

よってえっとこれらのタスクを実現してい

play10:17

ますで当然どのように呼び出すかというの

play10:20

が問題になるんですけもこの呼び出し方の

play10:23

情報を全部プロンプトに書いておこうと

play10:26

いうようなエッ方策を取っています具体的

play10:29

に言うとえっとプロンプトにはですねこの

play10:31

モジュールの名前や使い方あるいは

play10:34

インプットアウトプットの定義などを

play10:36

えっと書いておきますでこれをずらっと

play10:38

並べたものをプロンプトに書いておいて

play10:40

えっとそれ通りにえっと呼び出して

play10:42

くださいという風にチャットGPTにお

play10:44

願いしておくと必要な時にえっとこの

play10:47

ビジュアルファウンデーションモデルが

play10:48

呼び出されるというような仕組みになって

play10:51

play10:54

ますでこれ非常に面白いえっとシステムな

play10:58

んですけどま大きく2つリミテーションが

play11:00

存在しますで1つはえっと呼び出せる

play11:04

えっとビジュアルファンデーションモデル

play11:06

の数というのがプロンプト帳で制限されて

play11:09

しまいますまこれはあのプロンプトに書い

play11:10

てあると書という工作を取っている限り

play11:13

どうしても避けられないえっと

play11:15

リミテーションになりますそこでえっと

play11:17

さらに最近では検索ベースのアプローチと

play11:20

いうのがえっと提案されてえとプロンプト

play11:23

の長さに制限を受けないような方法という

play11:25

のが提案されてきてい

play11:27

ますえっともう1つのリミテーションとし

play11:30

てはクロスモーダルな生成にえっと最適化

play11:33

されたシステムにはなってないということ

play11:35

があげられます今回あのビジアえっと

play11:38

チャットGPTが各モデルを適呼び出すと

play11:41

いう方法になっていて特にこのクロス

play11:43

モーダルな水勢に対して最適化を行った

play11:46

ようなシステムにはなっていませんなん

play11:49

ですがこちらもえっとさらに最近ではま

play11:51

パラメーター効率的なファイン

play11:53

チューニングというものをえっと使って

play11:55

このようなクロスモーダルな生成に特化し

play11:58

たま先ほどのようなシステムというものを

play12:00

提案してあげましょうというものがえっと

play12:02

出てきたりしてい

play12:04

ますはいということでえっとwith

play12:07

ファンデーションモデルの話はえっと以上

play12:09

で次はasファンデーションモデルという

play12:11

ことで拡散モデルを基盤モデルとして使う

play12:14

という話についてご紹介し

play12:17

ますまずはえっと効率的効果的にファイン

play12:20

チューニングを行う方法についてご紹介し

play12:23

ますでえっとテキストからの画像生成の

play12:26

モデルというのを効率的に適用しようと

play12:29

イチにしようという方法についてと

play12:31

2023年で最もよく聞いた手法というの

play12:34

はこの3つなんじゃないかなという風に

play12:35

思いますコントロールネットというのは

play12:38

このようなポーズからの画像生成ですとか

play12:40

新しい条件からの画像生成というのを

play12:43

ファインチュンで効率的に学習しようと

play12:45

いう方法になっていますでえっとローラと

play12:48

いうのは特定のオブジェクトや特定の

play12:50

スタイルというものをえっと効率的に学習

play12:53

できるというモデルになってますでさらに

play12:56

アニメートディフというのはまこのように

play12:58

がと

play12:59

特定のオブジェクトや特定のスタイルを

play13:01

学習したモデルを使ってさらに動画を生成

play13:03

しようというモデルになっていますでこれ

play13:06

らの方法というのはま非常に広くえっと

play13:09

使われるようになったんですけど実

play13:11

はと共通した戦略を取った方法になってい

play13:14

ますでどのような戦略かというとえっと

play13:18

オリジナルのTテキストからの画像生成

play13:20

モデルですねいわゆるステーブル

play13:21

ディフュージョンみたいなモデルというの

play13:23

はえっと基本的にはフィックスしますフチ

play13:28

これをそのままンチするのではなくてこれ

play13:31

はえっとフィックスしていてこれとは別に

play13:35

新しくつけた小さいモジュールという方

play13:38

だけをえっとファンチンするというような

play13:40

方法になってい

play13:42

ますどういうことかと言うと例えば

play13:46

コントロールネットの例なんですけどこの

play13:49

点線の部分は先ほどえっとちょっと前に

play13:52

出したテキストからの画像セフで使われ

play13:54

てるモデルの図とえっとほぼそのままの図

play13:56

になっていますでこの部分に関しては

play13:59

えっとコントロールネットではファイン

play14:00

チューニングを行いませんで一方でこの

play14:04

ピンク色のモジュールというのを新しく

play14:06

つけてあげますでこのモジュールは何をし

play14:07

てるかと言うとえっとこの例で言うと

play14:10

ポーズ情報を受け取ってノイズエスティー

play14:12

たーに情報を渡すというようなモジュール

play14:14

になっていますでこのモジュールの部分

play14:17

だけをコントロールネットではファイン

play14:19

チーンを行い

play14:20

ますでこのような戦略を取ることによって

play14:24

ま学習済みのテキストからの画像生成の

play14:26

モデルというのの性能を最大限に生かし

play14:29

ながら新しいえっとタスクへの適用を行う

play14:33

ことができるというような戦略になってい

play14:36

ますでえっとこのような戦略がえっと

play14:39

コントロールネットだけではなくローラー

play14:41

やアニメートディフでもま同様の戦略を

play14:43

取ってえっとこのようなメリットを受け

play14:45

てるというような方法になってい

play14:48

ますでは最後にマルチモーダルデータ生成

play14:51

についてご紹介し

play14:55

ますでえっとマルチモーダルデータに

play14:58

対するする拡散モデルなんですけれどもま

play15:00

例えばテキストが与えられた時にこれに

play15:04

沿ったビデオ動画とえっと音を両方生成し

play15:07

たいというのがえっとマルチモーダルな

play15:10

データ生成になり

play15:11

ますでえっと当然各モーダルに対して

play15:15

えっと拡散モデルというのを用意すること

play15:17

はできるので例えばテキストから動画生成

play15:20

モデルで動画を生成しえっと音生成モデル

play15:24

で音を生成することによって両方生成する

play15:26

ということは可能ですなんですけど当然

play15:30

これえっと独立に生成を行っているので

play15:32

この2つがなんというか噛み合ってるか

play15:34

どうかということは保証できませんつまり

play15:38

このパンダがちゃんとむしゃむしゃした音

play15:39

がこっちに入ってるかあるいはこのビデオ

play15:42

に入ってないようなえっと変な音がこちら

play15:45

でと生成されてないかということについて

play15:48

は強く保証することができませ

play15:51

んなのでえっとアプローチとしてはえっと

play15:55

2つ考えられますで1つは最初に書いた

play15:57

ようにその大きなマルチモーダル拡散

play16:00

モデルというものを学習するというのが

play16:02

えっと考えられますこれユニファイドの

play16:05

アプローチという風にここでは読んでいて

play16:07

ま非常に単純なアプローチなんですけども

play16:09

非常に大きな拡散モデルというのを最初

play16:13

から学習しなきゃいけないということで

play16:15

非常にえっとコストの高いえっと

play16:17

アプローチになっていますで一方でもう1

play16:21

つコンポーザーのアプローチというものは

play16:23

考えられてシングルモーダルの拡散モデル

play16:26

を用意しておいてこの2つがま噛み合った

play16:30

えっとデータを生成するようにと

play16:33

コラボレーションを行う機構をつけて

play16:35

あげるというようなアプローチになってい

play16:37

ますでこちらのアプローチですとま各

play16:40

モーダルの拡散モデルの性能というも最大

play16:43

限に生かすことはできるんですけどこの

play16:46

コラボレーションの気候というのをうまく

play16:48

考えてあげる必要があり

play16:52

ますでえっとこれ左から右まで色んな

play16:55

えっと手法が提案されていてここではあの

play16:58

大きく3つあげたんですけどえっと今回は

play17:00

ちょっと時間の関係上このコーディについ

play17:02

てえっとどんなことができるかということ

play17:05

についてだけご紹介し

play17:07

ますで先ほど述べた通りコーデっていうの

play17:10

はコポーザブルのアプローチを取っている

play17:11

ので各モーダルに対して拡3モデルが定義

play17:14

されていてそれをうまくコラボレーション

play17:16

させることによってマルチモーダルな

play17:17

データ生成を行ってい

play17:19

ますでえっとコーディの面白いところは

play17:23

入力となるモーダルと出力となるモーダル

play17:25

というのをと水論時に自由に決めることが

play17:28

ができます例えばこの例で言うとえっと

play17:32

画像と音から別の音を作るですとかと音

play17:36

からテキストを生成するですとか画像と

play17:40

えっとテキストと音を使って動画を生成

play17:43

するみたいえっと自由に組み合わせること

play17:46

ができ

play17:48

ますでえっとこれ生成してみた例の結果な

play17:52

んです

play17:54

けどまこのような感じです

play17:57

play18:10

はいということでまうまくマルチモーダル

play18:12

のデータ生成はできてるということが

play18:14

分かるかなと思い

play18:19

ますはいということでえっと今回も

play18:21

withファンデーションモデルとas

play18:23

ファンデーションモデルに分けてご紹介し

play18:25

ましたで今回はこの4つのトピックに分け

play18:28

様々な技術についてご紹介しましたはい

play18:32

以上になりますありがとうございまし

play18:38

Rate This

5.0 / 5 (0 votes)

関連タグ
AIデータ生成拡散モデル基盤モデルテキスト画像生成AIエージェントマルチモーダルファインチューニングプロンプトビジュアルチャットGPT