【AI論文解説】DALL-E 2へ至るまでの道のり:文章に沿った画像を高品質かつ多様に生成 -詳細編-

nnabla ディープラーニングチャンネル
20 Apr 202227:20

Summary

TLDRこのビデオでは、拡散モデル(Diffusion Models)に基づいた画像生成技術の進化について解説しています。最初に、拡散過程を利用した生成モデルの基礎から始め、DDPM(Denoising Diffusion Probabilistic Models)の説明へと進みます。次に、高解像度画像生成に挑戦したADM(Augmented Diffusion Models)の紹介、テキストから画像を生成する技術への拡張、そして最終的には、この技術の最先端であるDALL·E 2やCLIPとの統合により、よりリアルで多様な画像生成が可能になったプロセスを詳しく説明しています。生成モデルの仕組み、アーキテクチャの特徴、そして具体的な応用例まで、最新の画像生成技術の概要を網羅的に紹介しています。

Takeaways

  • 😀 拡散モデルはノイズに基づいて画像を生成する生成モデルである
  • 😊 dpmは拡散モデルの基本形で、逆方向にノイズを取り除いていくことで画像を生成する
  • 📝 admはdpmを拡張し、高解像度画像の生成を実現した
  • 👩‍💻 グライドはテキスト条件付きで画像を生成できるようになった
  • 📱 アンクリップはグライドを改良し、画像の多様性と品質の両立を図った
  • 🖥 アンクリップはデコーダとプライヤーの2つの拡散モデルを組み合わせている
  • 📷 デコーダーを使うことで、画像の変換や中間画像の生成が可能
  • 🔬 クリップ特徴量の主成分分析から意味的な情報が埋め込まれていることがわかる
  • ❌ クリップ特徴量では物体と属性の結びつきがうまく表現できない場合がある
  • 🚨 クリップ特徴量に文字列が埋め込まれていないと正しく生成できない

Q & A

  • 拡散モデルとはどのようなものですか?

    -拡散モデルは、あるデータが与えられたときに、ガウスノイズを乗せていくことで完全なノイズに至る過程を考えた生成モデルです。この「時間の逆向きにノイズを取り除いていく」ことで、ノイズからデータを生成できると考えています。

  • DDPMとは何ですか?

    -DDPMは拡散モデルの一つで、一つ前の時刻を推定する処理をノイズ除去の処理として学習する方法です。情報量の誤差を最初から最小化しようとするアプローチです。

  • ADMの特徴は何ですか?

    -ADMはモデルをベースとアップサンプラーの2つに分割し、ベースで低解像度画像を生成し、アップサンプラーで高解像度画像を生成するという構成を取っています。これにより高解像度画像生成が可能になっています。

  • クラス制御拡散モデルとは?

    -クラス情報を拡散モデルの入力として与えることで、そのクラスに沿った画像を生成するモデルのことです。ADMではクラス情報と時刻情報を結合してモデルに入力しています。

  • DDIMは何を目的とした手法ですか?

    -DDIMは、クラス識別モデルを使わずに、拡散モデルだけでクラス情報を反映させる手法です。クラス指定の有無によるノイズの差分を利用することで実現しています。

  • クラスガイダンスとは何ですか?

    -指定されたクラスに近づくように、ノイズの結果をずらす処理のことです。クラスファイヤーを使って勾配を計算し、その分だけ結果をずらします。これによりクラス情報を強く反映できます。

  • DALL-E 2で画像エンコーダーはなぜ必要ですか?

    -テキストから直接画像を生成する代わりに、テキストに対応する画像の特徴量を生成し、それをデコーダーで画像に復元することで、品質と多様性のバランスが取れた生成が可能になるためです。

  • クラスガイダンスとCLIPガイダンスの違いは?

    -クラスガイダンスは指定テキストをそのまま使うのに対し、CLIPガイダンスはテキストから特徴量を生成するので、ガイダンスが強くても多様性が下がりにくい特徴があります。

  • 拡散モデルの欠点は?

    -拡散モデルはCLIP特徴量を利用しているため、そこで抽出しきれていない情報は正しく生成できない場合がある点です。例えば、物体と属性の結びつきなどの理解が難しいです。

  • 拡散モデルの今後の可能性は?

    -特徴量だけでなく、潜在空間での拡散モデル利用が面白いと思います。計算コスト削減という従来の用途とは異なり、条件情報の生成に使うというアイデアは新しいと感じます。

Outlines

00:00

😊拡散モデルの基本的な説明

拡散過程と拡散モデルの概念説明。画像生成のためにノイズの除去を繰り返し行う。ddpmというベースラインモデルの紹介。

05:01

😃高解像度画像生成のadmについて

2つのdpmで構成されるadmでは、低解像度画像生成後に高解像度画像を生成する。クラス条件付きの低解像度画像生成時にはクラスガイダンスを用いる。

10:02

😄テキスト条件付き画像生成のグライド

テキストから画像を生成するためのグライド手法。クラスガイダンスの代わりにクリップの類似度やクラスガイダンスフリーを利用。

15:02

🤩アンクリップv2の概要

画像とテキストの変換を行うアンクリップv2では、トランスフォーマーのプライヤーと拡散モデルのデコーダーを使用。グライドと比較して多様性を維持。

20:03

😮アンクリップv2の応用

アンクリップv2を用いて、画像編集、画像間の中間画像生成などの応用が可能。クリップ空間の解析にも利用できる。

25:03

🤔アンクリップv2の限界

クリップがうまく特徴抽出できない場合、正しく生成できない。属性と物体の結びつきや文字情報の保持などが難しい。

Mindmap

Keywords

💡拡散モデル

拡散モデルは, データにノイズを加えて完全にランダム化し, その後ノイズを取り除いていくことでデータを生成する手法です. このビデオでは, 拡散モデルを画像生成に応用した研究が紹介されています.

💡高解像度画像生成

このビデオの主題は高解像度画像の生成です. 特に拡散モデルを使用して, 従来の方法よりも解像度の高い画像を生成する新しい手法について説明されています.

💡テキスト条件付き画像生成

テキストの条件に沿って対応した画像を生成する条件付き画像生成についても説明があります. テキスト情報を拡散モデルの入力として利用することで, テキストに忠実な画像が生成できることが示されています.

💡クリップ

クリップとは, 画像とテキストの特徴量を抽出・エンコードするモデルです. このビデオではクリップの特徴量を使用して, テキストから画像への変換を行う手法が説明されています.

💡アンクリップ

アンクリップは, クリップの逆方向の処理を行うモデルです. 具体的にはテキストの特徴量から画像の特徴量を生成し, それをもとに画像を再構成することができます.

💡拡散モデルとアンクリップの融合

このビデオで紹介されている技術は, 拡散モデルとアンクリップという異なるアプローチを組み合わせることで, 従来よりも高精細でテキストに忠実な画像生成を実現しています.

💡クラス条件付き画像生成

拡散モデルでは, 特定のクラスラベルを条件として入力することで, そのクラスに対応した画像を生成することも可能です. これによって生成結果をある程度コントロールできます.

💡テキストガイダンス

テキストに基づく画像生成時のガイダンスには, クリップの特徴量やクラス情報を利用する方法が提案されています. これによりテキスト情報を生成過程に効果的に反映できます.

💡拡散モデルの多様な応用

ビデオの後半では, 学習した拡散モデルやアンクリップを用いて, 画像編集・変換・解析など多様な応用が可能であることが示唆されています.

💡計算コスト

高解像度画像の生成にもかかわらず, 提案手法の計算コストはそれほど大きくないことが付録からわかります. これは学習時と推論時で異なる解像度を利用することが寄与していると考えられます.

Highlights

最初の重要なハイライトのプレースホルダー

2番目の注目すべきハイライトのプレースホルダー

3番目のハイライトのプレースホルダー

4番目のハイライトのプレースホルダー

5番目のハイライトのプレースホルダー

6番目のハイライトのプレースホルダー

7番目のハイライトのプレースホルダー

8番目のハイライトのプレースホルダー

9番目のハイライトのプレースホルダー

10番目のハイライトのプレースホルダー

11番目のハイライトのプレースホルダー

12番目のハイライトのプレースホルダー

13番目のハイライトのプレースホルダー

14番目のハイライトのプレースホルダー

15番目のハイライトのプレースホルダー

Transcripts

play00:01

いっ

play00:03

はいということででは打率に怒るまでの道

play00:06

ということで

play00:09

この図を左から順番に説明していきます

play00:14

まずは一番代表的なベースラインである

play00:16

この dd pm というものを説明し

play00:18

ます

play00:20

まずそもそも diffusion モデル

play00:21

拡散モデルテナーにって話なんですけど

play00:23

これは拡散過程に基づく生成モデルです

play00:26

拡散過程というのはあるデータが与えられ

play00:29

たときに

play00:30

ジョジョインド位ノイズを乗っけいって

play00:33

いくことで完全なの維持に至るというよう

play00:35

な過程を考えてあげますこれを拡散過程と

play00:38

呼びます

play00:39

これは別にあの倍増乗っけるだけだので

play00:41

特にん

play00:42

なんか学習するものは何もなくて

play00:44

ドイツ思ってるだけですね

play00:47

この拡散モデルというのはこれを逆に遡る

play00:49

ことによってノイズをデータ変換しようと

play00:52

いうことを考えます

play00:54

つまり各時刻においてちょっとだけ乗って

play00:56

いるノイズをちょっとだけ

play00:58

除去するということをたくさん繰り返し

play01:00

行えばノイズからデータが生成できる

play01:02

でしょうということで

play01:06

えーとこれあの物理現象との新たなロジー

play01:08

ということで自国という概念が導入されて

play01:10

います時刻というのはゼロの時がデータで

play01:14

時刻が過ぎていくことにだんだんデータが

play01:17

崩壊していってらー gt になった時に

play01:20

完全にノイズになっているという風に考え

play01:21

ます

play01:28

代表的なベースラインジェルこの dd

play01:30

pm n ジング diffusion

play01:31

プロバリスティックモデルというのは

play01:33

このひとつ時刻を戻る処理というのをで

play01:36

ノイズ処理とし学習しようという方法です

play01:39

具体的はもう最初に情報というか8二乗

play01:41

誤差最初かで学習しようという方法です

play01:45

モデルの入力としては学習データにノイズ

play01:48

をのっけたものを入力してあげて+時刻

play01:51

ですね今何時ですかっていうのを入力して

play01:53

あげて

play01:54

このだぞに乗っている

play01:56

ノイズを捨て推定しますこの推定した

play01:59

ノイズがここでのっけたノイズと窓のか何

play02:02

ているかと言う事でこれを最小化するよう

play02:05

にモデルを更新するというような学習を

play02:07

行います

play02:09

今回紹介するすべてのモデルはもうこれを

play02:13

使っているのでちょっと今回はもうこれ

play02:15

以上説明しませんなんで25支え消化が

play02:18

いいのかと

play02:19

いうことを知りたい方はあの別当10日が

play02:22

あるのでこちらをご覧ください

play02:26

今回はちょっとアーキテクチャどういうの

play02:27

を使っているのかが若干重要なので

play02:29

ちょっとアーキテクチャについて紹介し

play02:31

ます

play02:32

でベースああいうネットですね

play02:35

ノイズ月画像が入ってきてダウンサンプル

play02:37

してたを散布しダウンサンプルしてって

play02:39

いうのが入って

play02:41

深く深いところでちょっと処理があった後

play02:43

に今度アップ散布したさせしたサンプル4

play02:45

良いのがありますここがスキップ

play02:48

コネクションで使ってつながっていると

play02:49

いうモデルですね

play02:53

えっと後時刻情報を入れなくちゃいけない

play02:55

のでここに時刻情報が入ってきます今時刻

play02:58

情報はエンディングしてアフィンを2回

play03:00

掛けた後に

play03:02

各ブロックに入っていきます

play03:05

この各ブロックではそれぞれこの情報にア

play03:08

フィンをかけた後に

play03:10

パーカー減ったフィンをかけることで

play03:12

チャンネルごと特徴量ごとのスケールと

play03:14

バイアスを計算して

play03:16

ここで抽出されている特徴連休をすると

play03:19

いうことを行います

play03:20

あのご存知の方フィルムと呼ばれている

play03:23

技術に相当します

play03:28

伊藤

play03:29

先ほどの例は特に何も指定しないでし生成

play03:32

する場合なんですけどクラスを指定して

play03:34

生成したい場合はあの

play03:36

クラスの情報を同様に入れますでこれは

play03:39

自国と情報へ時刻情報と同様に入れます

play03:43

具体的にどうやっているかと言うと先ほど

play03:45

のこの左下の部分で時刻入れてたんです

play03:48

けどここに暮らすも入れてあげてあの

play03:50

足し算して同じように使うという家ですね

play03:54

学習の方法は基本的に変更だしです

play03:58

これによってへとモデルが入力

play04:01

であるそのクラス情報を使って色移動する

play04:03

ということができるようになります

play04:08

ということでまず dba をご紹介し

play04:11

ますと

play04:12

次がですねこの dpm を使って高解像

play04:15

度画像を生成するためにはどうしたらいい

play04:17

かということでこの壁を打ち破った adm

play04:20

と呼ばれるモデルを紹介します

play04:24

adm ではですねまず今回贈答生成の

play04:27

ためにモデルを2つに分割しましたこの

play04:29

ベースとアップ散布等と言われています

play04:32

それぞれ dpm なんですけどこっちの

play04:34

低解像度生成の方は低解像の数を生成する

play04:37

と高解像堂先生の方は

play04:40

て解像度の画像と

play04:43

この5月の高解像度のでデータを使って割

play04:47

増推定すると

play04:48

いうことを行います

play04:50

メッセージは力生シティ

play04:53

低解像度画像を生成したあとこっちの

play04:55

dpm で公開外画像を生成するという

play04:58

ことによって最終的に高解像度が生成

play05:01

できるというものです

play05:06

ヘッド adm はですねこのモデルを二

play05:09

つに割ったというのとさらにですねこの低

play05:12

解像度の生成時のみ

play05:14

クラスば野外ランスと呼ばれる処理を使っ

play05:17

て暮らす情報を強く反映させるということ

play05:19

を行っています

play05:23

いくら妻野外ラースどんな持つかというと

play05:26

グラスファイバーを使って各自国ので

play05:28

ガールズ結果をずらすということを行い

play05:29

ます

play05:31

この先ほどのいうネットをで生成し生成し

play05:34

たでノイズ結果を何か事前学習

play05:37

海のクラスファイアに入れてあげて暮らす

play05:40

識別を行います例えばこの赤い部分の

play05:43

クラスに対応するものを今回を作りたいん

play05:45

ですと思ったらここの出力が上がるように

play05:48

したいので

play05:49

この出力に対応する勾配を計算します

play05:54

この入力に対する購買を計算したら素が出

play05:57

ないず結果に達しだするということを行い

play05:59

ます

play06:00

猫の足し算された結果を注ぎた自国の下の

play06:03

子処理使うという処理になりますこれに

play06:06

よって

play06:07

まあとりあえず結果ちょっとずらされて

play06:08

言ってワーク等特定のクラス方向に

play06:11

とんとんてなぜ結果がよっていくという

play06:13

ことが行います

play06:19

えっと adm の性能なんですけどここ

play06:21

に店でているのはイメージ熱湯の512

play06:24

かけ512の画像だけ実験機した結果です

play06:27

けど

play06:28

非常に高精細な画像が

play06:31

生成できているということがわかると思い

play06:32

ます

play06:34

定量的な評価においてもピぐぎゃんを

play06:37

上回る妖精のを得ていて

play06:39

国会増の中画像生成において初めてやを

play06:41

超える性能を達成したというものをこのに

play06:44

市に報告しています

play06:52

はいここまでで高解像度画像が生成できる

play06:54

ようになりました次はですねテキストに

play06:57

沿っだーが画像を生成するためにはどうし

play06:59

たらいいかということを行いたいと思い

play07:01

ますが

play07:03

その前に四段が2つあります

play07:06

一つ目がの最初に紹介したクリップですね

play07:08

これはも再掲などで簡単に来ますけどその

play07:11

画像とテキストを直接比較できる特徴空間

play07:15

に飛ばしてくれるエンコーダーが2つ用意

play07:16

されましたという話です

play07:20

これの学習方法について知りたいという方

play07:23

のまた別の動画にあるのでご覧ください

play07:29

もう一つの四段がちょっとクラスファーや

play07:31

古いが入りますと呼ばれるものって

play07:34

先ほどの蔵スパイダースというのは

play07:37

クラスファイアーが必要ですね

play07:39

なんですけどこのクラスファイアーという

play07:40

のはノイズ月のガードで学習したクラス

play07:42

識別キーが必要があってこれ別途用意し

play07:45

なくちゃいけませんなのでこの準備の

play07:47

コストが高かったという問題がありました

play07:51

これとくださいは使いたくないということ

play07:53

play07:54

小倉スパや古いガイダンスでは+ fire

play07:57

使わずに拡散モデルだけを使って似たよう

play07:59

なガイダンスを行うにはどうしたらいいか

play08:01

ということを行っています

play08:05

具体的にどうやっているかと言うと強度の

play08:08

いう音と左下時刻とクラスを指定して精製

play08:11

していたと思うんですけど

play08:12

クラスを指定して生成するというのと指定

play08:17

しないで先制するというのをそれぞれ

play08:19

行なっておきます

play08:21

s 当然その推定されるノイズがちょっと

play08:23

違うわけですけど

play08:25

このクラス条件の有無によって生じた違い

play08:28

を s 倍に強調して

play08:31

生成したこのノイズというを

play08:35

推定されたノイズとして使うということを

play08:37

行いますこれによって暮らす情報の利用に

play08:40

よる変化がビス杯強調されて

play08:43

先ほどのクラスからがイラスト同様に

play08:45

暮らす情報を強く反映させるということが

play08:48

できるようになります

play08:54

はいということで本来のあのテキストから

play08:56

画像の生成をするにはどうしたらいいかと

play08:59

いう話をします

play09:04

ええっとテキストから画像生成したいん

play09:06

ですけど

play09:07

指定されたテキストにそうだ造成したいと

play09:09

いうことで先ほどまでクラス情報を使って

play09:11

いたんですけどこれのカーリンテキスト

play09:13

情報使えばいいというのがアプローチに

play09:16

なります

play09:18

先ほどの adm ではクラス情報が幕

play09:21

大きく2つ

play09:23

使う場所がありました

play09:25

一つが1情報時刻情報と一緒にモデル入力

play09:29

してたということですね

play09:30

この部分に関しては別にテキスト情報でも

play09:33

同様に可能ですエンディングどうするても

play09:35

でありますけど基本的にはどう

play09:37

と良い可能です

play09:40

もう一つがですね生成時にベースのモデル

play09:43

において暮らすファイラー具合ランスに

play09:45

使っていました

play09:47

ここですねー

play09:49

こちらに関しては

play09:51

テキストの場合に対応するこのクラス

play09:53

ファイアーというのが自明じゃないので

play09:56

このくらいガイドの仕方に工夫が必要です

play10:01

この工夫を行ったのがこのグライドと呼ば

play10:04

れ方法手法です

play10:07

このくらいグライドではですね

play10:09

テキストカラーの画像生成が行われるよう

play10:12

にこの入江も拡張した方法なんですけど

play10:15

先ほど言ったようにそモデルへのテキスト

play10:17

入力はグラ8 adm のクラス4個と

play10:20

ほぼ同様の方法で行っています

play10:23

一方でガイダンスの方がしては2つの方法

play10:26

を提案してその性能を検証するということ

play10:28

を行っています

play10:31

一つがとくれクリップ大ラスと呼ばれる

play10:33

もので

play10:34

アラサーヤの代わりにクリップの類似度を

play10:36

使った映画遺髪を行うというものです

play10:40

もう一つが暮らす fire フリーが

play10:42

イラストさっき紹介したものを使ったもの

play10:44

です

play10:48

グリップガイダンスは本当にこのクラス

play10:50

ファイアの部分をクリップのイメージ

play10:52

エンコーダーに置き換えたものですね指定

play10:55

されたテキストに近くなるように公開を

play10:59

計算して aその分ずらすという処理に

play11:02

なります

play11:08

伊藤テキストここを使ったクラス早振り

play11:10

ガイダンスもこれもあの先ほど紹介した

play11:12

クラスはや古いがイラストほとんど一緒で

play11:14

ここをクラスだったのテキストなっている

play11:16

だけです

play11:23

はい0レッドグライドの性能なんですけど

play11:26

ここに示しているのは s 9プロンプト

play11:28

から生成した結果ですが

play11:30

このような感じになって言ってチリつめが

play11:32

今回紹介してないですけどたりバージョン

play11:35

i ですね

play11:37

ヘッドを真ん中がクリップ外ラースを使っ

play11:40

たグライド一番下がクラスはや古い

play11:43

ガイダンスを使ったグライドです

play11:46

ちょっとこれ見て伝わるかどうかわかん

play11:48

ないんですけど

play11:49

だりーわ結構のっぺりとしたテクスチャー

play11:51

になってしまうって言うんですけど

play11:53

ちょっとグライドのほうはかなり細かい

play11:55

テクスチャまで復元できていて

play11:58

先制できていて高精細な画像が生成できて

play12:01

いるということがわかると思います

play12:04

あとですねチェーンダルいの方は毒いっ

play12:07

ぷりランキングと呼ばれている処理が築か

play12:09

れていってたくさん生成してみてあの

play12:12

clips 公が一番良いものなんか使う

play12:14

たい

play12:15

ことを行っているので生成こそが結構高い

play12:17

んですけどプライドはそのようなことを来

play12:20

なくても先生がうまくいくということが

play12:22

わかっています

play12:25

ちなみにこの2つはどっちがいいかという

play12:26

と定量的にはこの下側のクラスはや古い街

play12:29

発を使う方が良いということがわかってい

play12:32

ます

play12:32

なぜこの後紹介するアクリップ

play12:35

ダリのバージョン2の方でもこちらが使わ

play12:38

れています

play12:41

えっとちなみにですねこのグライドは局所

play12:43

的な編集へ拡張することもいけます

play12:47

このレビューとまぁこの四角の部分

play12:49

だけをこの

play12:52

とテキストに合うように

play12:54

生成してくださいみたいなことはできる

play12:56

ようになります

play12:58

エッグどやっているかということ言うと

play12:59

あの基本的にはその in ペンキのです

play13:01

ねここの間を埋めるという処理を同時に

play13:04

行うようにも delphi ちゃんする

play13:05

ということを行っています

play13:07

モデルの入力に対してその元画像とこの

play13:10

領域指定用の四角いますけど

play13:13

いうものを同時によくするというものです

play13:20

はいということでえっとそれではだり2

play13:23

まで辿り着いたので打率7話をします

play13:27

野菜系ですけど打率で使われているこの案

play13:30

クリップ呼ばれるものがアイデアっていう

play13:31

のはクリップの逆処理ですイメージん

play13:34

コーダーを逆に処理するものをイメージで

play13:36

コーダーというものを処理カー用意すれば

play13:39

テキストから画像変換できるでしょって

play13:40

いうものですね

play13:43

この一番とにばところでと拡散モデルを

play13:46

使いますよという話をしました

play13:48

これからあのそれぞれ説明しますけど

play13:51

ちょっと順番が前後さんですけど2番の方

play13:54

から説明します

play13:58

この2羽のがデコーダーと言われていて

play14:00

画像のクリップ特徴から画像を生成する

play14:02

モデルです

play14:04

これほぼグライドです

play14:06

グライドでパンクラスはや古いガイダンス

play14:09

を使ったものなんですけど大きくに就こう

play14:11

となる点があります一つ目が当然なんです

play14:15

けどこれ入力が画像のクリップ特徴だった

play14:18

ので

play14:19

モデルの入力にがクリップ特徴を追加して

play14:21

いますグライドってこんな感じだったと

play14:23

思うんですけど

play14:26

アンクリックではこんな感じになってます

play14:27

play14:28

きっとこの画像のクリック特徴が増えてい

play14:30

ます

play14:31

このテキストもいるんかという気持ちに

play14:33

なると思うんですけどあのベースモデルで

play14:35

だけこれを入れたほうが性能が良かった

play14:37

ですみたいな報告をしています

play14:42

二つ目が

play14:43

えっとに卵会構成という話をしたと思うん

play14:46

ですけど

play14:46

ベースとアップ散布等があったと思います

play14:48

がアップ3プラウ1つクリアしました

play14:51

3段階構成なりました64かけ64を生成

play14:54

して250億円250を生成して1000

play14:57

人掛け前に銃を生成して最後にはこれは出

play15:00

てくると

play15:02

システムになりました

play15:04

三つ目がアップサンプラーがー no 各種

play15:07

の話なんですけど

play15:09

学習時のみ1/4の改造の

play15:14

部分画像を入力して学習コストを低減する

play15:16

というテクニック公がありますあの

play15:20

この例えばこの一番最後のアップ

play15:22

サンプラーというのは1024かけ

play15:23

1024なので普通に考えたら1024

play15:26

かけ生乳ジョンのいうネット学習しなく

play15:28

ちゃいけない気持ちになると思うんです

play15:29

けど

play15:31

実際には

play15:32

えっと256かけ256の解像度で学習し

play15:35

ています

play15:36

でそれでなんでいいのかって話なんです

play15:39

けど実はこのモデルない

play15:41

のその空間方向の処理っていうのは

play15:43

畳み込みとせるファーテンション回しか

play15:45

ないので

play15:46

えっと実はえーっと兄の解像度で処理が

play15:48

可能です

play15:50

なのでえっと学習コストの低減のために

play15:52

学習子だけは

play15:54

play15:55

解像度を落として

play15:57

推論二世政治だけ高解像ですせーらをする

play16:00

ということを行っていますこれはあの髪で

play16:03

はこの論文ではなくてこちらのラテンと

play16:06

diffusion モデルと呼ばれる本

play16:08

の論文がヘアしているものです

play16:14

もう一つの拡散モデルがプライアーモデル

play16:16

と呼ばれていて

play16:18

テキストのクリップ特徴から画像の

play16:19

クリップ特徴を生成するものです

play16:22

今回は先生対象がクリップの特徴なのでゆ

play16:26

ネットではなくてトランスフォーマーを

play16:27

使っています

play16:29

トランスフォーマーへの入力は個々の価値

play16:31

ですね基本的にはのグライドと大して

play16:33

変わらないです

play16:35

この部分に関しては

play16:37

ざり2の論文では自己回帰モデルと拡散も

play16:40

で両方とも試しているんですけど実験的に

play16:42

はこの拡散モデル方が少し高性能になった

play16:45

というふうに報告しています

play16:51

グライドと何が違うのって話なんですけど

play16:53

ここちょっと半分書簡が入っているので

play16:55

注意なんですが

play16:57

私が思うにペット一番大きく違う点はが

play17:00

ゾーンの生成時に使う条件情報をどうやっ

play17:02

て表したかという点だと思います

play17:05

グライドの方は

play17:07

指定されたテキストそのまま終わりと使っ

play17:09

ていて

play17:11

決定的に使っていますなのでガイダンスを

play17:13

強くかけていくと指定されたテキストに

play17:16

どんどんほとんど来ようって言っちゃうん

play17:17

ですね

play17:18

なのであの

play17:20

もちろんその指定されたテキストに沿った

play17:22

がずにはなるんですけどその多様性が大幅

play17:24

に低下するという問題があります

play17:29

一方で今回の案クリップの方はテキストに

play17:32

対応する画像のクリップ特徴拡散モデルを

play17:35

使って確率的に生成するというアプローチ

play17:37

をとっています猫の確率的に生成した情報

play17:40

を使って2ターン目の拡散モデル

play17:43

レコーダー方でと生成を行うということを

play17:46

買っていますなのでガイダンスを強くかけ

play17:49

ても熱湯をかけている相手が確率的に生成

play17:51

されたものなので多様性が低下しにくいと

play17:54

いうメリットがあります

play17:58

これによってアンフリップでは品質画像の

play18:00

品質と多様性を料理するということができ

play18:03

ています

play18:08

はいということであるクリックの性能です

play18:09

けど先ほど木土曜に ms ここを

play18:11

プロンプトからの成績結果ですが1段目が

play18:14

グライドでリーダーの目が合っクリップ

play18:16

ですまあこれだけ見てもかなり両方とも

play18:18

すげーなっていうイメージしかないと思う

play18:20

んですけど

play18:22

えっと主観評価では写実性山テキスト忠実

play18:25

性では2つはおおよそ同等くらい

play18:30

なんですけど画像の多様性という面で

play18:32

クリップの方が評価が高かったというふう

play18:35

に報告しています

play18:37

えっと定量評価法だとまぁ先程言って自己

play18:40

回帰モデルを使うよりは拡散もで扱った

play18:43

グリップが一番良かったというふうに報告

play18:45

しています

play18:51

先ほど述べた品質を対応性のトレードオフ

play18:53

の話なんですけど

play18:55

ガイダンスのスケール各自国税のでノイズ

play18:57

結果どれだけズラすかの量を公開た時の

play18:59

性能評価

play19:01

崩壊示しているんですが

play19:04

これ横軸がガイダンスを助け

play19:06

縦軸が

play19:08

しか評価の結果と客観評価の結果なんです

play19:10

けど

play19:11

ライダーさんスケールを大きくしていくと

play19:13

緑色の線ガーの多様性評価で上に行くほど

play19:16

クリックが入ってみなんですけど

play19:19

ガイダンスのスケールを大きくしていくと

play19:20

グライドよりも服行ったほうがいいって

play19:22

いうふうに主観評価で評価されていて

play19:26

かつですねーファーギーが測っても開発を

play19:29

大きくしていった時の fit の

play19:31

ダメージが少ないということがわかってい

play19:33

ますこれにはつまりえっとアンクリップの

play19:36

方が値は性が低下しにくくて

play19:39

このポリドフラおくと言っていると言う

play19:48

ここからちょっと目先のお子様変わるん

play19:50

ですけど

play19:51

レコーダーを今回学習したので

play19:54

実はですねこのクリップのエンコーダーと

play19:56

アンクいくのデコーダーでこの画像特に

play19:59

特徴の相互変換が可能

play20:03

新しいあのこのクリップから画像の方向

play20:05

だけは拡散モデルなので確率的な処理なん

play20:07

ですけど1曲変化が可能ですということで

play20:09

この画像を入力して

play20:12

特リプ特上にして拡散モデルでは元に戻す

play20:15

画像に戻すということが可能ですそうする

play20:17

とこの画像のバリエーションみたいなも

play20:20

たくさん作ることができます

play20:24

あとえっと2枚の画像を持ってきて

play20:27

クリップ特徴にして

play20:29

ないそうしてこそないそうした特徴量画像

play20:31

に戻すってことをするとこの2つの画像の

play20:34

間を作るみたいなことができます

play20:38

この復元自体が確率的なのでまぁこのよう

play20:41

にバリエーション3列あるの産業あるの

play20:43

バリエーションなんですけど

play20:44

バリエーションを作ることもできます

play20:53

さらにえっとデコーダーを使ってクリップ

play20:55

特徴の空間の解析をしようみたいなことも

play20:57

ちょっとできます

play21:00

ここでやっているのはクリップの主成分に

play21:02

どのような情報が生まれ埋め込まれている

play21:04

かというのを実験的に種類を調べた結果

play21:06

です

play21:09

画像から抽出したクリップ特徴の主成分

play21:12

だけ使ってへとリコーダーで画像復元する

play21:15

とどんな画像になるかというのを調べてる

play21:17

んですけど左側の方ほどを使っている次元

play21:19

数が少なくて

play21:21

だんだん右に行くほど多くなっていくと

play21:24

ようなと結果がここに出てるんですけど

play21:28

いていただくと例えば一番下とかだと

play21:31

なんか

play21:32

ヤマノ草原の中に何か動物がいるんです

play21:35

けど一番左のほうだ動物になくて空と草原

play21:39

みたいなものしか写ってません

play21:41

だんだんこの細い

play21:43

糸山とかえっとこの動物曲が生えてくる

play21:46

みたいなことがを聞いて

play21:49

主成分ですねこういう家の大きい次元ほど

play21:51

画像の新井意味情報というのが埋め込まれ

play21:53

ているというのが分かるかと思います

play22:01

もう一つの快適なんですけど越冬タイプ

play22:04

グラフィックアタックと呼ばれるもの脳

play22:06

画像の特徴量を調べたものですね

play22:10

硬くが何かという話ですけどこの青リンゴ

play22:12

にですね ipod って書いておく等

play22:16

えっとこのクリップ

play22:18

この画像の特徴量を出して

play22:21

テキストのですね photo of

play22:23

グラニースミス6会おうリンゴの画像って

play22:25

いうテキストと ipod もかどういう

play22:28

テキストのどっちに近いって調べると

play22:31

なんか ipod に近い入っちゃって

play22:33

クリップ0識別するとらいポッドになっ

play22:36

ちゃうっていう

play22:37

直仔グラフィックアタックというタック

play22:39

あるんですけど

play22:41

この時のこの画像のぷクリップ特徴って第

play22:44

何が思い込まれているのっていうのを調べ

play22:46

た結果です

play22:48

このクリップ特徴からデコーダーで画像

play22:50

復元するとこのような感じなんですけど観

play22:52

ていただいて分かるとおりピポットは出て

play22:54

きたくて

play22:56

全部リンゴを釣ってですねりんご兄なんか

play22:59

文字が書いてあったよ

play23:01

のが生成されますピザでも一緒ですね

play23:05

なのでその画像

play23:07

このタイプグラフィッカータックっていう

play23:09

のは発生しているんですけど画像を

play23:11

埋め込んだこのクリップ特徴量自体には

play23:15

問題はなくて

play23:17

どっちかって言うとこの後テキストと画像

play23:19

館でグリップの類似度を測るときに何か

play23:21

問題起きているんじゃないかということが

play23:23

今回分かりましたと言う

play23:31

はいで細胞イミテーションですけど

play23:33

クリップ特徴をベースとした方法なので

play23:36

グリップ特徴量でうまく抽出されていない

play23:39

情報については正しく生成できません

play23:42

代表涼子に2つ持ってきたんですけど

play23:45

一つ目がこの属性と物体のバインディング

play23:47

はまくりから場合うまくいかない場合と

play23:49

いうものです

play23:51

ここではですねパレットキューブ恩田

play23:52

トッポブルーキューブって書いてあるん

play23:55

ですけど

play23:56

左側のアンクリッパー全然できていません

play24:00

一方でこの暗い顔のほうは結構出来ていて

play24:05

テキストまあそのままトランスフォーマー

play24:07

に突っ込んでヘッドを抽出した特徴量で

play24:09

生成しているのでこちらはうまくいったん

play24:12

ですけどこっちは1回クリップの特徴量が

play24:14

凝っちゃって言って実はクリップの特徴量

play24:16

のほうでは

play24:17

このような

play24:18

えっと色と物体のばイニングみたいなこと

play24:21

がうまくできていないんじゃないかとか

play24:23

いうことがわかります

play24:28

もう一つのレーガー

play24:30

文字列をそのまま正しく出力するという

play24:33

タイプですね笠井んだった星図ティプラー

play24:35

リングとという風に言ってもこんな

play24:39

このかで引き締まっていてちゃんと

play24:40

deep learning って書いて

play24:41

くれないというものです

play24:43

これも同様にクリップの特徴量の内部に

play24:46

ディープラーニングという正しい5時列が

play24:50

埋め込まれていないということが原因なの

play24:52

ではないかというふうに言われています

play24:58

はいということで乙女ですけど

play25:00

標準的な拡散モデルである dpm から

play25:03

打率

play25:04

1クリックと呼ばれる技術までの1社に

play25:06

ついて紹介しました

play25:12

えっ図書館ですけどやっぱり生成画像の

play25:15

インパクトがすごいですねあの

play25:17

twitter 上でですねもう著者らが

play25:18

あの

play25:20

盗んだのやってほしいって方星てあのそれ

play25:24

を生成するみたいな事やってていろいろ

play25:26

たくさん公開されている他のこれ見てみる

play25:28

と非常に面白いと思います

play25:32

やっとですね性精度計算こそは誰かそうか

play25:34

なって最初思ったんですねは1024覚醒

play25:36

に以上とか生成しているので

play25:38

なんですがこれあの appendix を

play25:40

見てみるとそうでもないかもって思いまし

play25:42

たという話なんですけど

play25:45

ここに載っているのはですねこの率が

play25:47

ヘッドベースモデルこの列が負担プリン

play25:50

カップさんから1個目この率が2個目なん

play25:52

ですけど

play25:54

このサンプリング steps ですね

play25:56

さかのぼる時間の数ですけど

play25:59

米さあ250とかあるんですけどアップ

play26:02

サンプラー方は27とか15とか

play26:03

ものすごく少ない数字になっていうかさ

play26:06

なので高解像度のほうの生成にはあんまり

play26:08

計算コストを最低いなくて

play26:11

全体としての計算コストは実はそこまで

play26:13

大きくない可能性はあるかなというふうに

play26:15

思いました

play26:19

最後がこの方法はですねデコーダーと

play26:22

プライヤーモデルっていう2つの拡散も手

play26:24

を使いこなしているんですけどこのように

play26:26

その画像空間での拡散も出るって言うと

play26:28

潜在食うか今回はクリップ特徴ですね潜在

play26:32

空間というの特徴拡散モデルというものを

play26:35

両方使っていうあいやー面白いかなという

play26:37

ふうに思いました

play26:40

潜在空間での拡散モデルを使うということ

play26:43

自体は割とよくやられていてこれはの画像

play26:47

圧縮してからマーク3モデル学習しようみ

play26:49

たい話が多くて

play26:51

つまりあの計算コストを削減するというの

play26:52

が目的な場合が多いんですけど

play26:55

今回はこの聖戦の生成に使う条件情報って

play27:00

いうのを拡散モデルでたように生成しきる

play27:02

という点で使い道はちょっと違うかなと

play27:04

いうふうに思っていてそこらへんが今回は

play27:07

ちょっと面白かったというふうに思います

play27:11

はいということで以上です

play27:15

play27:17

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?