【AI論文解説】DALL-E 2へ至るまでの道のり:文章に沿った画像を高品質かつ多様に生成 -詳細編-
Summary
TLDRこのビデオでは、拡散モデル(Diffusion Models)に基づいた画像生成技術の進化について解説しています。最初に、拡散過程を利用した生成モデルの基礎から始め、DDPM(Denoising Diffusion Probabilistic Models)の説明へと進みます。次に、高解像度画像生成に挑戦したADM(Augmented Diffusion Models)の紹介、テキストから画像を生成する技術への拡張、そして最終的には、この技術の最先端であるDALL·E 2やCLIPとの統合により、よりリアルで多様な画像生成が可能になったプロセスを詳しく説明しています。生成モデルの仕組み、アーキテクチャの特徴、そして具体的な応用例まで、最新の画像生成技術の概要を網羅的に紹介しています。
Takeaways
- 😀 拡散モデルはノイズに基づいて画像を生成する生成モデルである
- 😊 dpmは拡散モデルの基本形で、逆方向にノイズを取り除いていくことで画像を生成する
- 📝 admはdpmを拡張し、高解像度画像の生成を実現した
- 👩💻 グライドはテキスト条件付きで画像を生成できるようになった
- 📱 アンクリップはグライドを改良し、画像の多様性と品質の両立を図った
- 🖥 アンクリップはデコーダとプライヤーの2つの拡散モデルを組み合わせている
- 📷 デコーダーを使うことで、画像の変換や中間画像の生成が可能
- 🔬 クリップ特徴量の主成分分析から意味的な情報が埋め込まれていることがわかる
- ❌ クリップ特徴量では物体と属性の結びつきがうまく表現できない場合がある
- 🚨 クリップ特徴量に文字列が埋め込まれていないと正しく生成できない
Q & A
拡散モデルとはどのようなものですか?
-拡散モデルは、あるデータが与えられたときに、ガウスノイズを乗せていくことで完全なノイズに至る過程を考えた生成モデルです。この「時間の逆向きにノイズを取り除いていく」ことで、ノイズからデータを生成できると考えています。
DDPMとは何ですか?
-DDPMは拡散モデルの一つで、一つ前の時刻を推定する処理をノイズ除去の処理として学習する方法です。情報量の誤差を最初から最小化しようとするアプローチです。
ADMの特徴は何ですか?
-ADMはモデルをベースとアップサンプラーの2つに分割し、ベースで低解像度画像を生成し、アップサンプラーで高解像度画像を生成するという構成を取っています。これにより高解像度画像生成が可能になっています。
クラス制御拡散モデルとは?
-クラス情報を拡散モデルの入力として与えることで、そのクラスに沿った画像を生成するモデルのことです。ADMではクラス情報と時刻情報を結合してモデルに入力しています。
DDIMは何を目的とした手法ですか?
-DDIMは、クラス識別モデルを使わずに、拡散モデルだけでクラス情報を反映させる手法です。クラス指定の有無によるノイズの差分を利用することで実現しています。
クラスガイダンスとは何ですか?
-指定されたクラスに近づくように、ノイズの結果をずらす処理のことです。クラスファイヤーを使って勾配を計算し、その分だけ結果をずらします。これによりクラス情報を強く反映できます。
DALL-E 2で画像エンコーダーはなぜ必要ですか?
-テキストから直接画像を生成する代わりに、テキストに対応する画像の特徴量を生成し、それをデコーダーで画像に復元することで、品質と多様性のバランスが取れた生成が可能になるためです。
クラスガイダンスとCLIPガイダンスの違いは?
-クラスガイダンスは指定テキストをそのまま使うのに対し、CLIPガイダンスはテキストから特徴量を生成するので、ガイダンスが強くても多様性が下がりにくい特徴があります。
拡散モデルの欠点は?
-拡散モデルはCLIP特徴量を利用しているため、そこで抽出しきれていない情報は正しく生成できない場合がある点です。例えば、物体と属性の結びつきなどの理解が難しいです。
拡散モデルの今後の可能性は?
-特徴量だけでなく、潜在空間での拡散モデル利用が面白いと思います。計算コスト削減という従来の用途とは異なり、条件情報の生成に使うというアイデアは新しいと感じます。
Outlines
😊拡散モデルの基本的な説明
拡散過程と拡散モデルの概念説明。画像生成のためにノイズの除去を繰り返し行う。ddpmというベースラインモデルの紹介。
😃高解像度画像生成のadmについて
2つのdpmで構成されるadmでは、低解像度画像生成後に高解像度画像を生成する。クラス条件付きの低解像度画像生成時にはクラスガイダンスを用いる。
😄テキスト条件付き画像生成のグライド
テキストから画像を生成するためのグライド手法。クラスガイダンスの代わりにクリップの類似度やクラスガイダンスフリーを利用。
🤩アンクリップv2の概要
画像とテキストの変換を行うアンクリップv2では、トランスフォーマーのプライヤーと拡散モデルのデコーダーを使用。グライドと比較して多様性を維持。
😮アンクリップv2の応用
アンクリップv2を用いて、画像編集、画像間の中間画像生成などの応用が可能。クリップ空間の解析にも利用できる。
🤔アンクリップv2の限界
クリップがうまく特徴抽出できない場合、正しく生成できない。属性と物体の結びつきや文字情報の保持などが難しい。
Mindmap
Keywords
💡拡散モデル
💡高解像度画像生成
💡テキスト条件付き画像生成
💡クリップ
💡アンクリップ
💡拡散モデルとアンクリップの融合
💡クラス条件付き画像生成
💡テキストガイダンス
💡拡散モデルの多様な応用
💡計算コスト
Highlights
最初の重要なハイライトのプレースホルダー
2番目の注目すべきハイライトのプレースホルダー
3番目のハイライトのプレースホルダー
4番目のハイライトのプレースホルダー
5番目のハイライトのプレースホルダー
6番目のハイライトのプレースホルダー
7番目のハイライトのプレースホルダー
8番目のハイライトのプレースホルダー
9番目のハイライトのプレースホルダー
10番目のハイライトのプレースホルダー
11番目のハイライトのプレースホルダー
12番目のハイライトのプレースホルダー
13番目のハイライトのプレースホルダー
14番目のハイライトのプレースホルダー
15番目のハイライトのプレースホルダー
Transcripts
いっ
はいということででは打率に怒るまでの道
ということで
この図を左から順番に説明していきます
まずは一番代表的なベースラインである
この dd pm というものを説明し
ます
まずそもそも diffusion モデル
拡散モデルテナーにって話なんですけど
これは拡散過程に基づく生成モデルです
拡散過程というのはあるデータが与えられ
たときに
ジョジョインド位ノイズを乗っけいって
いくことで完全なの維持に至るというよう
な過程を考えてあげますこれを拡散過程と
呼びます
これは別にあの倍増乗っけるだけだので
特にん
なんか学習するものは何もなくて
ドイツ思ってるだけですね
この拡散モデルというのはこれを逆に遡る
ことによってノイズをデータ変換しようと
いうことを考えます
つまり各時刻においてちょっとだけ乗って
いるノイズをちょっとだけ
除去するということをたくさん繰り返し
行えばノイズからデータが生成できる
でしょうということで
えーとこれあの物理現象との新たなロジー
ということで自国という概念が導入されて
います時刻というのはゼロの時がデータで
時刻が過ぎていくことにだんだんデータが
崩壊していってらー gt になった時に
完全にノイズになっているという風に考え
ます
代表的なベースラインジェルこの dd
pm n ジング diffusion
プロバリスティックモデルというのは
このひとつ時刻を戻る処理というのをで
ノイズ処理とし学習しようという方法です
具体的はもう最初に情報というか8二乗
誤差最初かで学習しようという方法です
モデルの入力としては学習データにノイズ
をのっけたものを入力してあげて+時刻
ですね今何時ですかっていうのを入力して
あげて
このだぞに乗っている
ノイズを捨て推定しますこの推定した
ノイズがここでのっけたノイズと窓のか何
ているかと言う事でこれを最小化するよう
にモデルを更新するというような学習を
行います
今回紹介するすべてのモデルはもうこれを
使っているのでちょっと今回はもうこれ
以上説明しませんなんで25支え消化が
いいのかと
いうことを知りたい方はあの別当10日が
あるのでこちらをご覧ください
今回はちょっとアーキテクチャどういうの
を使っているのかが若干重要なので
ちょっとアーキテクチャについて紹介し
ます
でベースああいうネットですね
ノイズ月画像が入ってきてダウンサンプル
してたを散布しダウンサンプルしてって
いうのが入って
深く深いところでちょっと処理があった後
に今度アップ散布したさせしたサンプル4
良いのがありますここがスキップ
コネクションで使ってつながっていると
いうモデルですね
えっと後時刻情報を入れなくちゃいけない
のでここに時刻情報が入ってきます今時刻
情報はエンディングしてアフィンを2回
掛けた後に
各ブロックに入っていきます
この各ブロックではそれぞれこの情報にア
フィンをかけた後に
パーカー減ったフィンをかけることで
チャンネルごと特徴量ごとのスケールと
バイアスを計算して
ここで抽出されている特徴連休をすると
いうことを行います
あのご存知の方フィルムと呼ばれている
技術に相当します
伊藤
先ほどの例は特に何も指定しないでし生成
する場合なんですけどクラスを指定して
生成したい場合はあの
クラスの情報を同様に入れますでこれは
自国と情報へ時刻情報と同様に入れます
具体的にどうやっているかと言うと先ほど
のこの左下の部分で時刻入れてたんです
けどここに暮らすも入れてあげてあの
足し算して同じように使うという家ですね
学習の方法は基本的に変更だしです
これによってへとモデルが入力
であるそのクラス情報を使って色移動する
ということができるようになります
ということでまず dba をご紹介し
ますと
次がですねこの dpm を使って高解像
度画像を生成するためにはどうしたらいい
かということでこの壁を打ち破った adm
と呼ばれるモデルを紹介します
adm ではですねまず今回贈答生成の
ためにモデルを2つに分割しましたこの
ベースとアップ散布等と言われています
それぞれ dpm なんですけどこっちの
低解像度生成の方は低解像の数を生成する
と高解像堂先生の方は
て解像度の画像と
この5月の高解像度のでデータを使って割
増推定すると
いうことを行います
メッセージは力生シティ
低解像度画像を生成したあとこっちの
dpm で公開外画像を生成するという
ことによって最終的に高解像度が生成
できるというものです
ヘッド adm はですねこのモデルを二
つに割ったというのとさらにですねこの低
解像度の生成時のみ
クラスば野外ランスと呼ばれる処理を使っ
て暮らす情報を強く反映させるということ
を行っています
いくら妻野外ラースどんな持つかというと
グラスファイバーを使って各自国ので
ガールズ結果をずらすということを行い
ます
この先ほどのいうネットをで生成し生成し
たでノイズ結果を何か事前学習
海のクラスファイアに入れてあげて暮らす
識別を行います例えばこの赤い部分の
クラスに対応するものを今回を作りたいん
ですと思ったらここの出力が上がるように
したいので
この出力に対応する勾配を計算します
この入力に対する購買を計算したら素が出
ないず結果に達しだするということを行い
ます
猫の足し算された結果を注ぎた自国の下の
子処理使うという処理になりますこれに
よって
まあとりあえず結果ちょっとずらされて
言ってワーク等特定のクラス方向に
とんとんてなぜ結果がよっていくという
ことが行います
えっと adm の性能なんですけどここ
に店でているのはイメージ熱湯の512
かけ512の画像だけ実験機した結果です
けど
非常に高精細な画像が
生成できているということがわかると思い
ます
定量的な評価においてもピぐぎゃんを
上回る妖精のを得ていて
国会増の中画像生成において初めてやを
超える性能を達成したというものをこのに
市に報告しています
はいここまでで高解像度画像が生成できる
ようになりました次はですねテキストに
沿っだーが画像を生成するためにはどうし
たらいいかということを行いたいと思い
ますが
その前に四段が2つあります
一つ目がの最初に紹介したクリップですね
これはも再掲などで簡単に来ますけどその
画像とテキストを直接比較できる特徴空間
に飛ばしてくれるエンコーダーが2つ用意
されましたという話です
これの学習方法について知りたいという方
のまた別の動画にあるのでご覧ください
もう一つの四段がちょっとクラスファーや
古いが入りますと呼ばれるものって
先ほどの蔵スパイダースというのは
クラスファイアーが必要ですね
なんですけどこのクラスファイアーという
のはノイズ月のガードで学習したクラス
識別キーが必要があってこれ別途用意し
なくちゃいけませんなのでこの準備の
コストが高かったという問題がありました
これとくださいは使いたくないということ
で
小倉スパや古いガイダンスでは+ fire
使わずに拡散モデルだけを使って似たよう
なガイダンスを行うにはどうしたらいいか
ということを行っています
具体的にどうやっているかと言うと強度の
いう音と左下時刻とクラスを指定して精製
していたと思うんですけど
クラスを指定して生成するというのと指定
しないで先制するというのをそれぞれ
行なっておきます
s 当然その推定されるノイズがちょっと
違うわけですけど
このクラス条件の有無によって生じた違い
を s 倍に強調して
生成したこのノイズというを
推定されたノイズとして使うということを
行いますこれによって暮らす情報の利用に
よる変化がビス杯強調されて
先ほどのクラスからがイラスト同様に
暮らす情報を強く反映させるということが
できるようになります
はいということで本来のあのテキストから
画像の生成をするにはどうしたらいいかと
いう話をします
ええっとテキストから画像生成したいん
ですけど
指定されたテキストにそうだ造成したいと
いうことで先ほどまでクラス情報を使って
いたんですけどこれのカーリンテキスト
情報使えばいいというのがアプローチに
なります
先ほどの adm ではクラス情報が幕
大きく2つ
使う場所がありました
一つが1情報時刻情報と一緒にモデル入力
してたということですね
この部分に関しては別にテキスト情報でも
同様に可能ですエンディングどうするても
でありますけど基本的にはどう
と良い可能です
もう一つがですね生成時にベースのモデル
において暮らすファイラー具合ランスに
使っていました
ここですねー
こちらに関しては
テキストの場合に対応するこのクラス
ファイアーというのが自明じゃないので
このくらいガイドの仕方に工夫が必要です
この工夫を行ったのがこのグライドと呼ば
れ方法手法です
このくらいグライドではですね
テキストカラーの画像生成が行われるよう
にこの入江も拡張した方法なんですけど
先ほど言ったようにそモデルへのテキスト
入力はグラ8 adm のクラス4個と
ほぼ同様の方法で行っています
一方でガイダンスの方がしては2つの方法
を提案してその性能を検証するということ
を行っています
一つがとくれクリップ大ラスと呼ばれる
もので
アラサーヤの代わりにクリップの類似度を
使った映画遺髪を行うというものです
もう一つが暮らす fire フリーが
イラストさっき紹介したものを使ったもの
です
グリップガイダンスは本当にこのクラス
ファイアの部分をクリップのイメージ
エンコーダーに置き換えたものですね指定
されたテキストに近くなるように公開を
計算して aその分ずらすという処理に
なります
伊藤テキストここを使ったクラス早振り
ガイダンスもこれもあの先ほど紹介した
クラスはや古いがイラストほとんど一緒で
ここをクラスだったのテキストなっている
だけです
はい0レッドグライドの性能なんですけど
ここに示しているのは s 9プロンプト
から生成した結果ですが
このような感じになって言ってチリつめが
今回紹介してないですけどたりバージョン
i ですね
ヘッドを真ん中がクリップ外ラースを使っ
たグライド一番下がクラスはや古い
ガイダンスを使ったグライドです
ちょっとこれ見て伝わるかどうかわかん
ないんですけど
だりーわ結構のっぺりとしたテクスチャー
になってしまうって言うんですけど
ちょっとグライドのほうはかなり細かい
テクスチャまで復元できていて
先制できていて高精細な画像が生成できて
いるということがわかると思います
あとですねチェーンダルいの方は毒いっ
ぷりランキングと呼ばれている処理が築か
れていってたくさん生成してみてあの
clips 公が一番良いものなんか使う
たい
ことを行っているので生成こそが結構高い
んですけどプライドはそのようなことを来
なくても先生がうまくいくということが
わかっています
ちなみにこの2つはどっちがいいかという
と定量的にはこの下側のクラスはや古い街
発を使う方が良いということがわかってい
ます
なぜこの後紹介するアクリップ
ダリのバージョン2の方でもこちらが使わ
れています
えっとちなみにですねこのグライドは局所
的な編集へ拡張することもいけます
このレビューとまぁこの四角の部分
だけをこの
とテキストに合うように
生成してくださいみたいなことはできる
ようになります
エッグどやっているかということ言うと
あの基本的にはその in ペンキのです
ねここの間を埋めるという処理を同時に
行うようにも delphi ちゃんする
ということを行っています
モデルの入力に対してその元画像とこの
領域指定用の四角いますけど
いうものを同時によくするというものです
はいということでえっとそれではだり2
まで辿り着いたので打率7話をします
野菜系ですけど打率で使われているこの案
クリップ呼ばれるものがアイデアっていう
のはクリップの逆処理ですイメージん
コーダーを逆に処理するものをイメージで
コーダーというものを処理カー用意すれば
テキストから画像変換できるでしょって
いうものですね
この一番とにばところでと拡散モデルを
使いますよという話をしました
これからあのそれぞれ説明しますけど
ちょっと順番が前後さんですけど2番の方
から説明します
この2羽のがデコーダーと言われていて
画像のクリップ特徴から画像を生成する
モデルです
これほぼグライドです
グライドでパンクラスはや古いガイダンス
を使ったものなんですけど大きくに就こう
となる点があります一つ目が当然なんです
けどこれ入力が画像のクリップ特徴だった
ので
モデルの入力にがクリップ特徴を追加して
いますグライドってこんな感じだったと
思うんですけど
アンクリックではこんな感じになってます
ね
きっとこの画像のクリック特徴が増えてい
ます
このテキストもいるんかという気持ちに
なると思うんですけどあのベースモデルで
だけこれを入れたほうが性能が良かった
ですみたいな報告をしています
二つ目が
えっとに卵会構成という話をしたと思うん
ですけど
ベースとアップ散布等があったと思います
がアップ3プラウ1つクリアしました
3段階構成なりました64かけ64を生成
して250億円250を生成して1000
人掛け前に銃を生成して最後にはこれは出
てくると
システムになりました
三つ目がアップサンプラーがー no 各種
の話なんですけど
学習時のみ1/4の改造の
部分画像を入力して学習コストを低減する
というテクニック公がありますあの
この例えばこの一番最後のアップ
サンプラーというのは1024かけ
1024なので普通に考えたら1024
かけ生乳ジョンのいうネット学習しなく
ちゃいけない気持ちになると思うんです
けど
実際には
えっと256かけ256の解像度で学習し
ています
でそれでなんでいいのかって話なんです
けど実はこのモデルない
のその空間方向の処理っていうのは
畳み込みとせるファーテンション回しか
ないので
えっと実はえーっと兄の解像度で処理が
可能です
なのでえっと学習コストの低減のために
学習子だけは
を
解像度を落として
推論二世政治だけ高解像ですせーらをする
ということを行っていますこれはあの髪で
はこの論文ではなくてこちらのラテンと
diffusion モデルと呼ばれる本
の論文がヘアしているものです
もう一つの拡散モデルがプライアーモデル
と呼ばれていて
テキストのクリップ特徴から画像の
クリップ特徴を生成するものです
今回は先生対象がクリップの特徴なのでゆ
ネットではなくてトランスフォーマーを
使っています
トランスフォーマーへの入力は個々の価値
ですね基本的にはのグライドと大して
変わらないです
この部分に関しては
ざり2の論文では自己回帰モデルと拡散も
で両方とも試しているんですけど実験的に
はこの拡散モデル方が少し高性能になった
というふうに報告しています
グライドと何が違うのって話なんですけど
ここちょっと半分書簡が入っているので
注意なんですが
私が思うにペット一番大きく違う点はが
ゾーンの生成時に使う条件情報をどうやっ
て表したかという点だと思います
グライドの方は
指定されたテキストそのまま終わりと使っ
ていて
決定的に使っていますなのでガイダンスを
強くかけていくと指定されたテキストに
どんどんほとんど来ようって言っちゃうん
ですね
なのであの
もちろんその指定されたテキストに沿った
がずにはなるんですけどその多様性が大幅
に低下するという問題があります
一方で今回の案クリップの方はテキストに
対応する画像のクリップ特徴拡散モデルを
使って確率的に生成するというアプローチ
をとっています猫の確率的に生成した情報
を使って2ターン目の拡散モデル
レコーダー方でと生成を行うということを
買っていますなのでガイダンスを強くかけ
ても熱湯をかけている相手が確率的に生成
されたものなので多様性が低下しにくいと
いうメリットがあります
これによってアンフリップでは品質画像の
品質と多様性を料理するということができ
ています
はいということであるクリックの性能です
けど先ほど木土曜に ms ここを
プロンプトからの成績結果ですが1段目が
グライドでリーダーの目が合っクリップ
ですまあこれだけ見てもかなり両方とも
すげーなっていうイメージしかないと思う
んですけど
えっと主観評価では写実性山テキスト忠実
性では2つはおおよそ同等くらい
なんですけど画像の多様性という面で
クリップの方が評価が高かったというふう
に報告しています
えっと定量評価法だとまぁ先程言って自己
回帰モデルを使うよりは拡散もで扱った
グリップが一番良かったというふうに報告
しています
先ほど述べた品質を対応性のトレードオフ
の話なんですけど
ガイダンスのスケール各自国税のでノイズ
結果どれだけズラすかの量を公開た時の
性能評価
崩壊示しているんですが
これ横軸がガイダンスを助け
縦軸が
しか評価の結果と客観評価の結果なんです
けど
ライダーさんスケールを大きくしていくと
緑色の線ガーの多様性評価で上に行くほど
クリックが入ってみなんですけど
ガイダンスのスケールを大きくしていくと
グライドよりも服行ったほうがいいって
いうふうに主観評価で評価されていて
かつですねーファーギーが測っても開発を
大きくしていった時の fit の
ダメージが少ないということがわかってい
ますこれにはつまりえっとアンクリップの
方が値は性が低下しにくくて
このポリドフラおくと言っていると言う
ここからちょっと目先のお子様変わるん
ですけど
レコーダーを今回学習したので
実はですねこのクリップのエンコーダーと
アンクいくのデコーダーでこの画像特に
特徴の相互変換が可能
新しいあのこのクリップから画像の方向
だけは拡散モデルなので確率的な処理なん
ですけど1曲変化が可能ですということで
この画像を入力して
特リプ特上にして拡散モデルでは元に戻す
画像に戻すということが可能ですそうする
とこの画像のバリエーションみたいなも
たくさん作ることができます
あとえっと2枚の画像を持ってきて
クリップ特徴にして
ないそうしてこそないそうした特徴量画像
に戻すってことをするとこの2つの画像の
間を作るみたいなことができます
この復元自体が確率的なのでまぁこのよう
にバリエーション3列あるの産業あるの
バリエーションなんですけど
バリエーションを作ることもできます
さらにえっとデコーダーを使ってクリップ
特徴の空間の解析をしようみたいなことも
ちょっとできます
ここでやっているのはクリップの主成分に
どのような情報が生まれ埋め込まれている
かというのを実験的に種類を調べた結果
です
画像から抽出したクリップ特徴の主成分
だけ使ってへとリコーダーで画像復元する
とどんな画像になるかというのを調べてる
んですけど左側の方ほどを使っている次元
数が少なくて
だんだん右に行くほど多くなっていくと
ようなと結果がここに出てるんですけど
いていただくと例えば一番下とかだと
なんか
ヤマノ草原の中に何か動物がいるんです
けど一番左のほうだ動物になくて空と草原
みたいなものしか写ってません
だんだんこの細い
糸山とかえっとこの動物曲が生えてくる
みたいなことがを聞いて
主成分ですねこういう家の大きい次元ほど
画像の新井意味情報というのが埋め込まれ
ているというのが分かるかと思います
もう一つの快適なんですけど越冬タイプ
グラフィックアタックと呼ばれるもの脳
画像の特徴量を調べたものですね
硬くが何かという話ですけどこの青リンゴ
にですね ipod って書いておく等
えっとこのクリップ
この画像の特徴量を出して
テキストのですね photo of
グラニースミス6会おうリンゴの画像って
いうテキストと ipod もかどういう
テキストのどっちに近いって調べると
なんか ipod に近い入っちゃって
クリップ0識別するとらいポッドになっ
ちゃうっていう
直仔グラフィックアタックというタック
あるんですけど
この時のこの画像のぷクリップ特徴って第
何が思い込まれているのっていうのを調べ
た結果です
このクリップ特徴からデコーダーで画像
復元するとこのような感じなんですけど観
ていただいて分かるとおりピポットは出て
きたくて
全部リンゴを釣ってですねりんご兄なんか
文字が書いてあったよ
のが生成されますピザでも一緒ですね
なのでその画像
このタイプグラフィッカータックっていう
のは発生しているんですけど画像を
埋め込んだこのクリップ特徴量自体には
問題はなくて
どっちかって言うとこの後テキストと画像
館でグリップの類似度を測るときに何か
問題起きているんじゃないかということが
今回分かりましたと言う
はいで細胞イミテーションですけど
クリップ特徴をベースとした方法なので
グリップ特徴量でうまく抽出されていない
情報については正しく生成できません
代表涼子に2つ持ってきたんですけど
一つ目がこの属性と物体のバインディング
はまくりから場合うまくいかない場合と
いうものです
ここではですねパレットキューブ恩田
トッポブルーキューブって書いてあるん
ですけど
左側のアンクリッパー全然できていません
一方でこの暗い顔のほうは結構出来ていて
テキストまあそのままトランスフォーマー
に突っ込んでヘッドを抽出した特徴量で
生成しているのでこちらはうまくいったん
ですけどこっちは1回クリップの特徴量が
凝っちゃって言って実はクリップの特徴量
のほうでは
このような
えっと色と物体のばイニングみたいなこと
がうまくできていないんじゃないかとか
いうことがわかります
もう一つのレーガー
文字列をそのまま正しく出力するという
タイプですね笠井んだった星図ティプラー
リングとという風に言ってもこんな
このかで引き締まっていてちゃんと
deep learning って書いて
くれないというものです
これも同様にクリップの特徴量の内部に
ディープラーニングという正しい5時列が
埋め込まれていないということが原因なの
ではないかというふうに言われています
はいということで乙女ですけど
標準的な拡散モデルである dpm から
打率
1クリックと呼ばれる技術までの1社に
ついて紹介しました
えっ図書館ですけどやっぱり生成画像の
インパクトがすごいですねあの
twitter 上でですねもう著者らが
あの
盗んだのやってほしいって方星てあのそれ
を生成するみたいな事やってていろいろ
たくさん公開されている他のこれ見てみる
と非常に面白いと思います
やっとですね性精度計算こそは誰かそうか
なって最初思ったんですねは1024覚醒
に以上とか生成しているので
なんですがこれあの appendix を
見てみるとそうでもないかもって思いまし
たという話なんですけど
ここに載っているのはですねこの率が
ヘッドベースモデルこの列が負担プリン
カップさんから1個目この率が2個目なん
ですけど
このサンプリング steps ですね
さかのぼる時間の数ですけど
米さあ250とかあるんですけどアップ
サンプラー方は27とか15とか
ものすごく少ない数字になっていうかさ
なので高解像度のほうの生成にはあんまり
計算コストを最低いなくて
全体としての計算コストは実はそこまで
大きくない可能性はあるかなというふうに
思いました
最後がこの方法はですねデコーダーと
プライヤーモデルっていう2つの拡散も手
を使いこなしているんですけどこのように
その画像空間での拡散も出るって言うと
潜在食うか今回はクリップ特徴ですね潜在
空間というの特徴拡散モデルというものを
両方使っていうあいやー面白いかなという
ふうに思いました
潜在空間での拡散モデルを使うということ
自体は割とよくやられていてこれはの画像
圧縮してからマーク3モデル学習しようみ
たい話が多くて
つまりあの計算コストを削減するというの
が目的な場合が多いんですけど
今回はこの聖戦の生成に使う条件情報って
いうのを拡散モデルでたように生成しきる
という点で使い道はちょっと違うかなと
いうふうに思っていてそこらへんが今回は
ちょっと面白かったというふうに思います
はいということで以上です
ん
ん
Посмотреть больше похожих видео
Day 29/75 Build Text-to-Video AI with LLM [Explained] OpenAI SORA Stable Diffusion VideoPoet Runway
Instant IDでLoRAが不要になる?【Stable Diffusion WebUIでInstant IDを使い同じ顔の人物を生成する方法】
DreamDiffusion - Thought to Image Generation | Paper Summary
【無料で使える動画生成AI】Stable Video Diffusionってどうなの?PikaやGen-2と比較してみた
【Stable-Diffusion】🔰基本を見直そう!単語vs.文章!?意外な特性 #stablediffusion #強調構文 #BREAK #トークン
Giulio Biroli - Generative AI and Diffusion Models: a Statistical Physics Analysis
5.0 / 5 (0 votes)