【ソニー社内講演】拡散モデルと基盤モデル(2023年研究動向)

nnabla ディープラーニングチャンネル
16 Nov 202318:40

Summary

TLDRThe speaker from Sony Research introduces the relationship between diffusion models and foundation models in AI, focusing on recent trends in 2023. They discuss how diffusion models, used for generating images from text, can be enhanced by foundation models like GPT. The presentation covers four main topics: using foundation models to improve diffusion model performance, incorporating diffusion models into AI agents like chatbots, efficient fine-tuning methods for foundation models, and multimodal data generation across different domains like images, text, and audio. Examples include systems like DALL-E 3 for detailed text-to-image generation and Visual Chat GPT for image manipulation through natural language. The talk concludes with an exploration of unified and composable approaches to multimodal data generation, highlighting the flexibility and efficiency of these advanced AI techniques.

The video is abnormal, and we are working hard to fix it.
Please replace the link and try again.
The video is abnormal, and we are working hard to fix it.
Please replace the link and try again.

Outlines

00:00

📚 Introduction to Diffusion and Foundation Models

The speaker from Sony Research introduces the topic of diffusion models and foundation models, highlighting their interrelation and recent research trends. Diffusion models, a type of generative model often used for text-to-image generation like Stable Diffusion or DALL-E 3, are explained as systems that generate high-fidelity images by reversing the diffusion process. Foundation models, such as GPT, are versatile models trained on diverse data and can be applied to various tasks. The talk will cover trends in 2023 regarding the use of foundation models to enhance diffusion models' performance and the concept of diffusion models as foundation models, capable of solving diverse tasks without fine-tuning. The speaker also briefly explains how diffusion models work, starting from pure noise and gradually removing noise to create clear images using deep neural networks.

05:02

🤖 Enhancing Diffusion Models with Foundation Models

The speaker discusses techniques to enhance the performance of diffusion models by actively utilizing foundation models. One simple method involves using a foundation model as a text encoder to efficiently extract semantic information from text. An example given is the DALL-E 3 system, which specializes in generating detailed images based on text prompts. It uses a large language model to upscale vague text prompts into detailed descriptions, which are then used to guide the diffusion model in creating images. The importance of learning from detailed descriptions to faithfully generate images is emphasized, contrasting with previous models trained on noisy image-caption pairs from the internet.

10:05

🖼️ Integrating Diffusion Models into AI Agents

The presentation introduces Visual Chat GPT, a system that integrates diffusion models into AI agents, allowing for tasks like image editing and answering questions about images using natural language. The system works by calling upon various visual foundation models as needed, based on prompts that define the modules' names, usage, and input/output specifications. However, the system has limitations, such as the number of visual foundation models that can be called is restricted by the prompt book, and it is not optimized for cross-modal generation. Recent proposals include search-based approaches to overcome prompt length limitations and parameter-efficient fine-tuning to specialize in cross-modal generation.

15:08

🎨 Efficient Fine-Tuning and Multimodal Data Generation

The speaker presents methods for efficient and effective fine-tuning of diffusion models as foundation models, mentioning ControlNet, LOLA, and AnimateDiff as popular techniques in 2023. These methods involve fixing the original text-to-image model and adding small new modules that are fine-tuned for specific tasks, such as pose or style transfer, or generating animations. The strategies allow for maximizing the performance of pre-trained models while applying them to new tasks. Additionally, multimodal data generation using diffusion models is explored, with approaches like learning a large unified multimodal diffusion model or a composer approach that collaborates single-modal diffusion models to generate coherent multimodal data. The composer approach is highlighted for its flexibility in combining different modalities and generating coherent results.

Mindmap

Keywords

💡Diffusion Models

Diffusion models are a type of generative model that has gained popularity for tasks such as text-to-image generation. In the script, diffusion models are discussed as a foundation for generating high-fidelity images and are also mentioned in the context of various applications beyond images, such as in audio generation and robotics for motion planning.

💡Foundation Models

Foundation models refer to models that are trained on diverse data and can be used for a variety of tasks, serving as an infrastructural backbone. They are not limited to generative models but can include models like GPT, which are capable of understanding and generating human-like text, as referenced in the script.

💡Stable Diffusion

Stable Diffusion is a specific diffusion model mentioned in the script that is known for its ability to generate images from text descriptions. It represents an advancement in the field of generative models, allowing for the creation of detailed and coherent images based on textual prompts.

💡DALL-E 3

DALL-E 3 is a system specialized in generating detailed images based on text prompts, as mentioned in the script. It is designed to handle vague or less descriptive text inputs by using a large language model to translate them into more detailed descriptions, which are then used to guide the image generation process.

💡AI Agents

AI agents, such as chatbots like Chat GPT mentioned in the script, are systems that can interact with users in a conversational manner. They are being integrated with diffusion models to serve as creative tools, allowing for natural language instructions to guide the generation of images or other content.

💡Fine-tuning

Fine-tuning is a technique used to adapt a pre-trained model to a specific task by making minor adjustments to its parameters. In the context of the script, fine-tuning is discussed as a method to efficiently apply diffusion models to new tasks without the need for extensive retraining.

💡Control Nets

Control Nets, as discussed in the script, are a method for efficiently fine-tuning diffusion models for tasks such as generating images under specific conditions or poses. They involve adding a small module to the existing model that can take in additional information, like pose data, to guide the image generation process.

💡Multimodal Data Generation

Multimodal data generation refers to the creation of data that involves multiple types of content, such as images, text, and audio, simultaneously. The script mentions this concept in the context of diffusion models that can generate coherent outputs across different modalities, although ensuring synchronization between them can be challenging.

💡Composer Approach

The Composer approach, mentioned in the script, is a method for multimodal data generation where single-modal diffusion models collaborate to produce outputs that are coherent across modalities. This approach allows for the flexible combination of different types of input and output modalities, such as generating text from images and audio.

💡Cross-Modal Generation

Cross-modal generation is the process of creating content in one modality based on input from another. For example, generating an image from text or audio from an image. The script discusses the challenges and approaches to optimize systems for cross-modal generation, such as using parameter-efficient fine-tuning.

💡LLM (Large Language Models)

LLMs, or large language models, are AI models that have been trained on vast amounts of text data and can generate human-like text. In the script, LLMs are used in the context of DALL-E 3 to upsample vague text prompts into more detailed descriptions, which are crucial for guiding the generation of detailed images.

Highlights

Introduction to diffusion models and foundation models, their relationship, and recent research trends.

Diffusion models as a type of generative model, particularly for text-to-image generation like Stable Diffusion and DALL-E 3.

Foundation models as versatile models trained on diverse data and applicable to various tasks, such as GPT.

Improving diffusion model performance by using foundation models to understand human instructions.

Diffusion models can solve diverse tasks without fine-tuning or prompting, showcased as foundation models.

Trends in 2023 for using foundation models more actively and integrating diffusion models into AI agents like chatbots.

Proposals for efficient and effective foundation tuning methods that have become widely used.

Introduction to multimodal data generation models that create data spanning across images, audio, and text.

Explanation of diffusion models based on the diffusion process, which involves gradually adding and then removing noise to generate data.

Utilizing deep neural networks to estimate and remove noise at each stage of the diffusion process.

Controlling the type of image generated through text by attaching an encoder module to extract meaning from text.

Integrating foundation models to efficiently extract meaning from text for improved performance in diffusion models.

The DALI-3 system, specialized in generating detailed images from broad text descriptions using foundation models.

Visual Chat GPT, a system that allows image editing and questions about images through natural language.

Limitations of Visual Chat GPT regarding the number of visual foundation models it can call upon and its lack of cross-modal optimization.

Proposals for parameter-efficient fine-tuning and specialized systems for cross-modal generation.

Techniques like ControlNet, LOLA, and Animating Diffusion for efficient fine-tuning and generation of specific objects or styles.

Strategies for multimodal diffusion models that generate coherent data across modalities like text, images, and audio.

Approaches like Composer for collaborative single-modal diffusion models to achieve multimodal data generation.

Examples of multimodal data generation, such as generating video and audio based on text input.

The flexibility of Composer to freely determine input and output modalities for multimodal data generation.

Summary of the presented topics and trends in foundation models and diffusion models for AI.

Transcripts

play00:03

はいソニーリサーチの石井です今日は

play00:06

ディフュージョンモデルズwithor

play00:07

asファンデーションモデルズということ

play00:09

で拡散モデルと基盤モデルの関わりについ

play00:11

て最初の研究動向をご紹介していきたいと

play00:14

思いますよろしくお願いし

play00:16

ますさて今回の話の中心の拡散モデルです

play00:20

けれどもこれは生成モデルの一種で最近

play00:22

最もよく使われているのはテキストからの

play00:24

画像生成かなという風に思います

play00:27

ステーブルディフュージョンですとか最近

play00:28

話題のダリ3とたシステムというのは後ろ

play00:31

で拡散モデルが動くことによってこのよう

play00:33

な高精細な画像の生成を実現してい

play00:38

ますまた画像以外の分野においても音の

play00:42

生成ですとかロボティックスにおける

play00:44

モーションプランニングなどにも使われる

play00:45

例が最近では見られるようになりまし

play00:50

た一方ファウンデーションモデル基盤

play00:53

モデルというのは生成モデルに限らず多様

play00:56

なデータで学習されたモデルであって様々

play01:00

なタスクに使うことができるような

play01:02

インフラのようなモデルのことを基盤

play01:04

モデルという風に呼ぶことがあります短な

play01:08

例ですとGPTなどがえファンデーション

play01:10

モデルの一種であるという風に言われる

play01:12

ことが多いかと思い

play01:15

ますで今回の講演なんですけれども実は

play01:19

同じタイトルで昨年もえっと講演を行い

play01:22

ましたその時の講演の内容はえっと

play01:23

YouTubeの方でご覧いただけ

play01:25

ますでその時の講演ではまず

play01:29

ディフュージョンモデルwith

play01:30

ファンデーションモデルということで

play01:32

ファンデーションモデルを使うことによっ

play01:34

てえっと拡散モデルの性能を底上げできる

play01:37

ということをご紹介しましたもう少し具体

play01:40

的に言うと人間からのインストラクション

play01:42

を理解する力というのを基盤モデルを使う

play01:45

ことによってえっと底上げできるという

play01:47

ことについてご紹介しまし

play01:49

たでもう1つご紹介したのが

play01:52

ディフュージョンモデルas

play01:54

ファンデーションモデルということで拡散

play01:56

モデルというのは実はファイン

play01:58

チューニングを行ったりあるいはフンチニ

play02:00

を行わなくても多様なタスクを解くことが

play02:04

できるということについてご紹介しまし

play02:08

たこれを受けて今回の講演内容なんです

play02:11

けれどもwithとasに分けるという

play02:13

部分は同じで2023年にどのような

play02:16

トレンドだったかということについてご

play02:18

紹介していきたいと思い

play02:20

ますまずはwithファウンデーション

play02:22

モデルについては従来の延長としてさらに

play02:26

積極的に基盤モデルを活用していこうと

play02:28

いう動きがありました

play02:31

さらにAIエージェントいわゆるチャット

play02:33

GPTなどのようなエージェントに拡散

play02:36

モデルを組み込んでいこうえ生成のツール

play02:38

として組み込んでいこうというような流れ

play02:41

がありまし

play02:43

た一方asファンデーションモデルの方に

play02:46

ついてはえ効率的効果的なファン

play02:49

チューニングを行う方法についていくつか

play02:51

提案があり非常に広く用いられるように

play02:54

なりまし

play02:55

たまたマルチモーダルのデータ生成という

play02:59

ことで画像生成だけではなく画像と音

play03:02

あるいは画像とテキストなどのように複数

play03:04

のモデルにまたがるようなデータを同時に

play03:06

生成しようというモデルについていくつか

play03:08

提案がありまし

play03:10

た今回はこれらの4つの話題について簡単

play03:14

にご紹介していきたいと思いますよろしく

play03:16

お願いし

play03:19

ますまず各話題に移る前に簡単に拡散

play03:22

モデルについておさえをりたいと思います

play03:26

拡散モデルというのは拡散過程に基づく

play03:28

データ生成を行うモデルになります拡散

play03:32

過程というのは画像が入ってくるとま少し

play03:35

ずつえノイズを乗っけていって最終的に

play03:39

ピアラノイズに崩壊していくというこの

play03:41

ような過程のことを拡散過程という風に

play03:44

呼び

play03:44

ますで拡散モデルはこの過程を逆にたどる

play03:49

ことによってデータを生成しようという

play03:51

ことを考えますつまりピュアなノイズから

play03:54

始まって少しずつノイズを取り除いていく

play03:57

ことによって最終的に綺麗な画像を得よう

play04:00

というようなことを行い

play04:02

ますこの各段階の少しのノイズの除去と

play04:06

いう部分で機械学習つまりデープ

play04:08

ニューラルネットを使ってえっとこの

play04:10

ノイズ状況を実現するとそういったモデル

play04:13

になってい

play04:17

ますでこの1つ分のえっとノイズ状況の

play04:21

処理を少し詳しく書いたものがこちらに

play04:23

なり

play04:24

ますまたくさんノイズの乗ったデーターが

play04:27

入ってくるとまずデープニューラルネット

play04:30

を使ってここに載っているノイズを推定し

play04:32

てあげ

play04:33

ますそのその後えっとこれをま引き簡単に

play04:36

は引き算することによってま少しノイズを

play04:39

取り除いたデータというものを作り出し

play04:41

ますでこの処理を繰り返すことによって

play04:44

最終的には綺麗な画像を得るというような

play04:46

モデルになってい

play04:48

ますでえっとこのままだと最初のノイズに

play04:52

よってえっとどのような画像が生成される

play04:54

のか全く検討がつかないわけですけれども

play04:57

テキストからの画像生成のようにテキスト

play05:00

でどのような画像が生成されるかを制御し

play05:02

たいという場合にはこのようなモジュール

play05:05

をくっつけますつまりテキストから

play05:07

テキストの意味情報を抽出するような

play05:09

エンコーダーと呼ばれるものを用意して

play05:12

あげて抽出した意味情報をノイズ

play05:14

エスティメートに渡してあげ

play05:17

ますそうするとこのノイズエスティメート

play05:19

は例えばこの例ですと猫なんだなという

play05:22

情報を知りながらノイズを除去できるので

play05:24

えこのテキストに沿ったえっとノイズ除去

play05:27

つまり画像生成を行うことができるになる

play05:30

というそういった仕組みになってい

play05:34

ますはいということでまずは基盤モデルを

play05:37

積極的に活用することによって拡散モデル

play05:40

の性能を底上げしようという技術について

play05:42

ご紹介し

play05:45

ますこの図は先ほど出したテキストからの

play05:48

画像整水で使われているモデルと全く同じ

play05:51

図ですけれども基盤モデルを活用する最も

play05:54

単純な方法というのはこのテキスト

play05:56

エンコーダーの部分に使うというのが

play05:58

えっと最も単純な方法になりますここに

play06:01

おいてえっとテキストから学習された基盤

play06:03

モデルあるいはテキストと画像から学習さ

play06:06

れた基盤モデルを使うことによって非常に

play06:08

効率よく意味情報を取り出すことができる

play06:11

ということを実現でき

play06:13

ますでこれはえっと2022年以前にも

play06:17

あったわけですけどもこれをさらに積極的

play06:20

に活用してもっと効率的に効果的にえっと

play06:24

性能を底上げできないかということが行わ

play06:26

れてき

play06:28

ます

play06:31

まそのような方策を取ったものの1つが

play06:33

このダリー3と呼ばれるシステムになり

play06:36

ます実はダリ3というのは非常に詳細に

play06:40

書かれたプロンプとテキストに沿って画像

play06:43

を生成することに特化したモデルになって

play06:45

play06:46

ますなんですがえっとユーザーが書く

play06:49

インプットのテキストというのは必ずしも

play06:51

非常に詳しいというものではないのでこの

play06:55

詳しくないテキストから非常に詳しい

play06:57

テキストへの翻訳アップリングの部分を

play07:01

えっと基盤モデルラージランゲージモデル

play07:03

ですね大規模の言語モデルを使うことに

play07:05

よって実現しようというのがダリ3の

play07:08

システムになってい

play07:10

ますえっとフロを書いたものがこちらで

play07:13

まずインプットのテキストがあるとこれの

play07:16

アップサンプルですね詳細な記述を行った

play07:19

テキストへの変換をllmが行ってさらに

play07:22

ここからの意味の情報の抽出というのを

play07:25

テキストエンコーダーこちらも基盤モデル

play07:27

を使って行います最終的にこれを使って

play07:30

ディフュージョンモデルで画像を生成する

play07:32

とそういったような流れになってい

play07:36

ますでそもそもなぜダリー3が非常に詳細

play07:40

な記述のテキストに特化したモデルになっ

play07:43

てるかという話なんですけどこのような

play07:45

詳細な記述で学習したモデルというのは実

play07:49

はとテキストにま忠実に沿った画像生成

play07:53

するという能力を学習するために非常に

play07:56

重要であるというのがこのダリ3に受ける

play07:59

ポイントになり

play08:00

ますどういうことかと言うとま今までは

play08:04

このような画像からのテキストからの画像

play08:06

生成のモデルというのはえっと

play08:08

インターネットでスクレープされた

play08:10

イメージキャプションを使って行うことが

play08:12

普でしたなんですけどえっとこのようなジ

play08:15

キャプションというのは非常にまノイジー

play08:18

だったり非常に不正格だったものが多くて

play08:21

このようなえっと画像とテキストのペアで

play08:24

えっとテキストからの画像生成を学習して

play08:26

しまうとまここがま要するに嘘ばっかりな

play08:29

のでこれをあんまり真面目に聞いたモデル

play08:31

というのが学習されずにこのテキストに

play08:35

忠実に沿ったモデルを学習するというのが

play08:37

非常に難しいという問題がありまし

play08:39

た一方でダリ3というのはえっとこのよう

play08:43

なテキストはえっと学習ではあまりもちい

play08:46

ずに非常に詳細な記述を行ったテキストを

play08:49

代わりに使って学習を行ってい

play08:52

ますでこれによってえっとこのような詳細

play08:55

が記述に忠実にそうようなえっとテキスト

play08:58

からの画像生成までを実現できるという

play09:00

ような方法になってい

play09:02

ますまその代わりにえっとこのような術で

play09:06

変換するLMがま水論時に必要になると

play09:08

いったモデルになってい

play09:11

ますはいでは次の話題としてAIエンジン

play09:15

に組み込まれたえ方をご紹介し

play09:19

ますでここで紹介するのはビジュアル

play09:21

チャットGPTと呼ばれるシステムになり

play09:23

ますでえっとどんなことができるかと言う

play09:26

とまチャットGPTみたいな感じなんです

play09:29

けどまビジュアルと名前のついている通り

play09:31

ま画像を渡したりまこの画像の編集という

play09:34

のを自然言語でえっと行うことができたり

play09:38

あるいはこの画像に関する質問オトをま

play09:40

自然言語で実現できるとまそういったよう

play09:43

な題よになってい

play09:45

ますでえっとどうやって実現してるかと言

play09:48

とあのまチャットGPTがここにいるわけ

play09:50

なんですけどえっとこれだけではなくて

play09:53

えっとここでビジュアルファンデーション

play09:54

モデルと呼ばれている例えば画像を生成

play09:57

するステーブルディフュージョンですとか

play09:59

はえっと物体の形質を行うディテクション

play10:01

とよったモデルというのを別用意しておき

play10:04

ますでえっとチャットGPTはえっとこの

play10:07

場合に応じてこのこれらのビジュアル

play10:10

ファンデーションモデルを呼び出すことに

play10:12

よってえっとこれらのタスクを実現してい

play10:17

ますで当然どのように呼び出すかというの

play10:20

が問題になるんですけもこの呼び出し方の

play10:23

情報を全部プロンプトに書いておこうと

play10:26

いうようなエッ方策を取っています具体的

play10:29

に言うとえっとプロンプトにはですねこの

play10:31

モジュールの名前や使い方あるいは

play10:34

インプットアウトプットの定義などを

play10:36

えっと書いておきますでこれをずらっと

play10:38

並べたものをプロンプトに書いておいて

play10:40

えっとそれ通りにえっと呼び出して

play10:42

くださいという風にチャットGPTにお

play10:44

願いしておくと必要な時にえっとこの

play10:47

ビジュアルファウンデーションモデルが

play10:48

呼び出されるというような仕組みになって

play10:51

play10:54

ますでこれ非常に面白いえっとシステムな

play10:58

んですけどま大きく2つリミテーションが

play11:00

存在しますで1つはえっと呼び出せる

play11:04

えっとビジュアルファンデーションモデル

play11:06

の数というのがプロンプト帳で制限されて

play11:09

しまいますまこれはあのプロンプトに書い

play11:10

てあると書という工作を取っている限り

play11:13

どうしても避けられないえっと

play11:15

リミテーションになりますそこでえっと

play11:17

さらに最近では検索ベースのアプローチと

play11:20

いうのがえっと提案されてえとプロンプト

play11:23

の長さに制限を受けないような方法という

play11:25

のが提案されてきてい

play11:27

ますえっともう1つのリミテーションとし

play11:30

てはクロスモーダルな生成にえっと最適化

play11:33

されたシステムにはなってないということ

play11:35

があげられます今回あのビジアえっと

play11:38

チャットGPTが各モデルを適呼び出すと

play11:41

いう方法になっていて特にこのクロス

play11:43

モーダルな水勢に対して最適化を行った

play11:46

ようなシステムにはなっていませんなん

play11:49

ですがこちらもえっとさらに最近ではま

play11:51

パラメーター効率的なファイン

play11:53

チューニングというものをえっと使って

play11:55

このようなクロスモーダルな生成に特化し

play11:58

たま先ほどのようなシステムというものを

play12:00

提案してあげましょうというものがえっと

play12:02

出てきたりしてい

play12:04

ますはいということでえっとwith

play12:07

ファンデーションモデルの話はえっと以上

play12:09

で次はasファンデーションモデルという

play12:11

ことで拡散モデルを基盤モデルとして使う

play12:14

という話についてご紹介し

play12:17

ますまずはえっと効率的効果的にファイン

play12:20

チューニングを行う方法についてご紹介し

play12:23

ますでえっとテキストからの画像生成の

play12:26

モデルというのを効率的に適用しようと

play12:29

イチにしようという方法についてと

play12:31

2023年で最もよく聞いた手法というの

play12:34

はこの3つなんじゃないかなという風に

play12:35

思いますコントロールネットというのは

play12:38

このようなポーズからの画像生成ですとか

play12:40

新しい条件からの画像生成というのを

play12:43

ファインチュンで効率的に学習しようと

play12:45

いう方法になっていますでえっとローラと

play12:48

いうのは特定のオブジェクトや特定の

play12:50

スタイルというものをえっと効率的に学習

play12:53

できるというモデルになってますでさらに

play12:56

アニメートディフというのはまこのように

play12:58

がと

play12:59

特定のオブジェクトや特定のスタイルを

play13:01

学習したモデルを使ってさらに動画を生成

play13:03

しようというモデルになっていますでこれ

play13:06

らの方法というのはま非常に広くえっと

play13:09

使われるようになったんですけど実

play13:11

はと共通した戦略を取った方法になってい

play13:14

ますでどのような戦略かというとえっと

play13:18

オリジナルのTテキストからの画像生成

play13:20

モデルですねいわゆるステーブル

play13:21

ディフュージョンみたいなモデルというの

play13:23

はえっと基本的にはフィックスしますフチ

play13:28

これをそのままンチするのではなくてこれ

play13:31

はえっとフィックスしていてこれとは別に

play13:35

新しくつけた小さいモジュールという方

play13:38

だけをえっとファンチンするというような

play13:40

方法になってい

play13:42

ますどういうことかと言うと例えば

play13:46

コントロールネットの例なんですけどこの

play13:49

点線の部分は先ほどえっとちょっと前に

play13:52

出したテキストからの画像セフで使われ

play13:54

てるモデルの図とえっとほぼそのままの図

play13:56

になっていますでこの部分に関しては

play13:59

えっとコントロールネットではファイン

play14:00

チューニングを行いませんで一方でこの

play14:04

ピンク色のモジュールというのを新しく

play14:06

つけてあげますでこのモジュールは何をし

play14:07

てるかと言うとえっとこの例で言うと

play14:10

ポーズ情報を受け取ってノイズエスティー

play14:12

たーに情報を渡すというようなモジュール

play14:14

になっていますでこのモジュールの部分

play14:17

だけをコントロールネットではファイン

play14:19

チーンを行い

play14:20

ますでこのような戦略を取ることによって

play14:24

ま学習済みのテキストからの画像生成の

play14:26

モデルというのの性能を最大限に生かし

play14:29

ながら新しいえっとタスクへの適用を行う

play14:33

ことができるというような戦略になってい

play14:36

ますでえっとこのような戦略がえっと

play14:39

コントロールネットだけではなくローラー

play14:41

やアニメートディフでもま同様の戦略を

play14:43

取ってえっとこのようなメリットを受け

play14:45

てるというような方法になってい

play14:48

ますでは最後にマルチモーダルデータ生成

play14:51

についてご紹介し

play14:55

ますでえっとマルチモーダルデータに

play14:58

対するする拡散モデルなんですけれどもま

play15:00

例えばテキストが与えられた時にこれに

play15:04

沿ったビデオ動画とえっと音を両方生成し

play15:07

たいというのがえっとマルチモーダルな

play15:10

データ生成になり

play15:11

ますでえっと当然各モーダルに対して

play15:15

えっと拡散モデルというのを用意すること

play15:17

はできるので例えばテキストから動画生成

play15:20

モデルで動画を生成しえっと音生成モデル

play15:24

で音を生成することによって両方生成する

play15:26

ということは可能ですなんですけど当然

play15:30

これえっと独立に生成を行っているので

play15:32

この2つがなんというか噛み合ってるか

play15:34

どうかということは保証できませんつまり

play15:38

このパンダがちゃんとむしゃむしゃした音

play15:39

がこっちに入ってるかあるいはこのビデオ

play15:42

に入ってないようなえっと変な音がこちら

play15:45

でと生成されてないかということについて

play15:48

は強く保証することができませ

play15:51

んなのでえっとアプローチとしてはえっと

play15:55

2つ考えられますで1つは最初に書いた

play15:57

ようにその大きなマルチモーダル拡散

play16:00

モデルというものを学習するというのが

play16:02

えっと考えられますこれユニファイドの

play16:05

アプローチという風にここでは読んでいて

play16:07

ま非常に単純なアプローチなんですけども

play16:09

非常に大きな拡散モデルというのを最初

play16:13

から学習しなきゃいけないということで

play16:15

非常にえっとコストの高いえっと

play16:17

アプローチになっていますで一方でもう1

play16:21

つコンポーザーのアプローチというものは

play16:23

考えられてシングルモーダルの拡散モデル

play16:26

を用意しておいてこの2つがま噛み合った

play16:30

えっとデータを生成するようにと

play16:33

コラボレーションを行う機構をつけて

play16:35

あげるというようなアプローチになってい

play16:37

ますでこちらのアプローチですとま各

play16:40

モーダルの拡散モデルの性能というも最大

play16:43

限に生かすことはできるんですけどこの

play16:46

コラボレーションの気候というのをうまく

play16:48

考えてあげる必要があり

play16:52

ますでえっとこれ左から右まで色んな

play16:55

えっと手法が提案されていてここではあの

play16:58

大きく3つあげたんですけどえっと今回は

play17:00

ちょっと時間の関係上このコーディについ

play17:02

てえっとどんなことができるかということ

play17:05

についてだけご紹介し

play17:07

ますで先ほど述べた通りコーデっていうの

play17:10

はコポーザブルのアプローチを取っている

play17:11

ので各モーダルに対して拡3モデルが定義

play17:14

されていてそれをうまくコラボレーション

play17:16

させることによってマルチモーダルな

play17:17

データ生成を行ってい

play17:19

ますでえっとコーディの面白いところは

play17:23

入力となるモーダルと出力となるモーダル

play17:25

というのをと水論時に自由に決めることが

play17:28

ができます例えばこの例で言うとえっと

play17:32

画像と音から別の音を作るですとかと音

play17:36

からテキストを生成するですとか画像と

play17:40

えっとテキストと音を使って動画を生成

play17:43

するみたいえっと自由に組み合わせること

play17:46

ができ

play17:48

ますでえっとこれ生成してみた例の結果な

play17:52

んです

play17:54

けどまこのような感じです

play17:57

play18:10

はいということでまうまくマルチモーダル

play18:12

のデータ生成はできてるということが

play18:14

分かるかなと思い

play18:19

ますはいということでえっと今回も

play18:21

withファンデーションモデルとas

play18:23

ファンデーションモデルに分けてご紹介し

play18:25

ましたで今回はこの4つのトピックに分け

play18:28

様々な技術についてご紹介しましたはい

play18:32

以上になりますありがとうございまし

play18:38

Rate This

5.0 / 5 (0 votes)

Related Tags
AI ModelsDiffusion ModelsFoundation ModelsText-to-ImageImage GenerationLLMsAI AgentsChatbotsMultimodal DataAI TrendsEfficient Tuning