【ソニー社内講演】拡散モデルと基盤モデル(2023年研究動向)

nnabla ディープラーニングチャンネル
16 Nov 202318:40

Summary

TLDR本次演讲主要介绍了扩散模型(Diffusion Models)和基础模型(Foundation Models)的最新研究进展。扩散模型作为生成模型的一种,常用于文本到图像的生成,如Stable Diffusion和DALL-E 3。基础模型则是一种多任务学习模型,如GPT。演讲者探讨了如何利用基础模型提升扩散模型性能,包括理解人类指令和无需微调即可执行多种任务的能力。同时,还讨论了2023年的趋势,包括将扩散模型集成到AI代理中,以及提高模型效率和多模态数据生成的方法。

Takeaways

  • 😀 石井先生介绍了扩散模型(Diffusion Models)和基础模型(Foundation Models)的结合使用,以及它们在2023年的发展趋势。
  • 🖼️ 扩散模型是生成模型的一种,特别在文本到图像的生成领域中非常流行,如Stable Diffusion和DALL-E 3。
  • 🎵 扩散模型不仅限于图像生成,还可用于声音生成、机器人运动规划等领域。
  • 🌟 基础模型是学习了大量数据的模型,可以用于多种任务,例如GPT等。
  • 🔍 扩散模型通过逆向扩散过程生成数据,从纯噪声开始,逐步去除噪声,最终生成清晰的图像。
  • 📝 通过结合基础模型,可以提升扩散模型的性能,例如通过理解人类指令来提升图像生成的质量和准确性。
  • 🎨 DALL-E 3是一个专门生成详细描述文本的图像的系统,它使用大型语言模型来提升文本到图像的转换质量。
  • 🤖 介绍了Visual Chat GPT系统,这是一个结合了扩散模型和基础模型的AI代理,能够通过自然语言指令进行图像编辑和生成。
  • 🔧 扩散模型作为基础模型使用时,可以通过不同的策略进行微调,如ControlNet、LoRA和AnimateDiffusion等。
  • 🎭 多模态数据生成是扩散模型的另一个应用领域,可以同时生成图像、声音和文本等多种类型的数据。
  • 🎉 最后,介绍了Composer方法,这是一种多模态扩散模型的合作机制,允许不同模态的数据生成模型协同工作,生成一致性的数据。

Q & A

  • 什么是扩散模型(Diffusion Models)?

    -扩散模型是一种生成模型,它基于扩散过程来生成数据。在图像生成方面,扩散过程是指逐渐向图像添加噪声,直至图像完全变成噪声,然后模型逆向这个过程,从纯噪声开始逐步去除噪声,最终生成清晰的图像。

  • 扩散模型在哪些领域有应用?

    -扩散模型不仅在图像生成领域有应用,如文本到图像的生成,还在声音生成、机器人学中的动作规划等多个领域有所应用。

  • 什么是基盘模型(Foundation Models)?

    -基盘模型是指那些不仅用于生成模型,而且能够通过多样的数据进行学习,并在多种任务中使用的模型,如GPT等大型语言模型。

  • 扩散模型和基盘模型的结合有哪些优势?

    -结合基盘模型可以提升扩散模型的性能,例如通过基盘模型理解人类的指令来提升图像生成的质量和准确性。

  • 扩散模型是如何实现从文本生成图像的?

    -扩散模型通过结合文本编码器来实现从文本生成图像。文本编码器提取文本的含义信息,并将其传递给扩散模型,指导噪声的去除过程,从而生成与文本描述相符的图像。

  • 什么是DALL-E 3系统,它有什么特点?

    -DALL-E 3是一个专门用于根据详细文本描述生成图像的系统。它使用大型语言模型来将用户输入的文本转换成更详细的描述,并结合文本编码器和扩散模型来生成图像。

  • AI引擎如何结合扩散模型来提供生成工具?

    -AI引擎如Visual Chat GPT可以结合扩散模型和其他视觉基盘模型,通过自然语言指令来实现图像的生成、编辑和相关问题的解答。

  • 扩散模型在AI引擎中的应用有哪些限制?

    -扩散模型在AI引擎中的应用受限于能够调用的视觉基盘模型的数量,以及这些模型是否针对跨模态生成进行了优化。

  • 什么是ControlNet,它在扩散模型中的应用是什么?

    -ControlNet是一种用于图像生成的扩散模型,它通过添加一个小模块来进行特定条件的微调,而不是对整个模型进行微调,从而实现对新任务的快速适应。

  • 多模态数据生成在扩散模型中是如何处理的?

    -多模态数据生成可以通过两种方式实现:一种是学习一个统一的大型多模态扩散模型,另一种是通过定义各个模态的扩散模型并让它们协作生成数据,后者被称为Composer方法。

  • Composer方法在多模态数据生成中的优势是什么?

    -Composer方法允许灵活地组合不同的输入和输出模态,例如,可以生成图像和声音,或者从声音生成文本,通过各模态扩散模型的协作来实现多模态数据的生成。

Outlines

00:00

📚 扩散模型与基础模型的研究进展

石井先生介绍了扩散模型(diffusion models)与基础模型(foundation models)的最新研究动态。扩散模型是一种生成模型,常用于文本到图像的生成,例如Stable Diffusion和DALL-E 3。基础模型则是指广泛学习多种数据的模型,如GPT。此外,还讨论了扩散模型与基础模型结合使用以提升性能的方法,以及扩散模型无需微调即可解决多种任务的能力。

05:02

🤖 利用基础模型提升扩散模型性能

本段介绍了如何通过积极利用基础模型来提升扩散模型的性能。例如,使用文本学习的基础模型来提取文本信息,进而控制图像生成的方向。特别提到了DALL-E 3系统,这是一个专门生成详细描述文本的图像的模型,它使用大型语言模型来提升文本到详细描述的转换能力。

10:05

🖼️ AI引擎集成扩散模型的创新应用

介绍了名为Visual Chat GPT的系统,这是一个可以进行图像编辑和回答图像相关问题的AI聊天系统。该系统通过调用不同的视觉基础模型来实现各种任务,如图像生成和检测。同时指出了该系统存在的两个限制:一是能调用的视觉基础模型数量受限于提示的长度,二是系统尚未针对跨模态生成进行优化。

15:08

🎨 作为基础模型的扩散模型及其多模态数据生成

讨论了将扩散模型作为基础模型使用的方法,包括有效进行微调的策略,如ControlNet、LoRA和AnimateDiffusion等。这些方法通过在原始模型上添加小模块并仅对这些模块进行微调来实现特定任务的高效学习。最后,介绍了多模态数据生成的概念,包括统一的大型多模态扩散模型和灵活的单模态扩散模型组合方法,如Coordino,它可以根据不同的输入和输出模态自由组合生成多模态数据。

Mindmap

Keywords

💡拡散モデル

拡散モデル(扩散模型)是一种基于扩散过程的数据生成模型,它逆向追踪扩散过程来生成数据。在视频中,扩散模型被用于生成高精细度的图像,如Stable Diffusion和DALL-E 3等系统。扩散过程指的是图像逐渐被噪声覆盖直至完全崩解的过程,而扩散模型则通过逐步去除噪声来生成清晰的图像。

💡生成モデル

生成モデル(生成模型)是一类能够生成新数据实例的机器学习模型,如文本、图像或声音。在视频中,生成模型被用于多种应用,包括文本到图像的生成、声音生成以及机器人技术中的动作规划等。生成模型能够通过学习大量数据的分布来创建新的数据实例。

💡テキストからの画像生成

テキストからの画像生成(文本到图像的生成)是一种技术,它允许模型根据文本描述生成相应的图像。视频中提到了Stable Diffusion和DALL-E 3等系统,它们能够根据文本提示生成高精細度的图像,展示了扩散模型在文本到图像生成领域的应用。

💡基盤モデル

基盤モデル(基础模型)是指在多种数据上训练并能够应用于多种任务的模型,如GPT等。视频中提到,基础模型可以与扩散模型结合使用,以提升生成模型的性能,例如通过理解人类的指令来提升图像生成的质量和准确性。

💡AIエージェント

AIエージェント(AI代理)是指能够执行特定任务或服务的人工智能系统,如聊天机器人。视频中提到的Visual Chat GPT是一个例子,它结合了扩散模型和基础模型,能够通过自然语言处理图像编辑和生成任务,展示了AI代理在视觉任务中的应用。

💡ファインチューニング

ファインチューニング(微调)是一种技术,它涉及对预训练模型进行额外的训练,以适应特定的任务或数据集。视频中提到了几种微调方法,如ControlNet、LoRA和AnimateDiffusion,它们通过在原始模型上添加小模块并对其进行微调,以实现特定条件下的图像生成。

💡マルチモーダルデータ生成

マルチモーダルデータ生成(多模态数据生成)是指生成涉及多种类型数据的任务,如同时生成图像和声音。视频中提到了Cordy系统,它通过定义单模态扩散模型并使它们协作,来实现多模态数据的生成,如根据图像和声音生成视频。

💡プロンプト

プロンプト(提示)在AI领域中通常指引导模型生成特定输出的文本或指令。视频中提到,在Visual Chat GPT系统中,通过编写详细的提示来指导模型如何调用不同的视觉基础模型,以完成图像编辑和生成等任务。

💡テキストエンコーダー

テキストエンコーダー(文本编码器)是一种将文本转换为模型可以理解的格式的工具。在扩散模型中,文本编码器用于提取文本的含义信息,并将其传递给扩散过程,以控制图像的生成,如根据文本描述生成相应的图像。

💡ノイズエスティメート

ノイズエスティメート(噪声估计)是扩散模型中的一个步骤,它涉及估计数据中的噪声水平。在生成图像的过程中,模型会逐步减少噪声,最终生成清晰的图像。视频中提到了如何通过文本编码器将文本信息用于噪声估计,以生成与文本描述相符的图像。

Highlights

索尼研究的石井先生介绍了扩散模型和基础模型的关系及其在不同领域的应用。

扩散模型是生成模型的一种,常用于文本到图像的生成,如Stable Diffusion和DALL-E 3。

基础模型是多任务学习的模型,可以应用于多种不同的任务,例如GPT。

介绍了扩散模型的性能可以通过使用基础模型来提升。

DALL-E 3系统专注于根据文本生成详细图像,使用大型语言模型进行文本的翻译和增强。

扩散模型可以应用于除图像外的其他领域,如声音生成和机器人运动规划。

Visual Chat GPT系统结合了扩散模型和基础模型,实现图像编辑和相关问题的自然语言处理。

介绍了如何通过在扩散模型中加入特定模块来实现特定任务的高效学习,例如ControlNet、LoRa和AnimateDiffusion。

ControlNet、LoRa和AnimateDiffusion等技术通过在原有模型基础上添加小模块进行微调,以适应新任务。

提出了多模态数据生成的概念,即同时生成图像、声音和文本等多种类型的数据。

介绍了统一的多模态扩散模型和组件化的方法,如Cordy,允许不同模态之间的协作生成数据。

Cordy方法允许自由组合输入和输出模态,以生成多模态数据。

讨论了扩散模型的基本原理,即从纯噪声开始逐步去除噪声以生成清晰的数据。

扩散模型通过深度神经网络预测噪声并逐步减少噪声,实现数据生成。

通过文本编码器模块,扩散模型可以控制生成图像的内容,以符合文本描述。

介绍了Visual Chat GPT如何通过自然语言指令调用不同的视觉基础模型来完成任务。

讨论了Visual Chat GPT的局限性,包括可调用的视觉基础模型数量有限和未针对跨模态生成进行优化。

提出了使用搜索基础的方法来克服Visual Chat GPT的局限性,允许更灵活的模型调用。

介绍了使用参数效率的微调方法来优化跨模态生成系统。

Transcripts

play00:03

はいソニーリサーチの石井です今日は

play00:06

ディフュージョンモデルズwithor

play00:07

asファンデーションモデルズということ

play00:09

で拡散モデルと基盤モデルの関わりについ

play00:11

て最初の研究動向をご紹介していきたいと

play00:14

思いますよろしくお願いし

play00:16

ますさて今回の話の中心の拡散モデルです

play00:20

けれどもこれは生成モデルの一種で最近

play00:22

最もよく使われているのはテキストからの

play00:24

画像生成かなという風に思います

play00:27

ステーブルディフュージョンですとか最近

play00:28

話題のダリ3とたシステムというのは後ろ

play00:31

で拡散モデルが動くことによってこのよう

play00:33

な高精細な画像の生成を実現してい

play00:38

ますまた画像以外の分野においても音の

play00:42

生成ですとかロボティックスにおける

play00:44

モーションプランニングなどにも使われる

play00:45

例が最近では見られるようになりまし

play00:50

た一方ファウンデーションモデル基盤

play00:53

モデルというのは生成モデルに限らず多様

play00:56

なデータで学習されたモデルであって様々

play01:00

なタスクに使うことができるような

play01:02

インフラのようなモデルのことを基盤

play01:04

モデルという風に呼ぶことがあります短な

play01:08

例ですとGPTなどがえファンデーション

play01:10

モデルの一種であるという風に言われる

play01:12

ことが多いかと思い

play01:15

ますで今回の講演なんですけれども実は

play01:19

同じタイトルで昨年もえっと講演を行い

play01:22

ましたその時の講演の内容はえっと

play01:23

YouTubeの方でご覧いただけ

play01:25

ますでその時の講演ではまず

play01:29

ディフュージョンモデルwith

play01:30

ファンデーションモデルということで

play01:32

ファンデーションモデルを使うことによっ

play01:34

てえっと拡散モデルの性能を底上げできる

play01:37

ということをご紹介しましたもう少し具体

play01:40

的に言うと人間からのインストラクション

play01:42

を理解する力というのを基盤モデルを使う

play01:45

ことによってえっと底上げできるという

play01:47

ことについてご紹介しまし

play01:49

たでもう1つご紹介したのが

play01:52

ディフュージョンモデルas

play01:54

ファンデーションモデルということで拡散

play01:56

モデルというのは実はファイン

play01:58

チューニングを行ったりあるいはフンチニ

play02:00

を行わなくても多様なタスクを解くことが

play02:04

できるということについてご紹介しまし

play02:08

たこれを受けて今回の講演内容なんです

play02:11

けれどもwithとasに分けるという

play02:13

部分は同じで2023年にどのような

play02:16

トレンドだったかということについてご

play02:18

紹介していきたいと思い

play02:20

ますまずはwithファウンデーション

play02:22

モデルについては従来の延長としてさらに

play02:26

積極的に基盤モデルを活用していこうと

play02:28

いう動きがありました

play02:31

さらにAIエージェントいわゆるチャット

play02:33

GPTなどのようなエージェントに拡散

play02:36

モデルを組み込んでいこうえ生成のツール

play02:38

として組み込んでいこうというような流れ

play02:41

がありまし

play02:43

た一方asファンデーションモデルの方に

play02:46

ついてはえ効率的効果的なファン

play02:49

チューニングを行う方法についていくつか

play02:51

提案があり非常に広く用いられるように

play02:54

なりまし

play02:55

たまたマルチモーダルのデータ生成という

play02:59

ことで画像生成だけではなく画像と音

play03:02

あるいは画像とテキストなどのように複数

play03:04

のモデルにまたがるようなデータを同時に

play03:06

生成しようというモデルについていくつか

play03:08

提案がありまし

play03:10

た今回はこれらの4つの話題について簡単

play03:14

にご紹介していきたいと思いますよろしく

play03:16

お願いし

play03:19

ますまず各話題に移る前に簡単に拡散

play03:22

モデルについておさえをりたいと思います

play03:26

拡散モデルというのは拡散過程に基づく

play03:28

データ生成を行うモデルになります拡散

play03:32

過程というのは画像が入ってくるとま少し

play03:35

ずつえノイズを乗っけていって最終的に

play03:39

ピアラノイズに崩壊していくというこの

play03:41

ような過程のことを拡散過程という風に

play03:44

呼び

play03:44

ますで拡散モデルはこの過程を逆にたどる

play03:49

ことによってデータを生成しようという

play03:51

ことを考えますつまりピュアなノイズから

play03:54

始まって少しずつノイズを取り除いていく

play03:57

ことによって最終的に綺麗な画像を得よう

play04:00

というようなことを行い

play04:02

ますこの各段階の少しのノイズの除去と

play04:06

いう部分で機械学習つまりデープ

play04:08

ニューラルネットを使ってえっとこの

play04:10

ノイズ状況を実現するとそういったモデル

play04:13

になってい

play04:17

ますでこの1つ分のえっとノイズ状況の

play04:21

処理を少し詳しく書いたものがこちらに

play04:23

なり

play04:24

ますまたくさんノイズの乗ったデーターが

play04:27

入ってくるとまずデープニューラルネット

play04:30

を使ってここに載っているノイズを推定し

play04:32

てあげ

play04:33

ますそのその後えっとこれをま引き簡単に

play04:36

は引き算することによってま少しノイズを

play04:39

取り除いたデータというものを作り出し

play04:41

ますでこの処理を繰り返すことによって

play04:44

最終的には綺麗な画像を得るというような

play04:46

モデルになってい

play04:48

ますでえっとこのままだと最初のノイズに

play04:52

よってえっとどのような画像が生成される

play04:54

のか全く検討がつかないわけですけれども

play04:57

テキストからの画像生成のようにテキスト

play05:00

でどのような画像が生成されるかを制御し

play05:02

たいという場合にはこのようなモジュール

play05:05

をくっつけますつまりテキストから

play05:07

テキストの意味情報を抽出するような

play05:09

エンコーダーと呼ばれるものを用意して

play05:12

あげて抽出した意味情報をノイズ

play05:14

エスティメートに渡してあげ

play05:17

ますそうするとこのノイズエスティメート

play05:19

は例えばこの例ですと猫なんだなという

play05:22

情報を知りながらノイズを除去できるので

play05:24

えこのテキストに沿ったえっとノイズ除去

play05:27

つまり画像生成を行うことができるになる

play05:30

というそういった仕組みになってい

play05:34

ますはいということでまずは基盤モデルを

play05:37

積極的に活用することによって拡散モデル

play05:40

の性能を底上げしようという技術について

play05:42

ご紹介し

play05:45

ますこの図は先ほど出したテキストからの

play05:48

画像整水で使われているモデルと全く同じ

play05:51

図ですけれども基盤モデルを活用する最も

play05:54

単純な方法というのはこのテキスト

play05:56

エンコーダーの部分に使うというのが

play05:58

えっと最も単純な方法になりますここに

play06:01

おいてえっとテキストから学習された基盤

play06:03

モデルあるいはテキストと画像から学習さ

play06:06

れた基盤モデルを使うことによって非常に

play06:08

効率よく意味情報を取り出すことができる

play06:11

ということを実現でき

play06:13

ますでこれはえっと2022年以前にも

play06:17

あったわけですけどもこれをさらに積極的

play06:20

に活用してもっと効率的に効果的にえっと

play06:24

性能を底上げできないかということが行わ

play06:26

れてき

play06:28

ます

play06:31

まそのような方策を取ったものの1つが

play06:33

このダリー3と呼ばれるシステムになり

play06:36

ます実はダリ3というのは非常に詳細に

play06:40

書かれたプロンプとテキストに沿って画像

play06:43

を生成することに特化したモデルになって

play06:45

play06:46

ますなんですがえっとユーザーが書く

play06:49

インプットのテキストというのは必ずしも

play06:51

非常に詳しいというものではないのでこの

play06:55

詳しくないテキストから非常に詳しい

play06:57

テキストへの翻訳アップリングの部分を

play07:01

えっと基盤モデルラージランゲージモデル

play07:03

ですね大規模の言語モデルを使うことに

play07:05

よって実現しようというのがダリ3の

play07:08

システムになってい

play07:10

ますえっとフロを書いたものがこちらで

play07:13

まずインプットのテキストがあるとこれの

play07:16

アップサンプルですね詳細な記述を行った

play07:19

テキストへの変換をllmが行ってさらに

play07:22

ここからの意味の情報の抽出というのを

play07:25

テキストエンコーダーこちらも基盤モデル

play07:27

を使って行います最終的にこれを使って

play07:30

ディフュージョンモデルで画像を生成する

play07:32

とそういったような流れになってい

play07:36

ますでそもそもなぜダリー3が非常に詳細

play07:40

な記述のテキストに特化したモデルになっ

play07:43

てるかという話なんですけどこのような

play07:45

詳細な記述で学習したモデルというのは実

play07:49

はとテキストにま忠実に沿った画像生成

play07:53

するという能力を学習するために非常に

play07:56

重要であるというのがこのダリ3に受ける

play07:59

ポイントになり

play08:00

ますどういうことかと言うとま今までは

play08:04

このような画像からのテキストからの画像

play08:06

生成のモデルというのはえっと

play08:08

インターネットでスクレープされた

play08:10

イメージキャプションを使って行うことが

play08:12

普でしたなんですけどえっとこのようなジ

play08:15

キャプションというのは非常にまノイジー

play08:18

だったり非常に不正格だったものが多くて

play08:21

このようなえっと画像とテキストのペアで

play08:24

えっとテキストからの画像生成を学習して

play08:26

しまうとまここがま要するに嘘ばっかりな

play08:29

のでこれをあんまり真面目に聞いたモデル

play08:31

というのが学習されずにこのテキストに

play08:35

忠実に沿ったモデルを学習するというのが

play08:37

非常に難しいという問題がありまし

play08:39

た一方でダリ3というのはえっとこのよう

play08:43

なテキストはえっと学習ではあまりもちい

play08:46

ずに非常に詳細な記述を行ったテキストを

play08:49

代わりに使って学習を行ってい

play08:52

ますでこれによってえっとこのような詳細

play08:55

が記述に忠実にそうようなえっとテキスト

play08:58

からの画像生成までを実現できるという

play09:00

ような方法になってい

play09:02

ますまその代わりにえっとこのような術で

play09:06

変換するLMがま水論時に必要になると

play09:08

いったモデルになってい

play09:11

ますはいでは次の話題としてAIエンジン

play09:15

に組み込まれたえ方をご紹介し

play09:19

ますでここで紹介するのはビジュアル

play09:21

チャットGPTと呼ばれるシステムになり

play09:23

ますでえっとどんなことができるかと言う

play09:26

とまチャットGPTみたいな感じなんです

play09:29

けどまビジュアルと名前のついている通り

play09:31

ま画像を渡したりまこの画像の編集という

play09:34

のを自然言語でえっと行うことができたり

play09:38

あるいはこの画像に関する質問オトをま

play09:40

自然言語で実現できるとまそういったよう

play09:43

な題よになってい

play09:45

ますでえっとどうやって実現してるかと言

play09:48

とあのまチャットGPTがここにいるわけ

play09:50

なんですけどえっとこれだけではなくて

play09:53

えっとここでビジュアルファンデーション

play09:54

モデルと呼ばれている例えば画像を生成

play09:57

するステーブルディフュージョンですとか

play09:59

はえっと物体の形質を行うディテクション

play10:01

とよったモデルというのを別用意しておき

play10:04

ますでえっとチャットGPTはえっとこの

play10:07

場合に応じてこのこれらのビジュアル

play10:10

ファンデーションモデルを呼び出すことに

play10:12

よってえっとこれらのタスクを実現してい

play10:17

ますで当然どのように呼び出すかというの

play10:20

が問題になるんですけもこの呼び出し方の

play10:23

情報を全部プロンプトに書いておこうと

play10:26

いうようなエッ方策を取っています具体的

play10:29

に言うとえっとプロンプトにはですねこの

play10:31

モジュールの名前や使い方あるいは

play10:34

インプットアウトプットの定義などを

play10:36

えっと書いておきますでこれをずらっと

play10:38

並べたものをプロンプトに書いておいて

play10:40

えっとそれ通りにえっと呼び出して

play10:42

くださいという風にチャットGPTにお

play10:44

願いしておくと必要な時にえっとこの

play10:47

ビジュアルファウンデーションモデルが

play10:48

呼び出されるというような仕組みになって

play10:51

play10:54

ますでこれ非常に面白いえっとシステムな

play10:58

んですけどま大きく2つリミテーションが

play11:00

存在しますで1つはえっと呼び出せる

play11:04

えっとビジュアルファンデーションモデル

play11:06

の数というのがプロンプト帳で制限されて

play11:09

しまいますまこれはあのプロンプトに書い

play11:10

てあると書という工作を取っている限り

play11:13

どうしても避けられないえっと

play11:15

リミテーションになりますそこでえっと

play11:17

さらに最近では検索ベースのアプローチと

play11:20

いうのがえっと提案されてえとプロンプト

play11:23

の長さに制限を受けないような方法という

play11:25

のが提案されてきてい

play11:27

ますえっともう1つのリミテーションとし

play11:30

てはクロスモーダルな生成にえっと最適化

play11:33

されたシステムにはなってないということ

play11:35

があげられます今回あのビジアえっと

play11:38

チャットGPTが各モデルを適呼び出すと

play11:41

いう方法になっていて特にこのクロス

play11:43

モーダルな水勢に対して最適化を行った

play11:46

ようなシステムにはなっていませんなん

play11:49

ですがこちらもえっとさらに最近ではま

play11:51

パラメーター効率的なファイン

play11:53

チューニングというものをえっと使って

play11:55

このようなクロスモーダルな生成に特化し

play11:58

たま先ほどのようなシステムというものを

play12:00

提案してあげましょうというものがえっと

play12:02

出てきたりしてい

play12:04

ますはいということでえっとwith

play12:07

ファンデーションモデルの話はえっと以上

play12:09

で次はasファンデーションモデルという

play12:11

ことで拡散モデルを基盤モデルとして使う

play12:14

という話についてご紹介し

play12:17

ますまずはえっと効率的効果的にファイン

play12:20

チューニングを行う方法についてご紹介し

play12:23

ますでえっとテキストからの画像生成の

play12:26

モデルというのを効率的に適用しようと

play12:29

イチにしようという方法についてと

play12:31

2023年で最もよく聞いた手法というの

play12:34

はこの3つなんじゃないかなという風に

play12:35

思いますコントロールネットというのは

play12:38

このようなポーズからの画像生成ですとか

play12:40

新しい条件からの画像生成というのを

play12:43

ファインチュンで効率的に学習しようと

play12:45

いう方法になっていますでえっとローラと

play12:48

いうのは特定のオブジェクトや特定の

play12:50

スタイルというものをえっと効率的に学習

play12:53

できるというモデルになってますでさらに

play12:56

アニメートディフというのはまこのように

play12:58

がと

play12:59

特定のオブジェクトや特定のスタイルを

play13:01

学習したモデルを使ってさらに動画を生成

play13:03

しようというモデルになっていますでこれ

play13:06

らの方法というのはま非常に広くえっと

play13:09

使われるようになったんですけど実

play13:11

はと共通した戦略を取った方法になってい

play13:14

ますでどのような戦略かというとえっと

play13:18

オリジナルのTテキストからの画像生成

play13:20

モデルですねいわゆるステーブル

play13:21

ディフュージョンみたいなモデルというの

play13:23

はえっと基本的にはフィックスしますフチ

play13:28

これをそのままンチするのではなくてこれ

play13:31

はえっとフィックスしていてこれとは別に

play13:35

新しくつけた小さいモジュールという方

play13:38

だけをえっとファンチンするというような

play13:40

方法になってい

play13:42

ますどういうことかと言うと例えば

play13:46

コントロールネットの例なんですけどこの

play13:49

点線の部分は先ほどえっとちょっと前に

play13:52

出したテキストからの画像セフで使われ

play13:54

てるモデルの図とえっとほぼそのままの図

play13:56

になっていますでこの部分に関しては

play13:59

えっとコントロールネットではファイン

play14:00

チューニングを行いませんで一方でこの

play14:04

ピンク色のモジュールというのを新しく

play14:06

つけてあげますでこのモジュールは何をし

play14:07

てるかと言うとえっとこの例で言うと

play14:10

ポーズ情報を受け取ってノイズエスティー

play14:12

たーに情報を渡すというようなモジュール

play14:14

になっていますでこのモジュールの部分

play14:17

だけをコントロールネットではファイン

play14:19

チーンを行い

play14:20

ますでこのような戦略を取ることによって

play14:24

ま学習済みのテキストからの画像生成の

play14:26

モデルというのの性能を最大限に生かし

play14:29

ながら新しいえっとタスクへの適用を行う

play14:33

ことができるというような戦略になってい

play14:36

ますでえっとこのような戦略がえっと

play14:39

コントロールネットだけではなくローラー

play14:41

やアニメートディフでもま同様の戦略を

play14:43

取ってえっとこのようなメリットを受け

play14:45

てるというような方法になってい

play14:48

ますでは最後にマルチモーダルデータ生成

play14:51

についてご紹介し

play14:55

ますでえっとマルチモーダルデータに

play14:58

対するする拡散モデルなんですけれどもま

play15:00

例えばテキストが与えられた時にこれに

play15:04

沿ったビデオ動画とえっと音を両方生成し

play15:07

たいというのがえっとマルチモーダルな

play15:10

データ生成になり

play15:11

ますでえっと当然各モーダルに対して

play15:15

えっと拡散モデルというのを用意すること

play15:17

はできるので例えばテキストから動画生成

play15:20

モデルで動画を生成しえっと音生成モデル

play15:24

で音を生成することによって両方生成する

play15:26

ということは可能ですなんですけど当然

play15:30

これえっと独立に生成を行っているので

play15:32

この2つがなんというか噛み合ってるか

play15:34

どうかということは保証できませんつまり

play15:38

このパンダがちゃんとむしゃむしゃした音

play15:39

がこっちに入ってるかあるいはこのビデオ

play15:42

に入ってないようなえっと変な音がこちら

play15:45

でと生成されてないかということについて

play15:48

は強く保証することができませ

play15:51

んなのでえっとアプローチとしてはえっと

play15:55

2つ考えられますで1つは最初に書いた

play15:57

ようにその大きなマルチモーダル拡散

play16:00

モデルというものを学習するというのが

play16:02

えっと考えられますこれユニファイドの

play16:05

アプローチという風にここでは読んでいて

play16:07

ま非常に単純なアプローチなんですけども

play16:09

非常に大きな拡散モデルというのを最初

play16:13

から学習しなきゃいけないということで

play16:15

非常にえっとコストの高いえっと

play16:17

アプローチになっていますで一方でもう1

play16:21

つコンポーザーのアプローチというものは

play16:23

考えられてシングルモーダルの拡散モデル

play16:26

を用意しておいてこの2つがま噛み合った

play16:30

えっとデータを生成するようにと

play16:33

コラボレーションを行う機構をつけて

play16:35

あげるというようなアプローチになってい

play16:37

ますでこちらのアプローチですとま各

play16:40

モーダルの拡散モデルの性能というも最大

play16:43

限に生かすことはできるんですけどこの

play16:46

コラボレーションの気候というのをうまく

play16:48

考えてあげる必要があり

play16:52

ますでえっとこれ左から右まで色んな

play16:55

えっと手法が提案されていてここではあの

play16:58

大きく3つあげたんですけどえっと今回は

play17:00

ちょっと時間の関係上このコーディについ

play17:02

てえっとどんなことができるかということ

play17:05

についてだけご紹介し

play17:07

ますで先ほど述べた通りコーデっていうの

play17:10

はコポーザブルのアプローチを取っている

play17:11

ので各モーダルに対して拡3モデルが定義

play17:14

されていてそれをうまくコラボレーション

play17:16

させることによってマルチモーダルな

play17:17

データ生成を行ってい

play17:19

ますでえっとコーディの面白いところは

play17:23

入力となるモーダルと出力となるモーダル

play17:25

というのをと水論時に自由に決めることが

play17:28

ができます例えばこの例で言うとえっと

play17:32

画像と音から別の音を作るですとかと音

play17:36

からテキストを生成するですとか画像と

play17:40

えっとテキストと音を使って動画を生成

play17:43

するみたいえっと自由に組み合わせること

play17:46

ができ

play17:48

ますでえっとこれ生成してみた例の結果な

play17:52

んです

play17:54

けどまこのような感じです

play17:57

play18:10

はいということでまうまくマルチモーダル

play18:12

のデータ生成はできてるということが

play18:14

分かるかなと思い

play18:19

ますはいということでえっと今回も

play18:21

withファンデーションモデルとas

play18:23

ファンデーションモデルに分けてご紹介し

play18:25

ましたで今回はこの4つのトピックに分け

play18:28

様々な技術についてご紹介しましたはい

play18:32

以上になりますありがとうございまし

play18:38

Rate This

5.0 / 5 (0 votes)

Связанные теги
扩散模型基础模型图像生成声音合成多模态AI趋势模型优化数据生成技术创新跨领域应用
Вам нужно краткое изложение на английском?