【ソニー社内講演】拡散モデルと基盤モデル(2023年研究動向)
Summary
TLDRソニーリサーチの石井がディフュージョンモデルズとファンデーションモデルズの関係について語る。拡散モデルはテキストから画像生成に注目し、最近注目されているのはStable DiffusionやDALL-E 3です。基盤モデルは多様なデータで学習し、様々なタスクに適用される。2023年のトレンドは、withファンデーションモデルで基盤モデルを積極活用し、AIエージェントに拡散モデル組み込み。asファンデーションモデルでは効率的なファインチューニング方法提案、マルチモーダルデータ生成のモデル提案も。
Takeaways
- 🔍 拡散モデルと基盤モデルの関係についての研究動向を紹介する。
- 🖼️ 拡散モデルは生成モデルの一種で、テキストから画像生成が最近注目されている。
- 🌐 ステーブルディフュージョンやダリ3などのシステムは高精細な画像生成を実現している。
- 🎵 拡散モデルは音の生成やロボティックスのモーションプランニングなど、他分野にも応用されている。
- 🏗️ 基盤モデルは多様なデータで学習され、様々なタスクに使えるインフラのようなモデル。
- 📈 GPTはファンデーションモデルの一種と呼ばれ、この講演ではその活用方法が紹介されている。
- 🤖 AIエージェントに拡散モデルを組み合わせて生成ツールとして活用する動きがある。
- 💡 効率的かつ効果的なファンチューニング方法が提案され、広く利用されるようになった。
- 🎨 マルチモーダルデータ生成のモデル提案があり、画像と音声、テキストの組み合わせでデータを生成する。
- 🔄 クロスモーダルな生成に特化したシステムの提案と、パラメーター効率的なファインチューニングの手法が存在する。
Q & A
拡散モデルとは何ですか?
-拡散モデルは、拡散過程に基づくデータ生成を行うモデルです。画像が徐々にノイズを取り除いて最終的に綺麗な画像を生成する過程を逆にたどることで、データを生成することを試みます。
テキストからの画像生成において、どうして基盤モデルが重要ですか?
-基盤モデルは、多様なデータで学習されたモデルであり、様々なタスクに活用できます。テキストから画像を生成する際には、基盤モデルが意味情報を抽出し、生成する画像に沿った情報を渡すことで、より正確な画像生成が可能になります。
ダイアリー3というシステムは何の特徴がありますか?
-ダイアリー3は、非常に詳細に書かれたプロンプトとテキストに沿って画像を生成する特化したモデルです。詳細な記述を学習することで、画像生成において実際とテキストに忠実な画像を生成する能力を身につけることができます。
ビジュアルチャットGPTというシステムはどのような機能を有していますか?
-ビジュアルチャットGPTは、チャットGPTに画像処理や編集に関する機能を追加したシステムです。画像を渡したり、画像の編集を自然言語で指示することができ、また画像に関する質問や操作も自然言語で行うことができます。
マルチモーダルデータ生成において、どのように各モーダルを組み合わせますか?
-マルチモーダルデータ生成では、各モーダルに対応する拡散モデルを用意し、これらのモデルを適切にコラボレーションさせることで、同時に複数のデータ(例えば画像と音)を生成します。コラボレーションの機構をうまく設計することで、生成されるデータの整合性を高めることができます。
コントロールネット、ローラ、アニメートディフとは何ですか?
-コントロールネット、ローラ、アニメートディフは、画像生成モデルに対して新しい条件やオブジェクト、スタイルを効率的に学習させるための技術です。これらの方法は、既存のテキストから画像生成モデルをベースに、新しいタスクに適用するための小規模なモジュールを追加し、そのモジュールだけをファインチューニングすることで、効率的な学習を実現します。
ダイアリー3が学習する際に使用されるテキストは、どのように選ばれます?
-ダイアリー3は、詳細な記述を伴ったテキストを学習データとして使用します。これは、インターネットでスクレイピングされたイメージキャプションの代わりに、より正確で忠実な画像生成を行うために使用されます。
ビジュアルチャットGPTが他のビジュアルファンデーションモデルを呼び出す際のプロンプトには何が含まれます?
-ビジュアルチャットGPTが他のビジュアルファンデーションモデルを呼び出す際のプロンプトには、モジュールの名前、使い方、インプットアウトプットの定義などが含まれます。これらの情報をプロンプトに書き込んで、チャットGPTに呼び出すように指示することで、必要なビジュアルファンデーションモデルが適切に呼び出されます。
マルチモーダルデータ生成におけるユニファイドアプローチとコンポーザーアプローチの違いは何ですか?
-ユニファイドアプローチは、巨大なマルチモーダル拡散モデルを学習する方法であり、非常に高価なアプローチです。一方、コンポーザーアプローチは、既存のシングルモーダル拡散モデルを使用し、これらのモデルを適切にコラボレーションさせる方法です。コンポーザーアプローチは、各モーダルの拡散モデルの性能を最大限に引き出しつつ、コストを抑えることができます。
ダイナリー3のような詳細なテキストを用いた学習の利点は何ですか?
-詳細なテキストを使用した学習により、モデルはより正確で具体的な画像生成を行うことができます。これにより、画像とテキストの関係がより緊密になり、生成される画像がテキストの内容に忠実で正確なものになる可能性が高まります。
拡散モデルのファインチューニングとフンチニの違いは何ですか?
-ファインチューニングは、既存のモデルに対して新しいデータや条件を用いてモデルを微調整するプロセスです。一方、フンチニは、新しいデータや条件を用いてモデルを再学習することを意味します。ファインチューニングは、元のモデルのパラメーターを一部変更することで、新しいタスクに適応させることができますが、フンチニはより深い変更を加えることで、より特化したモデルを作成することができます。
Outlines
🤖 拡散モデルと基盤モデルの関係についての研究動向
この段落では、拡散モデルと基盤モデルとの関係性についての研究動向が説明されています。拡散モデルは、生成モデルの一種で、特にテキストから画像生成に焦点を当てています。最近注目されているステーブルディフュージョンやDALL-E 3などのシステムがこのカテゴリに含まれます。一方、基盤モデルは多様なデータで学習されたモデルで、様々なタスクに活用されるインフラのようなものです。GPTなどのモデルがファンデーションモデルの一種として広く使われることが述べられています。
📈 withファンデーションモデル:基盤モデルの活用による性能向上
この段落では、withファンデーションモデルのアプローチについて説明されています。この方法では、基盤モデルを用いて拡散モデルの性能を向上させることが焦点です。人間からのインストラクションを理解する力を基盤モデルを用いて底上げすることが一つの例として挙げられています。また、拡散モデルがファインチューニングを行わずとも多様なタスクを解決できることが述べられ、この能力は自然言語処理の分野でも見られるようになっています。
🌐 AIエージェントへの拡散モデルの組み込み
この段落では、AIエージェントに拡散モデルを組み込むことで、より高度な機能を実現する方法が説明されています。具体的な例として、ビジュアルチャットGPTというシステムが挙げられ、画像の編集や自然言語での画像に関する質問を処理できることが説明されています。このシステムは、ビジュアルファンデーションモデルを呼び出すことで、画像生成や物体検出などのタスクを実行しています。
🎨 マルチモーダルデータ生成の拡散モデル
最後の段落では、マルチモーダルデータ生成に特化した拡散モデルについて説明されています。これにより、テキストに基づいて画像と音声を同時に生成することが可能になります。ただし、各モーダルが独立に生成されるため、完全に同期されているわけではありません。この問題に対しては、大きなマルチモーダル拡散モデルを学習するか、単一モーダルの拡散モデルを組み合わせてコラボレーションさせるというアプローチが提案されています。
Mindmap
Keywords
Please replace the link and try again.
Highlights
ソニーリサーチの石井がディフュージョンモデルズとファンデーションモデルズについて語っている
拡散モデルはテキストから画像生成の分野でよく使われている
最近注目されているシステムであるダリ3は詳細なプロンプトに特化したモデル
基盤モデルを積極的に活用することで拡散モデルの性能を向上させる
AIエージェントに拡散モデルを組み合わせて生成ツールとして活用
asファンデーションモデルとして効率的なファインチューニング方法が提案されている
マルチモーダルデータ生成で画像と音声を同時に生成する試み
コーディはマルチモーダルなデータ生成を自由に組み合わせることができる
拡散モデルはノイズを除去しながらデータ生成を行う
テキストエンコーダーを使用して意味情報を抽出し、画像生成に活用
ビジュアルチャットGPTは自然言語で画像の編集や質問を理解することができる
コントロールネット、ローラ、アニメートディフは新しいタスクに適用できる戦略を採用
ユニファイドアプローチとコンポーザーアプローチがマルチモーダルデータ生成の2つの方法
コーディは各モーダルの拡散モデルを定義し、コラボレーションさせることでデータ生成
ダイナミックプロンプトを用いたビジュアルファンデーションモデルの呼び出し方法
検索ベースのアプローチがプロンプト長の制限を解消する
クロスモーダルな生成に最適化されたシステムが提案されている
Transcripts
はいソニーリサーチの石井です今日は
ディフュージョンモデルズwithor
asファンデーションモデルズということ
で拡散モデルと基盤モデルの関わりについ
て最初の研究動向をご紹介していきたいと
思いますよろしくお願いし
ますさて今回の話の中心の拡散モデルです
けれどもこれは生成モデルの一種で最近
最もよく使われているのはテキストからの
画像生成かなという風に思います
ステーブルディフュージョンですとか最近
話題のダリ3とたシステムというのは後ろ
で拡散モデルが動くことによってこのよう
な高精細な画像の生成を実現してい
ますまた画像以外の分野においても音の
生成ですとかロボティックスにおける
モーションプランニングなどにも使われる
例が最近では見られるようになりまし
た一方ファウンデーションモデル基盤
モデルというのは生成モデルに限らず多様
なデータで学習されたモデルであって様々
なタスクに使うことができるような
インフラのようなモデルのことを基盤
モデルという風に呼ぶことがあります短な
例ですとGPTなどがえファンデーション
モデルの一種であるという風に言われる
ことが多いかと思い
ますで今回の講演なんですけれども実は
同じタイトルで昨年もえっと講演を行い
ましたその時の講演の内容はえっと
YouTubeの方でご覧いただけ
ますでその時の講演ではまず
ディフュージョンモデルwith
ファンデーションモデルということで
ファンデーションモデルを使うことによっ
てえっと拡散モデルの性能を底上げできる
ということをご紹介しましたもう少し具体
的に言うと人間からのインストラクション
を理解する力というのを基盤モデルを使う
ことによってえっと底上げできるという
ことについてご紹介しまし
たでもう1つご紹介したのが
ディフュージョンモデルas
ファンデーションモデルということで拡散
モデルというのは実はファイン
チューニングを行ったりあるいはフンチニ
を行わなくても多様なタスクを解くことが
できるということについてご紹介しまし
たこれを受けて今回の講演内容なんです
けれどもwithとasに分けるという
部分は同じで2023年にどのような
トレンドだったかということについてご
紹介していきたいと思い
ますまずはwithファウンデーション
モデルについては従来の延長としてさらに
積極的に基盤モデルを活用していこうと
いう動きがありました
さらにAIエージェントいわゆるチャット
GPTなどのようなエージェントに拡散
モデルを組み込んでいこうえ生成のツール
として組み込んでいこうというような流れ
がありまし
た一方asファンデーションモデルの方に
ついてはえ効率的効果的なファン
チューニングを行う方法についていくつか
提案があり非常に広く用いられるように
なりまし
たまたマルチモーダルのデータ生成という
ことで画像生成だけではなく画像と音
あるいは画像とテキストなどのように複数
のモデルにまたがるようなデータを同時に
生成しようというモデルについていくつか
提案がありまし
た今回はこれらの4つの話題について簡単
にご紹介していきたいと思いますよろしく
お願いし
ますまず各話題に移る前に簡単に拡散
モデルについておさえをりたいと思います
拡散モデルというのは拡散過程に基づく
データ生成を行うモデルになります拡散
過程というのは画像が入ってくるとま少し
ずつえノイズを乗っけていって最終的に
ピアラノイズに崩壊していくというこの
ような過程のことを拡散過程という風に
呼び
ますで拡散モデルはこの過程を逆にたどる
ことによってデータを生成しようという
ことを考えますつまりピュアなノイズから
始まって少しずつノイズを取り除いていく
ことによって最終的に綺麗な画像を得よう
というようなことを行い
ますこの各段階の少しのノイズの除去と
いう部分で機械学習つまりデープ
ニューラルネットを使ってえっとこの
ノイズ状況を実現するとそういったモデル
になってい
ますでこの1つ分のえっとノイズ状況の
処理を少し詳しく書いたものがこちらに
なり
ますまたくさんノイズの乗ったデーターが
入ってくるとまずデープニューラルネット
を使ってここに載っているノイズを推定し
てあげ
ますそのその後えっとこれをま引き簡単に
は引き算することによってま少しノイズを
取り除いたデータというものを作り出し
ますでこの処理を繰り返すことによって
最終的には綺麗な画像を得るというような
モデルになってい
ますでえっとこのままだと最初のノイズに
よってえっとどのような画像が生成される
のか全く検討がつかないわけですけれども
テキストからの画像生成のようにテキスト
でどのような画像が生成されるかを制御し
たいという場合にはこのようなモジュール
をくっつけますつまりテキストから
テキストの意味情報を抽出するような
エンコーダーと呼ばれるものを用意して
あげて抽出した意味情報をノイズ
エスティメートに渡してあげ
ますそうするとこのノイズエスティメート
は例えばこの例ですと猫なんだなという
情報を知りながらノイズを除去できるので
えこのテキストに沿ったえっとノイズ除去
つまり画像生成を行うことができるになる
というそういった仕組みになってい
ますはいということでまずは基盤モデルを
積極的に活用することによって拡散モデル
の性能を底上げしようという技術について
ご紹介し
ますこの図は先ほど出したテキストからの
画像整水で使われているモデルと全く同じ
図ですけれども基盤モデルを活用する最も
単純な方法というのはこのテキスト
エンコーダーの部分に使うというのが
えっと最も単純な方法になりますここに
おいてえっとテキストから学習された基盤
モデルあるいはテキストと画像から学習さ
れた基盤モデルを使うことによって非常に
効率よく意味情報を取り出すことができる
ということを実現でき
ますでこれはえっと2022年以前にも
あったわけですけどもこれをさらに積極的
に活用してもっと効率的に効果的にえっと
性能を底上げできないかということが行わ
れてき
ます
まそのような方策を取ったものの1つが
このダリー3と呼ばれるシステムになり
ます実はダリ3というのは非常に詳細に
書かれたプロンプとテキストに沿って画像
を生成することに特化したモデルになって
い
ますなんですがえっとユーザーが書く
インプットのテキストというのは必ずしも
非常に詳しいというものではないのでこの
詳しくないテキストから非常に詳しい
テキストへの翻訳アップリングの部分を
えっと基盤モデルラージランゲージモデル
ですね大規模の言語モデルを使うことに
よって実現しようというのがダリ3の
システムになってい
ますえっとフロを書いたものがこちらで
まずインプットのテキストがあるとこれの
アップサンプルですね詳細な記述を行った
テキストへの変換をllmが行ってさらに
ここからの意味の情報の抽出というのを
テキストエンコーダーこちらも基盤モデル
を使って行います最終的にこれを使って
ディフュージョンモデルで画像を生成する
とそういったような流れになってい
ますでそもそもなぜダリー3が非常に詳細
な記述のテキストに特化したモデルになっ
てるかという話なんですけどこのような
詳細な記述で学習したモデルというのは実
はとテキストにま忠実に沿った画像生成
するという能力を学習するために非常に
重要であるというのがこのダリ3に受ける
ポイントになり
ますどういうことかと言うとま今までは
このような画像からのテキストからの画像
生成のモデルというのはえっと
インターネットでスクレープされた
イメージキャプションを使って行うことが
普でしたなんですけどえっとこのようなジ
キャプションというのは非常にまノイジー
だったり非常に不正格だったものが多くて
このようなえっと画像とテキストのペアで
えっとテキストからの画像生成を学習して
しまうとまここがま要するに嘘ばっかりな
のでこれをあんまり真面目に聞いたモデル
というのが学習されずにこのテキストに
忠実に沿ったモデルを学習するというのが
非常に難しいという問題がありまし
た一方でダリ3というのはえっとこのよう
なテキストはえっと学習ではあまりもちい
ずに非常に詳細な記述を行ったテキストを
代わりに使って学習を行ってい
ますでこれによってえっとこのような詳細
が記述に忠実にそうようなえっとテキスト
からの画像生成までを実現できるという
ような方法になってい
ますまその代わりにえっとこのような術で
変換するLMがま水論時に必要になると
いったモデルになってい
ますはいでは次の話題としてAIエンジン
に組み込まれたえ方をご紹介し
ますでここで紹介するのはビジュアル
チャットGPTと呼ばれるシステムになり
ますでえっとどんなことができるかと言う
とまチャットGPTみたいな感じなんです
けどまビジュアルと名前のついている通り
ま画像を渡したりまこの画像の編集という
のを自然言語でえっと行うことができたり
あるいはこの画像に関する質問オトをま
自然言語で実現できるとまそういったよう
な題よになってい
ますでえっとどうやって実現してるかと言
とあのまチャットGPTがここにいるわけ
なんですけどえっとこれだけではなくて
えっとここでビジュアルファンデーション
モデルと呼ばれている例えば画像を生成
するステーブルディフュージョンですとか
はえっと物体の形質を行うディテクション
とよったモデルというのを別用意しておき
ますでえっとチャットGPTはえっとこの
場合に応じてこのこれらのビジュアル
ファンデーションモデルを呼び出すことに
よってえっとこれらのタスクを実現してい
ますで当然どのように呼び出すかというの
が問題になるんですけもこの呼び出し方の
情報を全部プロンプトに書いておこうと
いうようなエッ方策を取っています具体的
に言うとえっとプロンプトにはですねこの
モジュールの名前や使い方あるいは
インプットアウトプットの定義などを
えっと書いておきますでこれをずらっと
並べたものをプロンプトに書いておいて
えっとそれ通りにえっと呼び出して
くださいという風にチャットGPTにお
願いしておくと必要な時にえっとこの
ビジュアルファウンデーションモデルが
呼び出されるというような仕組みになって
い
ますでこれ非常に面白いえっとシステムな
んですけどま大きく2つリミテーションが
存在しますで1つはえっと呼び出せる
えっとビジュアルファンデーションモデル
の数というのがプロンプト帳で制限されて
しまいますまこれはあのプロンプトに書い
てあると書という工作を取っている限り
どうしても避けられないえっと
リミテーションになりますそこでえっと
さらに最近では検索ベースのアプローチと
いうのがえっと提案されてえとプロンプト
の長さに制限を受けないような方法という
のが提案されてきてい
ますえっともう1つのリミテーションとし
てはクロスモーダルな生成にえっと最適化
されたシステムにはなってないということ
があげられます今回あのビジアえっと
チャットGPTが各モデルを適呼び出すと
いう方法になっていて特にこのクロス
モーダルな水勢に対して最適化を行った
ようなシステムにはなっていませんなん
ですがこちらもえっとさらに最近ではま
パラメーター効率的なファイン
チューニングというものをえっと使って
このようなクロスモーダルな生成に特化し
たま先ほどのようなシステムというものを
提案してあげましょうというものがえっと
出てきたりしてい
ますはいということでえっとwith
ファンデーションモデルの話はえっと以上
で次はasファンデーションモデルという
ことで拡散モデルを基盤モデルとして使う
という話についてご紹介し
ますまずはえっと効率的効果的にファイン
チューニングを行う方法についてご紹介し
ますでえっとテキストからの画像生成の
モデルというのを効率的に適用しようと
イチにしようという方法についてと
2023年で最もよく聞いた手法というの
はこの3つなんじゃないかなという風に
思いますコントロールネットというのは
このようなポーズからの画像生成ですとか
新しい条件からの画像生成というのを
ファインチュンで効率的に学習しようと
いう方法になっていますでえっとローラと
いうのは特定のオブジェクトや特定の
スタイルというものをえっと効率的に学習
できるというモデルになってますでさらに
アニメートディフというのはまこのように
がと
特定のオブジェクトや特定のスタイルを
学習したモデルを使ってさらに動画を生成
しようというモデルになっていますでこれ
らの方法というのはま非常に広くえっと
使われるようになったんですけど実
はと共通した戦略を取った方法になってい
ますでどのような戦略かというとえっと
オリジナルのTテキストからの画像生成
モデルですねいわゆるステーブル
ディフュージョンみたいなモデルというの
はえっと基本的にはフィックスしますフチ
これをそのままンチするのではなくてこれ
はえっとフィックスしていてこれとは別に
新しくつけた小さいモジュールという方
だけをえっとファンチンするというような
方法になってい
ますどういうことかと言うと例えば
コントロールネットの例なんですけどこの
点線の部分は先ほどえっとちょっと前に
出したテキストからの画像セフで使われ
てるモデルの図とえっとほぼそのままの図
になっていますでこの部分に関しては
えっとコントロールネットではファイン
チューニングを行いませんで一方でこの
ピンク色のモジュールというのを新しく
つけてあげますでこのモジュールは何をし
てるかと言うとえっとこの例で言うと
ポーズ情報を受け取ってノイズエスティー
たーに情報を渡すというようなモジュール
になっていますでこのモジュールの部分
だけをコントロールネットではファイン
チーンを行い
ますでこのような戦略を取ることによって
ま学習済みのテキストからの画像生成の
モデルというのの性能を最大限に生かし
ながら新しいえっとタスクへの適用を行う
ことができるというような戦略になってい
ますでえっとこのような戦略がえっと
コントロールネットだけではなくローラー
やアニメートディフでもま同様の戦略を
取ってえっとこのようなメリットを受け
てるというような方法になってい
ますでは最後にマルチモーダルデータ生成
についてご紹介し
ますでえっとマルチモーダルデータに
対するする拡散モデルなんですけれどもま
例えばテキストが与えられた時にこれに
沿ったビデオ動画とえっと音を両方生成し
たいというのがえっとマルチモーダルな
データ生成になり
ますでえっと当然各モーダルに対して
えっと拡散モデルというのを用意すること
はできるので例えばテキストから動画生成
モデルで動画を生成しえっと音生成モデル
で音を生成することによって両方生成する
ということは可能ですなんですけど当然
これえっと独立に生成を行っているので
この2つがなんというか噛み合ってるか
どうかということは保証できませんつまり
このパンダがちゃんとむしゃむしゃした音
がこっちに入ってるかあるいはこのビデオ
に入ってないようなえっと変な音がこちら
でと生成されてないかということについて
は強く保証することができませ
んなのでえっとアプローチとしてはえっと
2つ考えられますで1つは最初に書いた
ようにその大きなマルチモーダル拡散
モデルというものを学習するというのが
えっと考えられますこれユニファイドの
アプローチという風にここでは読んでいて
ま非常に単純なアプローチなんですけども
非常に大きな拡散モデルというのを最初
から学習しなきゃいけないということで
非常にえっとコストの高いえっと
アプローチになっていますで一方でもう1
つコンポーザーのアプローチというものは
考えられてシングルモーダルの拡散モデル
を用意しておいてこの2つがま噛み合った
えっとデータを生成するようにと
コラボレーションを行う機構をつけて
あげるというようなアプローチになってい
ますでこちらのアプローチですとま各
モーダルの拡散モデルの性能というも最大
限に生かすことはできるんですけどこの
コラボレーションの気候というのをうまく
考えてあげる必要があり
ますでえっとこれ左から右まで色んな
えっと手法が提案されていてここではあの
大きく3つあげたんですけどえっと今回は
ちょっと時間の関係上このコーディについ
てえっとどんなことができるかということ
についてだけご紹介し
ますで先ほど述べた通りコーデっていうの
はコポーザブルのアプローチを取っている
ので各モーダルに対して拡3モデルが定義
されていてそれをうまくコラボレーション
させることによってマルチモーダルな
データ生成を行ってい
ますでえっとコーディの面白いところは
入力となるモーダルと出力となるモーダル
というのをと水論時に自由に決めることが
ができます例えばこの例で言うとえっと
画像と音から別の音を作るですとかと音
からテキストを生成するですとか画像と
えっとテキストと音を使って動画を生成
するみたいえっと自由に組み合わせること
ができ
ますでえっとこれ生成してみた例の結果な
んです
けどまこのような感じです
ね
はいということでまうまくマルチモーダル
のデータ生成はできてるということが
分かるかなと思い
ますはいということでえっと今回も
withファンデーションモデルとas
ファンデーションモデルに分けてご紹介し
ましたで今回はこの4つのトピックに分け
様々な技術についてご紹介しましたはい
以上になりますありがとうございまし
た
関連動画をさらに表示
【AI論文解説】DALL-E 2へ至るまでの道のり:文章に沿った画像を高品質かつ多様に生成 -詳細編-
Track4 Session1_Generative AI Summit Tokyo '24
Giulio Biroli - Generative AI and Diffusion Models: a Statistical Physics Analysis
ChatTTS - Best Quality Open Source Text-to-Speech Model? | Tutorial + Ollama Setup
🚀 VivaTech 2024 : Keynote - More than a Model: The Gen AI Essentials for Business Innovation
Bias in AI and How to Fix It | Runway
5.0 / 5 (0 votes)