VRAM 12GBでビデオ生成AI Wan 2.2を動かせるのか？【RTX4070TI / Image to Video】

Signal Flag "Z"

21 Aug 202513:08

Summary

TLDRこの動画では、シグナルフラグZが最新のビデオ生成AI「12.2」を自分のパソコンで動かす手順を丁寧に解説しています。RTX 4070Tiの環境で、ConfUIとStability Matrixを使ったインストール、モデルファイルのダウンロード・配置、ワークフロー設定などを順を追って説明。テキストや画像からビデオを生成する方法や、VAE・テキストエンコーダー・ハイ・ローモデルの扱い方も紹介。最終的に短時間で高品質なビデオ生成が可能であることを実演し、AIビデオ制作の最新ノウハウをわかりやすく伝えています。

Takeaways

💻 シグナルフラグZは、暑さで不調だったパソコンを復活させ、ビデオ生成AI 12.2を自分のPCで動かす方法を紹介しています。
🛠 12.2は中国のAlibabaグループが開発し、7月末にオープンソースとして公開されました。
🎮 使用するGPUはRTX 4070 Ti 12GBで、個人ユーザーとしては主流のVram容量です。
📹 12.2には、テキストからビデオ、画像からビデオ、テキスト＋画像からビデオの3種類の生成方式があります。
⚙ 動画では画像からビデオを生成する『イメージ2ビデオ』方式を使用して解説しています。
📥 動作にはConfUIとスタビリティマトリックスを用いて環境を整え、必要なモデルファイルを適切なフォルダーに配置する必要があります。
🧩 12.2はハイモデルとローモデルの2つのAIモデルを使い分ける『ミクスチャーオブエキスパート』方式を採用しています。
📊 モデルファイルは容量や形式によって選択が必要で、12GBのVramでは量子化されたGGUFファイルを利用するのが適しています。
🎬 ワークフロー設定では、生成するフレーム数やビデオサイズを調整可能で、2.2は16FPSで約3秒のビデオを生成できます。
⚡ ライトニングローラーの活用で生成速度が向上し、初回は約3分、連続生成では約2分でビデオを作成可能です。
📝 ビデオ生成中はGPUとメインメモリーをフル活用するため、32GB以上のメモリーがあると安定します。
🎥 今回の手順で12.2の動作確認ができ、ビデオ生成の質も高く、次回は副作用や詳細な調整について解説予定です。

Q & A

この動画で紹介されている12.2のビデオ生成AIとは何ですか？
-12.2は、中国のAlibabaグループが開発し、7月末にオープンソースとして公開されたビデオ生成AIです。テキストや画像からビデオを生成することができます。
12.2を動かすために使用されたパソコンのスペックはどのようなものですか？
-動画ではGPUにRTX 4070 Ti、12GBのVRAMを搭載したパソコンが使用されました。これは個人ユーザーとしては標準的な容量です。
12.2にはどのような種類がありますか？
-12.2には大きく3種類あります。1つ目はテキストからビデオを生成するもの、2つ目は画像からビデオを生成するもの、3つ目はテキストと画像の両方からビデオを生成するものです。
3つ目のテキスト＋画像生成モデルはなぜ上手く使えないことがありますか？
-3つ目のモデルは上の2つのモデルより賢さが不足しており、画像品質が悪くなったり、プロンプトに忠実でないことがあります。そのため今回は2つ目の画像→ビデオ生成モデルを使用しています。
12.2を自分のパソコンで動かすための準備手順は何ですか？
-まずConfUIをインストールし、スタビリティマトリクスで最新バージョンに更新します。次に政治アテンションをインストールし、必要なモデルファイル（VAE、テキストエンコーダー、ハイ・ローモデル）を所定のフォルダーに配置します。最後にワークフローを調整して動作確認を行います。
12.2のモデルファイルはどのように構成されていますか？
-12.2では、ハイモデルが大まかな動きと構図を作成し、ローモデルが細かい仕上げを行う2つのAIモデルで構成されています。また、量子化されたGGUFファイルを使用することでVRAM容量に応じた軽量化も可能です。
ライトニングローラーとは何ですか？
-ライトニングローラーはサンプルワークフロー内で使用される機能で、通常数十ステップかかる画像生成をわずか4ステップで行うことができる高速化ツールです。ただし、副作用もあり注意が必要です。
ビデオ生成時のフレーム数やFPSはどのように設定されますか？
-初期設定では1フレームのみ生成されますが、動画として生成する場合はフレーム数を増やす必要があります。今回の例では48フレームに設定し、12.2は16FPSで約3秒のビデオを生成しました。
12.2のビデオ生成速度はどれくらいですか？
-初回は約179秒（約3分）、連続生成では126秒（約2分）で3秒のビデオを生成できました。高速化にはライトニングローラーが寄与しています。
12.2を動かす際のメモリ使用量の目安はどのくらいですか？
-ビデオ生成中はVRAMをフルに使用し、メインメモリーも多く使います。32GB以上のメインメモリーがあると、動作がよりスムーズになります。
ConfUIの拡張機能はどのような役割がありますか？
-ConfUIの拡張機能は、GGUF形式の量子化モデルの読み込みやワークフロー管理を簡単にし、12.2の操作や設定を便利にする補助ツールです。