WAN2.2 (Step-by-Step Tutorial)

BlueSpork

31 Jul 202504:07

Summary

TLDRВ этом видео показана настройка и использование модели Juan 2.2 с интерфейсом Comfy UI для генерации видео из текста и изображений. Рассматриваются два варианта моделей — 5B и 14B. Инструкция охватывает этапы установки необходимых файлов, настройки модели и выполнения видео-генерации с разными временными затратами. Показаны подробности работы с текстом и изображениями, включая ссылки на рабочие процессы и советы по производительности. Это видео будет полезно тем, кто хочет научиться использовать передовые генеративные технологии для создания видеоконтента.

Takeaways

😀 В One 2.2 представлены четыре варианта модели: 5B, текст в видео, 5B изображение в видео, 14B текст в видео и 14B изображение в видео.
😀 Для запуска One 2.2 необходимо установить Comfy UI, ссылка на руководство по установке предоставлена в описании.
😀 Нужно загрузить несколько файлов для начала работы: текстовый энкодер UMT5 XXL FP8 E4M3FN scaled.Safe safe tensors и поместить его в папку models/text_encoders.
😀 Также требуется скачать файл VAE для модели 5B (1 2.2 VA.safe tensors) и поместить его в папку models/VAE.
😀 Для работы модели 5B необходимо загрузить файл 5B diffusion model (1 2.2 to TI2V 5B FP16.safe tensors) и поместить его в папку models/diffusion_models.
😀 Обязательно обновите Comfy UI до последней версии, иначе One 2.2 не будет работать.
😀 После установки всех файлов можно запускать модель 5B, используя workflow для text-to-video, загруженный из описания.
😀 Процесс генерации видео с помощью модели 5B занял 2 минуты 36 секунд на RTX3090 с 24 ГБ VRAM.
😀 Для генерации видео с изображений с помощью модели 5B нужно выполнить аналогичный процесс, который занял 2 минуты 42 секунды.
😀 Для модели 14B нужно загрузить файл VAE для One 2.1 (VAES safe tensors) и поместить его в папку models/VAE.
😀 Для работы модели 14B требуется скачать четыре файла FP8 scale diffusion models (для text-to-video и image-to-video) и поместить их в папку models/diffusion_models.
😀 Запуск модели 14B занимает значительно больше времени: генерация текста в видео заняла 56 минут 11 секунд, а изображение в видео — 52 минуты 32 секунды.

Q & A

Какие четыре варианта модели включает Juan 2.2?
-Juan 2.2 включает следующие четыре модели: 5B text to video, 5B image to video, 14B text to video, и 14B image to video.
Какая программа необходима для работы с Juan 2.2?
-Для работы с Juan 2.2 требуется Comfy UI.
Где можно найти инструкции по установке Comfy UI?
-Ссылка на руководство по установке Comfy UI находится в описании видео.
Какие файлы нужно скачать для начала работы с моделью 5B?
-Для работы с моделью 5B нужно скачать текстовый энкодер UMT5 XXL FP8 E4M3FN, файл VAE для модели 5B и диффузионную модель 5B.
Где нужно разместить скачанные файлы для модели 5B?
-Файлы нужно поместить в соответствующие папки Comfy UI: текстовый энкодер в папку models/text_encoders, файл VAE в папку models/VAE, и диффузионную модель в папку models/diffusion_models.
Почему необходимо обновить Comfy UI до последней версии?
-Comfy UI необходимо обновить до последней версии, потому что Juan 2.2 не будет работать без этого обновления.
Сколько времени заняло создание видео с использованием модели 5B?
-Создание видео с использованием модели 5B заняло 2 минуты и 36 секунд на RTX 3090 с 24 ГБ видеопамяти.
Сколько времени заняло создание видео с использованием генерации image-to-video для модели 5B?
-Создание видео с использованием image-to-video для модели 5B заняло 2 минуты и 42 секунды.
Какие дополнительные файлы необходимы для работы с моделью 14B?
-Для работы с моделью 14B необходимо скачать файл VAE модели 2.1 и четыре диффузионных модели для текстовых и изображеных видео (по одной для высокого и низкого шума для каждой категории).
Сколько времени заняло создание видео с использованием модели 14B для текстовых и изображеных видео?
-Создание видео с использованием модели 14B для текстового видео заняло 56 минут и 11 секунд, а для изображеного видео — 52 минуты и 32 секунды.