Civitai Beginners Guide To AI Art // #1 Core Concepts
Summary
TLDRВ этом видео-ресурсе представлены основные концепции и терминология, связанные с AI-искусством и стабильным распространением. Обсуждаются разновидности генерации изображений, включая текст в изображение, изображение в изображение, в.batch-обработку, восстановление и текст в видео. Также рассматриваются важные элементы, такие как промпты, модели, контрольные сети и расширения, необходимые для создания AI-изображений.
Takeaways
- 🎨 **Текст в изображение**: Основной тип генерации, где используется текстовый запрос для создания изображения.
- 🖼️ **Изображение в изображение**: Процесс, при котором существующее изображение используется для генерации нового с использованием текстового запроса.
- 🖌️ **Рисование**: Техника добавления или удаления объектов на изображении с использованием маской.
- 🎥 **Текст в видео** и **Видео в видео**: Процессы генерации видео с движением из текстового запроса или трансформации существующего видео.
- ✍️ **Текстовый запрос**: Вводный текст, определяющий, что должно быть показано в изображении.
- 🚫 **Отрицательный запрос**: Текстовый ввод, который указывает, что не должно быть включено в изображении.
- 🔍 **Увеличение**: Процесс преобразования низкоразрешенных изображений в высокоразрешенные с улучшением существующих пикселей.
- 📚 **Модели (Checkpoints)**: Файлы, созданные на основе обучающих данных, определяющие стиль и результаты генерации изображений.
- 🔐 **Safe Tensors**: Безопасный формат файлов, заменяющий checkpoint, менее подверженный внедрению вредоносного кода.
- 🌐 **Расширения**: Дополнительные инструменты и функции, используемые для расширения возможностей генерации изображений, таких как Control Nets, Deorum, Estan и Anim Diff.
Q & A
Что такое текст-картинка (text-to-image) в искусственном интеллекте?
-Текст-картинка — это процесс, при котором искусственный интеллект использует текстовый запрос для создания изображения на основе данного текста. Это одна из самых распространенных техник в генеративном искусстве.
Как работает image-to-image и чем он отличается от batch image-to-image?
-Image-to-image — это процесс создания изображения на основе уже существующей картинки, например, фотографии. Batch image-to-image работает так же, но с несколькими изображениями одновременно, обрабатывая их как серию.
Что такое инпейтинг (inpainting) в Stable Diffusion?
-Инпейтинг — это метод редактирования изображений, при котором пользователь выделяет область изображения и указывает, что должно быть добавлено или удалено в этой области. Это похоже на генеративное заполнение в Photoshop, но работает локально.
Что такое модель и как она связана с чекпоинтами (checkpoints)?
-Модель — это файл, который был обучен на миллионах изображений для создания генеративных изображений. Чекпоинты (checkpoints) — это тип файла, который используется для хранения моделей. На данный момент чекпоинты часто заменяются на файлы safe tensors, которые более безопасны.
Чем файлы Safe Tensor отличаются от файлов .ckpt?
-Safe Tensor файлы менее подвержены риску наличия вредоносного кода по сравнению с .ckpt файлами. По возможности рекомендуется использовать Safe Tensor для повышения безопасности.
Что такое контрольные сети (Control Nets) и для чего они используются?
-Контрольные сети — это модели, которые распознают структуры в изображении, такие как линии, глубина и поза персонажей. Они необходимы для работы с image-to-image и video-to-video генерацией, позволяя точнее контролировать результат.
Что такое негативный промпт (negative prompt) и зачем он нужен?
-Негативный промпт используется для того, чтобы указать ИИ, что не должно быть на изображении. Это противоположность обычному промпту, который описывает, что нужно включить в изображение.
Для чего используется upscaling в AI-генерации изображений?
-Upscaling — это процесс увеличения разрешения изображения, обычно с помощью моделей ИИ. Это нужно для того, чтобы улучшить качество изображения перед его публикацией или использованием, повышая детализацию без потери качества.
Что такое LORA и как она связана с генерацией изображений?
-LORA (Low-Rank Adaptation) — это модель, обученная на малых наборах данных, обычно для создания изображений с конкретными персонажами, стилями или концептами. Она помогает добиться более специфичных результатов при генерации изображений.
Что такое анимированные модели, такие как animate diff?
-Animate Diff — это техника, которая добавляет движение в сгенерированные изображения или видео, позволяя создавать анимации на основе текстовых запросов или существующих изображений.
Outlines
🎨 Введение в создание AI-искусства
В первом параграфе автор, Тайлер, представляет серию видеоуроков по созданию AI-изображений. Он объясняет, что в этой серии зрители научатся основным понятиям, терминологии и программам, необходимым для генерации изображений с помощью нейросетей и Stable Diffusion. Упоминаются ключевые программы и ресурсы, такие как автоматическая установка моделей и скачивание ресурсов с сайта coty.com. Тайлер также кратко описывает методы генерации изображений: текст-в-изображение, изображение-в-изображение, использование ControlNet, inpainting и batch image generation.
🖼️ Основные термины AI-искусства
Во втором параграфе Тайлер углубляется в основные термины, с которыми сталкиваются новички в AI-искусстве. Он описывает такие термины, как модели (checkpoints), их форматы (например, Safe Tensors), и их роль в генерации изображений. Особое внимание уделяется тому, что выбор модели влияет на итоговый стиль изображения. Тайлер также предупреждает о возможных вредоносных файлах и рекомендует проверять отзывы перед скачиванием моделей.
🧠 Архитектура и данные для обучения
В этом разделе автор рассказывает о том, как обучаются модели для Stable Diffusion. Он упоминает тренировочные датасеты, такие как LAION 5B, который используется для обучения нейросетей. Также обсуждается версия Stable Diffusion 1.5, которая широко используется сообществом из-за её гибкости, хотя существует новая версия — Stable Diffusion XL 1.0. В дополнение к этому, Тайлер объясняет, что такое Lora (Low-Rank Adaptation), textual inversions и embeddings — инструменты для создания более специфичных изображений.
📈 Важность VAE и улучшение качества изображения
Тайлер объясняет роль VAE (вариационных автоэнкодеров), которые помогают улучшить качество и детализацию изображений в процессе генерации. Он подчеркивает, что некоторые модели требуют использования VAE для получения более ярких и четких изображений. Он советует всегда проверять, встроен ли VAE в модель или нужно ли использовать его дополнительно.
🛠️ Важные расширения для Stable Diffusion
Тайлер рассказывает о важных расширениях, которые помогут пользователям расширить возможности Stable Diffusion. Одним из самых значимых он называет ControlNet, который позволяет управлять структурой изображений, добавлять глубину и работать с позами персонажей. Также обсуждаются другие расширения, такие как Deorum, используемый для создания плавных видео, и технологии для повышения разрешения изображений, такие как ESRTGAN и Anim Diff для добавления движения.
Mindmap
Keywords
💡Текст в изображение
💡Изображение в изображение
💡Inpainting
💡Промпт
💡Негативный промпт
💡Апскейлинг
💡Чекпоинты
💡Safe Tensors
💡Контрольные сети (Control Nets)
💡ЛОРА (LoRA)
Highlights
Introduction to AI art and stable diffusion by Tyler
Core Concepts and terminology behind AI art
How to install necessary software for AI image generation
Navigating programs for AI image generation
Downloading and storing resources from coty.com
Common types of image generation: text to image, image to image, batch image to image
In painting technique for adding or removing objects from an image
Text to video and video to video processes
The importance of The Prompt and the negative prompt in image generation
Upscaling process for enhancing image resolution
Checkpoints and models as the foundation of image generation
Difference between checkpoints and safe tensor files
Training data and its role in model creation
Stable diffusion 1.5 and its significance
LORA models for generating images with specific characters or styles
Textual inversions and embeddings for capturing specific concepts
VAEs for enhancing image details and colors
Control Nets for image to image and video to video transformations
Deorum and its contribution to generative AI tools
ESTAN for super resolution generative adversarial networks
Animate Diff for injecting motion into image generation
Stable diffusion glossary for reference and additional help
Transcripts
[Music]
welcome to cai.com official beginners
guide to AI art my name is Tyler and
throughout this series I will be your
guide as we go from zero to generating
our first AI images throughout these
videos you can expect to learn about the
Core Concepts and the terminology behind
AI art and stable diffusion we're going
to discuss and walk through how to
install the various pieces of software
and programs you will need to generate
AI images on your own local machine and
we're going to learn how to navigate
these programs as well as how to
properly download and store resources
from the coty.com resource library
before we get to installing anything
there are a lot of Core Concepts and
terminology used throughout AI art and
stable diffusion that if you're new to
all this really might be overwhelming or
not familiar so in this video we're
going to discuss some common terms
abbreviations and Concepts that you will
encounter as you're browsing websites
like civii and interacting with software
like automatic 1111 Focus comfy UI or
easy diffusion so let's get started by
discussing the various concept types of
image generation that you'll be doing
throughout your time making AI images
starting with our very first concept and
the most common which is text to image
you're going to to see this term a lot
and this refers to taking a text prompt
and generating an image out of nothing
using only the text and telling the AI
exactly what you would like to see in
your image then we have image to image
and batch image to image this is the
process of taking an existing image or a
reference photo for example a photo of
myself or a photo of a friend and using
that photo as the input for the AI to
then take your prompt reference the
photo and build the output image on top
of the already existing photo for this
you'll be using something called a
control net which we will talk about in
the extensions part of this video image
to image is doing so with only one
single image whereas a batch image to
image is taking a folder of images and
running them through the diffusion
process all at the same time next we
have in painting which is the practice
of using a painted mask area to add or
remove objects from an image think of
this as generative fill from Photoshop
except it lives locally in your stable
diffusion software and you get to paint
right on your image with a brush tool
punching The Prompt exactly what you
want to happen in the part of the image
that you painted next we have text to
video and video to video or as you'll
see them referred to text to vid or vid
to vid these are the processes of taking
a text prompt and getting a video output
with motion or taking an existing video
input and transforming that video
utilizing your prompt next we have the
most important part The Prompt and the
negative prompt The Prompt is the text
input that you give your stable
diffusion based software or any AI image
generation software in general to tell
it exactly what you would like it to
Output in your image the negative prompt
does the reverse this is where you take
your text input and tell stable
diffusion what you do not want in your
photo next we have upscaling upscaling
is the process of taking low resolution
media think an image that is a 512 x 512
small little square and converting it to
high resolution media think a square
that is 1080 x 1080 this is usually done
by enhancing the existing pixels and
most of the time we are now doing this
through either AI models that are built
into our stable diffusion software and
interfaces or we're using external
programs like topaz photo AI or topaz
video AI to upscale our images and
videos before we go and we share them on
the Internet or post them wherever we
want the upscaling process is usually
going to be the last part before you're
ready to share your images these are the
Core Concepts that you will be utilizing
anytime you sit down to generate
something with stable diffusion next
we're going to dive into the models
assets and resources that you're going
to come across on a regular basis so to
start off checkpoints checkpoints are
now more commonly referred to as models
but you will see these terms use
interchangeably as you go from site to
site and you're looking for different
models or checkpoints to use in your
Generations a model is the product of
the training millions of images scraped
from all over the web and this file
drives our results from text to image
image to image and text to video
Generations this is the heartbeat of
everything you will be doing in stable
diffusion typically your model will
dictate the overall style that you will
get out of your image some models are
really great all-arounders some are very
strictly trained on anime and some are
very strictly trained trained on
realistic images choosing the right
model is vital to getting the image that
you would like out of stable diffusion
all right let's move on to checkpoints
and safe tensors now checkpoints are a
file format created by pytorch lightning
it contains a machine learning model
which is used by stable diffusion to
generate our image outputs now this the
checkpoint or the ckpt file is
superseded and has mostly been replaced
by safe tensor files safe tensor files
are essentially the same thing except
they are less susceptible to having
malicious code put in them so whenever
possible you would want to look for the
safe tensor version of a model rather
than a ckpt this is also why it is good
to read reviews before you download any
models and install them into your hard
drive on your machine you want to make
sure that you're not downloading
anything malicious now anytime you hear
the term training data it's referring to
a set of many images that are used to
train a stable diffusion model Laura or
embedding Lon 5B this is a large scale
data set for research purposes that has
been trained on
5.85 billion clip filtered text to image
pairs this is the data set that stable
diffusion was trained on which brings us
to stable diffusion 1.5 or also referred
to all over the internet as SD 1.5 this
is a latent text to image model trained
on
595,000 steps at a resolution of 512x
512 images from the Layon 5B model this
has now been superseded by stability
ai's latest release stable diffusion XL
1.0 however a lot of the community still
uses stable diffusion 1.5 because of its
flexibility and the sheer amount of
resources that are available for SD 1.5
next up we have Laura L O R A which
stands for low rank adaption now Aura is
essentially a model but trained on a
much much much smaller data set geared
towards a very specific thing this thing
could be a person a style or a concept
so you will find many lauras trained on
specific anime characters so that when
you include the Laura in your image
generation process it is going to push
your image output to have that specific
character in the final image textual
inversions and embeddings well these are
similar to lauras but they're trained on
even smaller data sets and really geared
towards capturing Concepts such as
fixing bad hands fixing bad eyes objects
and specific faces next we have vaes or
vay vays are optional detail oriented
files that sometimes come built into
your models or more often you will have
to include a v next to your model for
your image generation you can think of
vays as the final touch to getting a
really crisp sharp colorful image some
models without the use of a vay the
colors will feel very dull and washed
out or they will have less details so
you either want to make sure that the
model that you are currently running has
a vay built into it or if not you want
to use your own vay alongside of it that
just about covers the model section now
let's jump into some of the most
important and common extensions that you
will encounter while you're using stable
diffusion all right so our first
extension and quite possibly one of the
most important things you will come
across while you're using stable the
fusion if you want to do anything
outside of just basic text to image
prompting is control Nets control Nets
consists of a bunch of different models
that are trained on specific data sets
to read different structures of an image
such as straight lines depth character
position where it will actually position
a dummy inside of the character in your
photo so that you can then take that
dummy and generate a whole new person on
top of the exact pose that that person
was in control Nets are essential if you
want to do anything involving image to
image or video to video next we have
deorum deorum is a community of AI image
synthesis developers enthusiasts and
artists that build a large set of
generative AI tools they are most
commonly known for their super popular
automatic 1111 extension that can take a
text prompt and generate a really really
smooth video output that you can also
key frame specific zooming panning and
turning motions into next we have estan
the enhanced super resolution generative
adversarial Network estan is a technique
that is used to generate high resolution
images from low resolution pixels think
upscaling a 720 image up to 1080 this
model is commonly found in a lot of
stable diffusion interfaces next we have
animate diff anim diff is a technique
used to inject motion into text to image
and even imageo image Generations these
are all of the Core Concepts and
terminology and terms that you will come
across during your time using stable
diffusion if at any point you get lost
or you need some extra help figuring out
what something means or you need
something to refer to feel free to visit
our stable diffusion glossery in the
coty.com education Hub we'll see you
guys in the next video
Посмотреть больше похожих видео
Is Kandinsky-2 is better than Stable Diffusion?
Я попробовал 279+ нейросетей, показываю ЛУЧШИЕ
Вирусная обложка для YouTube видео – как мы делаем это в Топлес
GPT-4o - Безумные ИЗМЕНЕНИЯ уже сейчас. Исторический поворот от Open Ai
How to COLOUR Your Art (Beginner Friendly)
OpenAI против Google - разбор презентаций | GPT-4o | Gemini 1.5 Pro | Imagen 3 | Veo
5.0 / 5 (0 votes)