Civitai Beginners Guide To AI Art // #1 Core Concepts

Civitai
29 Jan 202411:29

Summary

TLDRВ этом видео-ресурсе представлены основные концепции и терминология, связанные с AI-искусством и стабильным распространением. Обсуждаются разновидности генерации изображений, включая текст в изображение, изображение в изображение, в.batch-обработку, восстановление и текст в видео. Также рассматриваются важные элементы, такие как промпты, модели, контрольные сети и расширения, необходимые для создания AI-изображений.

Takeaways

  • 🎨 **Текст в изображение**: Основной тип генерации, где используется текстовый запрос для создания изображения.
  • 🖼️ **Изображение в изображение**: Процесс, при котором существующее изображение используется для генерации нового с использованием текстового запроса.
  • 🖌️ **Рисование**: Техника добавления или удаления объектов на изображении с использованием маской.
  • 🎥 **Текст в видео** и **Видео в видео**: Процессы генерации видео с движением из текстового запроса или трансформации существующего видео.
  • ✍️ **Текстовый запрос**: Вводный текст, определяющий, что должно быть показано в изображении.
  • 🚫 **Отрицательный запрос**: Текстовый ввод, который указывает, что не должно быть включено в изображении.
  • 🔍 **Увеличение**: Процесс преобразования низкоразрешенных изображений в высокоразрешенные с улучшением существующих пикселей.
  • 📚 **Модели (Checkpoints)**: Файлы, созданные на основе обучающих данных, определяющие стиль и результаты генерации изображений.
  • 🔐 **Safe Tensors**: Безопасный формат файлов, заменяющий checkpoint, менее подверженный внедрению вредоносного кода.
  • 🌐 **Расширения**: Дополнительные инструменты и функции, используемые для расширения возможностей генерации изображений, таких как Control Nets, Deorum, Estan и Anim Diff.

Q & A

  • Что такое текст-картинка (text-to-image) в искусственном интеллекте?

    -Текст-картинка — это процесс, при котором искусственный интеллект использует текстовый запрос для создания изображения на основе данного текста. Это одна из самых распространенных техник в генеративном искусстве.

  • Как работает image-to-image и чем он отличается от batch image-to-image?

    -Image-to-image — это процесс создания изображения на основе уже существующей картинки, например, фотографии. Batch image-to-image работает так же, но с несколькими изображениями одновременно, обрабатывая их как серию.

  • Что такое инпейтинг (inpainting) в Stable Diffusion?

    -Инпейтинг — это метод редактирования изображений, при котором пользователь выделяет область изображения и указывает, что должно быть добавлено или удалено в этой области. Это похоже на генеративное заполнение в Photoshop, но работает локально.

  • Что такое модель и как она связана с чекпоинтами (checkpoints)?

    -Модель — это файл, который был обучен на миллионах изображений для создания генеративных изображений. Чекпоинты (checkpoints) — это тип файла, который используется для хранения моделей. На данный момент чекпоинты часто заменяются на файлы safe tensors, которые более безопасны.

  • Чем файлы Safe Tensor отличаются от файлов .ckpt?

    -Safe Tensor файлы менее подвержены риску наличия вредоносного кода по сравнению с .ckpt файлами. По возможности рекомендуется использовать Safe Tensor для повышения безопасности.

  • Что такое контрольные сети (Control Nets) и для чего они используются?

    -Контрольные сети — это модели, которые распознают структуры в изображении, такие как линии, глубина и поза персонажей. Они необходимы для работы с image-to-image и video-to-video генерацией, позволяя точнее контролировать результат.

  • Что такое негативный промпт (negative prompt) и зачем он нужен?

    -Негативный промпт используется для того, чтобы указать ИИ, что не должно быть на изображении. Это противоположность обычному промпту, который описывает, что нужно включить в изображение.

  • Для чего используется upscaling в AI-генерации изображений?

    -Upscaling — это процесс увеличения разрешения изображения, обычно с помощью моделей ИИ. Это нужно для того, чтобы улучшить качество изображения перед его публикацией или использованием, повышая детализацию без потери качества.

  • Что такое LORA и как она связана с генерацией изображений?

    -LORA (Low-Rank Adaptation) — это модель, обученная на малых наборах данных, обычно для создания изображений с конкретными персонажами, стилями или концептами. Она помогает добиться более специфичных результатов при генерации изображений.

  • Что такое анимированные модели, такие как animate diff?

    -Animate Diff — это техника, которая добавляет движение в сгенерированные изображения или видео, позволяя создавать анимации на основе текстовых запросов или существующих изображений.

Outlines

00:00

🎨 Введение в создание AI-искусства

В первом параграфе автор, Тайлер, представляет серию видеоуроков по созданию AI-изображений. Он объясняет, что в этой серии зрители научатся основным понятиям, терминологии и программам, необходимым для генерации изображений с помощью нейросетей и Stable Diffusion. Упоминаются ключевые программы и ресурсы, такие как автоматическая установка моделей и скачивание ресурсов с сайта coty.com. Тайлер также кратко описывает методы генерации изображений: текст-в-изображение, изображение-в-изображение, использование ControlNet, inpainting и batch image generation.

05:01

🖼️ Основные термины AI-искусства

Во втором параграфе Тайлер углубляется в основные термины, с которыми сталкиваются новички в AI-искусстве. Он описывает такие термины, как модели (checkpoints), их форматы (например, Safe Tensors), и их роль в генерации изображений. Особое внимание уделяется тому, что выбор модели влияет на итоговый стиль изображения. Тайлер также предупреждает о возможных вредоносных файлах и рекомендует проверять отзывы перед скачиванием моделей.

10:01

🧠 Архитектура и данные для обучения

В этом разделе автор рассказывает о том, как обучаются модели для Stable Diffusion. Он упоминает тренировочные датасеты, такие как LAION 5B, который используется для обучения нейросетей. Также обсуждается версия Stable Diffusion 1.5, которая широко используется сообществом из-за её гибкости, хотя существует новая версия — Stable Diffusion XL 1.0. В дополнение к этому, Тайлер объясняет, что такое Lora (Low-Rank Adaptation), textual inversions и embeddings — инструменты для создания более специфичных изображений.

📈 Важность VAE и улучшение качества изображения

Тайлер объясняет роль VAE (вариационных автоэнкодеров), которые помогают улучшить качество и детализацию изображений в процессе генерации. Он подчеркивает, что некоторые модели требуют использования VAE для получения более ярких и четких изображений. Он советует всегда проверять, встроен ли VAE в модель или нужно ли использовать его дополнительно.

🛠️ Важные расширения для Stable Diffusion

Тайлер рассказывает о важных расширениях, которые помогут пользователям расширить возможности Stable Diffusion. Одним из самых значимых он называет ControlNet, который позволяет управлять структурой изображений, добавлять глубину и работать с позами персонажей. Также обсуждаются другие расширения, такие как Deorum, используемый для создания плавных видео, и технологии для повышения разрешения изображений, такие как ESRTGAN и Anim Diff для добавления движения.

Mindmap

Keywords

💡Текст в изображение

Это самый распространенный способ генерации изображений при помощи ИИ, когда текстовое описание преобразуется в изображение. В видео этот термин используется для объяснения процесса создания изображения на основе текстового запроса, когда пользователи указывают системе, что они хотят видеть на изображении.

💡Изображение в изображение

Метод генерации, при котором в качестве входных данных используется уже существующее изображение, которое модифицируется с помощью текстовых запросов. В видео рассматривается использование этого подхода для изменения изображений, таких как фото друзей или знакомых, с помощью системы Stable Diffusion.

💡Inpainting

Это техника изменения изображения путем маскирования определенной области и добавления или удаления объектов. В видео inpainting сравнивается с функцией 'генеративного заполнения' в Photoshop и применяется локально в программном обеспечении Stable Diffusion, позволяя пользователю управлять тем, что будет изменено в изображении.

💡Промпт

Это текстовый запрос, который вводится в программное обеспечение для генерации изображений, чтобы указать ИИ, что именно пользователь хочет получить на выходе. В видео промпт рассматривается как один из ключевых элементов взаимодействия с системами на базе Stable Diffusion.

💡Негативный промпт

Текстовый запрос, который сообщает системе, что пользователь НЕ хочет видеть в сгенерированном изображении. В видео объясняется, что негативный промпт противоположен обычному промпту и помогает исключить нежелательные элементы из изображения.

💡Апскейлинг

Процесс повышения разрешения изображения путем улучшения существующих пикселей. В видео апскейлинг упоминается как последний шаг перед публикацией изображения, где используются модели ИИ для увеличения разрешения с помощью встроенных инструментов Stable Diffusion или внешних программ, таких как Topaz Photo AI.

💡Чекпоинты

Файлы моделей, которые были натренированы на миллионах изображений и используются для генерации изображений на основе текста, изображений или видео. В видео чекпоинты объясняются как основа для работы всех генераций в Stable Diffusion, и они определяют стиль финального изображения.

💡Safe Tensors

Формат файлов, который заменил чекпоинты (ckpt) из-за повышенной безопасности и защиты от вредоносного кода. В видео этот формат рекомендуется использовать вместо ckpt, так как он уменьшает риск скачивания вредоносных моделей.

💡Контрольные сети (Control Nets)

Это расширение, которое позволяет модели анализировать структуры изображения, такие как линии, глубину и позы персонажей. В видео упоминается, что контрольные сети особенно важны для работы с изображениями и видео, помогая задавать точные параметры для генерации.

💡ЛОРА (LoRA)

Технология адаптации моделей с низким рангом, которая позволяет обучать модель на меньших наборах данных, чтобы она могла генерировать очень специфичные изображения, например, изображения конкретных персонажей или стилей. В видео объясняется, что LoRA используется для улучшения генерации в определенных стилях или для получения конкретных персонажей.

Highlights

Introduction to AI art and stable diffusion by Tyler

Core Concepts and terminology behind AI art

How to install necessary software for AI image generation

Navigating programs for AI image generation

Downloading and storing resources from coty.com

Common types of image generation: text to image, image to image, batch image to image

In painting technique for adding or removing objects from an image

Text to video and video to video processes

The importance of The Prompt and the negative prompt in image generation

Upscaling process for enhancing image resolution

Checkpoints and models as the foundation of image generation

Difference between checkpoints and safe tensor files

Training data and its role in model creation

Stable diffusion 1.5 and its significance

LORA models for generating images with specific characters or styles

Textual inversions and embeddings for capturing specific concepts

VAEs for enhancing image details and colors

Control Nets for image to image and video to video transformations

Deorum and its contribution to generative AI tools

ESTAN for super resolution generative adversarial networks

Animate Diff for injecting motion into image generation

Stable diffusion glossary for reference and additional help

Transcripts

play00:00

[Music]

play00:02

welcome to cai.com official beginners

play00:05

guide to AI art my name is Tyler and

play00:07

throughout this series I will be your

play00:09

guide as we go from zero to generating

play00:12

our first AI images throughout these

play00:14

videos you can expect to learn about the

play00:17

Core Concepts and the terminology behind

play00:20

AI art and stable diffusion we're going

play00:22

to discuss and walk through how to

play00:25

install the various pieces of software

play00:27

and programs you will need to generate

play00:30

AI images on your own local machine and

play00:33

we're going to learn how to navigate

play00:35

these programs as well as how to

play00:37

properly download and store resources

play00:41

from the coty.com resource library

play00:44

before we get to installing anything

play00:46

there are a lot of Core Concepts and

play00:49

terminology used throughout AI art and

play00:52

stable diffusion that if you're new to

play00:54

all this really might be overwhelming or

play00:57

not familiar so in this video we're

play00:59

going to discuss some common terms

play01:02

abbreviations and Concepts that you will

play01:04

encounter as you're browsing websites

play01:06

like civii and interacting with software

play01:10

like automatic 1111 Focus comfy UI or

play01:14

easy diffusion so let's get started by

play01:16

discussing the various concept types of

play01:19

image generation that you'll be doing

play01:21

throughout your time making AI images

play01:23

starting with our very first concept and

play01:26

the most common which is text to image

play01:29

you're going to to see this term a lot

play01:31

and this refers to taking a text prompt

play01:34

and generating an image out of nothing

play01:36

using only the text and telling the AI

play01:40

exactly what you would like to see in

play01:42

your image then we have image to image

play01:45

and batch image to image this is the

play01:48

process of taking an existing image or a

play01:51

reference photo for example a photo of

play01:53

myself or a photo of a friend and using

play01:56

that photo as the input for the AI to

play01:59

then take your prompt reference the

play02:01

photo and build the output image on top

play02:05

of the already existing photo for this

play02:08

you'll be using something called a

play02:09

control net which we will talk about in

play02:11

the extensions part of this video image

play02:13

to image is doing so with only one

play02:16

single image whereas a batch image to

play02:18

image is taking a folder of images and

play02:22

running them through the diffusion

play02:23

process all at the same time next we

play02:26

have in painting which is the practice

play02:28

of using a painted mask area to add or

play02:31

remove objects from an image think of

play02:34

this as generative fill from Photoshop

play02:37

except it lives locally in your stable

play02:40

diffusion software and you get to paint

play02:43

right on your image with a brush tool

play02:45

punching The Prompt exactly what you

play02:47

want to happen in the part of the image

play02:49

that you painted next we have text to

play02:50

video and video to video or as you'll

play02:53

see them referred to text to vid or vid

play02:56

to vid these are the processes of taking

play02:59

a text prompt and getting a video output

play03:02

with motion or taking an existing video

play03:05

input and transforming that video

play03:08

utilizing your prompt next we have the

play03:11

most important part The Prompt and the

play03:15

negative prompt The Prompt is the text

play03:18

input that you give your stable

play03:20

diffusion based software or any AI image

play03:22

generation software in general to tell

play03:25

it exactly what you would like it to

play03:27

Output in your image the negative prompt

play03:30

does the reverse this is where you take

play03:33

your text input and tell stable

play03:35

diffusion what you do not want in your

play03:38

photo next we have upscaling upscaling

play03:41

is the process of taking low resolution

play03:43

media think an image that is a 512 x 512

play03:48

small little square and converting it to

play03:51

high resolution media think a square

play03:53

that is 1080 x 1080 this is usually done

play03:57

by enhancing the existing pixels and

play04:00

most of the time we are now doing this

play04:03

through either AI models that are built

play04:05

into our stable diffusion software and

play04:08

interfaces or we're using external

play04:10

programs like topaz photo AI or topaz

play04:13

video AI to upscale our images and

play04:16

videos before we go and we share them on

play04:19

the Internet or post them wherever we

play04:21

want the upscaling process is usually

play04:23

going to be the last part before you're

play04:25

ready to share your images these are the

play04:27

Core Concepts that you will be utilizing

play04:29

anytime you sit down to generate

play04:31

something with stable diffusion next

play04:33

we're going to dive into the models

play04:36

assets and resources that you're going

play04:38

to come across on a regular basis so to

play04:41

start off checkpoints checkpoints are

play04:44

now more commonly referred to as models

play04:47

but you will see these terms use

play04:49

interchangeably as you go from site to

play04:51

site and you're looking for different

play04:53

models or checkpoints to use in your

play04:56

Generations a model is the product of

play04:59

the training millions of images scraped

play05:01

from all over the web and this file

play05:04

drives our results from text to image

play05:07

image to image and text to video

play05:09

Generations this is the heartbeat of

play05:12

everything you will be doing in stable

play05:14

diffusion typically your model will

play05:16

dictate the overall style that you will

play05:19

get out of your image some models are

play05:22

really great all-arounders some are very

play05:25

strictly trained on anime and some are

play05:28

very strictly trained trained on

play05:30

realistic images choosing the right

play05:32

model is vital to getting the image that

play05:35

you would like out of stable diffusion

play05:37

all right let's move on to checkpoints

play05:39

and safe tensors now checkpoints are a

play05:42

file format created by pytorch lightning

play05:45

it contains a machine learning model

play05:47

which is used by stable diffusion to

play05:49

generate our image outputs now this the

play05:52

checkpoint or the ckpt file is

play05:56

superseded and has mostly been replaced

play05:59

by safe tensor files safe tensor files

play06:02

are essentially the same thing except

play06:05

they are less susceptible to having

play06:07

malicious code put in them so whenever

play06:11

possible you would want to look for the

play06:14

safe tensor version of a model rather

play06:17

than a ckpt this is also why it is good

play06:21

to read reviews before you download any

play06:23

models and install them into your hard

play06:26

drive on your machine you want to make

play06:28

sure that you're not downloading

play06:29

anything malicious now anytime you hear

play06:31

the term training data it's referring to

play06:34

a set of many images that are used to

play06:37

train a stable diffusion model Laura or

play06:40

embedding Lon 5B this is a large scale

play06:44

data set for research purposes that has

play06:47

been trained on

play06:49

5.85 billion clip filtered text to image

play06:52

pairs this is the data set that stable

play06:55

diffusion was trained on which brings us

play06:58

to stable diffusion 1.5 or also referred

play07:02

to all over the internet as SD 1.5 this

play07:05

is a latent text to image model trained

play07:08

on

play07:09

595,000 steps at a resolution of 512x

play07:13

512 images from the Layon 5B model this

play07:17

has now been superseded by stability

play07:20

ai's latest release stable diffusion XL

play07:24

1.0 however a lot of the community still

play07:27

uses stable diffusion 1.5 because of its

play07:30

flexibility and the sheer amount of

play07:32

resources that are available for SD 1.5

play07:36

next up we have Laura L O R A which

play07:40

stands for low rank adaption now Aura is

play07:44

essentially a model but trained on a

play07:46

much much much smaller data set geared

play07:49

towards a very specific thing this thing

play07:52

could be a person a style or a concept

play07:56

so you will find many lauras trained on

play07:59

specific anime characters so that when

play08:01

you include the Laura in your image

play08:03

generation process it is going to push

play08:06

your image output to have that specific

play08:09

character in the final image textual

play08:12

inversions and embeddings well these are

play08:14

similar to lauras but they're trained on

play08:16

even smaller data sets and really geared

play08:19

towards capturing Concepts such as

play08:21

fixing bad hands fixing bad eyes objects

play08:25

and specific faces next we have vaes or

play08:30

vay vays are optional detail oriented

play08:33

files that sometimes come built into

play08:37

your models or more often you will have

play08:40

to include a v next to your model for

play08:43

your image generation you can think of

play08:45

vays as the final touch to getting a

play08:48

really crisp sharp colorful image some

play08:51

models without the use of a vay the

play08:54

colors will feel very dull and washed

play08:56

out or they will have less details so

play08:59

you either want to make sure that the

play09:01

model that you are currently running has

play09:04

a vay built into it or if not you want

play09:08

to use your own vay alongside of it that

play09:11

just about covers the model section now

play09:13

let's jump into some of the most

play09:15

important and common extensions that you

play09:18

will encounter while you're using stable

play09:20

diffusion all right so our first

play09:22

extension and quite possibly one of the

play09:25

most important things you will come

play09:27

across while you're using stable the

play09:29

fusion if you want to do anything

play09:31

outside of just basic text to image

play09:34

prompting is control Nets control Nets

play09:37

consists of a bunch of different models

play09:40

that are trained on specific data sets

play09:43

to read different structures of an image

play09:46

such as straight lines depth character

play09:49

position where it will actually position

play09:52

a dummy inside of the character in your

play09:54

photo so that you can then take that

play09:56

dummy and generate a whole new person on

play09:58

top of the exact pose that that person

play10:01

was in control Nets are essential if you

play10:03

want to do anything involving image to

play10:06

image or video to video next we have

play10:10

deorum deorum is a community of AI image

play10:13

synthesis developers enthusiasts and

play10:16

artists that build a large set of

play10:19

generative AI tools they are most

play10:21

commonly known for their super popular

play10:24

automatic 1111 extension that can take a

play10:27

text prompt and generate a really really

play10:29

smooth video output that you can also

play10:32

key frame specific zooming panning and

play10:35

turning motions into next we have estan

play10:38

the enhanced super resolution generative

play10:41

adversarial Network estan is a technique

play10:43

that is used to generate high resolution

play10:46

images from low resolution pixels think

play10:49

upscaling a 720 image up to 1080 this

play10:53

model is commonly found in a lot of

play10:55

stable diffusion interfaces next we have

play10:57

animate diff anim diff is a technique

play11:00

used to inject motion into text to image

play11:04

and even imageo image Generations these

play11:07

are all of the Core Concepts and

play11:09

terminology and terms that you will come

play11:12

across during your time using stable

play11:14

diffusion if at any point you get lost

play11:16

or you need some extra help figuring out

play11:18

what something means or you need

play11:20

something to refer to feel free to visit

play11:22

our stable diffusion glossery in the

play11:24

coty.com education Hub we'll see you

play11:27

guys in the next video

Rate This

5.0 / 5 (0 votes)

Связанные теги
AI-искусствоStable DiffusionТерминологияОбучениеИзображенияВидеоОбновленияРесурсыМоделиРасширения