【速報】無料・最強画像生成AI「Stable Diffusion3.0」を徹底レビューしていきます!DALL-E3・Midjourney V6越えは確定!?

mikimiki web スクール
1 Mar 202420:13

Summary

TLDRThe transcript discusses a new AI image generation model called Stable Diffusion 3. It compares qualities like image realism, text generation, and spatial recognition against Midjourney and Dall-E models. The goal is examining if Stable Diffusion 3 represents the next evolution in AI image generation.

Takeaways

  • 🌐 MikMik introduces their course on using image generation AIs, particularly focused on beginners who want to learn from scratch.
  • 🤖 Highlights the release of a new course on ChatGPT and the third iteration of DALL-E, offering advanced insights into these technologies.
  • 🎨 Discusses the capabilities of M Journey and DALL-E 3, emphasizing their ease of use in generating high-quality images without the need for a complex setup.
  • 🆕 Introduces Stable Diffusion 3, a significant upgrade with improved image quality, text generation capabilities, and increased accessibility for users with lower-spec PCs or mobile devices.
  • 🔍 Compares Stable Diffusion 3 with M Journey and DALL-E 3, noting Stable Diffusion 3's enhanced ability to generate text within images and its multimodal input capabilities.
  • 👩‍🏫 Offers detailed demonstrations of Stable Diffusion 3's features, showcasing its ability to create complex images and understand intricate prompts.
  • 🔥 Highlights the significant advancements in text generation within images, a notable improvement in AI image generation technology.
  • 💻 Mentions the accessibility of these technologies, with a focus on the open-source and free-to-use nature of Stable Diffusion 3.
  • 📈 Observes the overall improvement in image generation quality across all platforms, indicating a rapid advancement in the field.
  • 📚 Encourages viewers to subscribe to the MikMik Web School channel for more tutorials and to join their LINE community for exclusive content and study sessions.

Q & A

  • What are the main improvements in Stable Diffusion 3 over previous versions?

    -The main improvements are better image quality, improved text and spelling capabilities so it can generate text more accurately, and an architecture overhaul to a completely new model using a novel Diffusion Transformer.

  • How does Stable Diffusion 3 compare to Midjourney and DALL-E 3 for realism?

    -For realism, Midjourney images tend to look more realistic. Stable Diffusion 3 can also generate realistic looking images but may not be on the same level as Midjourney based on the examples.

  • What makes the text generation capabilities of Stable Diffusion 3 special?

    -Stable Diffusion 3 can generate two different pieces of text in one image, like having one text on a computer screen and another handwritten on the wall. This is very difficult for other systems like DALL-E and Midjourney.

  • How has text generation in image AI improved over the past year?

    -One year ago text generation in image AI was very poor, with meaningless characters being generated. But now the quality has improved significantly across services like Stable Diffusion, Midjourney, and DALL-E where text can be generated quite accurately.

  • What are the 3 main evaluation criteria discussed for the AI services?

    -The 3 main criteria evaluated are: 1) Image realism 2) Accuracy of text generation 3) Ability to recognize spatial relationships and positions of objects in the image.

  • For spatial relationship recognition, which service performed the best?

    -Stable Diffusion 3 was by far the best at recognizing spatial relationships and correctly positioning objects, like being able to place a triangle behind a cube and then also position a dog to the right and cat to the left.

  • How can I start using Stable Diffusion 3?

    -Stable Diffusion 3 is not publicly available yet. You need to sign up on the waitlist on the official website to receive updates for when it becomes accessible.

  • What hardware is required to run Stable Diffusion 3?

    -With 8 billion parameters across models of varying sizes, Stable Diffusion 3 is designed to be flexible across devices. Low parameter models can run on mobile phones and tablets while high parameter models can leverage GPUs and high spec PCs.

  • What data types can Stable Diffusion 3 leverage as input?

    -As a multi-modal model, Stable Diffusion 3 can process images, text, audio, and video as inputs to generate images.

  • How might Stable Diffusion 3 evolve in the future?

    -Given the rapid pace of progress so far, Stable Diffusion 3 will likely continue advancing quickly in terms of image quality, text accuracy, and spatial relationship recognition. More capabilities will emerge as it is developed further.

Outlines

00:00

🚀 Introduction to MikMik's Web School and Image Generation AI

MikMik introduces their web school, offering courses on how to use M-Journey from scratch for those interested in learning about image generation AI, including a course on ChatGPT. They highlight the release of their second course and mention the availability of a ChatGPT third course. MikMik encourages viewers to register on LINE for exclusive access to useful GPT prompts and premium content, along with invitation-only study sessions. The main theme of the video is a comprehensive review of the latest image generation AI technologies: M-Journey V6, DALL-E 3, and the newly introduced Stable Diffusion 3. MikMik emphasizes the closed nature of M-Journey and DALL-E 3, which are typically paid services, versus the open and free nature of Stable Diffusion 3, despite its higher barrier to entry due to the need for setup. The new version of Stable Diffusion is praised for its improved quality and ease of use without cost.

05:01

🔍 Comparative Analysis of M-Journey, DALL-E 3, and Stable Diffusion 3

This section delves into a comparison between M-Journey V6, DALL-E 3, and Stable Diffusion 3, focusing on their capabilities in generating images from prompts. MikMik discusses the challenges and limitations of each technology, with specific examples of prompts and the generated outcomes. They point out the significant improvement in text generation within images by Stable Diffusion 3, setting it apart from its predecessors. However, access to Stable Diffusion 3 is limited to users on a waiting list, suggesting viewers sign up to get early access. MikMik shares examples of images generated by the AI technologies, highlighting their strengths and weaknesses in producing detailed and realistic images, especially in terms of text generation and the rendering of complex scenes.

10:03

🎨 Advanced Features and Real-World Application Scenarios

MikMik explores the advanced features of Stable Diffusion 3, emphasizing its superior text generation capabilities and the ability to generate images from complex prompts involving multiple elements. They showcase examples that demonstrate the AI's understanding of prompts related to text, spatial recognition, and the creation of images with intricate details. Comparisons with M-Journey and DALL-E 3 illustrate how Stable Diffusion 3 excels in generating high-quality, realistic images that accurately follow the given prompts. MikMik's analysis covers various scenarios, including the generation of images with specific text elements, the representation of objects with accurate colors and positions, and the AI's capability to understand and recreate complex spatial arrangements.

15:03

🏆 Final Thoughts and Recommendations

In the concluding section, MikMik reflects on the performance and capabilities of M-Journey, DALL-E 3, and Stable Diffusion 3. They express admiration for the advancements in image generation AI, particularly praising Stable Diffusion 3 for its ability to produce images of high quality and realism. MikMik notes the AI's proficiency in text generation, spatial recognition, and adherence to complex prompts, marking a significant evolution within a year. The summary underscores the potential of these technologies to cater to various user needs, from creating realistic images to executing detailed prompts. MikMik promises future content on utilizing Stable Diffusion 3, encouraging viewers to subscribe for updates and offering exclusive content to LINE members.

Mindmap

Keywords

💡画像生成AI

This refers to AI systems that can generate images based on text prompts. The video discusses and compares several image generation AI services.

💡ステーブルディフュージョン3

Stable Diffusion 3 is one of the image generation AI services featured in the video. It is an open source system known for high quality image generation.

💡文字生成

This means text or character generation within images. The video examines the accuracy of text generation across the different AI services.

Highlights

Stable Diffusion 3 has significantly improved image quality and text generation capabilities

The number of parameters in Stable Diffusion 3 has increased to 8 billion, allowing it to meet various user needs

Stable Diffusion 3 uses a completely new AI model architecture, not just an enhanced version

Stable Diffusion 3 can generate images from video or audio inputs due to its multimodal capabilities

Stable Diffusion 3 has vastly improved text generation quality compared to Midjourney and Dall-E

Stable Diffusion 3 can generate two different pieces of text in one image, a new capability

Stable Diffusion 3 rendered text effects like embroidery and graffiti more accurately than Midjourney and Dall-E

Stable Diffusion 3 recognized sequence and numbers in text prompts remarkably well

Stable Diffusion 3 generated images with higher realism than Midjourney and Dall-E in some cases

Stable Diffusion 3 created images reflecting spatial relationships and positioning extremely well

The image generation quality and capabilities of Stable Diffusion 3 are very impressive

Stable Diffusion 3's text generation accuracy across prompts was superior

Stable Diffusion 3 recognized and rendered spatial relationships in images remarkably effectively

The image generation quality and capabilities will likely continue improving rapidly

Stable Diffusion 3 enables image creation previously not possible, very exciting for the future

Transcripts

play00:00

こんにちはみきみきです私については

play00:02

こちらをご覧くださいリリアンではゼから

play00:05

始めるミッジ2講座をリリースしています

play00:07

0から体型的にMジャニの使い方を学び

play00:10

たい方にぴったりの講座になっています

play00:12

またチャトGPT第3講座もありますので

play00:15

気になる方は概要欄からチェックしてみて

play00:17

くださいmikmikWebスクールの

play00:19

LINEお友達登録をしていただくとミッ

play00:21

ジャーニーで使えるプロンプトシや厳選

play00:24

GPTなど豪華ptfを配布中です

play00:27

LINE限定の勉強会も開催していますの

play00:29

で是非ご参加くださいmikmikWeb

play00:32

スクールチャンネル登録してねチャンネル

play00:34

登録後通知を全てにすると新作動画のお

play00:37

知らせが届きます本日のテーマはM

play00:40

ジーニーV6ダリ3超最新画像生成AI

play00:44

stableディフュージョン3を徹底

play00:46

レビューしていきます画像生成AIといえ

play00:49

ばミキMIKエブスクールではミッ

play00:52

ジャーニーやダリ3を中心にご紹介してき

play00:54

ました理由としてはMジャーニーだったり

play00:57

ダリ3はクローズドな画像生成AIで基本

play01:00

的には有料で環境構築はなしで提供された

play01:04

UIを使えば簡単に高クオリティな画像を

play01:07

生成できるからですMジャニーだったりダ

play01:10

3がクローズドな画像生成AIなのに対し

play01:13

てオープンに画像生成することができる

play01:15

サービスですポイントとしてはですね無料

play01:18

で画像生成ができる点ですただですね環境

play01:22

構築が必要なので初心者であったりとか

play01:25

PCのスペックが高くない方にとっては

play01:27

少しハードルが高いというのがデメリット

play01:30

でした今回の新しいバージョン

play01:32

stableディフュージョン3はかなり

play01:34

やばいです今お伝えしたような

play01:36

stableディフュージョンのデビット

play01:38

がほぼ解消されて生成クオリティかなり

play01:41

高いそして無料で使えるこれは使わないて

play01:44

はないということで今日は詳しく

play01:46

stableディフュージョン3について

play01:47

ご紹介をしていきます今回の目次こちらに

play01:50

なりますまずstable

play01:51

ディフュージョン3の概要をお伝してM

play01:54

journeV6ダリ3と比較をしていき

play01:56

ますではまずSTディフュージョンの概要

play01:59

どんなもものなのかをご紹介していきます

play02:02

こちらがですねstable

play02:03

ディフュージョン3の公式が出している

play02:05

リリースです英語で少し長いのでこちらを

play02:09

ですねまとめて分かりやすくご紹介して

play02:11

いきますポイントは大きくこちらの3つ

play02:14

です1つ目がプロンプだったり画質の向上

play02:17

はもちろん文字生成能力こちらスペリング

play02:20

能力という風に言うんですがこちらが大幅

play02:23

に向上しましたこちら目次の2つ目で

play02:25

詳しくご紹介していきますがこの下のよう

play02:28

にですね文字を思い通りに生成することが

play02:31

できるんですこちら1番右側見てみて

play02:34

くださいバスにも文字を生成することが

play02:37

できて表式にも生成していますよねこの

play02:40

ように2つ文字を生成するということも

play02:42

できるんですあと真ん中のステーブル

play02:44

ディフュージョン3といったような

play02:46

コラージュのような文字生成なんかもでき

play02:48

てしまいますダリ3もミッドジャーニーも

play02:51

文字生成はできますなのでどれぐらいこの

play02:53

のステーブルディフュージョン3の文字

play02:55

生成のクオリティが高いのかっていうのは

play02:57

目次の2つ目で比較をしていきたいと思い

play02:59

ます

play03:00

そしてポイントの2つ目はパラメーターが

play03:03

なんと8ビリオンになったのでいろんな

play03:05

ユーザーのニーズに答えれるようになった

play03:07

んですパラメーターが低いものそして高い

play03:10

もの様々なんですがこれデバイスによって

play03:14

低いモデルを使ったり高いモデルを使っ

play03:16

たりすることができるんですねステープル

play03:18

ディフュージョンは今までコースペックな

play03:20

PCが必要だったんですがパラメーターが

play03:22

低いものがあることで例えばモバイルに

play03:25

搭載されたりタブレットとかあとは

play03:27

スペックが低いPCでも使えるようになる

play03:29

ということなんですこれオープンソースな

play03:32

んですがこういったことも可能になります

play03:34

で3つ目のポイントです今まで既存モデル

play03:37

の強化ということで1.4から1.5に

play03:40

なったり2から2.1になったように同じ

play03:43

モデルの進化版だったんですねただ今回

play03:46

リリースされたステーブル

play03:48

ディフュージョン3は強化版ではなく

play03:50

アーキテクチャーが殺神されたんです全く

play03:53

新しいモデルにだったんですねどんな

play03:55

モデルかというとこなんですがこちら

play03:57

ステーブルディフュージョンを開発して

play03:59

いるスタビリティAIのCOのツイート

play04:02

ですこれはニュータイプディフュージョン

play04:04

トランスフォーマーということでシミラー

play04:07

toソオープンエイヤがリリースしている

play04:09

動画生成空ありましたよねこちらの動画で

play04:12

も詳しくご紹介してきましたがこちらと似

play04:15

たアーキテクチャ技術を使用しているん

play04:17

ですこの空もねかなりクオリティが高い

play04:21

動画を生成できるので皆さんもね驚きだっ

play04:23

たと思いますがこの空と似た技術を使用し

play04:27

ていることで高クリティな画像を生成する

play04:29

ことができるんですこの技術の詳細につい

play04:32

て今後スタビリティAIが今後レポートを

play04:34

出すという風に言っているのでまたてて

play04:36

機会があればご紹介をしていきますで

play04:39

合わせてこの2つ目の配ですがマルチ

play04:41

モーダルインプットとありますマルチ

play04:43

モーダルは画像だったり音声動画テキスト

play04:46

を認識できるモデルですがスプルディフ

play04:49

バージョン3はマルチモデルのインプット

play04:52

ができるんですなので動画から画像を生成

play04:54

したり音楽から画像を生成することも

play04:57

できるということなんですはいここちらが

play04:59

ですねstableディフュージョン3の

play05:01

概要でしたこれだけ見るとかなりすごい

play05:03

ものができそうな感じでワクワクしますよ

play05:05

ねしかもこれ全て無料で提供されるという

play05:09

かなり太っ腹なサービスですはいではです

play05:12

ねMjneV6とダリ3と比較をしていき

play05:15

ましょうでstableディフュージョン

play05:17

3はまだ全てのユーザーが使えるわけでは

play05:19

ありません使いたい方はこちらの公式

play05:22

サイトのちょっとスクロールするとこに

play05:24

ヒアというのがありますこちらをして

play05:26

ウェイティングリストに登録をしましょう

play05:29

するとDiscordなどに連絡が来ると

play05:31

いうことです早く使いたいところなんです

play05:34

がまずはウェイティングリストへの登録を

play05:37

していきますでまだですねST

play05:39

ディフュージョン3使うことはできないん

play05:41

ですがSTディフュージョンの公式

play05:43

アカウントであったり中の人たちが

play05:45

プロンプト付きで実際にどんな画像が生成

play05:48

できるのかというのを見せてくれているの

play05:49

でこちらを元に比較をしていき

play05:53

ますはいではプロンプト見ていきます夜の

play05:57

山頂でカラフルなエネルギーで作作られた

play06:00

ステーブルディフュージョン3と書かれた

play06:02

宇宙の呪文ですね文字もプロンプトとして

play06:05

入れているんですがこれちょっと日本語訳

play06:07

にしてるので変な感じになってますが

play06:09

stableディフュージョン3ですそう

play06:11

すると文字生成かなりしっかりとできてい

play06:15

ますね光のきらめきとかクオリティ高い

play06:18

ですよねただ文字を生成するだけではなく

play06:21

光の

play06:24

アートワークスタジオというのをしっかり

play06:26

と体現できていますこちらミッで全く同じ

play06:30

プロンプとを入れて作成してみましたどう

play06:33

でしょうかステーブルディフュージョン3

play06:35

というのは文字生成できていますねただ光

play06:39

で作られた文字ではなくエネルギーはここ

play06:41

にあって文字だけちょこんと左側にある

play06:44

感じですどれもそうですね4つ生成されて

play06:48

いますがどれもそうですねでも文字生成今

play06:51

までミトジャーニーかなり不得意なところ

play06:54

ではあったんですがかなりクオリティ高く

play06:56

できるようになっているというのが驚きで

play06:59

です次はチットGPTに搭載されている

play07:02

ダリ3で生成してみましたこちらですね光

play07:06

のきらめきはかなりクリティ高くできて

play07:08

いると思います個人的にはかなり好きな

play07:10

テイストではあるんですがステーブル

play07:13

ディフュージョンという文字がないですか

play07:16

ねスリだけは生成されていますが文字は

play07:20

どこにも見当たりませんちょっとうまく

play07:23

生成できなかったようですこれもう1回

play07:26

やってみたんですがこちらもですね3は

play07:29

かなりクリティ高くいい感じにできたん

play07:31

ですがステープルディフュージョンの文字

play07:34

はやはり生成ができませんでしたでこちら

play07:37

はですねステーブルディフュージョンの

play07:38

公式のトップガにも使われているものなの

play07:41

でかなりいい感じに生成できたものだと

play07:44

思うんですよねなのでもうちょっと比較し

play07:46

ていき

play07:50

ましょう次はですね2つの文字生成に

play07:53

チャレンジしていきます机にある90年代

play07:56

のデスクトップコンピューターの画面には

play07:59

カムと表示されていますで背景の壁には3

play08:02

DSという文字を大きく落書き風に記載

play08:06

するというプロンプトですはいじゃこちら

play08:08

で生成をするとかなりねクオリティ高い

play08:12

ですよね懐かしいですねこれ昔こういうの

play08:16

うちにあったなという感じなんですがここ

play08:18

の画面にはしっかりウェルカムと記載され

play08:21

ていますそして壁にも3DSというね

play08:24

落書き風に生成されていますこの文字を2

play08:28

つ生成できるというのが新しいですね今

play08:31

までは1つの文字生成というのはできたん

play08:34

ですねでこれ結構今までダリス3がかなり

play08:36

クオリティ高いという風に言われていまし

play08:38

たこれミッジャーニーだったりダリ3で

play08:41

どのように生成ができるんでしょうか2つ

play08:44

生成できるのか見ていきましょうちなみに

play08:46

こちらはですねステーブル

play08:47

ディフュージョンの中の人のXですこちら

play08:50

がですねミッジャーニーですもパソコンは

play08:53

ですね先ほどのステーブル

play08:56

ディフュージョン3よりかなり立体的で

play08:58

リアルに生成できていますね画面の

play09:01

スクリーンの中にもウェルカムという風に

play09:03

しっかりと文字生成されています本当にね

play09:06

ミッジョニーの文字生成のクオリティ

play09:08

かなり上がりましたねただ3DSはどう

play09:12

でしょうこちら3DSしっかりできてい

play09:14

ますねさらにここにも3DS3DSという

play09:17

風に結構3DS押しにはなっていますが

play09:20

うん結構いい感じに生成できてるのでは

play09:23

ないでしょうかおこれとかいい感じですね

play09:28

結構私この好きですねも本格的なま写真の

play09:32

ような画像を生成したいのであればミッ

play09:34

ジャーニーやはり強いなという感じなん

play09:37

ですが皆さんはどうでしょうかでは次は

play09:40

ダリスで見ていきますダリスはどう

play09:44

でしょうか結構パソコンはいい感じには

play09:46

できている気がするんですがウェルカムで

play09:49

SDというのがここに入っていますねで

play09:51

後ろにもなんだかこう結構アレンジされて

play09:54

いますたこれはSっぽいですがうん

play09:56

ちょっと惜しい感じではありますねやり2

play09:59

つ文字生成をするというのが少しこう

play10:02

こんがらがってしまってるのかなというの

play10:04

がこの画像から分かります皆さんはどう

play10:07

ですかステーブルディフュージョンミッド

play10:09

ジャーニーダリ3どの画像がお好き

play10:12

でしょうか私はね結構どれもいいなと思っ

play10:16

たんですがま一番綺麗に生成できてるのは

play10:19

ステーブルディフュージョンかなと思うん

play10:21

ですがやはりリアルさという面で考えると

play10:24

ミッドジャーニーねかなりすごいなと思う

play10:27

ので私は結構やっぱり土砂に押しではあり

play10:30

ますね結構ここもねどんな画像を生成し

play10:32

たいかというところで好みが分かれてくる

play10:35

かなと思い

play10:39

ますさらにこちら見ていきましょう

play10:42

キッチンのテーブルの上に軍内と書かれた

play10:45

赤ちゃんの虎の刺繍が施された繁華値が

play10:48

置かれています隣には火のついた

play10:50

キャンドルがあり照明は薄くて

play10:52

ドラマチックですといったプロンプトです

play10:55

はいこちらを元に生成されたのがこの画像

play10:59

ですかなり細かく描かれていますねさらに

play11:04

グッナイという文字も刺繍風に描かれてい

play11:07

ます結構ねこのステーブル

play11:09

ディフュージョンのポイントとしてはただ

play11:11

文字を生成するだけではなく刺繍風にでき

play11:14

たりとかあとは落書き風にできたりといっ

play11:17

たようなアレンジができるというのが特徴

play11:19

なんですこれミッドジャーニーで生成され

play11:22

ました刺繍はできているんですが軍内と

play11:26

いうのがうまく生成できませんでしたねま

play11:30

クオリティは高いんですが文字生成が

play11:32

うまくできませんでしたこね文字生成結構

play11:35

うまくできるようにはねミットジになって

play11:37

きてはいるんですがや結構ねできたりでき

play11:40

なかったりということもあるので何回かる

play11:42

ともしかしたらできるかもしれないです

play11:44

こちらがダリ3ですこちらも結構いい感じ

play11:47

でできてはいるんですがちょっと惜しい

play11:50

ですかねグッドナイトのDとにNがあえて

play11:52

繋がってるんですかねだとしたらまいい

play11:55

感じにできてるのではないでしょうかこの

play11:57

画像のクオリティ的には少しだけつるんと

play12:00

した感じはやはり否めないですねなので

play12:03

リアルさという面で比較するとステーブル

play12:06

ディフュージョンとミッドジャーニー

play12:07

かなりいいバトルになっているのではない

play12:09

でしょうかただステーブル

play12:11

ディフュージョンこれは無料で生成できる

play12:13

というのがポイントが高いですで今ですね

play12:16

このステープルディフュージョンに関して

play12:18

はかなりよくできたものま何回かやって

play12:21

できたものがアップされている可能性も

play12:23

ありますのでまそういった面でま同等の

play12:26

比較というのはできなかったりするんです

play12:28

がまステーブルディフュージョンミッド

play12:30

ジャーニーダリ全てですね文字生成かなり

play12:33

クオリティが全体的に上がっているなと

play12:34

いった印象

play12:38

ですもっと複雑なプロンプトでやって

play12:41

いこうと思いますはい木星のテーブルの上

play12:43

に3つな透明なガラスピンがあります左側

play12:47

が赤い液体と番号は1中央は青い液体と2

play12:52

で右が緑色と3このようにですねこう順番

play12:55

で文字を生成するとかこれ結構伝えるプロ

play12:58

ロンプとも大切だったりするんですがこう

play13:01

AIがこれ認識するのもすごく大変なん

play13:04

ですねこれステーブルディフュージョンに

play13:06

入れるとかなり正確にしっかりと生成する

play13:10

ことができました赤は1だよ青は2だよっ

play13:13

てことを認識できているということなん

play13:15

ですねまこれも先ほどお伝えしたんですが

play13:18

ま何回かやってできた画像の可能性もあり

play13:21

ますので1回でこうクリティが高いものが

play13:23

できてるかは分からないんですが少なく

play13:26

とも順番と番号というのをしっかり認識し

play13:29

て生成ができるということが分かります

play13:31

ミッドジャーニーで作成してみました

play13:33

ちょっと順番が惜しかったりしますね1の

play13:37

横が2なんですが3が来てしまっていたり

play13:40

とか2が1番右に来ていますねあとは

play13:43

321になっていたりとかあとは順番と色

play13:47

が異なっていたりしますまちょっとね

play13:49

やっぱりこの順番認識と色というのを

play13:52

組み合わせるというのが少し複雑みたい

play13:54

ですねまこれは1回で生成したものになり

play13:57

ますはいこちらダリ3ですダリ3は結構

play14:00

クオリティ高くできましたね123という

play14:03

風に順番認識と番号しっかりと認識して

play14:06

生成することができましたまただですね

play14:09

やはり画像が少しAI感は否めないですね

play14:12

まつるとした感じはあります1番リアルで

play14:15

番号も認識できたのはステーブル

play14:18

ディフュージョンではないでしょう

play14:23

か最後にかなり高難度のものをやって

play14:26

いこうと思います今までの画像生成では

play14:29

絶対にできなかったようなものですが青い

play14:31

立体の上にある赤い玉の画像ですねで彼ら

play14:35

の後ろには緑色の三角形があり右側には犬

play14:38

左側には猫がいますといったプロンプト

play14:41

ですこれでステーブルディフュージョン

play14:43

しっかり順番だったりとかこう高さだっ

play14:46

たりとか背景に画像を生成するとか位置

play14:49

情報だったりとか空間を認識して画像を

play14:53

生成することができていますこれは驚き

play14:56

ですねしかも画像が1つ1つクオリティが

play15:00

高いというのもポイントですねで私ですね

play15:03

ミットジャーニーの方出版しているんです

play15:05

がまこういうですね立体とか空間を認識で

play15:08

画像を生成するというのをかなり試したん

play15:10

ですがミトジャーニー結構難しかったん

play15:13

ですよねこれをですねステーブル

play15:15

ディフュージョンできるようになっている

play15:17

というのが驚きですでミッジャーニーで

play15:20

作ってみましたこれ結構何回もやってみた

play15:23

んですが青い四角の上に丸が乗っていると

play15:26

いうところは結構できたんですがその後ろ

play15:30

に三角を配置するで右側に犬猫というのが

play15:33

やっぱ難しいんですよねまどれかはできて

play15:37

いるけどどれかはできていないと言った

play15:39

ように結構このAIがこ柄があっているの

play15:41

が分かりますこちらがですねダリスです

play15:45

ダリス結構いい線行ってますね四角の上に

play15:49

赤い玉そして後ろには緑の三角ここまで

play15:53

完璧ですああと欲しかったのは順番ですね

play15:57

右側に犬左左側に猫というところがこ10

play16:00

が逆になってしまっているのが少し惜しい

play16:03

点ではありますがの空間認識結構いい感じ

play16:06

でできているのではないでしょうか俺

play16:08

惜しいからもう何回かやったらできそうだ

play16:10

なと思ってやったんですがんやっぱり

play16:13

ちょっとこの順番が少し難しかったですね

play16:17

まそれぐらいこのAIにとって空間を認識

play16:20

して配置していくというのがハードルが

play16:23

高いところなんですねまこれもですね

play16:25

ステーブルディフュージョンではなんなく

play16:28

生成できているように見えます実際にやっ

play16:31

てみなきゃ分からないところはあるんです

play16:33

がこのねでも見る限りかなりクオリティが

play16:36

高く空間も認識できてることが分かります

play16:39

スブディフュージョン3のデモ見ていき

play16:41

ましたまだ公式リリースではないんですが

play16:44

このプロンプトでできたデモ画像を見る

play16:46

限りかなりクオリティが高く今まで画像

play16:48

生成やでできなかったことを実現している

play16:51

んですね今回は3つの観点があったと思っ

play16:54

ていてまず1つ目が画像の射術性リアルさ

play16:57

です2つ目がが正確な文字性性そして3つ

play17:00

目が空間を認識した画像性性ですで1つ目

play17:04

の写実性リアルさに関してはかなり

play17:07

クオリティ高いなと皆さんも思ったと思い

play17:09

ますまこちらはですね好みになってくると

play17:11

思うんですがどうでしたか皆さんはどれが

play17:15

お好きでしたでしょうか私はですねリアル

play17:17

な画像が好きだったりするのでやはり

play17:20

ミッドジャーニーの画像のテストが好き

play17:22

だったりするんですがステーブル

play17:24

ディフュージョン3もかなりリアルに生成

play17:27

できるなといったような印象がありました

play17:29

で2つ目の文字生成ですでこのね3つの

play17:33

サービスどれもですね文字生成かなり正確

play17:35

にできるようになっていますただこの

play17:38

ステープルディフュージョン3に関しては

play17:40

まデモという点を置いても文字生成を2つ

play17:44

できるという点がすごいなと思います画面

play17:47

にはウェルカムとれて壁にはまた違う文字

play17:49

を入れるといったように2つ異なる

play17:51

テイストの文字生成をできるという点が

play17:54

今回かなり進化したなと思った点です1年

play17:57

前はですねどの画像生成AIも文字生成不

play18:00

可能でしたもう意味の分からない文字が

play18:02

生成されていたんですがそれがかなり改善

play18:05

されてきました最後の空間認識に関しては

play18:09

ステイブルディフュージョン3が圧倒的

play18:11

でしたねま前後だったり上ゲまそういった

play18:15

ものを認識して画像を生成することが

play18:17

できるより深くプロンプトを認識して正確

play18:21

に再現できるといった点がすごいなと思い

play18:23

ました今後ですねこの画像生成の

play18:26

クオリティますます進化していことと

play18:29

間違いなしです1年経つだけでこれだけの

play18:32

進化があるのかという風に私も驚いてい

play18:34

ますまたステーブルディフュージョン3が

play18:36

リリースされましたら使い方であったりと

play18:38

かまどんなものが実際にできるのかていう

play18:40

のをご紹介していきますので楽しみにして

play18:42

いてくださいねはい皆さんいかがでした

play18:45

でしょうかこちらの動画参考になったら

play18:47

いいねボタンとチャンネル登録お願いし

play18:49

ます

play18:57

キミキスヤル最後までご覧いただき

play18:59

ありがとうございますメキメキウブ

play19:01

スクールのLINEお友達登録で今豪華5

play19:04

台特典をプレゼント中です

play19:06

Instagram完全保存版おすすめ

play19:09

ワワシやChatGPT本当に役立つ厳選

play19:13

GPT10戦完全攻略ダリ3おすめの

play19:17

プロンプトシそしてミッジャーニーの保存

play19:19

版プロンプト全一覧のPDFやキャンバの

play19:23

おすすめフォント集もプレゼントしてい

play19:25

ますLINEメンバー限定の勉強会や

play19:28

セミナーも開催中です是非チェックしてみ

play19:30

てください

play19:57

play20:11

OG