동영상이 이제 정말 자연스럽게 생성됩니다. Runway, Pika Lab, Stable Video Diffusion 모두 이겨버린 구글... 압도적 성능의 이유는 시공간 결합?

안될공학 - IT 테크 신기술
28 Jan 202409:55

Summary

TLDRتم الإعلان عن خدمة جديدة من شركة جوجل تتيح تحويل النص والصور إلى مقاطع فيديو. يتميز هذا الخدمة بقدرته على إنشاء مقاطع فيديو واقعية وطبيعية، بحيث يمكنها حتى تحويل النصوص المكتوبة إلى مقاطع فيديو مبتكرة. يتضمن الخدمة القدرة على تحويل الصور إلى مقاطع فيديو وتحسين جودة الفيديو والتزامها بالنص. تشير الأبحاث إلى أن الخدمة تتفوق بكثير على التقنيات السابقة في مجال توليد الفيديو، مما يشير إلى مستقبل مثير للاستخدامات التجارية والإبداعية.

Takeaways

  • 📣 The script discusses the recent developments in AI technology, particularly focusing on Google's new text-to-video and image-to-video services.
  • 🌟 Google's AI model, Lumière, is introduced as a significant advancement in the field, showcasing superior performance compared to existing models.
  • 🎨 The model is capable of generating realistic and contextually coherent videos from text or image inputs, marking a notable improvement in natural and smooth visual storytelling.
  • 🔄 The script highlights the importance of Google's research and development in staying ahead in the competitive landscape of AI technology.
  • 📈 Lumière's performance is evaluated through various metrics, including video quality, text alignment, and diversity, outperforming baseline models significantly.
  • 🔍 The detailed analysis of the model's functionality and its ability to understand and fill in spatial and temporal gaps in videos is discussed.
  • 🚀 The script suggests that Google's AI advancements could lead to significant commercial applications and impact the way we consume and interact with media content.
  • 💡 The potential integration of AI-generated videos into everyday devices and platforms is hinted at, with the mention of Galaxy and the upcoming integration of AI into 'Jemina' devices.
  • 🌐 The global impact and reach of Google's AI technology are emphasized, with the potential to revolutionize content creation and media consumption.
  • 🔥 The script creates a sense of excitement and anticipation for the future of AI and its applications in various aspects of life, from entertainment to practical utilities.
  • 📚 The importance of continuous research and development in AI is stressed, as companies like Google strive to push the boundaries of what's possible with technology.

Q & A

  • 구글 리서치에서 발표한 새로운 서비스는 무엇인가요?

    -구글 리서치에서 발표한 새로운 서비스는 텍스트 투 비디오 및 이미지 2 비디오 서비스입니다. 이 서비스는 기존의 생성형 AI 모델들에 비해 압도적인 성능을 가지고 있으며, 다양한 형태의 이미지를 생성할 수 있습니다.

  • 루미에르라는 기술의 핵심 특징은 무엇인가요?

    -루미에르 기술의 핵심 특징은 전체적인 영상의 맥락을 이해하고, 이를 바탕으로 다양한 스토리 기반으로 자연스럽게 표현하는 능력입니다. 또한, 회전하는 것과 같은 동작을 자연스럽게 연출하는 등의 기술적 성능도 포함됩니다.

  • 루미에르가 기존의 AI 모델들에 비해 성능에서 어떤 이점을 가지고 있는지 설명해주세요.

    -루미에르는 기존의 AI 모델들에 비해 텍스트와 이미지를 비디오로 변환하는 성능에서 압도적인 우위를 점합니다. 사용자 선호도와 관련된 평가에서 루미에르는 기본 베이스라인보다 훨씬 높은 수준의 평가를 받았으며, 비디오 퀄리티와 텍스트 얼라인먼트 측면에서도 우수한 성능을 보여줍니다.

  • 루미에르 기술이 적용될 때 어떤 종류의 이미지를 생성할 수 있는지 예시를 들어주세요.

    -루미에르 기술은 다양한 종류의 이미지를 생성할 수 있습니다. 예를 들어, 회전하는 연어회를 자연스럽게 표현하거나, 바닷속을 걷는 코끼리, 아이스크림처럼 생긴 물체 등 다양한 형태의 이미지를 생성할 수 있습니다.

  • 루미에르 기술이 사용되는 비디오 생성의 품질은 어떻게 평가되는지 설명해주세요.

    -루미에르 기술이 사용되는 비디오 생성의 품질은 Full Reference Video Quality Assessment (FR-VQA)와 같은 지표를 사용하여 평가됩니다. 이 지표는 생성된 비디오의 품질과 원본 비디오와의 차이를 측정하여, 낮을수록 더 높은 품질을 의미합니다.

  • 루미에르 기술의 성능을 높이기 위한 기술적인 접근 방식은 어떤 것이 있나요?

    -루미에르 기술은 시간과 공간의 슈퍼 레졸루션을 이용하여 전체적인 영상 맥락을 이해하고, 이를 바탕으로 비디오를 생성합니다. 또한, 인플레이션 블록과 어텐션 방식을 사용하여 더 자연스러운 비디오를 생성합니다.

  • 구글 리서치에서 발표한 루미에르 기술이 현재 어떤 단계에 있는지 말해주세요.

    -루미에르 기술은 현재 논문을 통해 발표된 상태이며, 구글 리서치에서 서비스로 제공 중인 것은 아닙니다. 그러나 기술의 성능과 잠재력은 이미 인정받아 상용화될 가능성이 높아 보입니다.

  • AI 업데이트가 빈번한 현재, 구글 리서치의 루미에르 기술이 뛰어난 성능을 보인 이유는 무엇인가요?

    -루미에르 기술은 기존의 생성형 AI 모델들과는 다른 방식으로 전체 영상의 맥락을 이해하고, 이를 바탕으로 자연스럽게 표현할 수 있는 능력을 가지고 있어서 뛰어난 성능을 보입니다. 또한, 사용자 선호도와 관련된 평가에서 높은 평가를 받아 기존 기술에 비해 뛰어난 성능을 자랑합니다.

  • 루미에르 기술이 적용될 때 어떤 종류의 동작을 자연스럽게 표현할 수 있는지 예시를 들어주세요.

    -루미에르 기술은 회전하는 동작과 같은 것들을 자연스럽게 표현할 수 있습니다. 예를 들어, 회전하는 연어회를 자연스럽게 표현하는 것이 가능합니다.

  • 루미에르 기술이 생성한 비디오의 품질을 평가하는 지표인 FR-VQA의 의미는 무엇인가요?

    -FR-VQA는 생성된 비디오의 품질을 평가하기 위한 지표로, 생성된 비디오와 원본 비디오와의 차이를 측정하여, 낮을수록 더 높은 품질을 의미합니다.

  • 루미에르 기술이 적용될 때 어떤 종류의 이미지를 생성하지 않을 수 있는지 예시를 들어주세요.

    -루미에르 기술은 자연스럽게 표현할 수 있는 이미지만 생성합니다. 그러나, 논문에서 언급하지 않은 특정한 종류의 이미지나 동작은 생성하지 않을 수 있습니다. 구체적인 예시는 논문에서 언급된 범위를 벗어날 수 있으므로, 구체적인 예시를 드리기 어렵습니다.

  • 루미에르 기술이 발표된 이후 구글 리서치는 어떤 방식으로 서비스를 제공할 예정인가요?

    -루미에르 기술이 발표된 이후 구글 리서치는 이를 서비스로 제공할 계획이나 구체적인 방식에 대해 공개하지 않았습니다. 논문을 통해 기술의 성능과 잠재력은 인정받았지만, 현재까지는 서비스로 제공 중인 것은 아니라고 합니다.

Outlines

00:00

🔍 جديد في عالم الذكاء الاصطناعي: التطورات الأخيرة في خدمات الفيديو

تناقش الفقرة الأولى إطلاق جوجل لخدمات جديدة تتيح تحويل النص إلى فيديو والصور إلى فيديو، مشيرة إلى أنه لم يتم إطلاق هذه الخدمات بعد ولكن تم الكشف عن تفاصيلها. تتميز هذه الخدمات بالقدرة على إنشاء أنواع مختلفة من الصور بأساليب فنية متنوعة وأداء متفوق على النماذج السابقة مثل Pikalabs و Runway. يُشار إلى الاستفادة من نماذج التحليل الزمكاني في تحسين جودة الفيديو وتماشيه مع النصوص المستخدمة، مع التركيز على تحقيق أداء عالي وتعزيز التجربة البصرية بشكل ملحوظ.

05:01

🚀 تقنيات متقدمة في إنتاج الفيديو: نظرة على أداء وجودة النماذج الجديدة

تغطي الفقرة الثانية مزيدًا من التفاصيل حول التقنيات والنماذج الجديدة في إنتاج الفيديو، مع التركيز على مقارنة هذه النماذج بأدائها والجودة. تُظهر النتائج تفوق نموذج 'Lumière' من جوجل على نماذج أخرى في السوق مثل SVD و Stable Diffusion في تقديم فيديوهات بجودة عالية وتماشي أفضل مع النصوص. تُناقش أيضًا التطورات في تقنيات الذكاء الاصطناعي للفيديوهات، مع التأكيد على الحاجة للتقدم في تحويل النص إلى فيديو وتحويل الصورة إلى فيديو بطرق تحاكي الواقع بصورة أكبر وأكثر تعقيدًا.

Mindmap

Keywords

💡AI 모델

AI 모델은 인공지능에서 사용되는 알고리즘과 규칙의 집합체로, 이 비디오에서는 이미지 및 비디오 생성에 사용되는 다양한 AI 모델에 대해 언급됩니다. 특히 구글 리서치에서 발표한 텍스트 투 비디오 및 이미지 투 비디오 서비스와 관련이 있습니다.

💡루미에르

루미에르은 구글 리서치에서 발표한 새로운 AI 모델로, 텍스트와 이미지를 비디오로 변환하는 데 사용됩니다. 이 모델은 전체적인 영상의 맥락을 이해하고 다양한 스토리 기반으로 자연스럽게 표현할 수 있는 능력을 가지고 있습니다.

💡스페이스 스타임 디퓨전 모델

스페이스 스타임 디퓨전 모델은 루미에르의 핵심 기술 중 하나로, 시간과 공간의 맥락을 동시에 이해하여 비디오를 생성하는 데 사용됩니다. 이 모델은 비디오의 연속성과 자연스러운 전환을 가능하게 합니다.

💡텍스트 투 비디오

텍스트 투 비디오는 텍스트 입력을 기반으로 비디오 콘텐츠를 생성하는 기술입니다. 이 비디오에서 언급된 구글 리서치의 루미에르 모델은 이를 통해 사용자가 입력한 텍스트를 실제로 비디오로 변환할 수 있습니다.

💡이미지 투 비디오

이미지 투 비디오는 정적인 이미지를 사용하여 동적인 비디오 콘텐츠를 생성하는 기술로, 루미에르 모델은 이를 통해 이미지를 더욱 확장하고 다양한 시나리오로 발전시킬 수 있습니다.

💡성능 압도

성능 압도는 구글 리서치의 루미에르 모델이 기존의 다른 AI 모델들보다 우수한 성능을 보인다는 것을 의미합니다. 이는 비디오 퀄리티, 텍스트 얼라인먼트, 사용자 선호도 등에서 뛰어난 결과를 내었다는 것을 보여줍니다.

💡FVD (Fréchet Video Distance)

FVD는 생성된 비디오의 품질을 평가하는 지표로, 실제 비디오와의 차이를 측정하여 숫자로 표현합니다. 루미에르 모델의 FVD 점수가 낮다는 것은 생성한 비디오가 원본과 유사하다는 것을 의미합니다.

💡IS (Inception Score)

IS는 생성된 비디오의 다양성과 질을 평가하는 지표입니다. 높은 IS 점수는 비디오가 다양한 장면과 주제를 명확하게 전달하고 고품질이라는 것을 나타냅니다.

💡TSR (Temporal Super-Resolution)

TSR은 시간적 超分辨率의 약자로, 시간적으로 떨어진 이미지를 사용하여 더 자연스러운 동작을 생성하는 기술입니다. 루미에르 모델은 TSR 기술을 사용하여 비디오의 연속성과 자연스러운 전환을 구현합니다.

💡SSR (Spatial Super-Resolution)

SSR은 공간적 超分辨率의 약자로, 공간적으로 떨어진 이미지를 사용하여 더 선명하고 자연스러운 비디오를 생성하는 기술입니다. 루미에르 모델은 SSR을 통해 비디오의 퀄리티를 높입니다.

💡2D 컨볼루션

2D 컨볼루션은 이미지 처리에서 사용되는 기술로, 이 비디오에서는 비디오 생성을 위해 사용됩니다. 2D 컨볼루션을 통해 이미지를 효율적으로 압축하고 확장하여 자연스러운 비디오를 생성합니다.

Highlights

Google Research has introduced a new text-to-video and image-to-video service.

The service does not simply generate images but also creates various forms of content.

Google's approach is not just about generating images but also focuses on the context of the entire video.

The technology allows for the generation of realistic and natural-looking videos, even with rotation and complex movements.

Google's Lumier model uses spatio-temporal diffusion models for video generation.

The model consistently processes elements in a coherent manner, maintaining the context throughout the video.

The technology surpasses existing AI models in terms of performance, offering a more natural and diverse expression in videos.

Google's model can generate high-quality videos even from a single image, demonstrating impressive generative capabilities.

The model can handle complex scenarios, such as an elephant walking in the ocean, and produce realistic outcomes.

The AI can synthesize images into a coherent narrative, creating videos that are not just a series of clips but tell a story.

The technology has potential commercial applications, as it can generate high-quality videos from text or images.

Google's Lumier model outperforms other AI models in video quality, text alignment, and diversity, setting a new standard.

The model's performance is evaluated using metrics such as FVD and IS, showing its ability to create videos that are close to the original in quality and diversity.

Google's AI model integrates temporal and spatial super-resolution to generate videos with a comprehensive context.

The technology uses a 2D convolutional approach to efficiently compress and generate video expressions.

Attention mechanisms are employed to understand the context and generate videos that are not just detailed but also contextually rich.

The introduction of Google's AI model signifies a significant advancement in the field of AI-generated video content.

The model's capabilities hint at potential future integrations into devices and platforms, enhancing the way we interact with and consume video content.

The continuous innovation in AI video generation by various companies, including Google, indicates a rapidly evolving landscape in this domain.

Google's AI model demonstrates the potential for AI to not only assist in video creation but also revolutionize the way stories are told through video.

Transcripts

play00:00

얼마 전에 재미 나이를 발표했 아아

play00:01

바드가 그렇게 욕 먹고 나서 재미

play00:02

나이를 발표하고 나서 갤럭시에

play00:04

제미나이 온 디바이스로 막 들어가고

play00:06

온 디바이스 아닌 버전으로 들어갑니다

play00:08

그리고 곧 제미나이 울트라도 들어갈

play00:10

텐데 요런 이제 영상 생선 관련해서도

play00:12

결국 제미나이 다음 버전으로 들어가지

play00:17

않을까네 여러분 반갑습니다 안델 공학

play00:19

에러입니다 구글 리서치에서 새로운

play00:22

텍스트 투 비디오 그리고 이미지 2

play00:24

비디오 서비스를 발표했는데요이

play00:26

서비스를 바로 하는 것은 아니지만

play00:28

기터 브의 상세한 내용에 의 논문과

play00:30

함께 지금 보시는 이렇게 다양한

play00:32

형태의 어떤 이미지를 생성할 수 있는

play00:34

것들을 발표를 했습니다 기존의 피카

play00:36

랩이라는 아니면 런웨이 이러한 다양한

play00:38

업체들에서 이러한 생성형 AI 모델을

play00:40

제시를 하고 해서 좀 새롭게 느껴지지

play00:42

않을 수가 있는데요 이게 또 구글이라

play00:44

한다기보다는 기준에 있는 모든 것들을

play00:47

압도하는 성능을 가지고 있기 때문에

play00:49

좀 살펴볼 필요가 있을 것 같아서

play00:50

오늘 좀 준비를 했습니다 지금

play00:52

보시다시피 특정한 어떠한 어

play00:53

그림체라고 하죠 그런 그림체가

play00:55

있으면은 그런 형태로 이미지를 생성해

play00:57

주기도 하고 특정한 부위만 저렇게

play00:58

활성화해서 하는 거 저런 거는 이미

play01:00

이제 런웨이 같은 데서 이제 하고

play01:01

있는 거긴 하죠 거기다가 특정한

play01:03

부분들을 저렇게 옷만 갈아입히는 저런

play01:05

것도 가능하고 저게 영상으로

play01:06

가능하다는 얘기입니다 그리고 하도

play01:07

요즘 AI 업데이트가 많이 되니까

play01:09

이런 것들이 별로 신기하지 않을 수가

play01:10

있는데 오늘이 구글 루미에르 같은

play01:13

경우에는 전체적인이 영상의 맥락을 다

play01:15

이해한 다음에 그냥 짧은 클립으로

play01:17

지원을 하는 것이 아니라 다양한

play01:18

스토리 기반으로 좀 더 자연스럽게

play01:20

표현할 수 있다는 점이 좀 주목할

play01:22

만한 부분인 거 같습니다이 부분 좀

play01:23

살펴 보시도록 하시죠 일단 발표된

play01:25

홈페이지 보시면은 구글 리서치에

play01:27

루미에르고 돼 있고 여기 보시죠

play01:29

스페이스 스타임 디퓨전 모델 포

play01:31

비디오 제너레이션 시공간적으로 디퓨전

play01:33

모델을 썼다고 하는 부분인데이 뭐게

play01:35

좀 핵심입니다 물론 뭐 다 이제

play01:37

스페이스 타임 다 하고 있는데게

play01:39

일관적으로 처리한 부분들이 있거든요

play01:40

요거 나중에 좀 설명드릴게요 그러면서

play01:41

텍스트툴 비디오 하면서 이렇게

play01:43

사실적인 감각의 영상들을 자연스럽게

play01:46

표현하는 부분들 있는데 전 특히

play01:48

이렇게 회전하는 거 있잖아요 여기도

play01:49

이제 지금 이제 연어회가 스시가

play01:50

이렇게 나와 있는데 회전하는 형태가

play01:52

좀 잘 고인이 안 됐거든요 회전하면

play01:54

좀 약간 일그러지기 하고 좀 어색한

play01:55

그런 연출이 많았는데 카메라 포인트

play01:57

어 뷰에서 요렇게 생성을 할 때에

play01:59

회전을 할 때 자연스러운 어떤 영상을

play02:02

연출을 한다라는 것이 좀 상당히 좀

play02:04

인상적인 부분이었어요 그리고 이미지가

play02:05

딱 주어지면 이렇게 추가적으로

play02:07

생성되는 거 코끼리가 막 이제

play02:08

바닷속을 이제 걸어 다닌다거나 그리고

play02:10

다양한 부분들이 있죠 요건 또 이제

play02:12

유명한 곰돌이 이미지죠 그런데 상당히

play02:14

좀 자연스러운 모습들 그리고이

play02:15

아이스크림요 아이스크림 같은 경우에도

play02:17

상당히 사실적으로 표현되는 부분들이

play02:18

있습니다 사실 이렇게만 보면은 뭐가

play02:20

다 나는지 사실 몰라요 이것도 이제

play02:21

그림창 하나 주어지면이 합성 이미지로

play02:24

생산을 하는 거죠 그래서 다양한

play02:25

이미지들을 이렇게 비슷한 느낌으로

play02:26

생산을 한다던가 그리고 그 뒤에 좀

play02:28

이제 세부적인 내용들이 있는데 요거

play02:29

는 제가 이제 논문들을 살펴보면서

play02:31

어떤 것들이 이런 것을 가능하게

play02:33

했느냐 그리고 핵심적인 부분은 기준에

play02:35

있는 모든 이미지 투 비디오 혹은

play02:37

텍스트 투 비디오의 성능을 압도한다는

play02:39

거에 있어서 정말 압도하는 건지도 좀

play02:41

살펴 봐야겠죠 그래서 이렇게 빈부분이

play02:43

있더라도 이렇게 매끄럽게 생성을 할

play02:45

수 있는 부분 이렇게 카파도키아의

play02:46

어떠한이 열기구가 있더라도 이제

play02:48

자연스럽게 생각하는 부분들 요런 것들

play02:50

엄청나지 않습니까 일부 이미지 혹은

play02:53

영상들이 망가져 있더라도 우리가

play02:55

제대로 복원해낼 수 있는 그러한

play02:57

비디오를 생산해낼 수 있다라는

play02:58

측면에서 상당히 파급력 높을 것으로

play03:00

예상이 됩니다 그래서 논문을 보시면은

play03:02

루미르 어 스페이스타임 디퓨전 모델

play03:04

포 비디오 제너레이션 이렇게 돼 있고

play03:06

이보세요 페라리 같은 것도 이렇게

play03:08

각도를 조절해 가면서도 잘 생성을

play03:10

합니다 다양한 예시들이 있는데 사실

play03:11

페이퍼로는 요게 이제 와닿지 않으니까

play03:14

여기서는 이제 기술적인 부분들 좀

play03:15

살펴보도록 할게요 관심 있으신 분들은

play03:17

요러 것들 이미지들 예를 들어 뭐

play03:18

이제 요런 것들 이거 프롬프트가

play03:20

이렇게 되는 거예요 화성에서 걷고

play03:22

있는 우주비행사라고 하면 이렇게 이제

play03:24

영상으로 재생된다 그나 그리고 이런

play03:25

명화 있죠 이게 진주 귀고리를 한

play03:27

손이요 이런 것도 이제 재생해서 막

play03:28

웃고 있는 걸로 변할 수 있는 것들

play03:30

요것도 영상으로 보시면 재밌을 것

play03:31

같습니다 일단 놀라운 부분은 바로

play03:33

성능을 다른 어떠한 AI 모델보다 다

play03:35

죄다 앞선다는게 핵심입니다 지금

play03:37

보시는게 이제 논문에 나와 있는

play03:39

텍스트 투 비디오 그리고 이미지 투

play03:41

비디오 이렇게 이제 나와 있는 거죠

play03:43

그래서 비디오 퀄리티와 텍스트

play03:44

얼라인먼트 그리고 비디오 퀄리티를

play03:45

각각 비교를 한 것이 되겠는데요

play03:47

여기서 말하는 비디오 퀄리티라고 하는

play03:48

거는 결국 각각의 이제 방법론들이

play03:50

있죠 여기 이제 젠도 있고 피카

play03:51

앱에서 나온 것도 있고 뭐 젠 2도

play03:53

있고게 이제 런웨이 젠 2죠 그리고

play03:55

애니메이트 디프 이런 것들 다 했는데

play03:56

주황색이 기준도 있는 것들이고이

play03:58

베이스라인의 에 비해서 구글의

play04:00

루미에르가 훨씬 더 높죠 이게 두 배

play04:03

이상 되는 것도 있고 굉장히 다

play04:04

높습니다 비디오 퀄리티가 이정도

play04:05

된다라고 얘기를 하는 것이고 텍스트

play04:07

얼라인먼트라고 하는 것은 텍스트의

play04:09

설명과이 프롬프트에 맞췄을 때이

play04:11

비디오가 얼마나 잘 표현하느냐라는

play04:13

거에 대해서 이제 사용자들 테 이렇게

play04:14

평가를 내린 거죠 그래서 이제 평가를

play04:16

해 보니까 기본 베이스 라인보다 훨씬

play04:18

더 높은 수준을 가지고 있다 그리고

play04:19

이미지 2 비디오 같은 경우에도 카랑

play04:21

svd gen2 같은 경우에 훨씬 더

play04:22

높다라고 하는 부분들을 보실 수가

play04:24

있습니다 그러니까 사용자들의 선호도

play04:25

자체가 기존에 있는 것보다 훨씬 더

play04:27

높게 나왔다는 것에 상당히 의미가

play04:28

있는 것이 되겠죠 뿐만 아닙니다

play04:30

논문에 보시면은 여기 테이블 1에

play04:32

각각이 메소드 별로 fvd is 아는

play04:35

지표를 설명하고 있는데요 것도 이제

play04:36

평가 지표 그든 fvd고 하는 거는

play04:39

레체 비디오 디스턴스고 해서이 모델이

play04:41

생성한 비디오의이 품질을 평가하는

play04:43

매트릭 있니다 그니까 비교하자면 이런

play04:45

거예요 예를 들 이제 어떤 로렉스

play04:46

시계가 있어요이 로렉스 시계를 완전

play04:48

짝퉁으로 하나 만든다고 칩시다 근데

play04:50

이게 이제 겉면으로 보나 내부에 어떤

play04:52

기어가 움직이는 장면으로 보나

play04:53

배터리가 어떤 걸 쓰느냐를 비교를

play04:54

했을 때나 각각의 어떤 차이점들을 다

play04:57

발견해 가지고이 디퍼런스 차이를 다

play04:59

다 계상하는 거예요 이걸 디스턴스

play05:00

표현을 하고 그래서 얘네들의이

play05:02

디스턴스 그이 다 합쳐졌을 때 가장

play05:04

작은 것이 그만큼 진품에 비해서

play05:06

짝퉁이 얼마나 비슷하게 만들어졌냐

play05:09

지표가 되겠죠 이런 것처럼이 fvd

play05:11

점수가 낮으면 낮을수록이 생성한

play05:13

비디오가 원보 하의 특징과 비교해

play05:15

봤을 때 상당히 가깝다고 판별할 수

play05:17

있는 그런 기준이 된다라고 볼 수가

play05:18

있겠죠 그래서 실제 비디오와

play05:19

특징적으로 얼마나 더 유사하라고 봤을

play05:22

때에이 루미에르가 32점을 가지고

play05:24

있어서 거의 최하위권에 발생하는

play05:26

정도죠 물론 svd 좀 더 낮은

play05:28

수준을 가지고 있 긴 합니다 svd

play05:30

이제 스테이블 디퓨전 이의 비디오인데

play05:32

걔네들이 좀 더 앞서긴 한데 루미에르

play05:34

좀 더 상당히 낮은 부분을 보실 수가

play05:36

있습니다 거기다가 IS 같은 경우에는

play05:37

높을수록 좋은 건데 이게 인셉션

play05:39

스코라 해서이 생성된 비디오의 어떤

play05:41

퀄리티랑이 다이버시티 그니까 다양성을

play05:43

평가를 하는 거죠 예를 들어 어떤

play05:45

미술 작품이 있다고 하면은 요걸 이제

play05:47

전문가들이 심사원들이 봤을 때이

play05:49

그림의 화풍이 아 이번 시대에

play05:51

정확하게 표현이 되느냐 그럼 어떤

play05:52

명확성 평가를 하지만 얼마나 또

play05:54

다체롭게 표현되는지 이런 것들을

play05:55

정성적으로 평가를 하게 되잖아요

play05:57

우리가 이제 치킨 맛을 볼 때도

play05:58

치킨을 먹을 때 아 정말 달콤해 근데

play06:00

쌉사름한 것도 있고 좀 새콤하게 하고

play06:02

근데 기존에 있는 맛은 아니고 이런

play06:04

것들의 명확한 포지션 양념 치킨임도

play06:06

불구하고 요러한 거짓을 가지고 있다

play06:08

이러한 다양성을 풍미를 가져 하지만이

play06:10

치킨이 아주 고품질의 어떤 치킨이라고

play06:12

판정을 내리듯이이 is 그러한

play06:14

면이라고 보시면 될 것 같아요 AI

play06:16

스코로 봤을 때에이 비디오가 특정한

play06:18

주제를 명확하게 전달하면서도 훨씬 더

play06:20

다양한 장면을 표현할 수 있느냐 요런

play06:21

것들을 평가를 하는데 요것도

play06:23

3실점으로 상당히 낮은 스코어를

play06:24

가지고 있죠 그래서 이거의 원인이

play06:26

뭐냐는 좀 살펴보면은 기준에 있는

play06:27

방식들을 생각해 보죠 여기 ts

play06:29

이라고 돼 있는 거는 템포럴 슈퍼

play06:31

레졸루션 내 줄의 말입니다

play06:32

tsr이라는게 어 번역할 때는 뭐

play06:34

초고해상도 이렇게 번역하기도 하는데

play06:36

시간에 따라서 이러한 것들의 슈퍼

play06:38

레졸루션 각 프레임 프레임의 뭔가

play06:41

새로운 프레임을 채워 다라고 보시면

play06:42

될 거 같아요 그래서 시간적으로

play06:44

시간이 흐름에 따라서 동영상은 여러

play06:45

개의 어떤 이미지 장면들을 넣음으로써

play06:47

이제 이미지가 생성이 되잖아요 그리고

play06:49

재생이 되는 건데 여기에서이

play06:51

기본적으로 AI 모델들은 시간에

play06:53

따라서이 떨어져 있는 주요 키프레임을

play06:55

생성할 때이랑 키프레임 사이사이에

play06:57

뭔가를 채워놓는 역할을 했다는 거예요

play06:58

그래서이 키 프레임이라고 하면은 어떤

play07:00

기점이 된다고 보시면 돼요 아이 시점

play07:02

그리고요 시점 1초마다 한 번씩이

play07:04

사이사이에 뭔가를 메워 넣어야겠다라고

play07:06

하는 접근을 했거든요 그러면이 기본

play07:07

단위가이 tsr 단위라는게이 키

play07:10

프레임들의 어떠한 하나의 단위로서

play07:12

요거에 하나의 맥락을 이해하는 형태로

play07:14

접근 했다라고 보시면 되는데 그런

play07:16

다음에 이제 공간적으로 이제 스페이셜

play07:18

슈퍼 레볼루션은 공간적으로 이렇게 또

play07:19

더 확장을 하는 거죠 그래서

play07:21

시간적으로 이렇게 쫙 늘린 다음에

play07:22

공간적으로 이게 뭐 비어 있는

play07:24

부분이라든가 여기서 보시면 펜더가

play07:25

움직일 때마다 그 빈 부분들을

play07:27

채워주는 형식대로 하는게 기존 방식

play07:29

이라면은 루미라 같은 경우에는 아예이

play07:31

시간적인이 도메인을 하나로 쫙

play07:33

합쳤어요 여기서 5 세컨드로 나와

play07:35

있죠 5초에 해당하는이 영역의

play07:37

전체적인 맥락을 다 이해한 다음에 한

play07:39

방에 시간에 대한 것들을 생성을 하고

play07:41

거기에 대해서 SSR 적용한다라고

play07:43

보시면 될 거 같아요 이게 핵심적인

play07:45

차입니다 그래서 여기서 말하는 st

play07:47

유넷 스페이스타임 유닛이라고 하는

play07:49

것은 결국 프리트레인 돼 있는이

play07:51

텍스트 2 이미지 요런 유닛이 있죠

play07:53

텍스트를 이제 이미지로 생성하는 요런

play07:54

유닛이 있는데 비디오를 생성하기

play07:56

위해서 이제 뭔가 규모를 더 줄인

play07:58

다음에 다시 또 업샘플링 해서 변환해

play08:00

가지고 뭔가를 생성하는 방식으로 접근

play08:02

한다라고 보시면 되겠습니다 기존 유행

play08:03

방식 그대로 사용하되 시간을 적절히

play08:05

사용해서 생성했다고 보시면 되겠고요

play08:07

그래서 여기 루션 베이스드 인플레이션

play08:09

블록 여기 인플레이션이라고 하는게

play08:10

결국 영상을 재생하기 위해서는

play08:12

텍스트를 이미지로 변하고이 이미지를

play08:14

또 비디오로 생성을 해야 되잖아요

play08:15

점점 확장을 해 나가야 되는데 그러한

play08:17

방식을 이제 2D 컨볼루션이라는 방식

play08:19

우리가 흔히 이제 합성 고비라고

play08:20

부르죠 요러 형태로 해가지고 비디오

play08:22

표현을 좀 효율적으로 압축을 한

play08:23

다음에 다시 업스킬링 해서 생성을

play08:25

하는 방식으로 접근을 했다 그리고

play08:27

어텐션 방식을 사용해 가지고 그 전에

play08:29

CNN 방식보다 훨씬 더 멀리 떨어져

play08:31

있는 그러한 맥락을 이해를 하는

play08:32

방식으로 접근을 했다고 보시면 될 것

play08:34

같습니다 그래서 이러한 이미지들이

play08:35

생성되는 거죠 사실 이제 런웨이 아든

play08:37

뭐 스테이블 비디오 디퓨전 같은 거

play08:39

굉장히 잘 만들어지긴 했어요 여기서

play08:40

조금 더 구글이 앞서 간다고 하는

play08:42

것이 잠깐 재생하는 그런 비디오

play08:44

클립들 같은게 결국 우리 일상에 어떤

play08:46

영향을 미칠 거냐라고 보면은 좀

play08:48

의미가 없을 수 있잖아요 그런데

play08:49

요러한 것들을 특정한 전체

play08:50

맥락으로서의 수 있는 거대한 모델로서

play08:53

요거를 생성할 수 있다라는 것은 또

play08:55

어떤 상용화 측면에서 상당히 큰

play08:56

발전이라고 볼 수가 있습니다 동단

play08:58

지금 이제 구글 리서치에서 이렇게

play08:59

논문을 내놓으면서 기터브 이런 것들을

play09:01

공기를 했지만 이거를 실제로 서비스로

play09:02

아직 제공을 하고 있지 않거든요 요게

play09:04

또 좀 주목을 해 볼 만한 건데 얼마

play09:06

전에 재미 나이를 발표했 아아 바드가

play09:08

그렇게 욕 먹고 나서 재미 나이를

play09:09

발표하고 나서 갤럭시에 제미나이 온

play09:12

디바이스로 막 들어가고 온 디바이스

play09:14

아닌 버전으로 들어갑니다 그리고 곧

play09:15

제미나이 울트라도 들어갈 텐데 요런

play09:17

이제 영상 생성 관련해서도 결국

play09:19

제미나이 다음 버전으로 들어가지

play09:21

않을까 요런 것들을 미리 알리는게 될

play09:23

거 같고요 오픈 AI 있도 비디오를

play09:25

생성하는 GPT 5 같은 것들 점점

play09:27

소식이 들려오고 있잖아요 거기에

play09:28

선제적으로 뭔가 생성을 하면서 점차

play09:30

서비스 제공으로 압수하는게 아닌가

play09:31

싶습니다 이렇게 오픈 AI 비롯해서

play09:33

다양한 업체들이 비디오 생성 관련해서

play09:35

끊임없이 새로운 AI 모델을 제공하고

play09:38

서비스를 제공하는 가운데 구글 역시도

play09:39

뒤쳐지지 않고 모든 성능을 압도하는

play09:42

새로운 비디오 생성 AI 내놓은 것에

play09:44

흥분을 감추지 못하면서 간략하게

play09:46

압축하여 소개드리고 있는 안대 공화

Rate This

5.0 / 5 (0 votes)

العلامات ذات الصلة
AI VideoGoogle InnovationsDigital ContentTech TrendsImage to VideoText to VideoAI ModelsFuture TechContent CreationHigh-Quality Videos