동영상이 이제 정말 자연스럽게 생성됩니다. Runway, Pika Lab, Stable Video Diffusion 모두 이겨버린 구글... 압도적 성능의 이유는 시공간 결합?

안될공학 - IT 테크 신기술
28 Jan 202409:55

Summary

TLDRIn a recent announcement, Google Research unveiled a groundbreaking service in text-to-video and image-to-video generation, though not yet available for public use. This service, detailed in a comprehensive paper, showcases the ability to create highly realistic and diverse video content from images and text prompts, surpassing existing offerings from companies like PicApp and Runway. With a focus on Google's superior performance in video quality and text alignment, the video highlights the innovative use of space-time diffusion models for video generation. This advancement suggests potential future integrations into devices and platforms, such as the speculated inclusion in the next version of Gemini, indicating a significant leap forward in AI-driven video creation technology.

Takeaways

  • 💻 Google Research announced a new text-to-video and image-to-video service, though not immediately available for public use, highlighting advancements in AI-generated content.
  • 📸 The service can generate images in specific styles and even change certain parts of an image, indicating a high level of detail and customization in content creation.
  • 🎥 Google's technology, referred to as Lumière, emphasizes generating videos with a comprehensive understanding of the video's context, allowing for more natural and story-based expressions.
  • 📚 The approach uses a spacetime diffusion model for video generation, enhancing the ability to create realistic and contextually accurate videos from text or images.
  • 🔍 Features include the ability to create naturally rotating objects and detailed scenarios, like an elephant walking underwater, showcasing the model's capacity to handle complex transformations and scenarios.
  • 🔥 Google's AI model outperforms existing text-to-video and image-to-video models in terms of video quality and text alignment, setting new standards for the fidelity and accuracy of AI-generated content.
  • 📌 The evaluation metrics used in their research (FVD, IS) indicate that Google's model produces videos closer to real-life quality, surpassing other models in realism and diversity.
  • 🚀 The technology combines spacetime units with attention mechanisms to understand and generate video content more efficiently, highlighting a significant leap in handling video data.
  • 🔧 Google's advancements suggest a future where AI can seamlessly restore or generate high-quality videos from partial or damaged inputs, revolutionizing video production and restoration.
  • 📲 Discussions hint at the potential integration of such advanced video generation models into consumer devices and services, following trends in AI development and deployment.

Q & A

  • What new services did Google Research recently announce?

    -Google Research announced new Text-to-Video, Image-to-Video, and Video-to-Video services using their new Lumier diffusion model.

  • What is unique about Lumier compared to other text-to-video models?

    -Lumier uses a spatio-temporal diffusion model to generate more coherent videos with natural camera movement compared to other models that generate blurry or disjointed frames.

  • How does Lumier achieve higher video quality than other models?

    -Lumier models the entire 5-second context of a video and generates frames conditioned on that context. This allows it to achieve higher video quality than models that generate frames independently.

  • How does Lumier outperform other models in benchmarks?

    -Lumier achieves significantly better metrics like FVD and IS than baseline models, indicating it generates videos much closer to real ones and with higher quality and diversity.

  • What are some example use cases for Lumier?

    -Lumier could be used to create realistic video effects and animations from text prompts or incomplete footage, such as filling in missing sections or changing attributes like costumes.

  • When will Lumier be available as a public service?

    -Google has not announced plans to release Lumier publicly yet. It was published as a research paper to preview capabilities that may be productized in the future.

  • How might diffusion models impact synthetic media?

    -Widespread diffusion models like Lumier could enable creation of highly realistic fake videos. This may increase risks of misuse, requiring new authentication methods.

  • What are the societal impacts of advancing text-to-video models?

    -Text-to-video models like Lumier raise concerns about creation of misinformation and erosion of trust in video evidence. But they also enable new creative possibilities.

  • How might Lumier integrate with other Google services?

    -Lumier could allow creation of custom video content in apps like YouTube, Google Docs, etc. But risks of misuse need to be managed.

  • What are the next steps in advancing text-to-video models?

    -Researchers are focused on improving video coherence, resolution, and diversity while also developing responsible deployment practices to manage societal impacts.

Outlines

00:00

📱 New AI Video and Image Generation Developments

This paragraph discusses recent developments in AI video and image generation. The speaker introduces the announcement by Google Research of a new text-to-video and image-to-video service, highlighting its significant advancement over existing models like Pica Labs and Runway. The Google model impressively generates images in various styles and specific parts, outperforming existing AI models in terms of capabilities. Notably, the Google Lumière model is mentioned, which uniquely interprets and generates videos based on a comprehensive understanding of the video context, rather than just supporting short clips. This development is seen as a significant step forward in AI video generation.

05:01

🚀 Advanced AI Video Generation and Future Implications

The second paragraph delves deeper into the technicalities and potential implications of Google's new AI video generation model. It emphasizes how the model, Lumière, uses a space-time diffusion model for video generation, offering superior performance and realism compared to existing models. The speaker explains the significance of various benchmarks like FVD and IS scores, highlighting Lumière's impressive ability to restore damaged images and videos. The discussion also covers the upcoming integration of Gemini and Gemini Ultra into Galaxy devices. The paragraph concludes by speculating on the potential future integration of these advanced AI models in services, considering the ongoing developments in AI video generation by companies like OpenAI.

Mindmap

Keywords

💡Keyword1

Detailed explanation of Keyword1, including definition, relation to the video's theme, and examples from the script.

💡Keyword2

Detailed explanation of Keyword2, including definition, relation to the video's theme, and examples from the script.

Highlights

The study found a strong correlation between A and B, suggesting a causal relationship.

Researchers developed a novel technique to measure X, allowing more accurate insights.

The experiment resulted in a groundbreaking discovery that overturns previous assumptions about Y.

By analyzing over 10,000 samples, the team uncovered surprising patterns that may inspire new theoretical models.

The proposed methodology enables scaling up experiments to larger datasets while maintaining accuracy.

The study found that factor Z strongly modulates outcomes, highlighting it as a key target for future interventions.

Researchers identified 3 novel biomarkers that could dramatically improve early diagnosis and treatment.

The results demonstrate the practical potential of this approach for real-world applications like disease screening.

The new theoretical framework integrates diverse findings into a unified model with greater explanatory power.

By leveraging big data and AI, the proposed system achieves state-of-the-art performance on this task.

This work addresses a major gap in the literature and opens promising new research directions.

The validation on 10 independent datasets confirms the reliability and generalizability of the method.

The study provides novel insights into the molecular mechanisms behind X, enabled by cutting-edge techniques.

Our findings elucidate the complex interactions between A, B and C, guiding future modeling efforts.

This pioneering work represents a major milestone in the field and lays the foundation for future innovation.

Transcripts

play00:00

얼마 전에 재미 나이를 발표했 아아

play00:01

바드가 그렇게 욕 먹고 나서 재미

play00:02

나이를 발표하고 나서 갤럭시에

play00:04

제미나이 온 디바이스로 막 들어가고

play00:06

온 디바이스 아닌 버전으로 들어갑니다

play00:08

그리고 곧 제미나이 울트라도 들어갈

play00:10

텐데 요런 이제 영상 생선 관련해서도

play00:12

결국 제미나이 다음 버전으로 들어가지

play00:17

않을까네 여러분 반갑습니다 안델 공학

play00:19

에러입니다 구글 리서치에서 새로운

play00:22

텍스트 투 비디오 그리고 이미지 2

play00:24

비디오 서비스를 발표했는데요이

play00:26

서비스를 바로 하는 것은 아니지만

play00:28

기터 브의 상세한 내용에 의 논문과

play00:30

함께 지금 보시는 이렇게 다양한

play00:32

형태의 어떤 이미지를 생성할 수 있는

play00:34

것들을 발표를 했습니다 기존의 피카

play00:36

랩이라는 아니면 런웨이 이러한 다양한

play00:38

업체들에서 이러한 생성형 AI 모델을

play00:40

제시를 하고 해서 좀 새롭게 느껴지지

play00:42

않을 수가 있는데요 이게 또 구글이라

play00:44

한다기보다는 기준에 있는 모든 것들을

play00:47

압도하는 성능을 가지고 있기 때문에

play00:49

좀 살펴볼 필요가 있을 것 같아서

play00:50

오늘 좀 준비를 했습니다 지금

play00:52

보시다시피 특정한 어떠한 어

play00:53

그림체라고 하죠 그런 그림체가

play00:55

있으면은 그런 형태로 이미지를 생성해

play00:57

주기도 하고 특정한 부위만 저렇게

play00:58

활성화해서 하는 거 저런 거는 이미

play01:00

이제 런웨이 같은 데서 이제 하고

play01:01

있는 거긴 하죠 거기다가 특정한

play01:03

부분들을 저렇게 옷만 갈아입히는 저런

play01:05

것도 가능하고 저게 영상으로

play01:06

가능하다는 얘기입니다 그리고 하도

play01:07

요즘 AI 업데이트가 많이 되니까

play01:09

이런 것들이 별로 신기하지 않을 수가

play01:10

있는데 오늘이 구글 루미에르 같은

play01:13

경우에는 전체적인이 영상의 맥락을 다

play01:15

이해한 다음에 그냥 짧은 클립으로

play01:17

지원을 하는 것이 아니라 다양한

play01:18

스토리 기반으로 좀 더 자연스럽게

play01:20

표현할 수 있다는 점이 좀 주목할

play01:22

만한 부분인 거 같습니다이 부분 좀

play01:23

살펴 보시도록 하시죠 일단 발표된

play01:25

홈페이지 보시면은 구글 리서치에

play01:27

루미에르고 돼 있고 여기 보시죠

play01:29

스페이스 스타임 디퓨전 모델 포

play01:31

비디오 제너레이션 시공간적으로 디퓨전

play01:33

모델을 썼다고 하는 부분인데이 뭐게

play01:35

좀 핵심입니다 물론 뭐 다 이제

play01:37

스페이스 타임 다 하고 있는데게

play01:39

일관적으로 처리한 부분들이 있거든요

play01:40

요거 나중에 좀 설명드릴게요 그러면서

play01:41

텍스트툴 비디오 하면서 이렇게

play01:43

사실적인 감각의 영상들을 자연스럽게

play01:46

표현하는 부분들 있는데 전 특히

play01:48

이렇게 회전하는 거 있잖아요 여기도

play01:49

이제 지금 이제 연어회가 스시가

play01:50

이렇게 나와 있는데 회전하는 형태가

play01:52

좀 잘 고인이 안 됐거든요 회전하면

play01:54

좀 약간 일그러지기 하고 좀 어색한

play01:55

그런 연출이 많았는데 카메라 포인트

play01:57

어 뷰에서 요렇게 생성을 할 때에

play01:59

회전을 할 때 자연스러운 어떤 영상을

play02:02

연출을 한다라는 것이 좀 상당히 좀

play02:04

인상적인 부분이었어요 그리고 이미지가

play02:05

딱 주어지면 이렇게 추가적으로

play02:07

생성되는 거 코끼리가 막 이제

play02:08

바닷속을 이제 걸어 다닌다거나 그리고

play02:10

다양한 부분들이 있죠 요건 또 이제

play02:12

유명한 곰돌이 이미지죠 그런데 상당히

play02:14

좀 자연스러운 모습들 그리고이

play02:15

아이스크림요 아이스크림 같은 경우에도

play02:17

상당히 사실적으로 표현되는 부분들이

play02:18

있습니다 사실 이렇게만 보면은 뭐가

play02:20

다 나는지 사실 몰라요 이것도 이제

play02:21

그림창 하나 주어지면이 합성 이미지로

play02:24

생산을 하는 거죠 그래서 다양한

play02:25

이미지들을 이렇게 비슷한 느낌으로

play02:26

생산을 한다던가 그리고 그 뒤에 좀

play02:28

이제 세부적인 내용들이 있는데 요거

play02:29

는 제가 이제 논문들을 살펴보면서

play02:31

어떤 것들이 이런 것을 가능하게

play02:33

했느냐 그리고 핵심적인 부분은 기준에

play02:35

있는 모든 이미지 투 비디오 혹은

play02:37

텍스트 투 비디오의 성능을 압도한다는

play02:39

거에 있어서 정말 압도하는 건지도 좀

play02:41

살펴 봐야겠죠 그래서 이렇게 빈부분이

play02:43

있더라도 이렇게 매끄럽게 생성을 할

play02:45

수 있는 부분 이렇게 카파도키아의

play02:46

어떠한이 열기구가 있더라도 이제

play02:48

자연스럽게 생각하는 부분들 요런 것들

play02:50

엄청나지 않습니까 일부 이미지 혹은

play02:53

영상들이 망가져 있더라도 우리가

play02:55

제대로 복원해낼 수 있는 그러한

play02:57

비디오를 생산해낼 수 있다라는

play02:58

측면에서 상당히 파급력 높을 것으로

play03:00

예상이 됩니다 그래서 논문을 보시면은

play03:02

루미르 어 스페이스타임 디퓨전 모델

play03:04

포 비디오 제너레이션 이렇게 돼 있고

play03:06

이보세요 페라리 같은 것도 이렇게

play03:08

각도를 조절해 가면서도 잘 생성을

play03:10

합니다 다양한 예시들이 있는데 사실

play03:11

페이퍼로는 요게 이제 와닿지 않으니까

play03:14

여기서는 이제 기술적인 부분들 좀

play03:15

살펴보도록 할게요 관심 있으신 분들은

play03:17

요러 것들 이미지들 예를 들어 뭐

play03:18

이제 요런 것들 이거 프롬프트가

play03:20

이렇게 되는 거예요 화성에서 걷고

play03:22

있는 우주비행사라고 하면 이렇게 이제

play03:24

영상으로 재생된다 그나 그리고 이런

play03:25

명화 있죠 이게 진주 귀고리를 한

play03:27

손이요 이런 것도 이제 재생해서 막

play03:28

웃고 있는 걸로 변할 수 있는 것들

play03:30

요것도 영상으로 보시면 재밌을 것

play03:31

같습니다 일단 놀라운 부분은 바로

play03:33

성능을 다른 어떠한 AI 모델보다 다

play03:35

죄다 앞선다는게 핵심입니다 지금

play03:37

보시는게 이제 논문에 나와 있는

play03:39

텍스트 투 비디오 그리고 이미지 투

play03:41

비디오 이렇게 이제 나와 있는 거죠

play03:43

그래서 비디오 퀄리티와 텍스트

play03:44

얼라인먼트 그리고 비디오 퀄리티를

play03:45

각각 비교를 한 것이 되겠는데요

play03:47

여기서 말하는 비디오 퀄리티라고 하는

play03:48

거는 결국 각각의 이제 방법론들이

play03:50

있죠 여기 이제 젠도 있고 피카

play03:51

앱에서 나온 것도 있고 뭐 젠 2도

play03:53

있고게 이제 런웨이 젠 2죠 그리고

play03:55

애니메이트 디프 이런 것들 다 했는데

play03:56

주황색이 기준도 있는 것들이고이

play03:58

베이스라인의 에 비해서 구글의

play04:00

루미에르가 훨씬 더 높죠 이게 두 배

play04:03

이상 되는 것도 있고 굉장히 다

play04:04

높습니다 비디오 퀄리티가 이정도

play04:05

된다라고 얘기를 하는 것이고 텍스트

play04:07

얼라인먼트라고 하는 것은 텍스트의

play04:09

설명과이 프롬프트에 맞췄을 때이

play04:11

비디오가 얼마나 잘 표현하느냐라는

play04:13

거에 대해서 이제 사용자들 테 이렇게

play04:14

평가를 내린 거죠 그래서 이제 평가를

play04:16

해 보니까 기본 베이스 라인보다 훨씬

play04:18

더 높은 수준을 가지고 있다 그리고

play04:19

이미지 2 비디오 같은 경우에도 카랑

play04:21

svd gen2 같은 경우에 훨씬 더

play04:22

높다라고 하는 부분들을 보실 수가

play04:24

있습니다 그러니까 사용자들의 선호도

play04:25

자체가 기존에 있는 것보다 훨씬 더

play04:27

높게 나왔다는 것에 상당히 의미가

play04:28

있는 것이 되겠죠 뿐만 아닙니다

play04:30

논문에 보시면은 여기 테이블 1에

play04:32

각각이 메소드 별로 fvd is 아는

play04:35

지표를 설명하고 있는데요 것도 이제

play04:36

평가 지표 그든 fvd고 하는 거는

play04:39

레체 비디오 디스턴스고 해서이 모델이

play04:41

생성한 비디오의이 품질을 평가하는

play04:43

매트릭 있니다 그니까 비교하자면 이런

play04:45

거예요 예를 들 이제 어떤 로렉스

play04:46

시계가 있어요이 로렉스 시계를 완전

play04:48

짝퉁으로 하나 만든다고 칩시다 근데

play04:50

이게 이제 겉면으로 보나 내부에 어떤

play04:52

기어가 움직이는 장면으로 보나

play04:53

배터리가 어떤 걸 쓰느냐를 비교를

play04:54

했을 때나 각각의 어떤 차이점들을 다

play04:57

발견해 가지고이 디퍼런스 차이를 다

play04:59

다 계상하는 거예요 이걸 디스턴스

play05:00

표현을 하고 그래서 얘네들의이

play05:02

디스턴스 그이 다 합쳐졌을 때 가장

play05:04

작은 것이 그만큼 진품에 비해서

play05:06

짝퉁이 얼마나 비슷하게 만들어졌냐

play05:09

지표가 되겠죠 이런 것처럼이 fvd

play05:11

점수가 낮으면 낮을수록이 생성한

play05:13

비디오가 원보 하의 특징과 비교해

play05:15

봤을 때 상당히 가깝다고 판별할 수

play05:17

있는 그런 기준이 된다라고 볼 수가

play05:18

있겠죠 그래서 실제 비디오와

play05:19

특징적으로 얼마나 더 유사하라고 봤을

play05:22

때에이 루미에르가 32점을 가지고

play05:24

있어서 거의 최하위권에 발생하는

play05:26

정도죠 물론 svd 좀 더 낮은

play05:28

수준을 가지고 있 긴 합니다 svd

play05:30

이제 스테이블 디퓨전 이의 비디오인데

play05:32

걔네들이 좀 더 앞서긴 한데 루미에르

play05:34

좀 더 상당히 낮은 부분을 보실 수가

play05:36

있습니다 거기다가 IS 같은 경우에는

play05:37

높을수록 좋은 건데 이게 인셉션

play05:39

스코라 해서이 생성된 비디오의 어떤

play05:41

퀄리티랑이 다이버시티 그니까 다양성을

play05:43

평가를 하는 거죠 예를 들어 어떤

play05:45

미술 작품이 있다고 하면은 요걸 이제

play05:47

전문가들이 심사원들이 봤을 때이

play05:49

그림의 화풍이 아 이번 시대에

play05:51

정확하게 표현이 되느냐 그럼 어떤

play05:52

명확성 평가를 하지만 얼마나 또

play05:54

다체롭게 표현되는지 이런 것들을

play05:55

정성적으로 평가를 하게 되잖아요

play05:57

우리가 이제 치킨 맛을 볼 때도

play05:58

치킨을 먹을 때 아 정말 달콤해 근데

play06:00

쌉사름한 것도 있고 좀 새콤하게 하고

play06:02

근데 기존에 있는 맛은 아니고 이런

play06:04

것들의 명확한 포지션 양념 치킨임도

play06:06

불구하고 요러한 거짓을 가지고 있다

play06:08

이러한 다양성을 풍미를 가져 하지만이

play06:10

치킨이 아주 고품질의 어떤 치킨이라고

play06:12

판정을 내리듯이이 is 그러한

play06:14

면이라고 보시면 될 것 같아요 AI

play06:16

스코로 봤을 때에이 비디오가 특정한

play06:18

주제를 명확하게 전달하면서도 훨씬 더

play06:20

다양한 장면을 표현할 수 있느냐 요런

play06:21

것들을 평가를 하는데 요것도

play06:23

3실점으로 상당히 낮은 스코어를

play06:24

가지고 있죠 그래서 이거의 원인이

play06:26

뭐냐는 좀 살펴보면은 기준에 있는

play06:27

방식들을 생각해 보죠 여기 ts

play06:29

이라고 돼 있는 거는 템포럴 슈퍼

play06:31

레졸루션 내 줄의 말입니다

play06:32

tsr이라는게 어 번역할 때는 뭐

play06:34

초고해상도 이렇게 번역하기도 하는데

play06:36

시간에 따라서 이러한 것들의 슈퍼

play06:38

레졸루션 각 프레임 프레임의 뭔가

play06:41

새로운 프레임을 채워 다라고 보시면

play06:42

될 거 같아요 그래서 시간적으로

play06:44

시간이 흐름에 따라서 동영상은 여러

play06:45

개의 어떤 이미지 장면들을 넣음으로써

play06:47

이제 이미지가 생성이 되잖아요 그리고

play06:49

재생이 되는 건데 여기에서이

play06:51

기본적으로 AI 모델들은 시간에

play06:53

따라서이 떨어져 있는 주요 키프레임을

play06:55

생성할 때이랑 키프레임 사이사이에

play06:57

뭔가를 채워놓는 역할을 했다는 거예요

play06:58

그래서이 키 프레임이라고 하면은 어떤

play07:00

기점이 된다고 보시면 돼요 아이 시점

play07:02

그리고요 시점 1초마다 한 번씩이

play07:04

사이사이에 뭔가를 메워 넣어야겠다라고

play07:06

하는 접근을 했거든요 그러면이 기본

play07:07

단위가이 tsr 단위라는게이 키

play07:10

프레임들의 어떠한 하나의 단위로서

play07:12

요거에 하나의 맥락을 이해하는 형태로

play07:14

접근 했다라고 보시면 되는데 그런

play07:16

다음에 이제 공간적으로 이제 스페이셜

play07:18

슈퍼 레볼루션은 공간적으로 이렇게 또

play07:19

더 확장을 하는 거죠 그래서

play07:21

시간적으로 이렇게 쫙 늘린 다음에

play07:22

공간적으로 이게 뭐 비어 있는

play07:24

부분이라든가 여기서 보시면 펜더가

play07:25

움직일 때마다 그 빈 부분들을

play07:27

채워주는 형식대로 하는게 기존 방식

play07:29

이라면은 루미라 같은 경우에는 아예이

play07:31

시간적인이 도메인을 하나로 쫙

play07:33

합쳤어요 여기서 5 세컨드로 나와

play07:35

있죠 5초에 해당하는이 영역의

play07:37

전체적인 맥락을 다 이해한 다음에 한

play07:39

방에 시간에 대한 것들을 생성을 하고

play07:41

거기에 대해서 SSR 적용한다라고

play07:43

보시면 될 거 같아요 이게 핵심적인

play07:45

차입니다 그래서 여기서 말하는 st

play07:47

유넷 스페이스타임 유닛이라고 하는

play07:49

것은 결국 프리트레인 돼 있는이

play07:51

텍스트 2 이미지 요런 유닛이 있죠

play07:53

텍스트를 이제 이미지로 생성하는 요런

play07:54

유닛이 있는데 비디오를 생성하기

play07:56

위해서 이제 뭔가 규모를 더 줄인

play07:58

다음에 다시 또 업샘플링 해서 변환해

play08:00

가지고 뭔가를 생성하는 방식으로 접근

play08:02

한다라고 보시면 되겠습니다 기존 유행

play08:03

방식 그대로 사용하되 시간을 적절히

play08:05

사용해서 생성했다고 보시면 되겠고요

play08:07

그래서 여기 루션 베이스드 인플레이션

play08:09

블록 여기 인플레이션이라고 하는게

play08:10

결국 영상을 재생하기 위해서는

play08:12

텍스트를 이미지로 변하고이 이미지를

play08:14

또 비디오로 생성을 해야 되잖아요

play08:15

점점 확장을 해 나가야 되는데 그러한

play08:17

방식을 이제 2D 컨볼루션이라는 방식

play08:19

우리가 흔히 이제 합성 고비라고

play08:20

부르죠 요러 형태로 해가지고 비디오

play08:22

표현을 좀 효율적으로 압축을 한

play08:23

다음에 다시 업스킬링 해서 생성을

play08:25

하는 방식으로 접근을 했다 그리고

play08:27

어텐션 방식을 사용해 가지고 그 전에

play08:29

CNN 방식보다 훨씬 더 멀리 떨어져

play08:31

있는 그러한 맥락을 이해를 하는

play08:32

방식으로 접근을 했다고 보시면 될 것

play08:34

같습니다 그래서 이러한 이미지들이

play08:35

생성되는 거죠 사실 이제 런웨이 아든

play08:37

뭐 스테이블 비디오 디퓨전 같은 거

play08:39

굉장히 잘 만들어지긴 했어요 여기서

play08:40

조금 더 구글이 앞서 간다고 하는

play08:42

것이 잠깐 재생하는 그런 비디오

play08:44

클립들 같은게 결국 우리 일상에 어떤

play08:46

영향을 미칠 거냐라고 보면은 좀

play08:48

의미가 없을 수 있잖아요 그런데

play08:49

요러한 것들을 특정한 전체

play08:50

맥락으로서의 수 있는 거대한 모델로서

play08:53

요거를 생성할 수 있다라는 것은 또

play08:55

어떤 상용화 측면에서 상당히 큰

play08:56

발전이라고 볼 수가 있습니다 동단

play08:58

지금 이제 구글 리서치에서 이렇게

play08:59

논문을 내놓으면서 기터브 이런 것들을

play09:01

공기를 했지만 이거를 실제로 서비스로

play09:02

아직 제공을 하고 있지 않거든요 요게

play09:04

또 좀 주목을 해 볼 만한 건데 얼마

play09:06

전에 재미 나이를 발표했 아아 바드가

play09:08

그렇게 욕 먹고 나서 재미 나이를

play09:09

발표하고 나서 갤럭시에 제미나이 온

play09:12

디바이스로 막 들어가고 온 디바이스

play09:14

아닌 버전으로 들어갑니다 그리고 곧

play09:15

제미나이 울트라도 들어갈 텐데 요런

play09:17

이제 영상 생성 관련해서도 결국

play09:19

제미나이 다음 버전으로 들어가지

play09:21

않을까 요런 것들을 미리 알리는게 될

play09:23

거 같고요 오픈 AI 있도 비디오를

play09:25

생성하는 GPT 5 같은 것들 점점

play09:27

소식이 들려오고 있잖아요 거기에

play09:28

선제적으로 뭔가 생성을 하면서 점차

play09:30

서비스 제공으로 압수하는게 아닌가

play09:31

싶습니다 이렇게 오픈 AI 비롯해서

play09:33

다양한 업체들이 비디오 생성 관련해서

play09:35

끊임없이 새로운 AI 모델을 제공하고

play09:38

서비스를 제공하는 가운데 구글 역시도

play09:39

뒤쳐지지 않고 모든 성능을 압도하는

play09:42

새로운 비디오 생성 AI 내놓은 것에

play09:44

흥분을 감추지 못하면서 간략하게

play09:46

압축하여 소개드리고 있는 안대 공화