Sora AI出场即巅峰,ChatGPT实现全面统治 | Sora视频生成模型能力详解

檀东东·Tango
21 Feb 202408:39

Summary

TLDR视频脚本详细分析了OpenAI 最新发布的 Sora 模型在文字到视频生成方面的强大能力。它不仅能生成高质量视频,还能修改视频风格、场景和对象,实现文字到视频的无缝转换。模型背后运用了DALL-E等先进技术,视频效果逼真。这对视频创作者大有裨益,也使真假难辨的深度伪造视频可能大量出现。Sora标志着OpenAI在所有信息载体上的AI支配地位,值得我们积极关注。

Takeaways

  • 😲 Sora的视频生成能力非常强大,可根据文字描述生成高质量视频
  • 👍 Sora不仅能生成视频,还能修改现有视频的样式、场景等
  • 😮 Sora生成的视频质量很高,分辨率达到1080P,时长可到1分钟
  • 🤯 Sora理解视频制作中的专业术语,可实现各种镜头语言
  • 🔥 Sora支持多种视觉风格,如赛博朋克、科技玄幻等
  • 📈 Sora一问世就高质量解决了FromTextToVideo难题
  • 💰 Sora对内容创作者很友好,可大幅降低制作视频的门槛
  • ⚠️ Sora生成的视频容易造成认知失调,真假难辨
  • 🤔 Sora标志着文字、代码、图像、视频都被AI掌控
  • 🙌 2024年是视频AI元年,Sora值得积极体验

Q & A

  • Sora的文本转视频能力有何突出优势?

    -Sora能生成1分钟长的高清视频,支持各种风格,包括科幻、动画等,远超其他模型。同时识图和理解能力也很强,能保证生成视频中的元素前后一致。

  • Sora对视频内容创作者有何帮助?

    -Sora只需要文字描述就能生成高质量视频,大大降低获取和处理视频素材的难度,极大地提高了视频内容的创作效率。

  • Sora生成的视频可能带来什么负面影响?

    -Sora生成的假视频量会大幅增加,真假难辨,可能误导公众,对人类认知造成干扰。

  • Sora的定位是什么?

    -Sora被官方定位为“世界模拟器的视频生成模型”,能够理解和模拟真实世界。

  • Sora生成视频的关键技术是什么?

    -图像理解、图像生成、视频渲染。Sora需要理解文本描述,解析图片元素,持续渲染高质量视频。

  • Sora对其他创作者职业有何影响?

    -Sora大幅降低视频制作门槛,部分从业人员如摄像师、剪辑师可能面临冲击。但整体来说应该是机遇大于威胁。

  • Sora的能力还有哪些局限或不足?

    -理解能力不完全逼真,部分生成内容与真实有出入。分辨率和长度也有限制,精细度和DURATION可以继续提高。

  • Sora背后的GPT技术进步意味着什么?

    -GPT在图像理解和生成等多个领域取得重大突破,人工智能正快速向通用智能迈进,进一步扩大应用场景。

  • 普通用户什么时候能够使用Sora?

    -OpenAI未公布Sora的推出时间表。不排除普通用户在不久的未来就能使用Beta版或简化版。

  • 开发者可以如何扩展和使用Sora的能力?

    -开发者可以通过OpenAI提供的API集成Sora的文本转视频能力以满足业务需求。OpenAI可能还会开放Sora模型和训练数据。

Outlines

00:00

😱Sora的强大视频生成能力令人震惊

本段详细介绍了Sora的强大视频生成能力。它能根据文本描述生成不同风格和场景的视频,如水底世界、丛林、雪地等,视频路径和细节都保持一致。它还能打破现实物理规律,创造天马行空的视觉效果。总体来说,Sora在文本转视频方面的能力遥遥领先,将极大降低视频创作的难度和成本。

05:01

😱Sora标志着OpenAI在所有信息载体上实现AI统治

本段总结道,Sora的问世意味着OpenAI在文本、代码、音频、图片和视频等所有信息载体上实现了AI的统治。它使视觉内容的生成变得前所未有的简单,对视频创作者来说是一个重大利好。但我们也要警惕,未来会出现大量真假难辨的AI生成视频,可能会影响人类的认知。

Mindmap

Keywords

💡Sora

Sora是OpenAI最近发布的新一代 AI 模型,它拥有强大的多模态能力,能够从文本描述中生成高质量的视频。视频中举了多个例子说明Sora的生成效果非常逼真,无论改变视频的风格、场景还是对象,生成的视频都能保持原有的运动规律,这展现了Sora理解物理世界的能力。

💡文字转视频

文字转视频(Text to Video)是 Sora 的一大亮点功能,只需要输入文字描述,Sora 就能生成符合描述的视频。视频中比较了其他类似模型,认为 Sora 在这一任务上领先,比如生成视频的时长、分辨率、支持格式等都很优秀。这大大降低了创作视频的难度。

💡多模态

多模态是指 AI 模型不仅仅理解文本,还能理解其他模态的数据,比如图像、视频、音频等。Sora 作为新一代多模态模型,它既能理解文本信息,预测必要的视觉内容,也能理解视频镜头语言,生成符合描述的视觉效果。

💡镜头语言

视频中的镜头语言是指视频拍摄时采用的具体镜头和效果,比如特写镜头、无人机视角等。视频提到 Sora 能够理解这些专业术语,从而生成符合描述的镜头效果。这也是其强大之处。

💡科技玄幻

科技玄幻是一种风格或氛围,指融合了科技和幻想的氛围。视频中的一些 Sora 生成视频就属于这种风格,比如云端的小哥读书,以及一片树叶中穿梭的小火车等。这些场景超越了现实物理定律,展示了 Sora 将现实与虚拟无缝融合的能力。

💡信息载体

信息载体指的是存储和传播信息的介质,比如文本、图片、视频等。视频中提到 OpenAI 已经实现了对各种信息载体的 AI 控制,包括文本、代码、音频、图像、视频等。也就是 AI 模型能生成这些信息载体,掌控了信息的产出。

💡减少工作量

视频中讲述 Sora 的强大之处还在于它能大大降低视频创作的工作量。上传者只需要输入文字描述,不需要寻找素材、剪辑、添加特效等一系列繁琐工作了。这对很多创作者来说意味着制作视频的门槛大大降低。

💡真假难辨

随着 AI 视频生成技术的发展,真实的和 AI 生成的视频可能会难以区分,这就是“真假难辨”的问题。视频中提到这可能误导人类对世界的认知,也提醒人们不能轻信所有看到的视频内容。

💡世界模拟器

OpenAI 给 Sora 的定位是一个“世界模拟器”,这意味着它不仅能模拟生成现实世界的内容,并且生成效果逼真。这来自于它对真实世界运动规律、物理定律的深刻理解。这使得它成为一个强大的世界建模工具。

💡AI 时代

视频最后讲到 2024 年是一个 AI 兴起的时代,Sora 标志着 AI 生成内容技术已经非常成熟,普通人也应该积极接触和认识 AI 世界,承认它们在生活中产生的深远影响。

Highlights

Sora能随意修改视频的风格,场景,对象等,视频轨迹保持一致

Sora生成的视频真假难辨,可能造成人类认知失调

Sora文字转视频技术遥遥领先同行

Sora能生成高质量、逼真的视频素材

Sora大幅降低视频素材制作难度

Sora理解并实现各种复杂的镜头语言

Sora打破现实世界的物理规律

Sora实现对文本、代码、音频、图片、视频的AI统治

Sora是基于GPT-4理解语言和图像的能力

Sora大幅简化视频制作流程

Sora使播客、小说家更容易制作视频

Sora生成的视频可能与现实有出入

Sora被定位为世界模拟器的视频生成模型

2024年是积极接触AI世界的好时机

Sora非常强大,做视频从未如此简单

Transcripts

play00:00

OpenAI最新发布的Sora

play00:01

为什么强得这么离谱

play00:03

先看一个例子

play00:04

这位叫Min Choi的兄弟发现

play00:06

Sora的能力它不仅仅是文字生成视频text to video

play00:09

它还能随意修改你的视频风格

play00:12

场景 对象等等

play00:14

这个是输入的初始视频

play00:15

全长25秒

play00:17

一辆红色的跑车行驶在山间公路上

play00:20

周围是茂密的山林

play00:22

先是一个大的左转弯

play00:24

然后开着开着

play00:25

最后呢右转进入了一个隧道

play00:28

然后告诉Sora

play00:29

改成在水底行驶

play00:30

直接就变成了在水底世界行驶

play00:33

路周围的山林变成了珊瑚礁

play00:35

路线是保留一致的

play00:37

也是一个大的左转弯

play00:38

然后呢右转进入了海底隧道

play00:41

如果把前后两段视频叠加到一起

play00:43

同时播放

play00:44

这个路线不能说相似

play00:46

只能说一模一样

play00:48

继续改

play00:49

改成茂密的丛林

play00:51

改成下雪的冬天

play00:52

改成太空彩虹路

play00:54

改成赛博朋克风格

play00:56

改成黏土动画风格

play00:58

改成像素风格

play00:59

换成中世纪的马车

play01:01

无一例外

play01:02

它们都保持同样的行车路径

play01:05

并且在最后的两秒

play01:06

进入一个类似隧道的地方

play01:08

看完这个案例

play01:09

我只能说

play01:09

牛逼

play01:11

以后你把别人的素材丢给Sora

play01:13

随便改改主题风格环境

play01:15

我估计视频平台是识别不出来的

play01:18

这个太恐怖了

play01:19

沈腾费劲巴拉的

play01:20

在巴音布鲁克拍了一个飞驰人生

play01:22

片刻功夫啊

play01:23

你就能搞出一个火星版本

play01:25

牛逼不

play01:26

牛逼

play01:27

小说变电影

play01:28

再变成动画

play01:29

Sora直接就搞定了

play01:31

吓人不

play01:32

结合目前看到的案例

play01:33

Sora的文字转视频能力

play01:35

一出场就吊打所有对手

play01:37

主要是去年很火的Runway和Pika

play01:39

遥遥领先

play01:40

Sora文字转视频

play01:42

它有多难呢

play01:43

首先Sora得理解你的文字内容

play01:45

这个呢GPT已经做到了

play01:47

然后它能理解图片的风格

play01:49

而且能识别图片里面的内容

play01:52

这个GPT也做到了

play01:53

我直接找了一张赛博朋克城市的图片

play01:56

发给GPT

play01:57

问它这是一张什么风格的图片

play01:59

里面主要描绘了什么场景

play02:02

GPT是能看懂的

play02:03

它说这张图片是赛博朋克风格的

play02:05

描绘了一个未来城市的场景

play02:07

其中有高耸的摩天大楼

play02:09

五颜六色的霓虹灯光

play02:10

以及各种高科技的元素

play02:12

比如飞行的汽车和巨大的银幕

play02:15

整个场景中

play02:15

散布着先进的广告牌和立体投影

play02:18

给人一种科技高度发达

play02:20

且信息过载的感觉

play02:21

画面前景中一个人物站在高处

play02:24

背对着观众

play02:26

似乎在眺望这座繁华的城市

play02:28

你看GPT它能看懂这个图片的风格

play02:30

以及里面的主要内容

play02:32

我又发了一张办公桌的照片

play02:34

让它识别并列出所有的物品清单

play02:37

我们来看一下它的识别情况

play02:39

一台台式电脑

play02:40

显示器上有一位女性的视频通话画面

play02:43

这是细节啊

play02:44

还有无线键盘

play02:46

无线鼠标

play02:47

这个也是细节

play02:48

一个密封的玻璃瓶

play02:50

瓶盖上有木塞

play02:51

你看木塞

play02:52

这是细节

play02:53

一个装有笔和铅笔的金属网篮

play02:56

铅笔它是能单独识别出来的

play02:58

一个小型的绿色植物盆栽

play03:00

然后

play03:00

一个放在小盆栽旁边的小型多肉植物

play03:05

它知道这个是小型多肉

play03:07

还有

play03:08

放有笔记本和文件夹的布质挂袋

play03:11

它知道这个是布质的

play03:12

还有一瓶可能是护手霜

play03:14

或者液体的小瓶子

play03:15

它能猜出来这个大概是护手霜

play03:18

这个就是细节

play03:19

它对图片里面各种物体的识别能力

play03:21

是非常强的

play03:23

这两个对话

play03:23

就说明GPT完全理解图片的风格环境

play03:26

而且还能识别图片里面的各种物体

play03:29

那在这个基础上再叠加图片生成能力

play03:32

这个DALLE·3早就能办到了

play03:35

众所周知啊

play03:36

视频就是连续播放的图片

play03:38

Sora现在能生成1080P 30帧的视频

play03:42

就是1秒钟30张图片

play03:44

30张金毛小狗在雪地里玩耍的照片

play03:47

放在一起就变成了这段视频

play03:50

这里的难点是保持画面主体的一致性

play03:53

比如说这一段Sora生成的斑点狗的视频

play03:55

注意看它身上的斑点

play03:57

前后位置是保持一致的

play03:59

还有这辆车后面的英文字母

play04:01

DANDVER

play04:02

从始至终都是一致的

play04:05

这只冲浪的小水獭

play04:06

胸前的英文oter

play04:07

就是水獭的意思

play04:09

也一直保持不变

play04:10

Sora出场即巅峰

play04:13

而且

play04:13

Sora是完全能够理解

play04:15

摄影相关的镜头语言的

play04:17

在官方的案例里面

play04:18

有很多这样的描述

play04:20

比如说近景(close-up)

play04:23

特写镜头(extreme close-up)

play04:26

35毫米电影胶片

play04:28

低角度机位

play04:30

无人机视角

play04:33

定格动画

play04:35

3D数字渲染

play04:38

这些镜头效果都能实现

play04:40

再加上1分钟的时长

play04:41

1080P的分辨率

play04:43

横版竖版它都支持

play04:45

这就极大地降低了

play04:46

视频素材的创作难度和成本

play04:48

网上有人评论

play04:49

我们完了

play04:50

摄像师完了

play04:51

摄影师完了

play04:52

剪辑师完了

play04:53

视觉特效师完了

play04:55

无人机操作员完了

play04:56

素材影像公司肯定完了

play04:59

视觉特效师为什么也玩完了

play05:01

因为Sora他不仅能理解我们的物理运动规律

play05:04

它还能打破这些规律

play05:05

创造一些天马行空意想不到的内容

play05:08

对Sora来说

play05:09

现实和虚拟是完全可以融合的

play05:12

20多岁的小哥坐在云端读书

play05:14

这本来是孙大圣才干得出来的事

play05:16

这样的例子还有很多

play05:18

微距拍摄一片叶子

play05:20

显示小火车在叶脉中穿梭

play05:23

一段逼真的视频

play05:25

一只会游泳的蝴蝶

play05:26

在水下穿过美丽的珊瑚礁

play05:30

一个巨大的高耸的人形云朵

play05:32

盘旋在地球上方

play05:34

还不停的向地球射下闪电

play05:37

这里的特效远超国内影视剧

play05:39

这些视频如果说让特效师去做

play05:42

没个几天是搞不定的

play05:44

在openai的官网

play05:45

他也放出了几个Sora创作的失败案例

play05:47

我印象最深的就是这几只小狗

play05:50

3只狗

play05:51

4只狗

play05:52

5只狗

play05:52

一群狗

play05:53

这个特效就是传说中的无中生有

play05:56

这哪里是失败案例啊

play05:57

这简直是神乎其技啊

play05:59

总结来说

play06:00

各种风光大片 镜头特写

play06:02

无人机视角 3D渲染

play06:04

赛博朋克

play06:05

科技玄幻等等

play06:06

各种风格的视频素材

play06:08

Sora它都能做

play06:09

而且还是一分钟的时长

play06:11

这个对于视频创作者来说

play06:12

太有吸引力了

play06:14

Sora一问世

play06:15

意味着openai

play06:16

实现了对人类所有信息载体的AI统治

play06:19

文本 text to text

play06:21

代码 text to code

play06:22

音频 text to speech

play06:24

图片 text to image

play06:26

视频 text to video

play06:28

这当中稍微落后一点的

play06:29

就是之前的 文生图 (text to image)

play06:31

没有像midjourney和stable diffusion那么精细

play06:33

但是现在是视频时代

play06:35

图片动起来就是视频嘛

play06:37

所以openai直接在终点结束战斗

play06:39

而且这些都是在GPT4发布之后

play06:41

不到一年的时间内完成的

play06:43

恐怖至极啊

play06:44

我们国内的公司还在炒概念

play06:46

套现股票呢

play06:48

我期待Sora早点推送到所有会员用户

play06:50

到时候应该能减少我不少的工作量

play06:53

我现在做视频

play06:54

找一些高质量的素材还是比较麻烦的

play06:57

我是去Canva的国际版输入关键词

play06:59

比如说亚洲女性 工作 电脑

play07:01

找到这些素材

play07:03

有些呢还要会员才能用

play07:05

我得先去淘宝买一个Canva国际版会员才能下载

play07:08

找到合适的素材之后导出

play07:10

可以是1080P或者4K

play07:12

然后呢

play07:12

再拖到剪辑软件里面进行创作

play07:14

一套流程下来要好几分钟的时间

play07:17

那有了Sora之后

play07:18

我只要输入提示词

play07:20

比如说

play07:21

中国30岁女性白领

play07:23

在办公室电脑前工作

play07:25

期间会有喝水的动作

play07:27

偶尔会和身边的同事交流

play07:29

45度角中景镜头

play07:31

分辨率为1920乘1080

play07:33

时长30秒

play07:35

生成好了之后

play07:35

我就直接可以用了

play07:36

这个太方便了

play07:38

对有些播客

play07:39

本身他的文案功底啊

play07:40

嗓音条件都很棒

play07:42

就是懒得做视频

play07:43

那现在好了

play07:44

做视频交给Sora

play07:45

还有那些写玄幻小说的朋友

play07:47

对他们来说都是重大利好

play07:49

当然了Sora生成的内容

play07:51

很多会和现实世界的实际情况有些出入

play07:54

比如说这个蚂蚁

play07:55

在蚁巢内部穿梭的镜头

play07:57

非常逼真

play07:58

看着好像没啥问题

play07:59

但实际上呢

play08:00

蚂蚁是6只腿的

play08:02

就是这个蚂蚁

play08:03

它只有4条腿

play08:04

那以后网络视频平台会出现大量的

play08:07

AI生成的视频内容

play08:09

真假难辨

play08:10

很可能会造成人类自己的认知失调

play08:12

不久之后

play08:13

我们眼见就真的不一定为实了

play08:16

好了总而言之

play08:17

Sora很强

play08:18

做视频这件事从未如此简单

play08:21

如果你想做视频博主

play08:22

2024年真的可以轻装上阵

play08:24

Sora的潜力不止如此

play08:26

openai官方给的Sora定位是

play08:29

世界模拟器的视频生成模型

play08:31

2024年

play08:33

Sora已经能够理解我们的真实世界了

play08:35

你也应该积极接触AI世界了

play08:38

祝好

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?