震撼升级!Claude3横空出世,性能超越GPT4,抢先体验Claude3 Opus,谁是真正的AI王者?

AI学长小林
5 Mar 202414:13

Summary

TLDRAI学长的视频中介绍了Anthropic发布的新版大模型Claude3,它包含三个版本:Opus、Sonnet和Haiku。视频中展示了Claude3在基准测试中超越GPT4的能力,并详细演示了如何开通使用以及实测效果。Claude3在多语言数学推理、图片识别和长文本处理方面表现出色,支持20万token的上下文窗口,准确率大幅提升。视频还提供了官方Prompt库的链接,并讨论了使用API和开通会员的方法。

Takeaways

  • 🚀 Anthropic发布了新版大模型Claude3,提供Opus、Sonnet和Haiku三个版本。
  • 📈 在基准测试中,Claude3的Opus版本在MMLU测试结果上全面超过GPT4。
  • 🌐 Claude3的多语言数学推理能力在无示例情况下准确率高达90.7%,远超GPT4的74.5%。
  • 📸 Claude3在视觉测试上,包括图片、图表和图解的识别能力均超过GPT4v。
  • 📝 Claude3支持20万token的上下文窗口,并且能够接受超过100万个token的输入。
  • 🔍 Claude3在长文本准确性和检索能力上有大幅改进,准确率超过99%。
  • 🔗 申请Claude的API需通过顶部菜单栏,提供5美金额度的授信前需验证手机号。
  • 📚 Anthropic提供了官方Prompt库,供用户学习Prompt书写规范和技巧。
  • 🆓 普通用户可以免费使用中级版本的Claude(Sonnet版本),但有使用次数限制。
  • 💳 开通Claude会员可使用wildcard虚拟信用卡,会员费为20美金一个月。
  • 🔧 通过Poe平台,用户可以体验Claude3的中级版本,而Opus版本需要Poe会员才能访问。

Q & A

  • Claude3的三个版本分别是什么?

    -Claude3的三个版本分别是Opus(超大杯)、Sonnet(大杯)和Haiku(中杯)。

  • Opus版本在MMLU测试中的表现如何?

    -Opus版本在MMLU测试中全面超过了GPT4,准确率达到了90.7%,而GPT4在提供8个示例的情况下准确率为74.5%。

  • Claude3的图片识别能力如何?

    -Claude3在所有视觉测试上的能力都超过了GPT4v,并且支持图片、图表图形以及技术图解的识别。

  • Claude3支持的上下文窗口长度是多少?

    -Claude3的所有系列都支持20万个token的上下文窗口,并且能够接受超过100万个token的输入。

  • Claude3在长文本准确性和检索能力上有哪些改进?

    -Claude3在长文本能力上大幅提升,准确率超过了99%,特别是在处理超过10K长度的文本时,表现出色。

  • 如何申请Claude的API?

    -在Claude官方网站的顶部菜单栏中找到API选项,进入后可以申请。申请完成后,可以在控制面板界面获取API key。

  • Claude3提供了哪些使用成本和能力的信息?

    -Claude3提供了基础版本、中级版本和高级版本的使用成本和能力对比,通过图表直观展示了不同版本的能力。

  • 如何开通Claude的会员?

    -可以通过注册Claude账户并使用wildcard虚拟信用卡开通会员,或者通过Poe平台对接的Claude版本体验。

  • Claude3在逻辑推理能力测试中的表现如何?

    -Claude3在逻辑推理能力测试中答对了两个问题,但在一个关于书签位置的问题上给出了错误答案。

  • Claude3和GPT4在图像识别和代码生成方面的能力对比如何?

    -在图像识别和代码生成方面,Claude3的能力整体优于GPT4,生成的代码更完整,图像识别更准确。

  • Claude3在长文本检索方面的能力如何?

    -Claude3在长文本检索方面表现出色,能够准确检索并回答关于长文本中间部分的问题。

Outlines

00:00

🚀 Claude3模型功能介绍与实测效果

介绍了Claude3模型的官方博客,对其功能进行了快速总结,并通过图表展示了不同版本的成本与能力对比。特别强调了Opus版本在MMLU测试中超过GPT4的性能,以及在多语言数学推理能力测试中无需示例即可达到高准确率。同时,提到了Claude3在图片识别和长文本处理能力上的提升,以及API申请和使用流程。

05:01

💳 如何开通Claude3会员并体验高级功能

详细说明了如何使用wildcard虚拟信用卡开通Claude3会员,以及如何通过Poe平台体验不同版本的Claude3。通过实际演示,展示了开通会员的步骤,以及如何使用Opus版本进行功能测试。同时,对比了Claude3与GPT4在逻辑推理能力上的表现,指出Claude3在某些测试中的错误,但也强调了其解释的详细程度。

10:03

🔍 Claude3与GPT4的全面能力对比

通过一系列的测试,包括逻辑推理、图像识别、代码生成和长文本处理,对比了Claude3和GPT4的能力。测试结果显示,尽管Claude3在某些逻辑问题上出现错误,但在图像识别和长文本处理方面表现更优。最后,总结了Claude3在无损长文本处理方面的决策和发展方向。

Mindmap

Keywords

💡Claude3

Claude3是Anthropic公司发布的新版大型语言模型,提供三个版本:Opus、Sonnet和Haiku。在视频中,Claude3的Opus版本在基准测试中超过了GPT4,显示出其在语言理解和推理能力上的进步。

💡GPT4

GPT4是OpenAI开发的先进语言模型,它在视频中被用作比较基准,以展示Claude3的性能。GPT4在多个测试中与Claude3进行了对比,包括逻辑推理和图像识别能力。

💡MMLU测试

MMLU测试(Multi-modal Language Understanding)是一种评估语言模型在多模态理解方面的能力的测试。在视频中,Claude3的Opus版本在MMLU测试中表现出色,尤其是在没有示例的情况下的准确率超过了GPT4。

💡API

API(Application Programming Interface)是应用程序编程接口,允许开发者访问和使用特定服务或软件的功能。视频中提到,Claude3的API可以申请使用,这为开发者提供了接入和利用Claude3模型的能力。

💡Prompt集

Prompt集是一组用于指导语言模型回答问题或执行任务的提示。在视频中,Claude3提供了官方的Prompt库,帮助用户学习如何更有效地与模型交互。

💡长文本能力

长文本能力指的是语言模型处理和理解长篇幅文本的能力。视频中提到,Claude3支持20万token的上下文窗口,并能处理超过100万个token的输入,这显著提高了其在长文本处理上的准确性和检索能力。

💡逻辑推理

逻辑推理是使用逻辑规则从已知信息中推导出新结论的过程。视频中通过几个逻辑问题测试了Claude3和GPT4的逻辑推理能力,例如书签位置问题和物品交换问题。

💡图像识别

图像识别是指计算机视觉系统识别和理解图像内容的能力。在视频中,Claude3和GPT4被测试了根据图像生成HTML代码的能力,这展示了它们在图像识别和处理视觉信息方面的能力。

💡上下文窗口

上下文窗口是指语言模型在处理文本时能够考虑的文本长度范围。Claude3支持的20万token上下文窗口意味着它可以处理更长的文本,这对于理解和生成连贯的对话至关重要。

💡虚拟信用卡

虚拟信用卡是一种在线支付工具,允许用户进行在线交易而无需实体信用卡。在视频中,提到使用虚拟信用卡来开通Claude3的会员服务,这为用户提供了一种便捷的支付方式。

Highlights

Claude3的Opus版本在MMLU测试结果上全面超过了GPT4。

Opus模型在没有提供任何示例的情况下,多语言数学推理能力的准确率达到90.7%,而GPT4在提供8个示例的情况下准确率为74.5%。

Claude3在视觉测试上的能力超过GPT4v,包括图片、图表图形和技术图解的识别。

Claude3系列支持20万token的上下文窗口,并能处理超过100万个token的输入。

Claude3在长文本准确性和检索能力上有大幅提升。

Claude3的高级版API和中级版API已经开放申请。

Claude提供了官方Prompt库,供用户学习和使用。

普通用户可以免费使用中级版本的Claude(Sonnet版本),但有使用次数限制。

使用wildcard虚拟信用卡可以开通Claude的会员服务。

Poe平台已经对接了Claude3的三个版本,但访问Opus版本需要Poe会员。

Claude3在逻辑推演能力测试中,答对了两个问题,但第一个问题答错。

GPT4在逻辑推演能力测试中三个问题都答对。

Claude3在图像识别和代码生成能力测试中表现优于GPT4。

在长文本检索能力测试中,Claude3和GPT4都成功找到了指定内容。

Claude3的长文本准确性和检索能力有显著提升,特别是在内容深度的测试中。

Claude3的Opus版本在基准测试分数上超过了GPT4,标志着一个具有里程碑意义的时刻。

Claude3提供了三个版本:Opus、Sonnet和Haiku,分别对应不同的使用成本和能力。

Claude3的API使用前需要验证手机号,并提供了5美金额度的授信。

Claude3的实测能力表现在多个方面,包括逻辑推理、图像识别、代码生成和长文本处理。

Transcripts

play00:31

国际惯例

play00:32

我们还是直接进claude的官方博客

play00:35

去了解他这次更新的功能

play00:37

我先快速的给大家总结过一下

play00:40

这个博客界面

play00:41

然后待会再给大家演示怎么样去开通

play00:44

以及他的这个实测效果怎么样

play00:45

这张图的话

play00:46

就是非常简单的概括了

play00:48

它三个版本的使用成本

play00:50

以及它的能力

play00:51

这个是基础版本

play00:52

这个是中级版本

play00:53

这个是高级版本

play00:54

x轴的话是成本

play00:55

然后y轴的话是它的这个能力

play00:58

好接下来

play00:59

我们主要是看

play01:00

它的这个能力评测结果

play01:02

主要是看这张图

play01:03

已经非常的直观的给我们展示了

play01:06

像Claude3

play01:07

GPT4的GPT3.5的

play01:09

以及这个谷歌Gemini的一些测试结果

play01:11

在这张图里面都给我们展现出来了

play01:14

我们主要是看Opus

play01:15

最高级版本的模型

play01:17

它在这个MMLU测试结果上

play01:20

已经全面超过了GPT4

play01:22

而且大家可以看一下这个值

play01:24

就是大模型在做基准测试

play01:25

之前呢他会先提供一些示例

play01:28

比如说这边是五个shot

play01:29

五个shot

play01:30

分别代表提供了5个示例之后

play01:33

然后才开始测试

play01:34

比如说我们现在看这个MGSM的测试

play01:38

多语言数学推理能力

play01:39

这个测试集

play01:40

在这个Opus模型

play01:42

它是没有提供任何示例的情况下

play01:44

而GPT4呢

play01:45

它是提供了8个示例的情况下

play01:48

opus模型获得的准确率是90.7%

play01:51

GPT4的准确率呢

play01:53

是74.5%

play01:54

他是没有一个示例的情况下

play01:56

他的准确率

play01:57

还比GPT4高这么多

play01:58

通过这个测试集

play01:59

我们就可以很直观的看出来

play02:01

在复杂的任务推理上

play02:02

Claude3

play02:03

基本上已经是全面吊打GPT4了

play02:06

好接下来呢

play02:07

是关于Claude3的图片识别能力

play02:09

我们可以直接去对照这张图片

play02:12

这边是GPT4V的测试结果

play02:15

然后这边的话

play02:16

是Gemini ultro的一个测试结果

play02:18

从这个图片表格当中可以看到

play02:20

它基本上在所有的这个视觉测试上

play02:22

能力都是超过GPT4v的

play02:25

而且它这个视觉识别的能力

play02:27

不光是限于图片

play02:28

像图表图形

play02:29

以及一些技术的图解

play02:31

它都是支持的

play02:32

OK接下来呢

play02:33

这个就比较关键

play02:35

就是关于这个它的长文本能力

play02:39

首先呢Claude3的所有系列

play02:41

它都已经是支持了20万

play02:43

token的这个上下文窗口

play02:45

并且呢这三个模型

play02:47

它都能够接受

play02:48

超过100万个token的输入

play02:50

重点是呢

play02:50

它不光是说这个上下文的长度提升

play02:54

而且它的准确率

play02:55

也是大幅提升的

play02:57

我原来的视频呢

play02:57

是出过一期

play02:58

关于Claude2.1长文本能力

play03:00

也就是这个海底捞针

play03:02

的一个测试能力的评测

play03:04

大家可以看一下这张图片

play03:06

这个是关于Claude2.1 20万TOKEN

play03:09

长文本能力的一个测试结果

play03:11

我们可以看到

play03:11

当文本长度超过10K以后

play03:15

基本上大半边

play03:16

他的测试结果都是出错的

play03:18

也就是说这个长文本能力非常的差

play03:20

那么升级完以后的Claude3

play03:22

我们可以看一下

play03:23

同样的话是20万TOKEN

play03:25

下边是这个内容长度

play03:27

然后这边的话是这个内容深度

play03:30

可以看到它都是绿的

play03:31

准确率就超过了99%

play03:34

这也意味着它的长文本准确性

play03:36

检索能力

play03:37

都有大幅的改进

play03:39

好然后就是关于使用问题

play03:41

首先是API这方面

play03:43

他的高级版API

play03:45

以及这个中级版的API

play03:47

已经是可以去申请了

play03:48

如果是说你要申请Claude的API

play03:50

那么在这个顶部菜单栏这边有个API

play03:53

进去之后呢

play03:54

就可以申请

play03:55

申请完成之后

play03:56

我们可以来到这个控制面板界面

play04:00

这边的话

play04:00

就是可以获取它的这个API key

play04:03

然后这点的话

play04:04

他同样也是和这个OpenAI类似

play04:06

给我们提供了一个5美金额度的授信

play04:10

但是

play04:10

在使用这个5美金的授信额度之前

play04:13

我们是需要先验证自己的手机号的

play04:16

除了上面这些内容以外呢

play04:17

Claude这次

play04:18

他还给我们提供了一个Prompt集

play04:21

这个是他官方的一个Prompt库

play04:23

这个地址呢

play04:24

我会放到视频笔记和视频简介当中

play04:27

如果是说

play04:27

你想学习一下官方的一些Prompt

play04:29

它的一些书写规范和技巧

play04:31

那么可以到这里面去学习一下

play04:34

整体来说涵盖也非常的全面

play04:36

OK接下来呢

play04:37

我们来讲怎么样去使用哈

play04:39

那目前的话

play04:39

你只要注册这个claude账户

play04:41

就可以来到这个使用的界面

play04:43

目前的话

play04:44

它已经是针对普通用户

play04:46

免费的用户开放了这个中级版本

play04:48

也就是这个Sonnet版本

play04:50

但是呢

play04:50

他是有这个使用次数的限制

play04:53

我今天早上大概是测试了3-5次对话

play04:57

他就提醒我要升级这个plus账户

play05:00

OK可以看到

play05:01

右上角提醒

play05:02

暂时没有办法回复我的消息

play05:04

要求我去升级这个Pro账户

play05:07

好接下来呢

play05:08

我们就来开通一下Claude的会员

play05:10

来体验一下

play05:11

他的这个最高级版本的功能

play05:12

开会员的方式呢

play05:13

是用wildcard虚拟信用卡去开通

play05:16

那么虚拟信用卡的具体用法

play05:18

大家可以看一下

play05:19

我频道里面的这期视频

play05:21

就是OpenAI新手救星一键

play05:23

升级ChatGPTplus账户

play05:25

这里面的话

play05:26

我就介绍了

play05:27

关于用这个虚拟信用卡

play05:29

wildcard的详细用法

play05:31

它怎么样去注册

play05:32

怎么样去申请这个ChatGPT plus账户

play05:35

那同样的话

play05:36

这张卡也是可以用在Claude里面

play05:38

去开通这个会员的

play05:40

都是能直接使用的

play05:41

那如果是说

play05:42

你既没有国外信用卡

play05:45

你也不想去开通这个虚拟信用卡

play05:48

那么你可以考虑用Poe

play05:49

把他目前呢

play05:50

已经是把Claude3三个版本

play05:52

都给我们对接进来了

play05:54

但是这个opus版本

play05:55

它是需要Poe的会员才可以访问

play05:58

这个中级版

play05:59

你就是进Poe注册一个账号

play06:01

已经是可以直接去体验了

play06:03

好接下来呢

play06:03

我就来演示一下开通会员

play06:06

那这个的话我还是

play06:08

回到用这个wildcard这个平台

play06:10

用这个虚拟信用卡来开通下这个会员

play06:13

把这些信息给复制过去

play06:14

然后充值之前呢

play06:15

大家注意一下自己的卡内余额

play06:17

是要大于20美金的

play06:20

他的会员费呢就是20美金一个月

play06:22

地址以及我的这个银行卡信息

play06:24

都已经填写完成了好

play06:26

我们点击一下提交

play06:27

OK现在呢已经是会员开通成功了

play06:32

开完会员呢

play06:32

在这里就可以看到

play06:33

它是可以选择模型的

play06:35

我们就用这个最高级版本

play06:37

opus版本

play06:38

接下来的话

play06:38

我们就来测试一下他的实际能力表现

play06:40

我会打开GPT4

play06:42

然后发同样的问题

play06:43

去做一个结果的对比

play06:45

去做这样的一个评测

play06:46

然后这个问题的测试集呢

play06:48

我是用了

play06:50

这样一个表格

play06:51

这个是真格基金

play06:53

他开放了一个大语言模型中文测试集

play06:56

里面包含了不同模型的测试结果

play06:59

然后涵盖基础能力

play07:00

进阶能力

play07:01

垂直领域

play07:02

基本上它的测试集的涵盖

play07:04

已经是非常非常全面了

play07:06

如果是说你想要这个文档

play07:07

那么可以在简介里面

play07:08

添加我的联系方式

play07:10

问我索要就可以了

play07:11

好然后我在这个测试集当中

play07:14

找了几个问题

play07:15

我们依次发送给Claude3以及GPT4

play07:19

来对比一下它的能力

play07:20

我们先来测试一下他们的

play07:22

这个逻辑推演能力

play07:23

首先我把这个问题发送给GPT4

play07:26

你正在看一本书

play07:28

书签是在第120页

play07:30

当你不在的时候

play07:30

一个朋友拿起这本书

play07:32

把书签放到了第145页

play07:34

那么你回来的时候

play07:35

希望这个书签在哪一页

play07:37

正确答案的话是在120页

play07:39

OK首先

play07:40

GPT4的回答是正确的

play07:42

因为这是你最后一次阅读

play07:44

留下来的位置

play07:45

没问题

play07:47

我们来看一下这个

play07:48

Claude3

play07:50

针对这个问题的一个结果是什么样的

play07:53

好这个是Claude3 Opus版本的答案

play07:56

嗯根据你的描述

play07:58

我回来之后打开这本书

play07:59

我会期望书签在145页

play08:03

这个答案是不对的

play08:05

opus版本

play08:06

他居然答错了

play08:07

上面这是四个逻辑的解释

play08:09

这边是答案

play08:11

所以尽管我个人原本可能看到第120页

play08:14

但是书签被移到145页

play08:17

会使我下意识的认为自己看到145页

play08:19

而期望书签在145页

play08:22

这个例子很好的说明了

play08:23

记忆有时候会被环境线索所影响

play08:26

而产生错觉

play08:27

我觉得这Claude3

play08:28

可能把这个问题想复杂了

play08:31

导致他这个答案不正确

play08:33

我们再来测试第二个问题

play08:36

左手一只鸭

play08:37

右手一只鸡

play08:38

两次交换双手的物品后呢

play08:40

那左右手各自是啥

play08:43

两次交换之后

play08:44

其实手上的物体是不变的

play08:46

我们先发给Claude3 Opus版本

play08:50

OK可以看到

play08:51

它其实响应速度还是蛮快的

play08:54

好答案已经出来了

play08:55

他的这个推理逻辑是这样的

play08:57

第一次交换

play08:58

第二次交换

play08:59

所以经过两次交换之后

play09:00

物体又回到了最初状态

play09:02

并且这个解释也是比较详细的

play09:04

第二轮的这个逻辑推理能力测试

play09:06

是正确的

play09:07

我们再来看一下GPT4的

play09:09

OK

play09:10

GPT4的答案也没有问题

play09:12

但是相对来说

play09:12

他这个答案比较简洁

play09:14

左手还是鸭

play09:15

右手还是鸡

play09:17

这轮的话

play09:18

嗯两个都答对了

play09:19

两个模型都答对了

play09:20

但是相对来说

play09:21

Claude3

play09:21

他的答案会更详细一点

play09:24

好接下来的话

play09:25

我们来测一个稍微复杂一点的

play09:28

问题是这样的

play09:29

百货公司托搬运公司运送1,000个花瓶

play09:32

每个花瓶的运费是1.5元

play09:35

如果打破一个

play09:36

这一个不但不支付运费

play09:38

搬运公司还要赔偿9.5元

play09:40

那么最后百货公司是支付了1,456元

play09:43

在搬运过程当中

play09:44

一共打破了几个花瓶

play09:46

这个正确答案是4个花瓶

play09:48

我们先看一下

play09:49

这个Claude3能不能答对

play09:52

好答案出来了

play09:53

最终答案是4个

play09:55

并且呢它有整个推理的过程

play09:57

它是怎么样去计算的

play09:59

都把我们罗列出来了

play10:00

好然后我们来看一下GPT4的

play10:03

他居然用了这个代码解释器

play10:04

也就是高级代码分析

play10:06

写了这样一段代码

play10:07

来去执行这段任务

play10:08

OK这个结果也是正确的

play10:11

打破了4个花瓶

play10:12

OK那上面的话

play10:13

就是关于逻辑推理能力的三个测试

play10:16

GPT4呢是三个问题都答对了

play10:19

然后Claude3 opus版本呢

play10:21

是答对了两个

play10:22

答错了一个

play10:23

但是整体来说

play10:24

像这个Opus是版本

play10:25

它的解释会更详细

play10:27

不然我把这个问题

play10:29

再测一遍

play10:30

看它能不能答对

play10:31

来试一下这个结果

play10:35

好这次测试呢

play10:36

他已经答对了

play10:37

所以呢这个大模型在测试过程中

play10:39

他可能也会有一些随机和不稳定性

play10:42

你可以去多测一些问题

play10:44

整体来说

play10:45

两边的这个答案

play10:46

结果都还不错

play10:47

好接下来

play10:48

我们来测试一下

play10:49

他的这个图像识别能力

play10:51

以及这个写代码的能力

play10:53

这里的话

play10:53

我是截了一张这样的图片

play10:55

就是我个人的YouTube主页

play10:57

然后让他们来根据这个图片的截图

play10:59

帮我生成相应的html代码

play11:02

OK

play11:02

这个是结果

play11:03

首先是GPT4生成的代码

play11:07

它的布局是有问题的

play11:08

包括内容的话

play11:09

它其实也是涵盖不全的

play11:12

play11:12

然后这边的话是Claude3生成的代码

play11:16

相对来说

play11:17

Claude3生成的代码会更完整

play11:20

那么这轮测试

play11:22

生成这个代码能力

play11:23

以及这个图像识别能力

play11:25

整体来说

play11:26

Claude3的能力是更好的

play11:28

好最后

play11:29

我们再来做一个

play11:30

关于长文本方面的测试

play11:32

这里呢我是找了一篇这个

play11:36

微信公众号文章

play11:37

标题是专访月之暗面杨植麟

play11:40

无损的长语境

play11:41

就是一切

play11:42

现在呢我已经把这篇文章

play11:44

给下载下来

play11:45

并且已经转换成word的格式

play11:48

OK可以看到这篇字数

play11:49

的话是9494

play11:51

就差不多一万个汉字

play11:53

然后我会要求Claude3以及GPT4

play11:56

分别去找这个文章当中的一个问题

play11:58

并且这个问题呢

play11:59

我是选取了这篇文章当中

play12:02

这个中间部分

play12:03

也就是深度在50%左右的

play12:05

我们原来

play12:06

在做这个长文本能力测试时候

play12:08

会发现

play12:08

大模型在文档的头部以及尾部

play12:11

它的这个检索效果

play12:12

测试效果是比较好的

play12:14

那么这里

play12:14

我就故意选择了中间部分

play12:17

就是这个海外独角兽

play12:18

他问杨植麟

play12:20

你们先做这个无损长文本

play12:22

这个决策是怎么样做出来的

play12:23

然后这个是杨植麟的回答

play12:26

好现在呢

play12:27

我们就发送相应的Prompt文章中

play12:29

关于月之暗面

play12:30

这家公司先做无损上文本的

play12:33

这个决策是怎么做出来的啊

play12:34

看他能不能帮我们检索出来

play12:37

同样的话GPT4

play12:38

我们也去执行一下这个指令

play12:40

OK我们把这个答案复制过来

play12:43

然后来对比一下

play12:44

大模型作为新的计算机

play12:46

肯定也需要很大的内存

play12:48

因为旧的计算机的内存

play12:49

在过去几十年当中

play12:51

至少增长了几十个数量级

play12:53

而且

play12:53

旧的计算机也是一开始就有很少内存

play12:56

第二点在于AI的终极价值是个性化

play13:00

然后对比一下Claude3的答案

play13:03

大模型作为新的计算机

play13:04

肯定需要很大的内存

play13:06

这一部分是没有问题的

play13:07

就是第一点

play13:08

然后第二点的话

play13:08

AI的终极价值是个性化

play13:10

也是没有问题的

play13:11

并且它还完善一下这个内容

play13:13

个性化

play13:13

需要基于用户的长期交互历史数据

play13:16

因此

play13:16

需要尽可能多地保留完整的上下文

play13:19

这也就要求

play13:20

模型具备无损上下文的能力

play13:22

综上所述

play13:23

月之暗面判断

play13:24

支持无损上下文的模型

play13:26

是未来的发展方向

play13:27

OK这个答案很好啊

play13:28

他已经检索出来了

play13:29

我们来看一下GPT

play13:32

有几点首先是大模型需要大量内存

play13:35

这与传统的计算机在过去几十年

play13:38

内存增长的趋势是一致的

play13:40

没问题其次的话

play13:41

他指出AI的价值在于个性化

play13:44

这个也没有问题

play13:45

然后去做了一个总结

play13:47

OK关于长文本能力

play13:48

大海捞针测试这一块

play13:50

两个大模型都完成了

play13:52

整体来说都还不错

play13:53

逻辑能力都是没有问题的

play13:55

play13:56

那上面的话就是

play13:56

关于我用Claude3 opus这个模型

play13:59

去做的一些测试结果

play14:01

这里供大家参考一下

play00:00

你好欢迎来到AI学长的频道

play00:02

我是小林

play00:03

就在昨晚

play00:04

Anthropic冷不丁的就发布了

play00:05

新版的大模型Claude3

play00:07

提供了三个版本

play00:08

分别是Opus、Sonnet和Haiku

play00:11

可以理解为超大杯

play00:13

大杯中杯

play00:14

在基准测试的分数上已经超过了GPT4

play00:17

这是一个具有里程碑意义的时刻

play00:19

那么这期视频呢

play00:20

我们就来快速的解读一下

play00:22

新版的Claude3

play00:23

它更新了哪些功能

play00:24

要怎么样开通使用

play00:25

它的实测能力又怎么样

play00:27

如果你喜欢今天这个话题

play00:29

麻烦动动你的小手赞一赞

play14:03

好以上就是本期视频的全部内容

play14:05

感谢观看

play14:06

如果你喜欢今天这期视频

play14:07

如果今天这期视频对你有一点点帮助

play14:09

请点赞及订阅我的频道

play14:11

你的支持对我很重要

Rate This

5.0 / 5 (0 votes)

Related Tags
AI学长Claude3GPT4AI模型功能对比开通指南实测效果Anthropic技术评测虚拟信用卡Prompt集
Do you need a summary in English?