震撼升级!Claude3横空出世,性能超越GPT4,抢先体验Claude3 Opus,谁是真正的AI王者?
Summary
TLDRAI学长的视频中介绍了Anthropic发布的新版大模型Claude3,它包含三个版本:Opus、Sonnet和Haiku。视频中展示了Claude3在基准测试中超越GPT4的能力,并详细演示了如何开通使用以及实测效果。Claude3在多语言数学推理、图片识别和长文本处理方面表现出色,支持20万token的上下文窗口,准确率大幅提升。视频还提供了官方Prompt库的链接,并讨论了使用API和开通会员的方法。
Takeaways
- 🚀 Anthropic发布了新版大模型Claude3,提供Opus、Sonnet和Haiku三个版本。
- 📈 在基准测试中,Claude3的Opus版本在MMLU测试结果上全面超过GPT4。
- 🌐 Claude3的多语言数学推理能力在无示例情况下准确率高达90.7%,远超GPT4的74.5%。
- 📸 Claude3在视觉测试上,包括图片、图表和图解的识别能力均超过GPT4v。
- 📝 Claude3支持20万token的上下文窗口,并且能够接受超过100万个token的输入。
- 🔍 Claude3在长文本准确性和检索能力上有大幅改进,准确率超过99%。
- 🔗 申请Claude的API需通过顶部菜单栏,提供5美金额度的授信前需验证手机号。
- 📚 Anthropic提供了官方Prompt库,供用户学习Prompt书写规范和技巧。
- 🆓 普通用户可以免费使用中级版本的Claude(Sonnet版本),但有使用次数限制。
- 💳 开通Claude会员可使用wildcard虚拟信用卡,会员费为20美金一个月。
- 🔧 通过Poe平台,用户可以体验Claude3的中级版本,而Opus版本需要Poe会员才能访问。
Q & A
Claude3的三个版本分别是什么?
-Claude3的三个版本分别是Opus(超大杯)、Sonnet(大杯)和Haiku(中杯)。
Opus版本在MMLU测试中的表现如何?
-Opus版本在MMLU测试中全面超过了GPT4,准确率达到了90.7%,而GPT4在提供8个示例的情况下准确率为74.5%。
Claude3的图片识别能力如何?
-Claude3在所有视觉测试上的能力都超过了GPT4v,并且支持图片、图表图形以及技术图解的识别。
Claude3支持的上下文窗口长度是多少?
-Claude3的所有系列都支持20万个token的上下文窗口,并且能够接受超过100万个token的输入。
Claude3在长文本准确性和检索能力上有哪些改进?
-Claude3在长文本能力上大幅提升,准确率超过了99%,特别是在处理超过10K长度的文本时,表现出色。
如何申请Claude的API?
-在Claude官方网站的顶部菜单栏中找到API选项,进入后可以申请。申请完成后,可以在控制面板界面获取API key。
Claude3提供了哪些使用成本和能力的信息?
-Claude3提供了基础版本、中级版本和高级版本的使用成本和能力对比,通过图表直观展示了不同版本的能力。
如何开通Claude的会员?
-可以通过注册Claude账户并使用wildcard虚拟信用卡开通会员,或者通过Poe平台对接的Claude版本体验。
Claude3在逻辑推理能力测试中的表现如何?
-Claude3在逻辑推理能力测试中答对了两个问题,但在一个关于书签位置的问题上给出了错误答案。
Claude3和GPT4在图像识别和代码生成方面的能力对比如何?
-在图像识别和代码生成方面,Claude3的能力整体优于GPT4,生成的代码更完整,图像识别更准确。
Claude3在长文本检索方面的能力如何?
-Claude3在长文本检索方面表现出色,能够准确检索并回答关于长文本中间部分的问题。
Outlines
🚀 Claude3模型功能介绍与实测效果
介绍了Claude3模型的官方博客,对其功能进行了快速总结,并通过图表展示了不同版本的成本与能力对比。特别强调了Opus版本在MMLU测试中超过GPT4的性能,以及在多语言数学推理能力测试中无需示例即可达到高准确率。同时,提到了Claude3在图片识别和长文本处理能力上的提升,以及API申请和使用流程。
💳 如何开通Claude3会员并体验高级功能
详细说明了如何使用wildcard虚拟信用卡开通Claude3会员,以及如何通过Poe平台体验不同版本的Claude3。通过实际演示,展示了开通会员的步骤,以及如何使用Opus版本进行功能测试。同时,对比了Claude3与GPT4在逻辑推理能力上的表现,指出Claude3在某些测试中的错误,但也强调了其解释的详细程度。
🔍 Claude3与GPT4的全面能力对比
通过一系列的测试,包括逻辑推理、图像识别、代码生成和长文本处理,对比了Claude3和GPT4的能力。测试结果显示,尽管Claude3在某些逻辑问题上出现错误,但在图像识别和长文本处理方面表现更优。最后,总结了Claude3在无损长文本处理方面的决策和发展方向。
Mindmap
Keywords
💡Claude3
💡GPT4
💡MMLU测试
💡API
💡Prompt集
💡长文本能力
💡逻辑推理
💡图像识别
💡上下文窗口
💡虚拟信用卡
Highlights
Claude3的Opus版本在MMLU测试结果上全面超过了GPT4。
Opus模型在没有提供任何示例的情况下,多语言数学推理能力的准确率达到90.7%,而GPT4在提供8个示例的情况下准确率为74.5%。
Claude3在视觉测试上的能力超过GPT4v,包括图片、图表图形和技术图解的识别。
Claude3系列支持20万token的上下文窗口,并能处理超过100万个token的输入。
Claude3在长文本准确性和检索能力上有大幅提升。
Claude3的高级版API和中级版API已经开放申请。
Claude提供了官方Prompt库,供用户学习和使用。
普通用户可以免费使用中级版本的Claude(Sonnet版本),但有使用次数限制。
使用wildcard虚拟信用卡可以开通Claude的会员服务。
Poe平台已经对接了Claude3的三个版本,但访问Opus版本需要Poe会员。
Claude3在逻辑推演能力测试中,答对了两个问题,但第一个问题答错。
GPT4在逻辑推演能力测试中三个问题都答对。
Claude3在图像识别和代码生成能力测试中表现优于GPT4。
在长文本检索能力测试中,Claude3和GPT4都成功找到了指定内容。
Claude3的长文本准确性和检索能力有显著提升,特别是在内容深度的测试中。
Claude3的Opus版本在基准测试分数上超过了GPT4,标志着一个具有里程碑意义的时刻。
Claude3提供了三个版本:Opus、Sonnet和Haiku,分别对应不同的使用成本和能力。
Claude3的API使用前需要验证手机号,并提供了5美金额度的授信。
Claude3的实测能力表现在多个方面,包括逻辑推理、图像识别、代码生成和长文本处理。
Transcripts
国际惯例
我们还是直接进claude的官方博客
去了解他这次更新的功能
我先快速的给大家总结过一下
这个博客界面
然后待会再给大家演示怎么样去开通
以及他的这个实测效果怎么样
这张图的话
就是非常简单的概括了
它三个版本的使用成本
以及它的能力
这个是基础版本
这个是中级版本
这个是高级版本
x轴的话是成本
然后y轴的话是它的这个能力
好接下来
我们主要是看
它的这个能力评测结果
主要是看这张图
已经非常的直观的给我们展示了
像Claude3
GPT4的GPT3.5的
以及这个谷歌Gemini的一些测试结果
在这张图里面都给我们展现出来了
我们主要是看Opus
最高级版本的模型
它在这个MMLU测试结果上
已经全面超过了GPT4
而且大家可以看一下这个值
就是大模型在做基准测试
之前呢他会先提供一些示例
比如说这边是五个shot
五个shot
分别代表提供了5个示例之后
然后才开始测试
比如说我们现在看这个MGSM的测试
多语言数学推理能力
这个测试集
在这个Opus模型
它是没有提供任何示例的情况下
而GPT4呢
它是提供了8个示例的情况下
opus模型获得的准确率是90.7%
GPT4的准确率呢
是74.5%
他是没有一个示例的情况下
他的准确率
还比GPT4高这么多
通过这个测试集
我们就可以很直观的看出来
在复杂的任务推理上
Claude3
基本上已经是全面吊打GPT4了
好接下来呢
是关于Claude3的图片识别能力
我们可以直接去对照这张图片
这边是GPT4V的测试结果
然后这边的话
是Gemini ultro的一个测试结果
从这个图片表格当中可以看到
它基本上在所有的这个视觉测试上
能力都是超过GPT4v的
而且它这个视觉识别的能力
不光是限于图片
像图表图形
以及一些技术的图解
它都是支持的
OK接下来呢
这个就比较关键
就是关于这个它的长文本能力
首先呢Claude3的所有系列
它都已经是支持了20万
token的这个上下文窗口
并且呢这三个模型
它都能够接受
超过100万个token的输入
重点是呢
它不光是说这个上下文的长度提升
而且它的准确率
也是大幅提升的
我原来的视频呢
是出过一期
关于Claude2.1长文本能力
也就是这个海底捞针
的一个测试能力的评测
大家可以看一下这张图片
这个是关于Claude2.1 20万TOKEN
长文本能力的一个测试结果
我们可以看到
当文本长度超过10K以后
基本上大半边
他的测试结果都是出错的
也就是说这个长文本能力非常的差
那么升级完以后的Claude3
我们可以看一下
同样的话是20万TOKEN
下边是这个内容长度
然后这边的话是这个内容深度
可以看到它都是绿的
准确率就超过了99%
这也意味着它的长文本准确性
检索能力
都有大幅的改进
好然后就是关于使用问题
首先是API这方面
他的高级版API
以及这个中级版的API
已经是可以去申请了
如果是说你要申请Claude的API
那么在这个顶部菜单栏这边有个API
进去之后呢
就可以申请
申请完成之后
我们可以来到这个控制面板界面
这边的话
就是可以获取它的这个API key
然后这点的话
他同样也是和这个OpenAI类似
给我们提供了一个5美金额度的授信
但是
在使用这个5美金的授信额度之前
我们是需要先验证自己的手机号的
除了上面这些内容以外呢
Claude这次
他还给我们提供了一个Prompt集
这个是他官方的一个Prompt库
这个地址呢
我会放到视频笔记和视频简介当中
如果是说
你想学习一下官方的一些Prompt
它的一些书写规范和技巧
那么可以到这里面去学习一下
整体来说涵盖也非常的全面
OK接下来呢
我们来讲怎么样去使用哈
那目前的话
你只要注册这个claude账户
就可以来到这个使用的界面
目前的话
它已经是针对普通用户
免费的用户开放了这个中级版本
也就是这个Sonnet版本
但是呢
他是有这个使用次数的限制
我今天早上大概是测试了3-5次对话
他就提醒我要升级这个plus账户
OK可以看到
右上角提醒
暂时没有办法回复我的消息
要求我去升级这个Pro账户
好接下来呢
我们就来开通一下Claude的会员
来体验一下
他的这个最高级版本的功能
开会员的方式呢
是用wildcard虚拟信用卡去开通
那么虚拟信用卡的具体用法
大家可以看一下
我频道里面的这期视频
就是OpenAI新手救星一键
升级ChatGPTplus账户
这里面的话
我就介绍了
关于用这个虚拟信用卡
wildcard的详细用法
它怎么样去注册
怎么样去申请这个ChatGPT plus账户
那同样的话
这张卡也是可以用在Claude里面
去开通这个会员的
都是能直接使用的
那如果是说
你既没有国外信用卡
你也不想去开通这个虚拟信用卡
那么你可以考虑用Poe
把他目前呢
已经是把Claude3三个版本
都给我们对接进来了
但是这个opus版本
它是需要Poe的会员才可以访问
这个中级版
你就是进Poe注册一个账号
已经是可以直接去体验了
好接下来呢
我就来演示一下开通会员
那这个的话我还是
回到用这个wildcard这个平台
用这个虚拟信用卡来开通下这个会员
把这些信息给复制过去
然后充值之前呢
大家注意一下自己的卡内余额
是要大于20美金的
他的会员费呢就是20美金一个月
地址以及我的这个银行卡信息
都已经填写完成了好
我们点击一下提交
OK现在呢已经是会员开通成功了
开完会员呢
在这里就可以看到
它是可以选择模型的
我们就用这个最高级版本
opus版本
接下来的话
我们就来测试一下他的实际能力表现
我会打开GPT4
然后发同样的问题
去做一个结果的对比
去做这样的一个评测
然后这个问题的测试集呢
我是用了
这样一个表格
这个是真格基金
他开放了一个大语言模型中文测试集
里面包含了不同模型的测试结果
然后涵盖基础能力
进阶能力
垂直领域
基本上它的测试集的涵盖
已经是非常非常全面了
如果是说你想要这个文档
那么可以在简介里面
添加我的联系方式
问我索要就可以了
好然后我在这个测试集当中
找了几个问题
我们依次发送给Claude3以及GPT4
来对比一下它的能力
我们先来测试一下他们的
这个逻辑推演能力
首先我把这个问题发送给GPT4
你正在看一本书
书签是在第120页
当你不在的时候
一个朋友拿起这本书
把书签放到了第145页
那么你回来的时候
希望这个书签在哪一页
正确答案的话是在120页
OK首先
GPT4的回答是正确的
因为这是你最后一次阅读
留下来的位置
没问题
我们来看一下这个
Claude3
针对这个问题的一个结果是什么样的
好这个是Claude3 Opus版本的答案
嗯根据你的描述
我回来之后打开这本书
我会期望书签在145页
这个答案是不对的
opus版本
他居然答错了
上面这是四个逻辑的解释
这边是答案
所以尽管我个人原本可能看到第120页
但是书签被移到145页
会使我下意识的认为自己看到145页
而期望书签在145页
这个例子很好的说明了
记忆有时候会被环境线索所影响
而产生错觉
我觉得这Claude3
可能把这个问题想复杂了
导致他这个答案不正确
我们再来测试第二个问题
左手一只鸭
右手一只鸡
两次交换双手的物品后呢
那左右手各自是啥
两次交换之后
其实手上的物体是不变的
我们先发给Claude3 Opus版本
OK可以看到
它其实响应速度还是蛮快的
好答案已经出来了
他的这个推理逻辑是这样的
第一次交换
第二次交换
所以经过两次交换之后
物体又回到了最初状态
并且这个解释也是比较详细的
第二轮的这个逻辑推理能力测试
是正确的
我们再来看一下GPT4的
OK
GPT4的答案也没有问题
但是相对来说
他这个答案比较简洁
左手还是鸭
右手还是鸡
这轮的话
嗯两个都答对了
两个模型都答对了
但是相对来说
Claude3
他的答案会更详细一点
好接下来的话
我们来测一个稍微复杂一点的
问题是这样的
百货公司托搬运公司运送1,000个花瓶
每个花瓶的运费是1.5元
如果打破一个
这一个不但不支付运费
搬运公司还要赔偿9.5元
那么最后百货公司是支付了1,456元
在搬运过程当中
一共打破了几个花瓶
这个正确答案是4个花瓶
我们先看一下
这个Claude3能不能答对
好答案出来了
最终答案是4个
并且呢它有整个推理的过程
它是怎么样去计算的
都把我们罗列出来了
好然后我们来看一下GPT4的
他居然用了这个代码解释器
也就是高级代码分析
写了这样一段代码
来去执行这段任务
OK这个结果也是正确的
打破了4个花瓶
OK那上面的话
就是关于逻辑推理能力的三个测试
GPT4呢是三个问题都答对了
然后Claude3 opus版本呢
是答对了两个
答错了一个
但是整体来说
像这个Opus是版本
它的解释会更详细
不然我把这个问题
再测一遍
看它能不能答对
来试一下这个结果
好这次测试呢
他已经答对了
所以呢这个大模型在测试过程中
他可能也会有一些随机和不稳定性
你可以去多测一些问题
整体来说
两边的这个答案
结果都还不错
好接下来
我们来测试一下
他的这个图像识别能力
以及这个写代码的能力
这里的话
我是截了一张这样的图片
就是我个人的YouTube主页
然后让他们来根据这个图片的截图
帮我生成相应的html代码
OK
这个是结果
首先是GPT4生成的代码
它的布局是有问题的
包括内容的话
它其实也是涵盖不全的
好
然后这边的话是Claude3生成的代码
相对来说
Claude3生成的代码会更完整
那么这轮测试
生成这个代码能力
以及这个图像识别能力
整体来说
Claude3的能力是更好的
好最后
我们再来做一个
关于长文本方面的测试
这里呢我是找了一篇这个
微信公众号文章
标题是专访月之暗面杨植麟
无损的长语境
就是一切
现在呢我已经把这篇文章
给下载下来
并且已经转换成word的格式
OK可以看到这篇字数
的话是9494
就差不多一万个汉字
然后我会要求Claude3以及GPT4
分别去找这个文章当中的一个问题
并且这个问题呢
我是选取了这篇文章当中
这个中间部分
也就是深度在50%左右的
我们原来
在做这个长文本能力测试时候
会发现
大模型在文档的头部以及尾部
它的这个检索效果
测试效果是比较好的
那么这里
我就故意选择了中间部分
就是这个海外独角兽
他问杨植麟
你们先做这个无损长文本
这个决策是怎么样做出来的
然后这个是杨植麟的回答
好现在呢
我们就发送相应的Prompt文章中
关于月之暗面
这家公司先做无损上文本的
这个决策是怎么做出来的啊
看他能不能帮我们检索出来
同样的话GPT4
我们也去执行一下这个指令
OK我们把这个答案复制过来
然后来对比一下
大模型作为新的计算机
肯定也需要很大的内存
因为旧的计算机的内存
在过去几十年当中
至少增长了几十个数量级
而且
旧的计算机也是一开始就有很少内存
第二点在于AI的终极价值是个性化
然后对比一下Claude3的答案
大模型作为新的计算机
肯定需要很大的内存
这一部分是没有问题的
就是第一点
然后第二点的话
AI的终极价值是个性化
也是没有问题的
并且它还完善一下这个内容
个性化
需要基于用户的长期交互历史数据
因此
需要尽可能多地保留完整的上下文
这也就要求
模型具备无损上下文的能力
综上所述
月之暗面判断
支持无损上下文的模型
是未来的发展方向
OK这个答案很好啊
他已经检索出来了
我们来看一下GPT
有几点首先是大模型需要大量内存
这与传统的计算机在过去几十年
内存增长的趋势是一致的
没问题其次的话
他指出AI的价值在于个性化
这个也没有问题
然后去做了一个总结
OK关于长文本能力
大海捞针测试这一块
两个大模型都完成了
整体来说都还不错
逻辑能力都是没有问题的
好
那上面的话就是
关于我用Claude3 opus这个模型
去做的一些测试结果
这里供大家参考一下
你好欢迎来到AI学长的频道
我是小林
就在昨晚
Anthropic冷不丁的就发布了
新版的大模型Claude3
提供了三个版本
分别是Opus、Sonnet和Haiku
可以理解为超大杯
大杯中杯
在基准测试的分数上已经超过了GPT4
这是一个具有里程碑意义的时刻
那么这期视频呢
我们就来快速的解读一下
新版的Claude3
它更新了哪些功能
要怎么样开通使用
它的实测能力又怎么样
如果你喜欢今天这个话题
麻烦动动你的小手赞一赞
好以上就是本期视频的全部内容
感谢观看
如果你喜欢今天这期视频
如果今天这期视频对你有一点点帮助
请点赞及订阅我的频道
你的支持对我很重要
استعرض المزيد من الفيديوهات ذات الصلة
![](https://i.ytimg.com/vi/Kk8YhCpo1b8/hq720.jpg)
[ML News] Jamba, CMD-R+, and other new models (yes, I know this is like a week behind 🙃)
![](https://i.ytimg.com/vi/hmbI-xoehck/hq720.jpg)
一键部署Google开源大模型Gemma,性能远超Mistral、LLama2 | 本地大模型部署,ollama助您轻松完成!
![](https://i.ytimg.com/vi/OVwEeSsSCHE/hqdefault.jpg?sqp=-oaymwEXCJADEOABSFryq4qpAwkIARUAAIhCGAE=&rs=AOn4CLA-ug-Cn-hZJ1U9XcvNQ0mWM3OauQ)
Lecture 1.1 — Why do we need machine learning — [ Deep Learning | Geoffrey Hinton | UofT ]
![](https://i.ytimg.com/vi/yZQoJg2RCKI/hq720.jpg)
Block reference parts of images just like text with Obsidian Excalidraw
![](https://i.ytimg.com/vi/GwaPwLrqwis/hq720.jpg)
Googles GEMINI 1.5 Just Surprised EVERYONE! (GPT-4 Beaten Again) Finally RELEASED!
![](https://i.ytimg.com/vi/yEAu2vcPHA0/hq720.jpg)
ODA Summit 2021 - Part 2: Complete BIM Interoperability
5.0 / 5 (0 votes)