OpenAI o1 智商120,怎么跟它玩?| o1 使用教程
Summary
TLDR这段视频讲述了最新发布的o1大模型的强大推理能力及其在解决复杂问题中的表现。通过烧绳子问题展示了o1在推理速度和准确性上的优势,且o1具备强大的系统2思考模式,类似于人类的慢思考。视频还讨论了o1在分析、优化、创作和总结等多个领域的出色表现,并指出只有行业专家才能提出有深度的问题,从而最大化o1的价值。最后,视频展望了o1未来的发展潜力及其应用场景。
Takeaways
- 🚀 o1的发布标志着AI发展进入新阶段,开启了第二种缩放定律,为AI技术指明了新方向。
- 🧠 o1在科学、代码和数学等复杂任务上展现出强大的推理能力,能够解决以往AI难以处理的问题。
- ⏱️ o1能在极短时间内(15秒)解决烧绳子等复杂问题,其思考过程类似于人类的系统2思考方式。
- 📈 o1的数学能力显著增强,能够稳定解答高考数学选择题,甚至填空题,显示了其推理和计算能力。
- 💡 o1能够理解并回答即使包含错别字的问题,减少了对精确提示词的需求。
- 🔍 o1能够进行深入的分析和推理,帮助用户解答实际问题,如分析城市经济状况。
- 📝 o1在优化改良方面表现出色,能够对已有内容进行深度分析并提出改进建议。
- 🎨 o1在范式创作方面能力强大,能够根据特定模型创作出高质量的内容。
- 📊 o1的总结归纳能力超群,能够总结出提问模型如CLEAR模型,帮助用户更有效地提问。
- 🌟 o1的潜力巨大,尤其对研究者和行业专家来说,能够提出深刻具体的问题,发挥o1的最大价值。
Q & A
O1模型是在什么时候发布的?
-O1模型是在9月13号发布的。
云栖大会上关于O1模型的讨论持续了多长时间?
-云栖大会上关于O1模型的讨论持续了53分钟,超过一半的时间都在讨论O1。
O1模型开启了哪种新的缩放定律?
-O1模型开启了第二种缩放定律,即Scaling law。
O1模型擅长解决哪些方面的问题?
-O1模型擅长解决科学、代码、数学方面的复杂任务和难题。
O1模型在解决烧绳子问题时的表现如何?
-O1模型可以轻松解决烧绳子问题,并且能够详细描述出解题的步骤和思考过程。
O1模型的推理能力有多强?
-O1模型的推理能力非常强,能够快速准确地解决复杂问题,并且其推理过程类似于人类的系统2思考过程。
O1模型在数学能力方面的表现如何?
-O1模型在数学能力方面表现非常出色,能够稳定地解答高考数学选择题,并且能够解答填空题。
O1模型的智商被测试为多少?
-O1模型的智商被测试为120,远超普通人水平。
O1模型能够轻松解答哪四类难题?
-O1模型能够轻松解答分析推理问题、优化改良问题、范式创作问题和总结归纳问题。
O1模型在广告文案创作方面的表现如何?
-O1模型在广告文案创作方面表现出色,能够根据3M模型快速创作出满足不同需求的广告文案。
O1模型提出的提问模型是什么?
-O1模型提出的提问模型是CLEAR模型,包括提供问题的背景信息(C)、说明任何相关的限制条件或特殊要求(L)、表达问题表述要清晰具体(E)、告知你已经尝试过的解决方案或者思路避免重复(A)、详细说明您对答案的输出要求(R)。
Outlines
💡 O1开启新缩放定律,推理能力突破
本段主要介绍了O1模型的发布及其强大的推理能力。作者通过'烧绳子'的经典推理题展示了O1的优越表现,O1能在15秒内准确解决这一复杂问题,表现出类似人类系统2思维的推理过程。此外,O1在数学和代码等复杂任务中的表现也超越了以往的GPT-4o和Claude 3.5,证明了其推理者阶段的强大能力。O1的问答系统更加智能,甚至无需提示词即可准确理解问题并提供正确答案。
📈 打印店反映城市经济冷暖
作者举了一个实际案例,说明为什么与打印店老板交谈能反映城市经济状况。O1分析指出,打印业务量、服务需求类型和客户多样性是经济状况的三大指标。当城市经济活跃时,建筑业的增长、标书打印的频繁以及行业的多样化需求都会增加,反映出经济健康。O1的分析逻辑清晰且结构化,展现了其强大的推理能力。
🛠 O1优化提纲:从80分到95分
O1通过分析和优化用户提供的提纲,展示了其卓越的改进能力。针对现代汽车国际化发展提纲,O1指出了内容和结构上的不足,包括缺乏宏观环境分析、竞争对手分析不充分、文化差异等问题,并给出了具体的改进建议。最终,O1不仅提出了结构更优化的新提纲,还展示了如何通过智能修改提升内容质量。
📢 3M广告模型创作:引导用户消费
O1展示了在广告文案创作中的出色能力。根据3M广告模型,O1为投影仪撰写了满足不同需求的广告文案,从吸引更多用户到鼓励用户多次使用及消费更昂贵的产品,O1在短时间内生成了高质量的广告文案。通过修正不符合预期的部分,O1展示了其快速生成高效内容的能力,尤其是在more users、use more和more expensive的3M模型下的应用。
📝 CLEAR提问模型:高效提问新方法
O1总结了一个帮助用户更好向它提问的模型——CLEAR模型。该模型包括五个步骤:背景信息、限制条件、问题表述、尝试过的方法和答案要求。这一模型旨在帮助用户提出更清晰、具体的问题,以便O1能够更有效地回应复杂问题。该模型展现了O1在总结归纳和创新思维上的强大能力,为用户提供了一种更高效的提问方式。
📊 O1的强大潜力:面向专家的工具
最后,作者总结了O1的主要优势,特别是它在复杂推理、优化、创作和总结归纳方面的表现。O1的能力不仅仅适用于普通用户,更适合研究者和行业专家,因为他们可以提出更加深刻和专业的问题,从而发挥O1的最大价值。作者认为,O1的完整版有潜力通过多模态、5G和机器人技术直接替代某些专业领域的工作。
Mindmap
Keywords
💡o1
💡系统2思考
💡缩放定律(Scaling law)
💡推理能力
💡智商(IQ)
💡思维链(Chain of Thought, COT)
💡范式创作
💡3M模型
💡CLEAR模型
💡多模态
💡Preview版本
Highlights
o1在9月13日发布,6天后的云栖大会上被重点讨论,显示了其重要性。
o1开启了第二种缩放定律,指明了新的技术路线。
o1擅长解决科学、代码、数学方面的复杂任务和难题。
o1具有更强的推理能力,能够解决烧绳子问题。
o1的思考过程类似于人类的系统2思考。
o1在数学能力上超越了之前的模型,如GPT4o。
o1能理解复杂问题,即使问题中有错字。
o1能够轻松解答分析推理问题。
o1在优化改良方面表现出色,能够改进已有的提纲或文章。
o1在范式创作方面能够创作出高质量的内容。
o1在总结归纳方面的能力超过人类水平。
o1能够自我总结提问模型,如CLEAR模型。
o1的智商高达120,远超普通人水平。
o1能够理解并应用3M模型来创作广告文案。
o1能够帮助用户优化文章中的无效表述。
o1能够根据4有模型取标题,提高视频内容的吸引力。
o1的使用次数限制为每周50次,适合解决复杂问题。
o1的真正利好群体是研究者和行业专家。
o1的完整版本加上多模态、5G、机器人技术,有潜力替代医生进行看病和手术。
Transcripts
o1很强
有多强
这么说吧
o1是9月13号发布的
6天之后的云栖大会
第一场论坛
就是这四位大佬分享的
通往AGI的大模型发展之路
Kimi的创始人杨植麟也在
全程53分钟
超过一半的时间都在讨论o1
o1开启了第二种缩放定律Scaling law
指明了新的技术路线
这还只是Preview预览版本
那具体强在哪
官方的介绍是
o1擅长解决科学 代码 数学方面的
复杂任务和难题
因为o1有更强的推理能力
我测下来 确实强
还是先拿烧绳子的问题举例
烧一根质地不均匀的绳子
从头烧到尾需要一个小时
那现在有若干条相同的绳子
问怎么计时75分钟
你可以暂停思考一下
或者考考你身边的朋友
这个问题有点难的
之前GPT4o 和 Claude 3.5 sonnet都死活答不对
现在o1可以轻松搞定
我们看一下o1的答案
第0分钟
点燃第一根绳子的两端
和第二根绳子的一端
第30分钟
第一根绳子烧完了
立即点燃第二根绳子的另一端
第45分钟第二根绳子烧完了
立即点燃第三根绳子的两端
第75分钟第三根绳子烧完
计时完成
答案很完美
我们再解剖一下o1的思考过程
这个更有意义
整个过程他一共思考了15秒
不知道你身边的朋友
能不能在15秒内想出答案
O1先想的是怎么测量45分钟
然后尝试不同组合来实现75分钟
他想了一个路子
最终耗时105分钟
不对
不对那就再想
思考如何利用这些绳子来准确测量15分钟
在3个点点燃一根绳子
或者同时从两端点燃两根绳子
似乎都不太行得通
你看他在思考推理不同的方法
行不通就换路子
这个跟我们人脑思考是一样的
然后他继续思考
关键是搞定
计时45分钟
然后他找到了正确的方法了
最后他还加了一步评估的步骤
就是再验算一遍
发现确实是对的
然后再把答案提交给我
这一切在15秒内就完成了
15秒我这个脑子肯定想不出来
这道题
o1 mini也答对了
不过是另一种组合方式
这几位大佬在聊o1的时候
说的最多的一个词就是
系统2思考
人脑呢有两种思考方式
一种是无意识的快速思考
不费脑力
比如说看到蛇就跑
听到声音就回头
那这类快思考就是系统1思考
还有一类是费脑力的
需要集中注意力进行推理计算
做出选择等等
这个就是慢思考
就是系统2思考
只有缓慢的系统2思考
才能进行逻辑推理
构建想法
制定计划等等
O1的推理过程
就很像人类的系统2思考过程
现在的o1就达到了
Sam Altman说的AI发展的第二阶段
推理者
这阶段o1的数学能力也的确是更强了
之前我用GPT4o测试高考数学题
选择题能答对
但是不稳定
同样还是这道选择题
不管我问几次
o1都能答对
有时候都懒得调用慢思考的过程
填空题
GPT4o答不对
但是o1能答对
这题答案1/2
对的
o1现在聪明到你跟他沟通
可以不用纠结什么提示词prompt
我以前就说过
聪明的AI不需要你去记什么提示词
你直接问
他是能理解你的问题的
就算你问题里面错字连篇
o1都知道你是什么意思
现在你甚至都不用考虑思维链
COT的技巧了
你肯定在很多博主的视频里面听到过思维链
就是问题后面加一句
请一步步思考
就能得到更好的答案
现在o1基本上不需要了
他自己就在慢慢的一步一步的思考解决问题
有人测过o1的智商
已经高达120
远超普通人水平
对于我们来说
现在最大的问题
是怎么问出真正值得o1
去推理研究的好问题
我使用两周之后
我发现
现在o1能够轻松地帮我们解答4类难题
第一类问题还是分析推理的问题
前面烧绳子是为了测试而测试
正常人才不关心这个
我再举个实际的案例
前几天我去楼下打印店
里面有个搞拆迁工程的包工头老板
来做标书
他跟打印店的老板吐槽
说他从来没有这么穷过
以前账上的现金至少有500万
现在呢垫了2,000多万了
欠了一屁股债
感慨现在生意难做
然后我就突然想到
打印店的老板
应该是最能感知到
一个城市的经济冷暖
然后我就把这个问题抛给o1
在中国各个城市都有很多图文打印店
这些门店提供日常的打印 复印 扫描
设计图纸打印
标书装订等服务
为什么有人说
想要了解一个城市的经济好不好
和图文打印店的老板聊聊就知道
他思考了5秒钟就给出了推理答案
我们来看一下翻译之后的中文的答案
当一个城市的经济蓬勃发展的时候
会有更多的建筑与开发项目
意味着建筑师和工程师
需要定期打印图纸
然后有更多的招投标
这些标书文件需要专业的打印和装订
也会有更多的企业运营活动
需要打印更多的营销材料和报告
跟打印店的老板聊天
你就能了解到
第一个是业务量
打印业务多
说明经济活动多
第二个是服务需求类型
打印设计图纸多
说明建筑业在增长
打印标书多
说明竞争活跃
第三个是客户多样性
不同行业的客户增加
反映出经济的健康和多样化
这都说明
打印店的老板
对城市的经济脉动有着一手的洞察
厉害吧
有结构有逻辑的推理
o1的推理分析真的很强
你有什么需要分析的问题或者策略
你都可以问问o1
第二类问题优化改良
之前GPT4o或者Claude 3.5给你的答案
你肯能想优化
但好像又没有能力优化
没关系
现在有个智商120的大哥在身边
问o1就行了
之前我让GPT4o给我列了一份
韩国现代汽车进军国外发展的提纲
这份提纲我感觉已经很好了
如果我还想更好
那把GPT4o的答案发给o1
让更聪明的o1来改
我说你帮我查一下
不管是内容上还是结构上
这份提纲还有什么不足之处
以及如何改进
o1足足思考了31秒
这是他的思考过程
他会识别不足之处
包括内容和结构
他也会找需要改进的地方
后面呢会提出建议
我们直接看具体的改进建议
先看内容上的不足和改进
缺少宏观环境分析
缺少对现代汽车国际化过程中
所处的宏观环境分析
这个没毛病
然后是竞争对手分析不充分
缺乏横向比较
说的没错
还有文化差异与本土化策略欠缺
还有
没有充分体现现代汽车在数字化转型
新能源技术等新兴领域的战略布局
说的对
后面还有对于供应链管理
和全球化采购策略的讨论不够深入
最后还有增加具体的案例研究
成功的案例失败的案例都要有
每一项不足
o1都提出了改进建议
真的非常专业
然后是结构上的不足
上来就说
章节安排逻辑需要优化
比如之前的国际化战略
放在市场分析后面
可能导致战略与实践脱节
应该将国际化战略的关键要素提前
还有层次划分不够细致
要细化内容
例如在研发与创新下面
细分为技术研发投入合作研发
创新成果应用等等
这里还有一些其他的结构优化
够专业吧
最后o1直接给出了一个
优化改良之后的提纲
你看啊
第二章先谈战略
再谈实践
然后第五章增加了竞争对手的分析
第九章案例研究
有成功案例
也有失败案例
我们可以看到
这份提纲的优化是非常明显的
那你说为什么不直接让o1生成提纲呢
就是为了防止他偷懒
让他改良GPT4o的提纲
是有明显起点的
能够从80分提到95分
或者也可以让o1先出提纲
然后再单开窗口
再让他改良也行
反正就是这个思路
因为能超过他的只有他自己
我还把得到头条的一篇文章全文
复制发给他
对于里面经常出现的一些表述
我听腻了
我让他帮我找出那些对于信息传递
没有意义的表述
这次他思考的更久
74秒
找出了不少合理的点
我经常就听到一些表述
换句话说
也就是说
就像我们经常说的
引用XXX说的话
几乎每篇文章都有我听腻了都
每次听到换句话说
我都得想想之前是咋说的
反倒分散我的注意力
其实大可不必
建议每次发稿之前
先让o1审一遍
这两个例子
就是让o1来解决优化改良的问题
这个活儿需要更深的推理
更高的智力
所以目前只有他能做
短的提纲
长的文章都能搞定
我不会写代码
但是我相信代码优化肯定也行
o1一周呢
现在只能使用50次
组合策略就是
让o1这个大哥抓提纲框架
然后让GPT4o这个能干的小弟
去补充细节
完美
第三类问题范式创作
官方宣传片里面
要求o1按照固定格式写诗
写的很好
我也试了一下啊
写一篇赞美丹尼尔卡尼曼的中文诗歌
一共四句
我希望四句诗的第一二三四个字
分别是领导傻逼四个字
每一句的字数可以不同
但是要押韵
你看他的答案
领悟人心深似海
导引思维破迷霭
傻笑背后藏智慧
逼近真理展风采
首先肯定一下 很切题
丹尼尔卡尼曼
是获得诺贝尔经济学奖的心理学家
所以领悟人心深似海没毛病
然后导引思维破迷霭
他的思考快与慢那本书
让全世界了解到了系统1系统2
这两种思维方式
唯一的缺点就是做成了藏头诗
不太符合我的要求
我后面让他改
他还改的不好
但这个还挺有意思的
算是一首比较成功的打油诗吧
就是图一乐啊
但是我们还是得干点真活
接下来这个例子就很绝了
让o1写广告
在广告文案的创作领域
有一个3M模型
more users希望有更多的客户
比如说
连续6年国货洗发水销售份额第一
use more是希望客户用的更多
比如说两粒一起吃才更好
每天一斤奶
强壮中国人
more expensive希望客户花更多的钱购买
比如说
不是所有牛奶都叫特仑苏
只为高端而生
有些广告是组合在一起的
比如说某个防晒乳的广告
儿童配方
妈妈也爱用
这个就是
同时达到了more users和use more的效果
我说现在给我写4条投影仪的广告文案
前三条分别满足
more users use more和more expensive
最后一条要同时满足3M模型
他只思考了12秒就给出了答案
连续三年销量领先
百万用户的共同选择
这个是more users
吸引更多的客户
白天办公夜晚观影
一台投影仪满足您的多重需求
这个是use more
鼓励客户更多使用
顶级配置
奢华享受
只为追求极致的您
这是more expensive
鼓励客户花更多钱购买
第四条
专业品质全家共享
提升生活品味的高端之选
这条满足了more users和more expensive
但是并没有很好地展现use more
我就让它重写第4条
又花了14秒
写出来了
高端投影仪
这是more expensive
全家共享
这是more users
工作娱乐全覆盖
这是use more
让生活更加精彩
我必须说O1的表现很精彩啊
3M模型好用吧
你再听到刘亦菲说
上午咖啡下午茶
你就知道这是use more
还有个例子
让他根据4有模型取标题
就是让观众看到标题之后觉得
有关系 有好处 有意思 有期待
让他给我取标题
视频内容就是讲解Open AI o1模型的
这几个标题取得真的是有模有样
对于不同视频内容的侧重点都有覆盖
真的可以
所以对于范式创作这一类的问题
o1是可以非常好的胜任的
只要你能给出具体的范式
他就能创作出高质量的内容
你也可以把这个范式理解为模型
这个也是我以前说的使用技巧
就是用你脑子里专业的小模型
来推动o1这个聪明的大模型
小模型推动大模型
现在更好用了
第四类问题总结归纳
这方面
o1上升到了一个新的高度
绝对超过人类的水平
看到这你肯定会发现了一个问题啊
就是o1现在有更强的推理能力
能解决更复杂的问题
但是这也要求我们能够提出更加
细致具体的问题
不能过于宽泛
那我就干脆让o1自己总结一个提问模型
让我们用户能够更好地向o1提问
我额外的要求是
这个模型的各个步骤的首字母
最好也能组成一个有意义的新单词
类似于STAR模型
situation task action result
首字母就组成了star
简单好记
他思考了39秒
看到答案的那一刻
我惊呆了
他这个模型就叫prompt模型
真的太会了
P provide context提供问题的背景信息
R request明确提出您的请求
O outline specifics概述问题的具体细节
M mention attempts
说清楚尝试过的方法或解决方案
避免重复
P preferences告知您对答案的输出偏好
T timeframe明确时间限制
就最后一个T不太合理
前面的PROMP都非常合理
我们再来看一下它的思考过程
它有尝试组合成
smart
prompt
theory
deep
focus
clear
askme
guide
adapt
trace
help
等等不同的单词
这些词都是跟提问有关的词
最后试了一圈
他可能觉得prompt更贴切
就选了prompt
你看这个就是系统2思考
而且远超人类大脑
我反馈说prompt模型非常棒
但是最后一个timeframe时间限制
和提问技巧似乎关联不大
能否再想一个新的模型
他这次还尝试了
fine quest detail brief
最后给出了一个CLEAR模型
C context背景
提供问题的背景信息
L imitations限制条件
说明任何相关的限制条件或特殊要求
E expression
表达问题 表述要清晰具体
A attempt尝试过的方法
告知你已经尝试过的解决方案或者思路
避免重复
R requirements 要求
详细说明您对答案的输出要求
同志们这个CLEAR模型非常棒啊
我强烈建议你就用这个CLEAR模型
向现在的o1提问
这样你肯定能获得更高质量的答案
CLEAR模型收藏好
这个可是o1一共花了89秒
总结归纳出来的模型
你我花一天估计都搞不出来
o1的总结归纳能力
已经不是简单的总结归纳了
里面还有无尽的创意和发散
太强了真的
因为一周只能问50个问题
肯定不详尽
我也不会写代码
所以这块没法测
但是不用想也不用测
肯定非常强
有代码需求的人闭眼冲就是了
数学问题绝大部分人也用不上
所以呢我暂时就总结出
o1在这4类问题上的出色表现
我的整体看法是
o1真的超级强
我们普通用户能用
参考o1给的CLEAR模型
就能用的更好
一周给50次
我觉得也够用了
确实能帮助我们解决更复杂的难题
但是我觉得o1真正利好的群体
不是我们普通用户
是研究者
是行业专家
因为只有研究者或者说行业专家
他们才能问出深刻具体的问题
比如说前面的例子
你脑子里要是没有3M模型
没有4有模型
你就很难让o1快速产出高质量的文案
一定是懂行的专业人士
才能发挥o1的最大价值
更何况现在o1还是Preview版本
还不是完整版本
可以想象啊
完整版加多模态加5G加机器人
大概率就可以直接替代医生
看病做手术了
相比之下
我更希望你能用好
GPT4o的高级语音
和未来的视觉能力
放个预告
下个视频
我们聊聊最新推送的高级语音包
谢谢你的时间
下个视频再见
浏览更多相关视频
2 Ex-AI CEOs Debate the Future of AI w/ Emad Mostaque & Nat Friedman | EP #98
3. Cognitive Architectures
《與楊立昆的對話:人工智能是生命線還是地雷?》- World Governments Summit
[ML News] Jamba, CMD-R+, and other new models (yes, I know this is like a week behind 🙃)
Ilya Sutskever | AI neurons work just like human neurons | AGI will be conscious like humans
Googles GEMINI 1.5 Just Surprised EVERYONE! (GPT-4 Beaten Again) Finally RELEASED!
5.0 / 5 (0 votes)