【漫士科普】GPT是如何工作的?为什么要学习接下一个词?#gpt #chatgpt #openai
Summary
TLDRこのビデオスクリプトは、人工知能の言語モデル、特にGPTの基礎原理とその限界について解説しています。清华の人工知能博士生である漫士が、言語の基本研究から始まり、GPTの生成プロセスや言語理解能力、そしてそのトレーニング方法を解説します。また、大規模なデータセットと大量のパラメータを用いたトレーニングのコストと複雑さを触れ、言語モデルがどのようにして人間の言語パターンを理解し、新しいコンテンツを生み出せるかを解説しています。最後に、言語モデルが現実世界を理解し、人間に有用な助けとなる方法についても触れています。
Takeaways
- 🧠 大型言語モデルは人間の言語を理解し、様々なタスクをこなす能力を有しているが、人間の思考方式に則って話すわけではない。
- 💬 大型モデルは「次の単語を予測する」という単純なタスクを通じて、言語の深いパターンを学び、自然言語を生成する。
- 📚 言語モデルの基礎は、単語のシーケンスを通じて情報を伝えるという概念にあり、これはTOKENの並びとその意味を持つ。
- 🔢 統計言語モデルは、過去の単語の並びから次の単語を予測するアルゴリズムであり、GPTの強力な性能の根底にある。
- 📈 Transformerモデルはディープラーニングの強力なアルゴリズムであり、GPTが言語を理解し生成する能力を持つ要因の一つである。
- 🔑 GPTは予測「次のTOKEN」というタスクを通じて、言語の文法や意味の深い理解を学び、自然な会話や文章を生成する。
- 🌐 大規模なデータセットを使って訓練されたGPTは、人間の言語の多様性と柔軟性を吸収し、広範な言語タスクに対応できる。
- 💰 GPTの訓練には膨大な計算リソースとコストがかかるため、算力戦争と呼ばれるほどのインフラストラクチャが必要とされる。
- 🚀 GPTは言語の表面的な規則を学びながら、深層的な意味や文化的な背景にも触れ、人間の感情やロジックを理解する能力を発揮する。
- 🛠 大型モデルは特定の分野に適応させるために、再訓練やRLHF(人間フィードバックを通じた強化)を通じて性能を向上させる。
- 🔮 今後の研究では、大規模モデルの潜在的な能力や「現象の発生」、プロンプト技術などについて更に深く掘り下げる予定である。
Q & A
GPTが持つ「驚くべき能力」とはどのようなものでしょうか?
-GPTが持つ「驚くべき能力」とは、言語を理解し、文章を生成したり、コードを書いたり、論文を読んだりする能力を指します。これは、人間の言語処理能力に非常に近いAIとして、言語大模型の進化の結果です。
大模型が人間の思考方式に従っているわけではないと言われていますが、どうしてでしょうか?
-大模型は、人間の思考方式に従っていないとされています。なぜなら、人間は文法や意味に従って言葉を並べますが、大模型は「接話尾」という方法で、既に述べた言葉から次の単語を予測するように動作するためです。
言語モデルとは何を意味していますか?
-言語モデルとは、言語のパターンやルールを数学的に表現したものであり、特定の単語列がどれだけ自然であるかを計算することができます。GPTはこのような言語モデルを応用し、言葉の並びや意味を理解しています。
言語モデルの「接話尾」とはどのようなプロセスですか?
-「接話尾」は、大模型が現在までの文脈に基づいて次の単語を選ぶプロセスです。これは、入力されたテキストをもとに、次に続く可能性のある単語を予測するタスクに相当します。
Transformerモデルとは何ですか?
-Transformerモデルは、ディープラーニングの分野で非常に強力なモデルであり、GPTの核となるアルゴリズムです。入力と出力の関係を学習し、言語の生成や翻訳などのタスクをこなすことができます。
大模型が持つ「next TOKEN prediction」とは何を意味していますか?
-「next TOKEN prediction」とは、大模型が現在までの文脈に基づいて、次に続く単語(TOKEN)を予測することを意味します。このプロセスは、言語生成の核心であり、言語の理解を深める上で非常に重要です。
大模型が「自帰帰生成」を用いる理由は何ですか?
-「自帰帰生成」は、モデルが生成した出力を再び入力として使用し、次の単語を生成するプロセスです。これにより、モデルは連続したテキストを生成することができ、会話や文章の流れを作り出します。
大模型が「幻觉」を引き起こす現象とは何ですか?
-「幻觉」は、大模型が専門知識などの特定の分野で、正確な情報を提供できない場合に、無関係や誤った情報を生成する現象です。これは、モデルが現実世界の具体的概念を理解していないことが原因で発生します。
大模型のトレーニングに必要なデータの量はどのくらいですか?
-大模型のトレーニングには、TB(テラバイト)単位のデータが必要な場合があり、これは人間の数百世代分以上の読み物を超える量のデータです。
RLHFとは何を意味していますか?
-RLHFは、「Reinforcement Learning from Human Feedback」の略で、人間からのフィードバックをもとに強化学習を行って、モデルの応答を改善するプロセスを指します。
大模型が「言語の深层のルール」を理解しているとされていますが、これはどういう意味ですか?
-「言語の深层のルール」を理解しているとは、言語の文法や意味だけでなく、言葉が持つ文化的、状況的な意味や関連性についても理解し、適切な文脈で使用できる能力があることを意味します。
Outlines
🧠 AIと言語モデルの基礎
この段落では、言語大モデルの登場とその能力について解説しています。AIは文書の作成やコードの執筆など、人間に近い能力を有しており、様々な企業がそれに追随して開発を進めています。博士生の漫士が、AIの言語に関する基礎研究から始め、GPTの原理と限界について解説します。大モデルは人間の思考と異なる方法で言葉を選び、文を作成します。言語モデルの核心は、TOKENの意味とその出現パターンを理解することにあります。
🔍 言語モデルの進化とGPTの成功
この段落では、言語モデルの歴史とGPTの成功について説明しています。統計言語モデルがどのように登場し、人間の言語を理解する新しい方法を提供したかが語られています。GPTは、接尾語の接続を学習し、入力された文脈に基づいて次の単語を予測することで、言語の理解を深めています。Transformerモデルの強力さと、大規模なデータセットでのトレーニングが、GPTの強さの鍵となっています。
📚 大規模モデルの学習過程と言語理解
この段落では、大規模モデルがどのように言語を学び、理解するのかが詳細に説明されています。モデルは、大規模なテキストデータからパターンを学習し、文化的背景や現実世界の意味を理解する能力を獲得しています。自帰帰生成という手法を用いて、モデルは質問に答えたり、対話を続けたりすることができるようになっています。
🚀 大規模モデルの限界と未来
最後の段落では、大規模モデルの限界とその将来性について議論しています。モデルは言語の表面的な規則を学ぶことができていますが、深い専門知識や数学的な因果関係を理解することは難しいと指摘されています。さらに、特定の分野でのトレーニングや、人間フィードバックを活用した最適化が、モデルの有用性を高める鍵であることが強調されています。最後に、AIの進化とその可能性について期待的な視点で締めくくられています。
Mindmap
Keywords
💡言語モデル
💡統計言語モデル
💡Transformer
💡接尾語予測
💡自帰帰生成
💡AGI(一般化された人工知能)
💡幻觉(hallucination)
💡RLHF(Reinforcement Learning from Human Feedback)
💡算力
💡語料
Highlights
语言大模型如ChatGPT的出现,标志着人类首次触摸到通用人工智能AGI的雏形。
大模型的生成语言方式与传统人类语言组织方式不同,采用逐步生成的方式。
大模型生成语言时,并不完全模仿人类的思维方式,而是根据已有内容预测下一个词。
语言规律的本质在于如何传递信息和意义,而不仅仅是语法结构。
大模型通过统计语言模型的方法,学习语言的内在规律,而非单纯依赖语法。
GPT模型的成功在于其能够根据上文预测下一个词,实现语言的生成。
Transformer模型作为GPT的核心,能够从数据中学习输入到输出的规律。
大模型的训练过程不需要人为标注,通过预测下一个词的方式自我学习。
大模型的训练数据量巨大,可达TB级别,相当于上亿本书籍。
GPT模型的参数量巨大,每个字的生成需要进行大量计算。
大模型通过自回归生成的方式,能够解决语言任务和回答问题。
大模型在理解语言深层规律的基础上,能够创造出全新的内容。
大模型目前还存在局限性,如无法完成特定简单要求或在专业知识上的准确性问题。
大模型的训练涉及到特定领域的再训练和人类反馈的优化。
大模型的涌现现象显示了随着参数和数据量的增加,模型能力的提升。
提示词在大模型的使用中扮演重要角色,能够显著影响模型的表现。
大模型已成为我们生活中不可或缺的帮手,预示着未来超级AI的发展。
Transcripts
从ChatGPT开始
语言大模型进入我们的生活
写文案读论文写代码样样精通
成为有史以来最接近人的AI
在这之后
国内外等公司都迅速跟进
各种大模型如雨后春笋一般出现
人类第一次触摸到了通用人工智能AGI
的雏形
可是语言大模型
是怎么拥有如此神奇的能力的呢
大家好我是漫士
是一名清华人工智能的博士生
今天我将会用我的专业知识
从整个AI对语言最基础的研究讲起
通俗但不简单的
帮你透彻理解GPT的底层原理
以及它的局限
准备好了吗
让我们上车
当我们在和大模型聊天的时候
他会一点一点的说话
这看上去
就像是一个活生生的人
也在向我们打字一样
问题来了
大模型
是否真的是按照人类的思维在说话呢
严格来说
其实不是这样的
大家想想我们是怎么说出一句话的
在英语课上
老师会告诉我们主谓宾定状补
我们说出来的句子
遵循一定的语法和一定的词汇含义
虽然日常生活中
没人会严格按照语法说话
但大致上我们仍会把一些词串联成句
在说出这句话之前
已经对他有一个大概的感觉
和组织的结构了
但大模型说话的方式啊则非常不一样
他的做法是
每次接话尾属于是脚踩西瓜皮
滑到哪里算哪里
当大模型一句话说到半截的时候
他根本不知道后面的内容是什么
他每次都会根据已经有的内容
现想下一个字该说什么
大家可以来感受一下
这是一种什么样的说话方式哈
比如说这半个句子下一个字是什么呢
我想大家都能看出来应该是一个太字
那再往下是什么呢
啊有些小黑子可能会一口咬定了
应该填美
但是其实只看这句话的话
还有不同的词语都可以填进去
比如说抽象什么的
想要确定这里究竟是什么词
那就需要更多的语境
来确定这里的意思
比如说啊
加上这样一句之后
我们就知道应该只能是美字了
那再往下呢
好像已经说完了
那我们就写个句号吧
所以某种意义上
大模型其实一直持在努力的接话
和做完形填空一样
这种生成思路
和人类的语言有非常明显的不同
但是
他一样可以生成出非常逼真的语言
甚至在你和他对话的时候
没有感觉到有任何的不对
问题来了
大模型
并没有完全模仿人类的思维方式
却又可以完成几乎任何一个语言任务
他是如何洞悉人类语言的规律的呢
在回答这个问题之前
我们得先搞明白什么叫语言的规律
是刚才说的语法吗
不竟然
语言从远古时期出现以来
它最主要的作用是沟通
所以语言规律的本质
在于如何传递信息和意义
不同的语言
不同的词汇
都只是符号
专业的说法叫做TOKEN
语言学上对应的概念叫做语素
而语言的信息
蕴含在这些TOKEN的序列之中
所以语言的规律
本质上就是
理解每个TOKEN
在现实世界中对应的含义
以及它们以什么样的内在规律
一个接一个的出现
这种出现的序列
整体传递了一个什么意思
比如说如果我写下4*5
等于你知道后面应该要接一个20
这是算出来的
所以我们能不能像计算机算数一样
能算出来
一个句子后面会接一个什么样的词
比较对呢
哎这就是计算语言学的核心问题
这套规律有一个更专业的名词
叫做语言模型
我们的语法
本质上就是
一个
描述词性和搭配要求的简单语言模型
比如说这个句子到这里
我们知道应该填一个形容词
所以你不会填一个什么
篮球这样的名词
这就体现出
你在一定程度上
理解了这个语言的某种规律
语言模型的威力在于
只要有了它
即使这个世界上
从来没有出现过某个特定的句子
我们仍然可以说出它来
并且让所有人都能理解其中的含义
这就是语言的力量
大家学英语的时候
英语老师这么重视语法
就是因为这样学可以举一反三
触类旁通
那既然语法这么厉害
为什么AI不按照语法来造句说话呢
答案是人类的确试过
但是行不通
在上世纪的五六十年代啊
语言学家和人工智能学家尝试了很久
通过这种
语法树的方式来拆分句子
并让程序通过建立这个树的方式
学会说话
翻译等等任务
但是呢
语法只是规定了一些最基本的规则
它本身并没有理解词语
以及将它们连缀成有意义的句子
的能力著名的语言学家Chomsky
举了一个经典的例子
叫做colorless green ideas sleep furiously
无色的绿色点子
狂暴的睡觉
这是一句完全符合语法
但狗屁不通的句子
这说明
语法不足以描述一个语言的本质
更何况
人类使用的自然语言实在是太灵活了
且不说不同语言有不同的语法
就是同一个语言的语法
也在不断的变化
对吧你看看如今这些网络流行语
简直了
语法很难面面俱到
而且每次出现新的用法
就要人为的加入一条新的语法规则啊
这也太费劲了
所以这种语言的建模方法呀
在上世纪就被淘汰了
那今天的GPT
本质上也是一个语言模型
而且是迄今为止最成功的语言模型
它是怎么成功实现语言的理解的呢
哎刚才我们其实已经说了
大模型GPT学习的一个事情
叫做接话尾
这样有点像输入法的联想
你有没有刷过这种视频
他让你随便输入某一个字
然后一直点击第一选项
哎
输入法看起来是不是就像在说话了
但很显然啊
我们试过都知道
他说出来的话完全不通顺
每个局部都是连接的很好的搭配的词
但合起来不知所云
事实上输入法的这种联想
就是一种最简单的语言模型专
业名词叫做one gram model
意思是
每次只看最前面一个相邻的词或者字
然后呢接上一个最常见的
紧跟着它的搭配
你也可以增加查看上文的长度
比如说呢
如果看两个字
生成第三个字
每次这样重复就是two gram model
看n个就是n gram model
这种基于某一个长度的
上文使用一种统计的方法
来预测下一个词的模式
就是人类探索出的
另一条建模语言的道路
被称作统计语言模型
要知道他刚提出来的时候
颠覆了整个语言学界的认知
大家觉得这个方法太脏了
人类的语言那么巧妙
怎么可能会用这种方式就能理解呢
哎但有趣的事情是
正是统计语言模型
才带来了今天GPT的强大
早在GPT之前
人类就已经试过了
很多不同的预测算法
比如说隐马尔可夫模型
循环神经网络以及LSTM等等
每种都可以算作是一种统计语言模型
这样
我们就拆解了大模型最核心的秘密
就是每次找语言的规律
根据上文来预测下一个词的这个过程
这个训练的过程啊
就对应于GPT里的p pretrained
而最前面的那个g呢
它的含义是generation生成
表示模型做的是生成语言的任务
t则是具体用来训练
并预测后面那个词是什么的模型
Transformer
它具体的原理很复杂哈
大家如果有兴趣
可以去看three blue one brown视频
你只需要知道
作为深度学习最强的模型之一
它可以举一反三地从训练数据中
学习输入到输出的规律
比如说输入是一些图片
它可以识别出规律
这个里面的内容是什么
输入是之前所有的这些词
它就可以学习到一个合理的
接下来的词应该是什么
这里还要涉及到
怎么把一个词汇转化成一个向量
以及怎么运算这些向量
这些东西都超出了这期视频的范畴
我会在之后详细讲解
GPT大模型之所以这么强
一个很重要的原因
就是Transformer非常强大
另一方面
大模型比输入法可复杂太多了
它用来预测下一个词的信息
远远不止前一个或者两个词
而是之前说过的所有内容
这种一个一个往外蹦字的过程啊
叫做next TOKEN prediction
即预测下一个语素
无数科普都提到了这种预训练的方法
但几乎没有人回答这样一个问题
训练大模型
以这种钻头不管屁股的方式啊
只是一个劲的往后说
也不管后面可能是什么
是怎么形成这么强大的语言理解能力
变得像今天这么有用的呢
哎大家可千万不要小看
这个简单的接龙游戏
只靠训练预测下一个字
模型可以学习到难以置信的
语言的深层规律
直到理解整个语言
像人类一样说话
还有解决问题
我们来看几个例子吧
像是这句话
人类会从语法上分析
应该填一个形容词
而从句意上看
这里应该是书对人造成的影响
而且是负面影响
所以应该是一个重或者难这样的词
而大模型呢
它不管三七二十一
就学习怎么把前面的内容当成输入
然后呢试图算出来
这个地方应该是重或者难这些词
来
你暂停品味一下
当你训练大模型在这个语境下
明白要介绍重或者难这个词的时候
它实质上
以一种非常复杂且微妙的方式
理解了重和难这两个词的含义
即这是一种让主体不太舒服
想要放下来的感觉
同时
在其他浩如烟海的这些文本当中
他也会发现
太这个词后面往往跟的是一个形容词
于是
大模型也自动学会了某种语法结构
也就是副词态之后
往往要跟上一个形容词
哎这就是看起来简单的接龙游戏
不简单的地方
也是你每次都做不对完形填空的原因
正确接话尾这个任务
它蕴含着对于这个词语的含义
对于整个句子的语法
以及它在文化以及现实世界含义里
是否合理的深刻理解
真的一点都不容易
类似例子还有很多啊
比如说这个句子
大模型通过阅读大量人类说过的话
就会理解热和某些动作高度相关
于是呢他就会知道啊
这里应该跟开空调啊
开电扇吃冰棒之类的内容联系起来
实现说出有意义的句子
本质上大漠型就是这样学习的
他见多识广
知道前面什么样的语境
后面往往应该跟什么样的词
于是通过学习预测下一个词
便极为深刻地洞悉了人类语言的规律
一旦完成了这样的学习大模型
就可以从某段内容出发
根据前面所有的内容
不断往后接词
就像说话一样
这种把前面自己生成的输出
变成新的输入的条件的方式
叫做自回归生成
你从一个问题开始
自回归生成
就可以解决这个问题
这就是大模型极为巧妙的一点
所以你看
仅仅通过预测下一个词这样的任务
一个没有生命没有意识的程序
居然就能理解文字背后
人类复杂的感情和逻辑
同时像模像样地完成续写对话和回答
理解自然世界的常识
拥有通用的智能
这就是这波大语言模型革命
带来的最大震撼
也是人类第一次看到
通用人工智能AGI的曙光
话说回来
既然有了好的语言模型
那么接下来我们要干什么呢
没错就是让他见足够多的数据了
不知道你有没有注意到一件事情
刚才我们所说的
这套接话尾的训练方式
根本不需要任何人为的标注
对吧你只需要把一堆文本给他
然后遮住后面的字
让他每次猜新蹦出来的那个字是什么
所以你只管收集大量的文字
然后让他去学就可以了
因此呢
研究者收集了大量人类语言的数据
比如说书籍啊新闻啊网站等等
这些都是人类表达过的语言
学名呢叫语料
你把语料库喂给大模型
就可以让他自己去找规律
像我们现在用的这个GPT啊
它保守估计使用的语料
大概是TB量级的
这是个什么概念呢
要知道我们一本60万字的三国演义啊
如果你用纯文本存储下来
大概也就两兆不到
而几百万字的网文小说
也就十几兆的存储
所以说这个TB级别的训练数据
就相当于上亿本三国演义
可能比一个人几百辈子读过的书都多
除了训练的数据多
大模型的运算量也顾名思义的大
你知道吗
GPT3每说出一个字
需要动用1,750亿个参数
电脑要进行10的15次方式复点运算
所以说
如果用你的笔记本来跑ChatGPT
那么保守估计
生成一个字大概需要大半个小时
就问你受不受得了
GPT4的参数量虽然没有公布
但应该是翻了将近10倍
更是需要大量的GPU支持运算
你现在可能可以理解
为什么他们叫大模型
以及为什么这波的AI革命
引起了算力战争了吧
想想看只是让他说话都这么费劲
训练一个GPT得多么烧钱呢
GPT4的训练过程
让超级计算机
夜以继日的算了好几个月
这个花销啊
至少是上亿美金
所以让我们回到最开始的那个问题
大模型理解语言了吗
答案是肯定的
他并没有死记硬背
机械的
重复数据集里已经有的那些东西
而是在理解了语言的深层规律之后
不断创造出全新的内容
以及回答我们每个人个性化的问题
但是
大模型真的聪明到可以超越人类吗
目前来看还不太清楚
他甚至无法完成一些很简单的要求
比如说你们都可以试试
让他说出一句恰好有20个字的话
这是做不到的
原因呢自己想想
如果你问他一些专业知识
他就会胡编乱造
这种现象有一个专
业术语叫做幻觉hallucination
像大模型这样的语言模型
自始至终都只是在语言的符号中来回
而并不清楚它们在真实世界的含义
他说的每一句话
只是为了连接起来像话
而对于每个词语符号
他在现实世界当中的真实含义
都是不清楚的
他所知道的
只是每一个符号和其他符号之间
彼此依存和共同出现的关系
目前的大模型依然难以理解数学因果
他就像柏拉图知名的洞穴之域那样
现实世界在洞穴之外
大模型处理的语言符号
就宛如现实世界投影在墙上的
这些语言的影子
大模型靠着这些符号的影子
总结出了很多规律
但距离透彻的理解整个现实世界
解决各种各样千奇百怪的问题
还有距离
但话说回来
其实这也没有什么
因为他现在好歹已经会说话了
只要不去涉及那些十分深入
专业的知识
他就是当今世界上知识最渊博的大师
在一定程度上
他是每个人最好最方便的老师
我们可以像问身边人那样
询问大模型我们不知道的问题
得到一个大体满意的回复
另一方面
对很多人来说
大模型是自己最好的助手
话说回来
仅仅是接话尾的大模型
究竟是怎么样做到这么有用的呢
这里啊其实还有两个训练过程
我们没有详细展开
简单来说
首先
你要让这个大模型在某些特定的领域
去再单独训练一遍
接话尾的事情
让他去熟悉某个特定领域的接龙游戏
熟悉这个领域里的词汇和知识
接下来呢
还有一个非常重要的环节
叫做RLHF
也就是说人类反馈的这样的提升
简单来说就是你让这个大模型
他的这个回话呀
越来越接近于对人类有帮助的
友善的那种
基本上就是啊
如果他做的很好
你就奖励他
调整他的参数
让他变得更接近于这个状态
如果做的不好呢
就给他一个惩罚
在这样不断的训练当中
大模型就可以越来越有用
现如今
随着越来越多像GPT这样的大模型
像雨后春笋一般冒出来
我们关于它的研究也越来越深入
像质谱这样AI的大模型
已经成为我们生活中不可或缺的帮手
也许多少年后
我们将会有新的超级AI
他不将仅仅是在语言的符号中
玩接龙游戏
而对这个世界有更深刻的理解
成为我们更大的帮手
在之后的视频中
我们将会进一步深入展开
大模型潜在的秘密
比如说人类在训练它的时候
发现出现了一个神奇的涌现现象
也就是说
随着参数和数据的增多
大模型居然突然从一个啥都不会的
傻子一样的状态
突然变成
能够解决一个问题的这种天才
比如说算数学题
这究竟是怎么回事呢
以及很多人用diffusion
和GPT都听说过的提示词
仅仅是用一些不同的咒语
就能够让GPT的表现大相径庭
这又是为什么呢
关注我且听下回分解
漫士沉思录
学海引路不辛苦
我们下期再会
5.0 / 5 (0 votes)