【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

最佳拍档
13 Aug 202338:45

Summary

TLDR本文介绍了大语言模型的工作原理,通过词向量和Transformer结构,模型能够理解和预测语言。文章解释了模型如何通过数十亿词汇的训练,学习单词间的关系,并使用注意力机制和前馈网络来处理歧义和多义词。同时,模型的训练过程依赖大量数据和计算资源,通过预测下一个词的方法,不断调整权重参数以提高准确性。尽管模型表现出高级推理能力,但其内部机制仍不完全被理解。

Takeaways

  • 📚 大语言模型的火爆起源于其在预测下一个词的能力,但大众对其内部工作原理了解不多。
  • 👨‍💻 蒂姆·李和肖恩·特洛特的文章旨在用最少的数学知识解释大语言模型,适合初学者理解。
  • 🧠 大语言模型基于神经网络,使用数十亿个语言词汇进行训练,而非传统软件的明确指令。
  • 📈 词向量(Word Vector)是大语言模型的基础,用数字列表表示单词,捕捉词与词之间的关系。
  • 🌐 词向量通过高维度空间表示单词,相似含义的词在向量空间中位置更接近。
  • 🔄 Google的word2vec项目通过向量运算展示了词之间复杂的关系,如类比和上下文理解。
  • 🧬 大语言模型能够根据上下文用不同的向量表示同一个词,处理同音异义词和多义词。
  • 🔄 Transformer结构是构建大语言模型的基石,通过注意力机制和前馈网络处理和预测词序列。
  • 🛠️ 训练大语言模型通过预测文本中的下一个词进行,不需要显式标记数据,使用大量文本材料。
  • 📈 模型性能随规模增长而提升,GPT-3和GPT-4在心智理论和复杂推理任务上表现接近人类。
  • 🤖 尽管大语言模型在多个任务上表现出色,但其内部工作原理的完全理解仍是一个长期且复杂的研究过程。

Q & A

  • 大语言模型的工作原理是什么?

    -大语言模型通过预测文本中的下一个词来学习,它们使用词向量表示单词,并通过神经网络层(如Transformer)处理这些向量,以理解和推理语言。这些模型通常包含数十亿个参数,能够处理和生成自然语言文本。

  • 词向量是如何帮助大语言模型理解和处理语言的?

    -词向量是将单词表示为一长串数字列表的方法,这些数字列表在高维空间中表示单词之间的关系。具有相似含义的词在向量空间中的位置会更接近,这使得大语言模型能够通过数学运算捕捉到词与词之间的微妙关系,从而理解和处理语言。

  • Transformer结构在大语言模型中扮演什么角色?

    -Transformer是构建大语言模型如ChatGPT的基石。它通过注意力机制和前馈网络处理输入文本中的每个单词的向量,添加上下文信息,并尝试预测下一个词。Transformer使得模型能够利用现代GPU的并行处理能力,并处理长文本。

  • 大语言模型是如何训练的?

    -大语言模型通过大量的文本数据进行训练,不需要显式标记数据。它们通过尝试预测文本中的下一个单词来调整模型的权重参数。训练过程涉及前向传播和反向传播,通过反复迭代来提高模型的预测准确性。

  • 为什么大语言模型需要大量的数据来进行训练?

    -大量数据使得大语言模型能够学习到丰富的语言规律和词汇用法。这些模型通过数十亿甚至数千亿个单词的学习,逐渐调整权重参数,以更好地预测下一个词。数据量越大,模型学习到的语言知识越丰富,性能也越好。

  • 大语言模型在处理歧义时有哪些挑战?

    -自然语言中的歧义,如同音异义词和多义词,给大语言模型带来了挑战。模型需要理解单词在特定上下文中的准确含义,这不仅涉及词与词之间的关系,还需要对现实世界的情况进行理解。大语言模型通过多层神经网络和注意力机制来解决这些挑战。

  • 大语言模型如何表示同一个词的不同含义?

    -大语言模型能够根据上下文用不同的向量表示同一个词。例如,对于词'bank',模型会有分别表示金融机构和河岸的向量。这种表示方法使得模型能够捕捉到单词的多重含义。

  • 大语言模型的规模如何影响其性能?

    -大语言模型的规模,即模型中的参数数量,直接影响其性能。模型规模越大,能够处理的语言任务越复杂,表现也越好。随着模型规模的增加,它们在需要高级推理的任务上的表现尤其出色。

  • 大语言模型是否真正理解语言?

    -这是一个有争议的问题。一些专家认为,大语言模型通过预测下一个词的方式,可能已经开始真正理解语言的含义。而另一些人则认为,这些模型只是重复复杂的单词序列,并没有真正理解它们。目前,这个问题还没有定论。

  • 大语言模型在心智理论任务上的表现如何?

    -最新的大语言模型,如GPT-3和GPT-4,在心智理论任务上的表现接近于人类。它们能够正确回答涉及推理他人思维状态的问题,这表明模型可能已经自发地发展出高级推理能力。然而,这一领域的研究仍在进行中,专家们对这些结果的解释存在分歧。

  • 大语言模型在未来发展中可能面临哪些挑战?

    -大语言模型在未来发展中可能面临的挑战包括如何更全面地理解模型的内部工作原理,如何减少偏见和歧视,以及如何提高模型的解释性和透明度。此外,还需要解决模型的能源消耗和训练成本问题。

Outlines

00:00

🤖 介绍大语言模型的工作原理

本段介绍了大语言模型的基本概念和工作原理。提到了蒂姆·李和肖恩·特洛特的文章,该文章用简单的语言解释了大语言模型的内部机制。文章作者的背景也进行了简单介绍,蒂姆·李是《Understanding AI》的作者,肖恩·特洛特是加州大学圣迭戈分校的助理教授。文章内容主要讲述了大语言模型如何通过预测下一个词来训练,以及它们如何使用大量的文本数据。还提到了ChatGPT的发布和它在科技行业及全球范围内的影响。

05:03

📈 词向量和Transformer的介绍

这一段深入探讨了大语言模型的两个关键概念:词向量和Transformer。词向量是将单词表示为数字列表的方法,使得具有相似含义的词在向量空间中位置接近。Transformer是构建像ChatGPT这样的模型的基础,它通过注意力机制和前馈网络来更新每个单词的隐藏状态,从而更好地预测下一个词。此外,还讨论了大语言模型如何通过训练来理解和处理单词的多重含义。

10:06

🧠 神经网络层和注意力机制

本段详细描述了神经网络层如何通过注意力机制来处理和理解语言。每个Transformer层都会修改输入单词的向量,添加上下文信息,以帮助模型更好地理解单词的含义。注意力机制允许模型在单词之间共享信息,而前馈网络则独立地处理每个单词,但可以访问之前由注意力头复制的信息。这使得大语言模型能够有效地利用GPU的并行处理能力,并处理长文本。

15:07

🔍 模型的预测过程和训练方法

这一段解释了大语言模型如何预测下一个单词,以及它们的训练过程。模型通过尝试预测文本中的下一个单词来学习,不需要显式的标记数据。训练过程包括前向传播和反向传播,通过调整权重参数来改善模型的预测能力。通过大量的数据和计算能力,模型能够学习语言的规律性,并预测单词之间的关系。

20:10

📚 模型的规模和学习能力

本段讨论了大语言模型的规模与其学习能力之间的关系。随着模型规模的增加,它们在语言任务上的表现也越来越好。GPT-3和GPT-4等大型模型在训练数据量和计算量上的增加,使得它们在高级推理任务上的表现更加出色。此外,还提到了大语言模型在心智理论任务上的表现,以及它们如何通过训练数据学习世界的规律性。

25:12

🌟 大语言模型的未来展望

最后一段总结了大语言模型的整体工作原理,并对其未来发展进行了展望。虽然大语言模型在预测和理解语言方面取得了显著进展,但它们的内部工作机制仍然不完全清楚。研究人员正在努力理解这些模型的内部表示和推理过程,同时,大语言模型在执行复杂任务时表现出的高级推理能力,预示着通用人工智能的初步迹象。

Mindmap

Keywords

💡大语言模型

大语言模型是一种人工智能技术,通过训练大量的文本数据,使其能够预测下一个词或生成连贯的文本。在视频中,大语言模型被描述为一种强大的工具,能够执行各种复杂的任务,如撰写文章、进行类比甚至编写计算机代码。

💡词向量

词向量是一种将自然语言中的单词转换为数学上的向量表示的技术,使得计算机能够处理和理解语言。每个词向量代表词空间中的一个点,具有相似含义的词在向量空间中的位置会更接近。

💡Transformer

Transformer是一种深度学习模型的架构,特别适用于处理序列数据,如文本。它是构建大语言模型如GPT-3和GPT-4的基石,通过自注意力机制来理解文本中的上下文关系。

💡自注意力机制

自注意力机制是Transformer模型中的关键组成部分,它允许模型在处理一个单词时考虑到句子中的其他单词,从而捕捉上下文信息。这种机制使得模型能够理解单词之间的依赖关系,提高语言处理的准确性。

💡训练数据

训练数据是用于训练大语言模型的文本集合,包括各种书面材料,如维基百科页面、新闻文章和计算机代码。这些数据使模型能够学习语言规律和模式。

💡心智理论

心智理论是心理学中的一个概念,指的是个体理解他人心理状态的能力,如信念、意图和欲望。在大语言模型的背景下,心智理论任务测试模型是否能够理解故事中角色的思维状态。

💡前馈层

前馈层是神经网络中的一层,它接收来自前一层的信息,并通过一系列计算生成输出,这些输出随后传递到下一层。在大语言模型中,前馈层通过模式匹配来预测下一个词,能够访问之前由注意力头复制的任何信息。

💡反向传播

反向传播是一种训练神经网络的算法,通过评估网络输出与实际结果之间的差异,逆向调整网络中的权重参数,以提高模型的性能。

💡规模

在大语言模型的背景下,规模指的是模型的大小,包括参数的数量和训练数据的规模。模型规模越大,通常在处理语言任务时表现越好,前提是训练数据量也要相应增加。

💡随机鹦鹉

随机鹦鹉是一个比喻,用来质疑大语言模型是否真的理解它们生成的文本。这个比喻暗示模型可能只是在重复训练数据中的模式,而不是真正理解语言的含义。

Highlights

大语言模型的工作原理通过最少的数学知识和术语被解释,使得初学者也能友好理解。

ChatGPT的推出在全球范围内引起了轰动,但大众对其工作原理了解不多。

大语言模型建立在数十亿个语言词汇训练的神经网络之上,而非传统软件的明确指令。

大语言模型通过词向量表示单词,类似于地理坐标的向量表示。

词向量能够通过向量运算进行类比推理,如word2vec项目所示。

大语言模型能够根据上下文用不同的向量表示同一个词,处理同音异义词和多义词。

Transformer结构是构建大语言模型的基石,通过注意力机制和前馈网络进行单词预测。

大语言模型的训练不需要显式标记数据,而是通过预测文本段落中的下一个单词来学习。

大语言模型通过数十亿次的权重调整,逐渐提高预测下一个单词的准确性。

GPT-3模型在心智理论任务上的表现接近于人类,显示出自发且自主的能力。

大语言模型的训练过程涉及数百亿次数学运算,需要高端GPU芯片运行数月。

大语言模型的规模与性能呈幂率关系,模型越大,性能越好。

大语言模型通过学习大量文本数据,隐含地学习了与现实世界的联系。

大语言模型的预测能力可能基于语言的规律性和与物质世界的关联。

大语言模型通过预测下一个词的方法,避免了寻找最佳单词表示的理论难题。

大语言模型的内部运作方式对人类来说仍是一个深奥的谜题。

大语言模型能够执行复杂任务,如撰写文章、进行类比甚至编写计算机代码。

Transcripts

play00:00

大家好这里是最佳拍档我是大飞

play00:02

这半年时间啊

play00:03

大语言模型无疑是最火爆的

play00:06

但是我们呢一直没有好好的去讲一下

play00:08

大语言模型内部究竟是如何工作的

play00:12

不过最近啊

play00:13

蒂姆·李(Tim Lee)和肖恩·特洛特(Sean Trott)

play00:14

联合编写了一篇文章

play00:16

用最少的数学知识和术语

play00:18

对大语言模型进行了解释

play00:21

先简单对文章作者做一下介绍啊

play00:23

蒂姆·李曾经任职于科技媒体Ars Technica

play00:27

他最近呢也推出了一份newsletter

play00:29

《Understanding AI》

play00:30

主要是探讨人工智能的工作原理

play00:33

而肖恩特洛特呢

play00:34

是加里福尼亚大学圣迭戈分校的助理教授

play00:38

主要研究人类语言理解和语言模型

play00:41

好了以下是我翻译的文章内容

play00:44

咱们看看当你看完视频之后

play00:46

究竟能否理解大语言模型的内部机制

play00:49

全文呢几乎没有太复杂的数学概念、公式和运算

play00:53

所以我觉得呢

play00:54

对于很多初学者来说也是非常友好的

play00:57

当ChatGPT在去年秋天推出的时候

play01:00

在科技行业乃至全世界的范围内引起了轰动

play01:04

当时呢机器学习的研究人员

play01:06

已经研发了多年的大语言模型

play01:09

但是普通大众并没有十分的关注

play01:12

也没有意识到他们会变得有多强大

play01:14

如今呢几乎每个人都听说过大语言模型了

play01:18

并且呢有数千万人用过他们

play01:20

但是了解他们工作原理的人并不多

play01:24

你可能听说过

play01:25

训练大语言模型是用来预测下一个词

play01:28

而且呢他们需要大量的文本来实现这一点

play01:32

但是一般的解释呢通常也就是止步于此

play01:35

他们究竟如何预测下一个词的细节

play01:38

往往被大家视为一个深奥的谜题

play01:41

其中一个原因是

play01:42

大语言模型的开发方式非常与众不同

play01:46

一般的软件呢都是由人类工程师所编写的

play01:49

他们为计算机提供明确的逐步的指令

play01:53

而相比之下

play01:54

ChatGPT是建立在一个

play01:55

使用了数十亿个语言词汇

play01:58

进行训练的神经网络之上

play02:00

因此呢到现在为止

play02:02

地球上也没有人完全理解

play02:04

大语言模型的内部工作原理

play02:07

研究人员正在努力尝试理解这些模型

play02:10

但是这是一个需要数年

play02:11

甚至几十年才能够完成的缓慢过程

play02:15

不过呢专家们确实对这些系统的工作原理

play02:18

已经有了不少的了解

play02:20

我们的目的呢是将这些知识开放给广大的受众

play02:23

我们将在不涉及技术术语或者高级数学的前提下

play02:27

努力解释已知的大语言模型内部的工作原理

play02:31

我们将从解释词向量Word Vector开始

play02:34

这是语言模型表示和推理语言的一种令人惊讶的方式

play02:39

然后我们将深入探讨Transformer

play02:41

它是构建ChatGPT等模型的基石

play02:44

最后呢我们将解释这些模型是如何训练的

play02:48

并且探讨为什么要使用庞大的数据量

play02:51

才能够获得良好的性能

play02:53

要了解语言模型的工作原理

play02:55

首先需要了解他们如何来表示单词

play02:59

人类呢是用字母序列来表示英文单

play03:02

词的比如说C-A-T cat表示猫

play03:05

而语言模型呢使用的是一个叫做词向量的

play03:09

一长串数字的列表

play03:11

比如说这是一种将猫表示为向量的方式

play03:14

完整的向量长度呢实际上有300个数字

play03:18

那为什么要用这么复杂的表示方法呢

play03:21

这里边啊有个类比

play03:23

比如说华盛顿区位于北纬38.9度西经77度

play03:28

我们可以用向量表示法表示为

play03:30

华盛顿区的坐标是38.9和77

play03:34

纽约的坐标呢是40.7和74

play03:37

伦敦的坐标呢是51.5和0.1

play03:40

巴黎的坐标呢是48.9和-2.4

play03:43

这对于推理空间关系很有用

play03:46

你可以看出纽约离华盛顿区很近

play03:49

因为坐标中的38.9接近于40.7

play03:53

而77呢接近于74

play03:56

同样呢巴黎离伦敦也很近

play03:58

但是巴黎离华盛顿区很远

play04:01

大语言模型呢正是采用了类似的方法

play04:04

每个词向量代表了词空间word space中的一个点

play04:08

具有相似含义的词的位置互相会更为接近

play04:12

比如说在向量空间中

play04:14

与猫cat最接近的词就包括dog、kitten和pet

play04:19

用实数向量来表示像cat这样的单词

play04:22

它的一个主要优点就是

play04:24

数字能够进行字母无法进行的运算

play04:27

单词太过于复杂了

play04:29

无法只使用二维来表示

play04:31

因此大语言模型使用了具有数百甚至数千维度的向量空间

play04:36

人们无法想象具有如此高维度的空间

play04:39

但是计算机完全可以对它进行推理

play04:42

并产生有用的结果

play04:45

几十年来研究人员一直在研究词向量

play04:48

但是这个概念呢真正引起关注的是在2013年

play04:51

那时候Google公布了word2vec项目

play04:54

Google分析了从Google新闻中收集的数百万篇文档

play04:58

为了找出哪些单词倾向于出现在相似的句子中

play05:03

随着时间的推移

play05:04

一个经过训练的神经网络

play05:06

学会了将相似类别的单词

play05:08

比如说dog和cat

play05:10

放置在向量空间中的相邻位置

play05:13

Google的词向量还具有另一个有趣的特点

play05:16

你可以使用向量运算来推理单词

play05:19

比如说

play05:20

Google研究人员取出biggest的向量

play05:23

减去big的向量再加上small的向量

play05:26

与结果向量最接近的词就是smallest

play05:29

也就是说

play05:30

你可以使用向量运算来进行类比

play05:33

在这个例子中

play05:34

big与biggest的关系类似于small与smallest的关系

play05:38

Google的词像量还捕捉到了许多其他的关系

play05:42

比方说瑞士人与瑞士这类似于柬埔寨人与柬埔寨

play05:47

巴黎于法国类似于柏林与德国

play05:50

不道德的与道德的类似于可能的与不可能的

play05:54

mouse与mice类似于dollar与dollars

play05:57

男人与女人类似于国王与女王

play06:01

等等等等

play06:02

因为这些向量是从人们使用语言的方式中构建的

play06:06

所以他们反映了许多存在于人类语言中的偏见

play06:10

比如说在某些词项链的模型中

play06:12

医生减去男人再加上女人等于护士

play06:16

减少这种偏见呢是一个很新颖的研究领域

play06:19

尽管如此

play06:20

词向量是大语言模型的一个基础

play06:23

他们编码了词与词之间微妙但是重要的关系信息

play06:28

如果一个大语言模型学到了关于cat的一些知识

play06:32

比方说他有时候会去看兽医

play06:34

那同样的事情呢很可能也适用于kitten或者dog

play06:39

如果模型学到了关于巴黎和法国之间的关系

play06:43

比方说他们使用了同一种语言

play06:45

那么柏林和德国以及罗马和意大利的关系

play06:49

很可能也是一样的

play06:51

但是像这样简单的词向量方案

play06:53

并没有捕获到自然语言的一个重要事实

play06:57

那就是一个单词通常有多重的含义

play07:00

比如说

play07:00

单词bank可以指金融机构或者是河岸

play07:04

或者以这两个句子为例

play07:06

在这两个句子中magazine的含义相关但是又有不同

play07:10

约翰拿起的是一本杂志

play07:12

而苏珊为一家出版杂志的机构工作

play07:15

当一个词有两个无关的含义时

play07:17

语言学家称之为同音异义词(homonyms)

play07:21

当一个词有两个紧密相关的意义时

play07:24

比如说这个magazine

play07:25

语言学家呢称之为多义词(polysemy)

play07:29

像ChatGPT这样的大语言模型

play07:31

能够根据单词出现的上下文

play07:33

用不同的向量来表示同一个词

play07:36

有一个针对于机构的bank的向量

play07:39

还有一个针对于河岸的bank的向量

play07:42

有一个针对于杂志的magazine的向量

play07:44

还有一个针对于杂志社的magazine的向量

play07:47

对于多义词的含义啊 正如你预想的那样

play07:49

大语言模型使用的向量会更相似

play07:52

而对于同音异义词的含义

play07:54

使用的向量呢则不太相似

play07:56

到目前为止

play07:57

我们还没有解释语言模型是如何做到这一点的

play08:00

我们很快呢会进入这个话题

play08:02

不过详细说明这些向量表示

play08:05

这对于理解大语言模型的工作原理非常重要

play08:09

在传统软件的设计中数据处理呢是明确的

play08:13

比如说你让计算机计算2+3

play08:15

关于2、加号或者3的含义呢都不存在歧义问题

play08:20

但是自然语言中的歧义

play08:22

远不止于同音异义词和多义词

play08:25

比方说顾客请修理工修理他的车

play08:28

这句话中his是指顾客还是指修理工

play08:32

教授催促学生完成她的家庭作业中

play08:35

her是指教授还是学生

play08:38

第三句中的flies

play08:40

到底是一个动词在空中飞

play08:42

还是一个名词果蝇呢

play08:44

在现实中人们会根据上下文来解决这类歧义

play08:47

但是并没有一个简单或者明确的规则

play08:50

相反呢这就需要理解关于这个世界的实际情况

play08:54

你需要知道

play08:55

修理工经常会修理顾客的汽车

play08:58

学生呢通常会完成自己的家庭作业

play09:01

而水果呢通常不会飞

play09:03

因此呢词向量为大语言模型提供了一种灵活的方式

play09:07

用来在特定段落的上下文中

play09:10

表示每个词的准确含义

play09:12

现在让我们来看看

play09:13

他们是究竟如何做到这一点的

play09:15

ChatGPT最初版本背后的GPT-3

play09:18

模型是由数十个神经网络层组成的

play09:21

因为输入文本中的每个词会对应着一个向量

play09:25

所以这些神经网络中的每一层

play09:27

都会接受一系列的向量作为输入

play09:30

并添加一些信息来帮助澄清这个词的含义

play09:33

从而更好的预测接下来可能出现的词

play09:37

让我们从一个简单的示例说起

play09:40

大语言模型的每个层呢都是一个Transformer

play09:43

2017年Google在一篇里程碑式的论文中

play09:46

首次介绍了这种神经网络结构

play09:48

在这张图的底部

play09:49

模型的输入文本是John wants his back to catch the

play09:54

翻译过来就是约翰想让他的银行兑现

play09:57

这些单词呢被表示为word2vec的风格的向量

play10:00

并传提给第一个Transformer

play10:02

这个Transformer确定了wants和cash都是动词

play10:06

我们用小括号内的红色文本表示这个附加的上下文

play10:10

但实际上模型会通过修改词向量的方式来存储这个信息

play10:15

这种方式对于人类来说很难解释

play10:18

这些新的向量被称为隐藏状态hidden state

play10:22

并传递给下一个Transformer

play10:24

第二个transformer添加了另外两个上下文信息

play10:27

他澄清了bank是金融机构financial institution

play10:31

而不是河岸

play10:33

并且his是指代John的代词

play10:36

第二个Transformer产生了另一组隐藏状态向量

play10:39

这组向量反映的是这个模型之前所学习的所有信息

play10:44

这张图表描绘的是一个纯粹假想的大语言模型

play10:47

所以大家呢不要对细节过于较真

play10:50

真实的大圆模型往往有更多的层

play10:53

比如说最强大的GPT-3版本有96层

play10:57

有研究表明

play10:58

前几层的神经网络会专注于理解句子的语法

play11:02

并且解决上面所表示的歧义

play11:05

而后面的层则致力于对整个文本段落的高层次的理解

play11:10

比如说当大语言模型阅读一篇短篇小说的时候

play11:14

他似乎会记住关于故事角色的各种信息

play11:17

包括性别和年龄、与其他角色的关系

play11:21

过去和当前的位置个性和目标等等

play11:25

研究人员呢并不完全了解

play11:26

大语言模型是如何跟踪这些信息的

play11:29

但是从逻辑上来讲

play11:31

模型在各层之间传递信息时候

play11:33

必须通过修改隐藏状态的向量来实现

play11:37

现代大语言模型中的向量维度极为庞大

play11:39

这有利于表达更为丰富的语义信息

play11:43

比如说GPT-3最强大的版本使用了有12,288个维度的词向量

play11:49

也就是说每个词是由一个包含了12,288个的数字序列表示

play11:56

这比Google在2013年提出的word2vec的方案要大20倍

play12:01

你可以把所有这些额外的维度看作是GPT-3

play12:04

可以用来记录每个词的上下文的一种暂存空间Scratch space

play12:09

较早的层所做的信息笔记可以被后来的层读取和修改

play12:13

从而使得模型逐渐加深对整篇文章的理解

play12:17

因此假设我们将之前的图表改为描述一个96层的语言模型

play12:22

来解读一个1,000字的故事

play12:25

那么第60层可能会包含一个用于John的向量

play12:28

带有一个表示为主角、男性、娶了谢利尔唐、纳德的表弟

play12:33

来自于明尼斯达州、目前在博伊希、试图找到他丢失的钱包

play12:39

这样一整套的括号注释

play12:42

同样呢所有这些以及更多的事实

play12:44

都会以一个包含12,288个数字列表的形式进行编码

play12:49

这些数字都对应着这个词John

play12:52

或者说这个故事中的其他词

play12:54

比方说谢利尔、唐纳德、伯伊希、钱包

play12:58

或者是其他的词

play12:59

他们的某些信息也会被编码在12,288维的向量中

play13:05

这样做的目标是让网络的第96层和最后一层

play13:09

输出一个包含所有必要信息的隐藏状态

play13:12

从而来预测下一个单词

play13:15

现在我们来谈谈每个Transformer内部发生的情况

play13:19

Transformer在更新输入段落的每个单词的隐藏状态时候

play13:23

有两个处理过程

play13:24

第一个呢是在注意力的步骤中

play13:27

词汇会观察周围

play13:28

查找具有相关背景并彼此共享信息的其他的词

play13:33

第二呢在前馈步骤中

play13:35

每个词会思考之前注意力步骤中收集到的信息

play13:38

并尝试预测下一个词

play13:41

当然了执行这些步骤的是整个网络

play13:44

而不是个别的单词

play13:45

但是我们用这种方式来表述是为了强调

play13:48

Transformer是以单词作为这一个分析的基本单元

play13:52

而不是整个句子或者是段落

play13:55

这种方法使得大语言模型能够充分的利用

play13:58

现代GPU芯片的大规模并行处理能力

play14:01

它还可以帮助大语言模型

play14:03

扩展到包含成千上万个词的长段落

play14:06

而这两个方面都是早期大语言模型所面临的挑战

play14:10

你可以将注意力机制

play14:11

看作是单词之间的一个撮合服务

play14:14

每个单词呢都会制作一个检查表称为查询向量

play14:18

来描述他寻找的词的特征

play14:21

每个词呢还会制作一个检查表称为关键向量

play14:24

描述他自己的特征

play14:26

神经网络通过将每个关键向量与每个查询向量进行比较

play14:31

通过计算他们的点积来找到最佳匹配的单词

play14:34

一旦找到匹配项

play14:36

他就会从产生关键向量的单词

play14:39

把相关信息传递给产生查询向量的单词

play14:43

比如说在前面的部分中

play14:45

我们展示了一个假想的Transformer模型

play14:48

他发现在“John wants his bank to cash the”这个句子中

play14:52

his指的就是John

play14:54

在系统内部

play14:55

过程可能是这个样子

play14:57

his的查询向量可能会有效的表示为

play15:00

我正在寻找一名描述男性的名词

play15:03

而John的关键向量可能会有效的表述为

play15:06

我是一个描述男性的名词

play15:09

然后网络就会检测到这两个向量是匹配的

play15:12

并将关于John的向量信息转移给his的向量

play15:16

每个注意力层都有几个注意力头

play15:19

这意味着这个信息交换的过程在每一层上会并行的进行多次

play15:24

每个注意力头呢都会专注于不同的任务

play15:28

比方说其中一个注意力头

play15:30

可能会将代词与名词进行匹配

play15:33

另外一个注意力头

play15:34

可能会处理解析类似于bank这样的一词多义的含义

play15:37

第三个注意力头

play15:38

可能会将Joe Biden这样的两个单词连接在一起

play15:43

诸如这类的注意力头经常会按照顺序来操作

play15:46

一个注意力层中的注意力操作结果

play15:49

会成为下一层中的另一个注意力头的输入

play15:52

事实上呢

play15:53

我们刚才列举的每个任务可能都需要多个注意力头

play15:56

而不仅仅是一个

play15:58

GPT-3的最大版本呢有96个层

play16:01

每个层有96个注意力头

play16:04

因此每次预测一个新词的时候

play16:07

GPT-3将执行9,216个注意力的操作

play16:11

以上内容

play16:12

我们展示了注意力头工作的方式的一个理想化的版本

play16:16

现在让我们来看一下关于真实语言模型内部运作的研究

play16:21

去年研究人员在Redwood research研究了GPT-2

play16:25

即ChatGPT的前身

play16:27

对于“When Mary and John went to the store, John gave a drink to”

play16:32

这个段落翻译过来就是当玛丽和约翰去商店

play16:36

约翰把一杯饮料给了

play16:39

预测这句话下一个单词的过程

play16:41

GPT-2预测的下一个单词呢是Mary玛丽

play16:45

研究人员就发现

play16:46

有三种类型的注意力头对这个预测做出了贡献

play16:49

第一种

play16:50

三个被他们称为名称移动头的注意力头

play16:53

(Name Mover Head)

play16:55

将信息呢从Marry向量复制到了最后的输入向量

play16:59

也就是to这个词所对应的向量

play17:01

GPT-2使用这个最右向量中的信息来预测下一个单词

play17:06

那么神经网络又是如何来决定Marry是正确的复制词呢

play17:10

通过GPT-2的计算过程进行逆向的推导

play17:13

科学家们发现了一组他们称之为主语抑制头的四个注意力头(Subject Inhibition Head)

play17:18

它们标记了第二个John向量

play17:21

阻止了名称移动头来复制John这个名字

play17:24

主语抑制头又是如何知道不应该复制John的呢

play17:28

团队进一步向后推导

play17:29

发现了他们称为重复标记头的两个注意力头

play17:34

(Duplicate Token Heads)

play17:35

他们将第二个John向量

play17:37

标记为第一个John向量的重复副本

play17:39

这帮助主语抑制头来决定不应该复制John

play17:43

简而言之

play17:44

这9个注意力头使得GPT-2能够理解

play17:47

“John gave a drink to John”是没有意义的

play17:50

而选择“John gave a drink to Mary”

play17:53

这个例子呢也侧面说明了

play17:54

要完全理解大语言模型会有多么困难

play17:57

由五位研究人员组成的Redwood团队

play18:00

曾经发表了一篇25页的论文

play18:03

解释了他们是如何识别和验证这些注意力头的

play18:07

然而即使他们完成了所有这些工作

play18:09

我们离对于为什么GPT-2决定

play18:12

预测Mary作为下一个单词的全面解释

play18:15

还有很长的路要走

play18:16

比如说模型是如何知道下一个单词应该是某个人的名字

play18:21

而不是其他类型的单词

play18:23

很容易想到在类似的句子中

play18:25

Mary不会是一个好的下一个预测词

play18:27

比如说

play18:28

在句子“when Mary and John went to the restaurant, John gave his keys to”这个句子中

play18:35

逻辑上呢下一个词应该是“the valet”

play18:38

即代客停车员

play18:40

假设计算机科学家们进行了充足的研究

play18:43

也许他们可以揭示和解释

play18:45

GPT-2推理过程中的其他步骤

play18:47

最终呢他们可能能够全面理解GPT-2

play18:50

是如何决定Marry是句子最可能的下一个单词

play18:54

但是这可能需要数个月甚至数年的努力

play18:58

才能够理解一个单词的预测情况

play19:00

而ChatGPT背后的语言模型

play19:03

GPT-3和GPT-4 比GPT-2呢更加的庞大和复杂

play19:07

相比于Redwood团队研究的简单句子

play19:10

他们能够完成更复杂的推理任务

play19:13

因此完全解释这些系统的工作将是一个巨大的项目

play19:17

人类不太可能在短时间内完成

play19:20

我们继续回到注意力头的部分

play19:22

当注意力头在词向量之间传输信息之后

play19:25

前馈网络会思考每个词向量并且尝试预测下一个词

play19:30

在这个阶段单词之间没有交换任何的信息

play19:34

前馈层会独立的去分析每个单词

play19:37

但是前馈层可以访问之前由注意力头复制的任何信息

play19:41

这个是GPT-3最大版本的前馈层结构

play19:45

其中绿色和紫色的圆圈表示神经元

play19:49

他们是计算其输入加权和的数学函数

play19:52

前馈层之所以强大是因为它有大量的连接

play19:56

在图上呢我们使用了三个神经元作为输出层

play19:59

六个神经元作为隐藏层

play20:01

绘制出了这个网络

play20:03

但是GPT-3的前馈层要大得多

play20:06

它的输出层有12,288个神经元

play20:10

对应模型的12,288维的词向量

play20:14

每个神经元有49,152个输入值

play20:17

也就是每个神经元有49,152个权重参数

play20:22

而隐藏层呢有49,152个神经元

play20:26

每个神经元呢有12,288个输入值

play20:29

也就是每个神经元有12,288个权重参数

play20:33

这意味着每个前馈层有49,152乘以12,288

play20:39

再加上12,288乘以49,152个

play20:43

约等于12亿个权重参数

play20:45

并且有96个前馈层

play20:47

那加起来就是12亿乘以96等于1,160亿个参数

play20:52

这相当于具有1,750亿参数的GPT-3将近2/3的参数量

play20:58

在2020年的一篇论文中

play21:00

来自特拉维夫大学的研究人员就发现

play21:03

前馈层通过模式匹配进行工作

play21:06

即隐藏层中的每个神经元

play21:08

都能够匹配输入文本中的特定模式

play21:11

下面呢是一个16层版本的GPT-2中

play21:14

一些神经元匹配的模式

play21:16

第一层的神经元匹配以substitutes结尾的词序列

play21:20

第6层的神经元匹配与军事有关

play21:23

并且以base或者bases结尾的词序列

play21:26

第13层的神经元匹配以时间范围结尾的序列

play21:30

比如说在下午3点到7点之间

play21:33

或者从周五晚上7点到

play21:36

第16层的神经元匹配与电视节目相关的序列

play21:40

比如说原始的NBC日间版本已存档

play21:43

或者说时间延迟使该集的观众增加了57%

play21:48

没错正如我们所看到的

play21:50

越是在后面的层中模式会变得越来抽象

play21:53

早期的层会倾向于匹配特定的单词

play21:56

而后期的层则匹配属于更广泛语言类别的短语

play22:00

比如说电视节目或者说时间间隔

play22:03

这部分呢其实很有意思

play22:05

因为正如我们之前所说的

play22:08

前馈层呢每次只能检查一个单词

play22:11

因此当将训练原始的NBC日间版本已存档

play22:15

分类为与电视相关的时候

play22:17

他只能访问已存档这个词的向量

play22:20

而不是NBC或者是日间等等词汇

play22:23

可以推断出前馈层之所以可以判断已存档

play22:26

是电视节目相关序列的一部分

play22:29

是因为注意力头之前已经将上下文的信息

play22:32

移到了已存档archived的这个词的向量中

play22:36

当一个神经元与其中一个模式匹配的时候

play22:39

他就会向这些词像量中添加信息

play22:42

虽然这些信息呢并不总是很容易解释的

play22:45

但是在许多情况下

play22:46

你可以将它视为对下一个词的临时的预测

play22:50

我们之前讨论过Google的word2vec的研究

play22:53

它可以使用向量运算来进行类比的推理

play22:56

比如说柏林减去德国加上法国等于巴黎

play22:59

布朗大学的研究人员就发现前馈层

play23:02

有时候会使用这种准确的方法来预测下一个单词

play23:06

比如说他们研究了GPT-2对以下提示的回应

play23:10

问题法国的首都是什么回答巴黎

play23:14

问题波兰的首都是什么回答华沙

play23:18

这个团队研究了一个包含24层的GPT-2的版本

play23:22

在每个层之后

play23:23

布朗大学的科学家们去探测模型

play23:26

观察他对下一个token的最佳预测

play23:29

在前15层最高的可能性的猜测

play23:32

是一个看似于随机的单词

play23:35

在第16层和第19层之间

play23:37

模型开始预测下一个单词是波兰

play23:40

不正确但是越来越接近于正确

play23:43

然后在第20层最高可能性的猜测变成华沙

play23:47

这是正确的答案

play23:48

并且在最后4层保持不变

play23:51

布朗大学的研究人员发现第20个前馈层

play23:54

通过添加了一个将国家向量映射到其对应首都的向量

play23:58

从而将波兰转化为了华沙

play24:01

将相同的向量添加到中国时候答案会得到北京

play24:05

同一个模型中的前馈层会使用向量运算

play24:09

将小写单词转换为大写单词

play24:11

并将现在时的单词转换为过去时的等效词

play24:15

到目前为止呢

play24:16

我们已经看了

play24:17

GPT-2单词预测的两个实际的示例

play24:20

注意力头来帮助预测约翰给玛丽一杯饮料

play24:24

而前馈层帮助预测华沙是波兰的首都

play24:28

在第一个案例中

play24:29

玛丽来自于用户提供的提示

play24:32

但是在第二个案例中

play24:33

华沙并没有出现在提示中

play24:35

相反GPT-2必须记住华沙是波兰的首都

play24:39

而这个信息呢是从训练数据中学到的

play24:42

当布朗大学的研究人员禁用了

play24:45

将波兰转化为华沙的前馈层时

play24:47

模型就不再预测下一个词是华沙了

play24:50

但是有趣的是

play24:52

如果他们接着在提示的开头加上句子

play24:54

波兰的首都是华沙

play24:57

那么GPT2就能够再次回答这个问题

play25:00

这可能是因为GPT2使用的注意力机制

play25:03

从提示中提取到了华沙这个名字

play25:05

这种分工会更广泛的表示为

play25:08

注意力机制从提示的教导部分检索信息

play25:12

而前馈层让语言模型能够记住

play25:14

没有在提示中出现的信息

play25:17

事实上你可以将前馈层

play25:19

视为模型从训练数据中学到的信息的数据库

play25:22

靠前的前馈层更可能编码与特定单词相关的简单事实

play25:27

例如说

play25:28

特朗普经常出现在唐纳德这个词之后

play25:31

靠后的层则编码会更加复杂的关系

play25:35

比如说加入这个向量来将国家转换为他的首都

play25:39

以上呢我们就已经详细讲解了大语言模型的推理过程

play25:43

接下来啊我们再讲一讲他的训练方式

play25:46

许多早期的机器学习算法

play25:48

都需要人工来标记训练示例

play25:51

比如说训练数据呢可能是带有人工标签

play25:54

狗或者猫的一些猫狗的照片

play25:57

而正是需要标记数据的需求

play25:59

使得人们想要创建足够大的数据集

play26:02

来训练强大的模型这件事变得困难而且昂贵

play26:06

大语言模型的一个关键的创新之处

play26:08

就在于他们不需要显式的标记数据

play26:12

相反呢他们通过尝试预测文本段落中的下一个单词

play26:15

来学习几乎任何的书面材料

play26:18

都可以用来训练这些模型

play26:20

从维基百科的页面到新闻文章

play26:23

再到计算机的代码

play26:24

举个例子来说

play26:25

单元模型可能会拿到一个输入

play26:28

i like my coffee with cream and 某某

play26:31

并且试图预测sugar糖作为下一个单词

play26:35

一个新的初始化语言模型

play26:37

在这方面表现的很糟糕

play26:39

因为他的每个权重参数最初基本上都是从一个随机的数字开始的

play26:44

但是随着模型看到更多的例子

play26:46

比方说数千亿个单词

play26:49

这些权重会逐渐的调整

play26:51

从而做出更好的预测

play26:53

直到像GPT-3最强大的版本一样

play26:55

最后达到1,750亿个参数

play26:57

下面呢我们用一个类比来说明这个过程是如何进行的

play27:01

假设你要洗澡

play27:02

希望水温刚刚好不太热也不太冷

play27:06

你以前呢从来没有用过这个水龙头

play27:08

所以你随意的去调整水龙头把手的这个方向啊

play27:12

并触摸水的温度

play27:13

如果太热或者太冷

play27:15

你就会往相反的方向去转动把手

play27:18

当接近适当的水温时候

play27:19

你对把手所做的调整幅度呢就越小

play27:22

现在让我们来对这个类比做几个改动

play27:25

首先你想象一下有50,257个水龙头

play27:30

每个水龙头对应着一个不同的单词

play27:32

比如说the cat或者是bank

play27:35

你的目标是只让与序列中下一个单词

play27:39

相对应的水龙头里出水

play27:41

其次水龙头后面有一大堆互连的管道

play27:44

并且这些管道上呢还有一堆阀门

play27:47

所以呢如果水从错误的水龙头里流出来了

play27:50

你不能只是调整水龙头上的这个旋钮

play27:53

你要派遣一只聪明的松鼠部队去追踪每条管道

play27:57

并且沿途呢去调整他们找到的每个阀门

play28:00

这样就会变得很复杂了

play28:02

由于同一个管道经常会供应多个水龙头

play28:05

所以需要仔细的思考如何确定要拧紧或者松开哪些阀门

play28:10

以及到底拧多大程度

play28:12

显然如果我们仅仅从字面上来理解

play28:15

这个例子就会变得非常荒谬

play28:18

建立一个拥有1,750亿个阀门的管道网络

play28:21

既不现实也没有什么用

play28:23

但是由于摩尔定律

play28:25

计算机可以并且确实在以这种规模在运行

play28:29

截止到目前

play28:30

我们所讨论的大语言模型的所有部分

play28:32

包括前馈层的神经元

play28:34

以及在单词之间传递上下文信息的注意力头

play28:38

都被实现为了一系列简单的数学函数

play28:40

其中呢主要是矩阵乘法

play28:43

它的行为由可调整的权重参数来确定

play28:46

就像我故事中的松鼠来松紧阀门控制水流一样

play28:50

训练算法是通过增加或者减少语言模型的权重参数

play28:55

来控制信息在神经网络中的流动

play28:58

训练过程分为两个步骤

play29:00

首先进行前向传播forward pass

play29:03

打开水源

play29:04

并且检查水是否从正确的水龙头中流出

play29:07

然后关闭水源

play29:08

进行反向传播backwards pass

play29:11

松鼠们就沿着每根管道飞快的奔跑

play29:14

拧紧或者松开这个阀门

play29:16

在数字化的神经网络中

play29:18

松鼠的角色是由一个被称为反向传播的算法来扮演

play29:22

这个算法会逆向的通过网络

play29:24

使用微积分来评估需要改变每个权重参数的过程

play29:29

对一个示例进行前向传播

play29:31

然后再进行后向传播

play29:33

来提高网络在这个示例上的性能

play29:35

完成这个过程需要进行数百亿次的数学运算

play29:39

而像GPT-3这种大模型的训练

play29:41

需要重复这个过程数十亿次

play29:44

因为对每个训练数据的每个词都要训练

play29:47

OpenAI估计训练GPT-3

play29:49

需要超过3,000亿万亿次的浮点计算

play29:52

这需要几十个高端的GPU芯片运行数个月才能够完成

play29:57

你可能会对训练过程能够如此出色的工作感到很惊讶

play30:01

因为ChatGPT可以执行各种复杂的任务

play30:04

包括撰写文章进行类比甚至编写计算机代码

play30:09

那么这样一个简单的学习机制

play30:11

是如何产生如此强大的模型呢

play30:14

一个原因呢是规模

play30:16

像GPT3这样的模型看到的示例数量是非常之多的

play30:20

GPT3呢是在大约5,000亿个单词的语料库上进行训练的

play30:24

相比之下

play30:25

一个普通的人类孩子在10岁之前

play30:28

遇到的单词数量大约是1亿个

play30:31

在过去的五年中

play30:32

OpenAI不断的增大他的大语言模型的规模

play30:35

在一篇广为流传的2020年的论文中

play30:38

OpenAI报告称

play30:40

他们的语言模型的准确性与语言规模数据集规模

play30:44

以及用于训练的计算量呈幂率关系

play30:47

一些趋势呢甚至跨越7个数量级以上

play30:51

模型规模越大

play30:52

在涉及语言的任务上表现的越好

play30:54

但是前提是他们需要以类似的倍数来增加训练数据量

play30:59

而且要在更多的数据上训练更大的模型

play31:02

还需要更多的算力

play31:03

2018年OpenAI发布了第一个大模型GPT-1

play31:07

它使用了768维的词向量共有12层

play31:11

总共有1.17亿个参数

play31:13

几个月后

play31:14

OpenAI发布了GPT-2

play31:15

它最大的版本拥有1,600维的词向量

play31:18

48层总共有15亿个参数

play31:21

2020年OpenAI发布了GPT-3

play31:24

它具有12,288维的词向量

play31:27

96层总共有1,751个参数

play31:30

今年OpenAI发布了GPT-4

play31:33

虽然尚没有公布任何的架构细节

play31:35

但是业内普遍认为GPT-4比GPT-3要大得多

play31:40

每个模型不仅学到了比他较小的前身模型更多的事实

play31:44

而且在需要某种形式的抽象推理任务上

play31:47

表现出了更好的性能

play31:49

比如说我们设想这样一个故事

play31:52

一个装满了爆米花的袋子

play31:54

袋子里没有巧克力

play31:55

但是袋子上的标签写着是巧克力

play31:58

而不是爆米花

play31:59

一个小孩山姆发现了这个袋子

play32:02

他以前从来没有见过这个袋子

play32:04

他也看不见袋子里面的东西

play32:06

他读到了这个袋子上的标签

play32:09

你可能会猜

play32:10

山姆相信袋子里面装着巧克力

play32:12

并且会惊讶的发现里面其实是爆米花

play32:16

心理学家将这种推理他人思维状态的能力研究

play32:19

称之为心智理论theory of mind

play32:23

大多数人从上小学开始就具备了这种能力

play32:26

虽然专家们对于任何非人类的动物

play32:29

比如说黑猩猩是否适用于这种心智理论存在分歧

play32:33

但是基本的共识是他对人类社会的认知至关重要

play32:38

今年的早些时间

play32:39

斯坦福大学心理学家米哈尔科兴斯基发表了一项研究

play32:44

研究了大圆模型的能力是否能够解决心智理论的任务

play32:48

他给各种语言模型阅读了类似刚刚我们讲的那个故事

play32:52

然后要求他们完成一个句子

play32:54

比如说他相信袋子里面装满了什么

play32:58

正确答案呢应该是巧克力

play33:00

但是一个不成熟的语言模型

play33:02

可能会说成是爆米花或者其他东西

play33:05

GPT-1和GPT-2在这个测试中失败了

play33:08

但在2020年发布的GPT-3的第一个版本中

play33:12

正确率达到了接近于40%

play33:14

科辛斯基将模型的性能水平与3岁的儿童相比较

play33:18

去年11月份发布的最新版的GPT-3

play33:20

将上述问题的正确率提高到了大约90%

play33:24

与7岁的儿童相当

play33:26

而GPT-4对心智理论问题的回答正确率呢约为95%

play33:31

科辛斯基写道

play33:32

鉴于这些模型中既没有迹象表明

play33:35

心智化能力被有意的设计进去

play33:38

也没有研究证明科学家知道如何实现它

play33:41

这个能力很可能是自发而且自主的出现的

play33:45

这就是模型的语言能力不断增强的一个副产品

play33:49

不过呢值得注意的是

play33:50

研究人员并不全都认可这些结果证明了心智理论

play33:54

比如说有的人发现

play33:56

对错误信念任务的微小更改

play33:58

会导致GPT-3的性能大大的下降

play34:01

而GPT-3在测量心智理论的其他任务中的表现更为不稳定

play34:06

正如肖恩写Hans的那样

play34:07

成功的表现可能是归于任务中的混淆因素

play34:11

这是一种聪明汉斯的效应

play34:13

英文呢是clever Hans

play34:15

指的是一匹名为汉斯的马

play34:17

看似呢能够完成一些简单的智力任务

play34:20

但是实际上只是依赖于人们给出的无意识的线索

play34:23

只不过这个效应现在是出现了大语言模型上

play34:26

而不是马身上

play34:28

尽管如此GPT-3在几个衡量心智理论的任务上

play34:31

接近于人类的表现

play34:33

这在几年前呢是无法想象的

play34:35

并且这与更大的模型

play34:37

通常在需要高级推理的任务中表现的更好的观点是相一致的

play34:42

这只是语言模型表现出的

play34:44

自发发展出高级推理能力的众多的例子之一

play34:48

今年4月呢

play34:49

微软的研究人员发表了一篇论文

play34:51

也表示GPT-4展示了通用人工智能的初步诱人的迹象

play34:56

即以一种复杂类人的方式去思考的能力

play34:59

比方说呢

play35:00

一名研究人员要求GPT-4

play35:02

使用一种名为TiKZ的晦涩的图形编程语言

play35:06

画一只独角兽

play35:08

GPT-4回应了几行代码

play35:09

然后研究人员将这些代码输入

play35:11

TiKZ软件生成的图像呢虽然粗糙

play35:14

但是清晰的显示出

play35:16

GPT-4对独角兽的外观有一定的理解

play35:19

研究人员认为

play35:20

GPT-4可能以某种方式从训练数据中

play35:23

记住了绘制独角兽的代码

play35:25

所以他们给他提出了一个后续的挑战

play35:28

他们修改了独角兽的代码移除了头部的角

play35:31

并且呢移动了一其他的一些身体部位

play35:33

然后他们让GPT-4把独角兽头上的角放回去

play35:37

而GPT-4的回应呢

play35:39

正是将头上的角放在了正确的位置上

play35:42

尽管作者的测试版本和训练数据

play35:44

完全是基于文本的

play35:46

没有包含任何的图像

play35:47

但是GBT-4似乎仍然能够完成这个任务

play35:51

不过呢通过大量的书面文本训练之后

play35:54

GPT-4显然学会了推理关于独角兽身体形状的知识

play35:58

目前呢我们对于大语言模型如何完成这样的壮举

play36:02

没有真正的了解

play36:03

有些人认为呢像这样的例子表明

play36:06

模型开始真正理解训练集中词的含义

play36:09

而其他人呢则坚持认为

play36:11

语言模型呢只是一种随机鹦鹉

play36:13

仅仅是重复越来越复杂的单词序列

play36:16

而并非真正理解他们

play36:18

那关于什么是随机鹦鹉

play36:20

我们找时间也会专门去介绍一下

play36:23

这种辩论指向了一种深刻的哲学争论

play36:26

可能无法解决

play36:27

尽管如此

play36:28

我们认为关注GPT-3这些模型的经验表现

play36:32

也是很重要的

play36:33

如果一个语言模型

play36:34

能够在特定类型的问题中始终得到正确的答案

play36:38

并且呢研究人员有信心排除掉混淆的因素

play36:41

比如说可以确保模型在训练期间没有接触过这些问题

play36:46

那么无论他们对语言的理解方式

play36:48

是否跟人类完全相同

play36:50

这都是一个有趣而且重要的结果

play36:53

训练下一个token预测如此有效的另外一个可能的原因

play36:57

就是语言本身是可以预测的

play37:00

语言的规律性通常会跟物质世界的规律性相关联

play37:04

因此当语言模型学习单词之间的关系时候

play37:08

通常也在隐含的学习跟这个世界存在的关系

play37:12

此外呢预测可能是生物智能以及人工智能的一个基础

play37:16

根据Andy Clark等哲学家的观点

play37:19

人脑呢可以被认为是一个预测机器

play37:21

它的主要任务呢

play37:22

是对我们的环境进行预测

play37:24

然后利用这些预测来成功的驾驭环境

play37:28

预测对于生物智能和人工智能都至关重要

play37:31

直观的说

play37:32

好的预测离不开良好的表示

play37:34

比如说准确的地图比错误的地图

play37:37

更有可能帮助人们去更好的导航

play37:40

世界是广阔而复杂的

play37:42

进行预测有助于生物高效定位和适应这种复杂性

play37:46

在构建语言模型方面

play37:48

传统上的一个重大的挑战

play37:50

就是如何找出最有用的表示不同单词的方式

play37:54

特别是因为许多单词的含义很大程度上取决于上下文

play37:58

下一个词的预测方法

play38:00

使得研究人员能够将其转换成一个经验性的问题

play38:04

以此来避开这个棘手的理论难题

play38:06

事实证明

play38:08

如果我们提供足够的数据和计算能力

play38:10

大语言模型能够通过找出最佳的下一个词的预测

play38:14

来学习人类语言的运作方式

play38:16

它的不足之处在于

play38:18

最终得到的系统内部的运作方式

play38:20

人类目前还并不能完全的理解

play38:23

好了以上就是对大语言模型整个工作原理的一个解释

play38:27

不知道大家理解了多少

play38:29

整个内容呢大概13,000多字

play38:31

光是录制视频就录了一个多小时

play38:34

所以还希望大家多多的点赞评论和转发

play38:37

也希望这个视频能够帮助到大家

play38:39

对现在的大语言模型有一个基础的理解

play38:42

感谢大家的观看

play38:43

我们下期再见

Rate This

5.0 / 5 (0 votes)

Ähnliche Tags
语言模型人工智能机器学习神经网络Transformer词向量自然语言处理大数据处理技术解析AI教育
Benötigen Sie eine Zusammenfassung auf Englisch?