【生成式AI導論 2024】第6講:大型語言模型修練史 — 第一階段: 自我學習,累積實力 (熟悉機器學習的同學從 15:00 開始看起即可)
Summary
TLDR本课程至今为止没有训练任何模型,所有内容基于已训练好的大型语言模型。从这堂课开始,将讲解大型语言模型的训练史,分为三个阶段。在进入语言模型训练前,需了解背景知识,包括文字接龙和Token的概念。机器学习的训练分为训练和推论两个步骤,训练找到模型参数,推论使用这些参数。训练过程中可能遇到超参调试和过拟合问题,需要增加训练数据的多样性和控制初始参数。第一阶段自我学习,从网络爬取大量文字资料进行训练。
Takeaways
- 📚 大型语言模型的训练分为三个阶段,每个阶段都专注于学习如何更好地进行文字接龙。
- 🔍 语言模型的训练基于大量数据,通过机器学习和深度学习技术来预测文本序列中的下一个Token。
- 🤖 模型的参数是通过训练数据自动找出的,而超参数需要人工设定,这些超参数对训练结果有重要影响。
- 🔄 训练过程中可能遇到的问题包括训练失败或过拟合,需要通过调整超参数或增加数据多样性来解决。
- 🌐 网络是获取训练数据的主要来源,但需要对数据进行清理,包括去除有害内容、HTML符号、低品质数据和重复内容。
- 📈 GPT系列模型的发展显示了模型大小与回答正确率的关系,但即使是大型模型,正确率提升也有限。
- 🔑 Prompt的设计对于语言模型的输出至关重要,尤其是在早期的GPT-3模型中,需要精确的提示来获得有用的回答。
- 🚀 即使模型参数量巨大,如果没有适当的指导,模型可能无法有效地使用其学到的知识,需要人类进一步的引导。
- 🛠️ 训练语言模型不仅是技术问题,还涉及到数据的法律和伦理问题,如数据授权和版权问题。
- 📝 语言模型的训练和应用是一个不断发展的领域,需要不断地技术迭代和创新来提升模型的性能和实用性。
Q & A
什么是大型语言模型的'修煉史'?
-大型语言模型的'修煉史'指的是这些模型从最初的设计到逐渐增强能力的过程。这个过程包括了三个阶段的训练,每个阶段使用不同的训练数据,但核心目标都是学习如何更好地进行'文字接龙'。
为什么大型语言模型的训练可以看作是'文字接龙'?
-大型语言模型的训练可以看作是'文字接龙',因为模型的任务就是基于给定的文本序列预测下一个可能出现的词或字符,即生成文本中的下一个'Token'。
在大型语言模型中,'Token'是什么?
-在大型语言模型中,'Token'是构成文本的基本单位,可以是一个字、一个词或字符等。在本课程中,为了简化说明,假设一个中文字就是一个Token。
为什么需要训练数据来训练语言模型?
-训练数据用于告诉模型在给定一个未完成的句子时,哪个Token是正确的接续。通过大量的训练数据,机器学习算法能够自动找出模型中的数十亿个参数,以完成文字接龙任务。
什么是'超参数'(Hyperparameter),在训练语言模型中扮演什么角色?
-超参数是机器学习中用于设定学习过程的参数,如学习率、批次大小等。在训练语言模型时,超参数决定了优化算法的行为,影响模型训练的结果。选择合适的超参数对于模型性能至关重要。
为什么训练语言模型有时会失败?
-训练语言模型有时会失败,可能是因为选择的超参数不合适,或者训练数据不够多样化,导致模型无法准确学习到数据中的模式。此外,训练过程本身具有随机性,有时可能需要多次尝试不同的超参数组合才能获得满意的结果。
什么是'过拟合'(overfitting),在语言模型训练中如何表现?
-过拟合是指模型在训练数据上表现很好,但在未见过的数据上表现差的现象。在语言模型训练中,过拟合可能表现为模型能够完美地生成训练数据中的句子,但对于新的、不同的文本则生成不合理的续句。
为什么需要从网络爬取大量文本数据来训练语言模型?
-网络提供了几乎无限的文本资源,这些文本数据可以用于生成大量的训练样本,帮助语言模型学习广泛的语言模式和知识。自监督学习(Self-supervised learning)就是利用这些数据,让模型通过自我训练来提高能力。
为什么训练语言模型时需要考虑数据的多样性和质量?
-数据的多样性和质量直接影响模型学习的广度和深度。多样化的数据可以帮助模型学习到更广泛的语言用法和知识,而高质量的数据可以确保模型学习到正确的信息,避免学习到错误或无关的内容。
GPT模型的发展经历了哪些阶段,每个阶段的特点是什么?
-GPT模型从GPT-1开始,经历了GPT-2和GPT-3等阶段。GPT-1参数较少,使用的文本数据量有限,没有引起太大关注。GPT-2参数量大幅增加,但性能提升有限。GPT-3参数量达到1750亿,使用的数据量极大,但仍然存在可控性和准确性的问题。
为什么GPT-3模型即使拥有巨大的参数量,也无法总是准确回答问题?
-GPT-3模型虽然参数量巨大,但它的学习完全基于网络数据,没有针对性地学习如何回答问题。它可能知道很多信息,但缺乏将这些信息有效组织成答案的能力,需要通过精心设计的提示(Prompt)来引导它生成准确的回答。
Outlines
📚 大型语言模型的训练基础
本段介绍了大型语言模型的训练尚未开始,之前的内容都是基于已训练好的模型进行能力强化。接下来将探讨这些模型如何被训练成今天这样强大,分为三个阶段。首先,需要了解背景知识,包括语言模型的基本任务——文字接龙,以及模型如何通过机器学习和深度学习生成答案。模型是一个含有数十亿未知参数的复杂函数,需要通过训练数据找出这些参数。训练过程中的两个主要步骤是找出参数(训练/学习)和使用参数进行文字接龙(测试/推论)。
🔧 模型训练中的优化挑战
这一段讨论了在模型训练中寻找参数的过程,即优化问题。优化被比喻为机器,需要设置超参数来决定其工作方式。训练过程具有随机性,可能失败,此时需要更换超参数并重复训练。训练成功但测试失败的情况被称为过拟合,意味着模型只学习了训练数据的表面特征,而没有理解其深层含义。解决过拟合的方法之一是增加训练数据的多样性。此外,初始参数的设定也对训练结果有重要影响,有时可以从其他模型那里继承更好的初始参数。
🌐 网络数据在语言模型训练中的应用
本段讲述了如何利用网络数据来训练语言模型。网络提供了大量的文本数据,可以用来生成训练数据。通过自监督学习,模型可以自我训练而不需要人工介入。然而,网络数据需要经过清理,包括过滤有害内容、去除HTML符号、控制数据品质、去除重复数据等步骤。尽管自监督学习减少了人工参与,但一些基本的数据清洗工作仍然是必要的。
📝 训练数据的清洗与版权问题
这一段进一步讨论了训练数据的清洗工作,强调了去除有害内容、HTML符号、低品质数据和重复数据的重要性。同时提到了使用网络数据进行训练可能涉及的版权问题,如《纽约时报》对OpenAI和Microsoft的诉讼案例。文章指出,尽管大多数开发团队在训练模型时会使用任何可获取的数据,但也有团队如国科会的臺德计划会要求每笔数据都有授权。
🚀 GPT模型的发展历程
本段概述了OpenAI开发的GPT系列模型的发展历程。从2018年的第一代GPT的1.17亿参数到GPT-2的15亿参数,再到GPT-3的1750亿参数,模型的规模和使用的资料量都有了显著增长。尽管GPT-2和GPT-3在回答问题的正确率上并未达到惊人的水平,但模型的增长展示了参数量和资料量对模型性能的影响。
🤖 GPT-3模型的实际体验与局限性
这一段通过实际体验GPT-3模型,展示了其在对话中的表现和局限性。GPT-3有时能够提供有用的回答,但有时又显得不够稳定和可控。文章指出,为了获得更好的回答,需要精心设计提示(Prompt),这对GPT-3的性能有显著影响。同时,尽管GPT-3使用了大量数据进行训练,但其回答的正确率并没有达到预期的高度,引发了对模型发展方向的讨论。
🛠️ 人类指导在语言模型训练中的必要性
最后一段指出,尽管GPT-3等模型拥有巨大的参数量和训练数据,但它们仍然需要人类的指导来发挥潜力。模型虽然从网络上学到了知识,但缺乏将这些知识应用起来的能力。因此,需要第二阶段的训练,即人类的介入和指导,以帮助模型更好地理解和回答问题。
Mindmap
Keywords
💡大型语言模型
💡训练
💡自监督学习
💡超参数
💡过拟合
💡测试
💡参数优化
💡文本数据
💡初始参数
💡优化算法
Highlights
课程开始讨论大型语言模型的训练过程,揭示了模型如何从无到有,达到今天的无所不能。
语言模型的训练分为三个阶段,每个阶段使用不同的训练数据,但核心任务都是学习文字接龙。
介绍了Token的概念,将中文字符视为模型生成的基本符号,简化了模型生成过程的说明。
解释了机器学习和深度学习在语言模型训练中的应用,强调了模型参数的重要性。
讨论了训练数据如何指导模型学习正确的Token序列,以及训练过程中的随机性和可能的失败。
提到了超参数(Hyperparameter)在训练过程中的作用,以及调整超参数对结果的影响。
分析了过拟合(overfitting)问题,即模型在训练数据上表现良好,但在新数据上失败的情况。
提出了增加训练数据多样性作为解决过拟合问题的一种方法。
讨论了初始参数的设定对模型训练结果的影响,以及如何选择合适的初始参数。
介绍了自监督学习(Self-supervised learning)的概念,即机器使用大量网络数据自我训练。
提到了从网络爬取数据进行训练时,需要进行数据清洗和质量控制。
讨论了去除训练数据中的重复内容的重要性,以及对实验严谨性的影响。
提到了使用网络数据训练可能带来的版权问题,以及对数据授权的关注。
回顾了OpenAI GPT模型的发展历程,从GPT-1到GPT-3的参数量和训练数据量的增长。
分析了GPT-3模型的性能,尽管模型庞大,但在回答问题的正确率上并没有显著提升。
讨论了Prompt模板在GPT-3模型中的重要性,以及如何通过精确的Prompt引导模型输出。
最后指出,尽管模型在不断增大,但如何有效控制模型输出仍是一个挑战。
Transcripts
好 那到目前為止的課程呢
我們都還沒有訓練過任何模型
我們都還沒有討論過模型的訓練
我們之前講的所有東西
都是基於一個已經訓練好的大型語言模型
想要更強化它已有的能力
那從這一堂課開始
我們要講大型語言模型的修煉史
我們來回顧一下
這些語言模型是怎麼修煉的
怎麼練到像今天一樣 無所不能
那語言模型的修煉呢 分成三個階段
那在接下來的課程裡面
我們就會一步一步的跟大家剖析
在這三個階段
語言模型都經過了什麼樣艱苦的修煉
但是在講語言模型修煉的故事之前
還是要交代一些背景知識
那為了讓你等一下聽這個故事
可以真的知道這個故事背後
所要表達的是什麼
所以我們要講一下大型語言模型的背景知識
那有一些我們已經告訴過大家了
比如說我們再三的強調
大型語言模型做的事情其實就是文字接龍
當它產生一個答案的時候
大型語言模型實際上做的事情
就是做文字接龍這件事
把答案裡面的文字一個一個的產生出來
在做文字接龍的時候
每一次語言模型會產生出一個符號
這個符號就叫做Token
那在這門課裡面
我們會把一個中文的字當作一個Token
我們把中文的字當作每次大型語言模型做接龍的時候產生出來的符號
但是實際上每一個語言模型
它裡面的Token 它所產生的Token是不一樣的
對於像雀GBT來說
其實它是兩三個Token才能夠組成一個中文字
但是為了簡化說明
在以下的課程裡面我們都假設一個中文字
就是一個Token
那機器怎麼學會做文字接龍呢?
機器學習、深度學習
在開學第一堂課就已經跟大家簡要的介紹過了
那機器學習的概念
怎麼拿來做文字接龍呢?
我們要怎麼用機器學習來學出一個語言模型呢?
我們知道一個語言模型
就是輸入一個未完成的句子
輸出就是這個未完成的句子
接下來可以接的Token
而一個語言模型其實就是一個函式
這邊寫做F
它的輸入是未完成的句子
輸出是這個句子後面可以接的Token
那這個函式呢
可以寫成一個有數十億個
未知參數的函式
因為要做文字接龍是一件非常困難的事情
顯然這個函式非常的複雜
他可能需要有數十億個參數
才能完成文字接龍這個任務
那這個有大量未知參數的函式
就叫做模型
那這些大量的未知參數
要怎麼被找出來呢
我們需要訓練資料
訓練資料裡面告訴我們的
就是當輸入一個未完成的句子的時候
輸出應該是哪一個token才是對的
比如說人工智 後面應該接會
不要忘了今天來開 後面應該接會
床前明月 後面應該接光 等等
我們收集了大量這種訓練資料
機器學習就可以自動的
幫我們把數十億個參數找出來
找數十億個參數的這個過程
就叫做訓練training
或叫做學習learning
把這數十億個參數找出來以後
就可以帶入這個函式裡面
現在這些函式的 現在這個函式裡面的未知參數
我們都知道數值是多少了
接下來我們就可以使用這個函式來做文字接龍
參數找出來以後 使用函式來做文字接龍這件事情
叫做測試 Testing 或又叫做推論 Inference
所以在機器學習裡面有兩個步驟
找參數的部分叫做訓練 叫做學習
那 找完參數以後 拿這組參數來使用 叫做測試 或者是叫做推論
好 那等一下講的語言模型學習的三個階段
都是在學文字接龍 只是訓練的資料不一樣而已
很多人都可能都在某些地方聽過語言模型學習的過程了
你可能會以為說 語言模型學習的不同的階段
學的是不同的事情 其實不是
所有的階段都在學文字接龍
只是訓練的資料不一樣而已
好 那在正式進入語言模型怎麼訓練之前
我們要來講一下找參數的時候
會遇到什麼樣的挑戰
那我們剛才講說機器學習
就是找到一堆訓練資料
然後機器學習的過程
機器學習就可以幫我們根據訓練資料
找出符合這個訓練資料的參數
那這個找參數的過程又叫做最佳化
他的英文是 Optimization
那實際上最佳化是怎麼進行的
那我們在這一門課就不會詳談
但是你可以把最佳化呢
想成是一部機器
那這部機器使用前呢
需要設定一些參數
那設定這個機器的參數呢
叫做超參數
他的英文呢是Hyperparameter
那你設定這些超參數以後
你就決定了最佳化的方法
把最佳化的方法固定下來之後
你把這一些訓練資料丟到這個機器裡面
這個機器經過一番運作以後
就產生參數就產生你要的結果
那呃但是呢
這個訓練的過程
不是每一次都會成功
訓練是有隨機性的
有時候訓練可能會失敗
也就是你按下了這個機器的啟動鈕之後
把訓練資料丟進去
經過一番運算得出來的參數
結果不是你要的
所謂不是你要的意思是說
這些參數沒有符合訓練資料的內容
你丟人工智進去
他出來的不是會
他沒有符合訓練資料的內容
那如果遇到這種狀況
如果遇到這個訓練失敗
得到的這個參數
沒有符合訓練資料的時候
怎麼辦呢?
通常常見的做法就是
換一組超參數再上一次
當然這些超參數對於訓練結果的影響
還是有一些理路可循
但是中間的過程
非常的複雜
你很難搞清楚說
為什麼這組超參數就會給你這個結果
所以通常你的結果
跟你預期的不一樣
那怎麼辦
換一組超參數
再試一次
這就是為什麼大家常常說這個訓練模型呢
就需要算力
這個算力就是用在最佳化的過程
尤其是用在
假設你的訓練是有可能失敗的
你需要換多組超參數不斷的嘗試
最後才可以找到一個你要的結果
那你就需要
這個時候你就需要大量的算力
那一個人常常聽到有人說做這個機器學習
或做深度學習
就是調參數
這個調參數指的並不是這裡我們要找的參數
這邊調參數指的是調超參數
這邊根據訓練資料找出來的參數是自動找到的
這些參數可能有上億個
所以你也不可能用人的力量找出來
但是超參數還是需要人設定的
所以在做這個最佳化的過程的時候
你要去先調整這個超參數
調整成你要的樣子
再把這個最佳化的過程跑下去
啊期待你可以
然後就開始祈禱說
你最後跑出來的結果是你要的
那這個超參數往往你很難
這一次就得到你要的結果是需要調的
所以你才會常常聽到有人說
做深度學習做機器學習
就是調參數
他指的調參數指的是調超參數
那我們等於之後的作業
作業五作業六都是要訓練模型的
但超參數的部分呢
你就不需要特別擔心
因為助教當然都是已經幫你調好了
這個最佳化的這個機器都是幫你設定好了
你只要按下Enter
應該就會跑出不錯的結果
但是假設助教沒有給你超參數
要你自己找
你就會知道說這個訓練的過程
真的是非常的痛苦
就一攤米都吸了
這樣你就知道說這個訓練的過程
真的是非常的痛苦
但是這不是找參數唯一的挑戰
你還可能遇到另外一個狀況
這個狀況是訓練成功
但是測試失敗
什麼叫做訓練成功測試失敗呢?
假設我們現在是要做一個貓狗的分類器
你就是要找一個函式輸入一張圖片
輸出就是貓跟狗
這個函式裡面有很多未知的參數
你收集了一些訓練資料
這些訓練資料告訴我們
這兩隻動物叫做貓
這兩隻動物叫做狗
接下來你設定一組超參數
開啟最佳化的演算法
找出一組參數
你實際測試了一下發現
然後你發現這組參數有符合訓練資料
代表訓練成功
也就使用這組參數
把這個動物丟到函式裡面輸出就是貓
把這個動物丟到函式裡面輸出也是貓
把這兩個動物丟到函式裡面輸出就是狗
你找到一組參數
它是符合訓練資料的代表訓練成功
但是你不用高興的太早
訓練成功的參數
有可能帶入函式以後
給一張訓練的時候沒看過的圖片
結果是錯的
那在這個例子裡面
為什麼結果有可能是錯的呢
為什麼看到這個在打電腦的黃色的貓
今天這個函式的輸出有可能會是狗呢
你檢查一下訓練資料
你會發現說在訓練資料裡面
這兩隻貓都是黑的
這兩隻狗都是黃的
對於這個最佳化的過程來說
他可能會找到一組參數
這一組參數是認定只要黑色的東西就叫做貓
只要是黃色的東西就叫做狗
那這一種訓練成功但測試失敗的狀況
就叫做overfitting
常常聽到有人說
我在訓練過後遇到overfitting
指的就是訓練成功了
但是測試失敗了
講到這邊有人可能會想說
怎麼會發生這種事情呢
難道機器沒有辦法判斷說
顏色不重要 重要的是他的外型嗎
機器沒辦法判斷這件事
不要用你自己人類的想法
來揣度機器學習的過程
今天最佳化的過程只認一件事
今天機器學習的時候只問一件事情
就是學出來的參數
有沒有符合訓練資料所給予的限制
他完全不管找出來的參數
是不是有道理的找出來的參數
是不是能夠用在其他資料上的
所以大家要注意一下
不要用你自己的人類的想法
來揣摩訓練的過程
因為機器只認訓練資料
它完全不會思考其他的事情
如果你想要聽一個荒謬的
訓練成功測試失敗的故事的話
我留一個YouTube的連結給你
在這個連結裡面
我會講一個
機器成功分辨寶可夢跟數碼寶貝的故事
一定要看
你就可以知道說機器的想法是有多麼的荒謬
那怎麼讓機器找到比較合理的參數呢
那這個其實就是機器學習的核心問題
有很多不同的想法
而一個可能的想法是
增加訓練資料的多樣性
剛才只根據這四個例子
機器會覺得黑色的都是貓
黃色的都是狗
那怎麼辦 增加你的訓練資料
加一隻黃色的貓 加一隻黑色的狗
強迫機器讓他知道說
如果你找出來的參數是
黑色的就是貓 黃色的就是狗
那你沒有辦法符合訓練資料
要符合訓練資料
你得想點別的辦法
不能只憑著顏色來分辨貓跟狗這兩種動物
所以增加訓練資料的多樣性
可能是一個幫助訓練的過程
找最終找到合理參數的方法
但這只是其中一個做法
還有其他的做法
在最佳化的過程中
除了設定超參數以外
其實還有另外一個你需要設定的東西
這個東西叫做初始參數
你在使用這個最佳化的這個機器的時候
你一定要設置初始參數
那你設置完初始參數以後
最終找出來的參數
就比較有可能跟初始參數比較接近
因為這個最佳化的演算法呢
會從初始參數開始找尋符合訓練資料的參數
所以當你設置完初始參數以後
你最終找出來的參數會跟初始參數比較接近
但怎麼知道什麼樣的初始參數才是我們要的呢
怎麼設定這個初始參數呢
通常你不知道怎麼設定初始參數
所以常見的可能性是
你只好隨機產生初始參數
初始參數裡面每一個初始參數每一個數值都是隨機生成的
都是躑骰子生成的
假設你在訓練的時候你的初始參數是躑骰子生成的
那這一種訓練的方法這種最佳化的方法叫做Train from scratch
但是有沒有一種可能
就是我們找一組比較好的初始參數
所謂的比較好的意思可能是
這組初始參數離我們所要的合理的參數是比較接近的
如果我們從這組好的參數開始去做最佳化
最終我們找出來的參數比較有可能是我們要的
那這組好的參數你可以想成就是我們給模型的先驗知識
你可以把這組好的參數想成是機器學習的先驗知識
在學習之前有一些知識有一些能力
是他與生就已經有的
那期待透過設定這個先驗知識
讓我們最終學習的結果更接近我們想要的
但他真正面對的難題就是
那上哪找這個好的參數呢
上哪找這個鮮豔知識呢
那我們的故事就從這裡展開
那我們就從語言模型訓練的第一階段
開始講起
我們都知道說語言模型的訓練
就是學習做文字接龍
但是需要多少文字
語言模型才能夠學會
做文字接龍呢
要正確的
接觸一個token需要
兩個面向的知識
第一個面向的知識是語言的知識
今天語言模型
必須對人類語言的文法
有正確的瞭解
比如說給你一個未完成的句子
這個人突然救
後面可以接哪一個詞彙呢
也許可以接跑,突然就跑起來
也許可以接飛,是個魔法使
然後就飛起來了
但是你可能不會接的
因為這顯然是一個不符合文法的奇怪句子
那需要多少文字
才能夠讓語言模型
學會語言知識呢
根據過去的文獻
也許不用太多
多或少是相對的啦
要讓機器學習語言知識
語言知識也許有一個詞彙就夠了
你收集的資料裡面也許有一個詞彙
就足以讓語言模型學會語言的知識
但是要正確做接龍
光是知道一個語言的文法
有語言知識是不夠的
這個模型還需要世界知識
它需要對這個世界有所理解
可能是對物理的世界有所理解
可能是對人類的社會有所理解
它才能夠正確的做揭露
舉例來說
水的沸點是攝氏
後面接一百度是符合文法的
接五十度可能是符合文法的
但你知道一百度才是正確的接法
五十度不是一個正確的接法
因為這不符合我們對這個物理世界的認識
那到底需要多少的文字量
才能夠讓語言模型學會世界知識呢
在這一篇比較古老的論文裡面
這個是2020年的論文
所以比較早的論文裡面發現說
就算是你收集的資料量有300億個文字
看起來還是不夠讓模型學會世界知識
為什麼學習世界知識這麼難呢
因為世界知識是有很多層次的
看這個例子裡面
也許設施後面接100度是合理的
但是這個只對小學生來說是合理的
水的沸點是會隨氣壓而改變的
今天如果在低壓下
沸點攝氏100度就不是一個正確的答案
反而攝氏50度是沸點
有可能是一個正確的答案
所以世界知識是複雜而且有很多層次的
需要真正非常大量的資料
才能讓語言模型學會世界知識
但是上哪裡去找大量的資料呢
收集大量的資料並沒有那麼困難
其因為任何文字資料
都可以拿來教語言模型做文字揭露
哪裡可以找到大量的文字資料呢?
今天最常使用的來源就是網路
網路上可以說是有無窮無盡的網頁
裡面有無窮無盡的文字
把這些文字拿出來
就可以教語言模型做文字揭露
那實際上的做法是這樣
從網路上爬大量的文字資料
那從文字資料裡面你把一個一個的句子拿出來
然後把它整理成可以訓練文字接龍的模式
比如說一個句子是
人工智慧真神奇
那整理成訓練資料以後就是
人後面接工
人工後面可以接智
人工智後面可以接慧
人工智慧後面可以接真
所以你從網路上可以找到大量的句子
大量的句子可以產生大量的訓練資料
有這些大量的訓練資料
你就可以找出一組參數
這一組參數可以成功的做文字揭露
而在產生這個訓練資料的過程中
人工的介入是非常少的
這種從網路上收集到的訓練資料
你可以說真的是要多少就有多少
那這種只需要非常少人工介入
就可以取得訓練資料的學習方式
它有一個名字叫做自督導式的學習
它的英文是Self-supervised learning
也就是機器自己教自己
不需要人工介入
只要不斷地去網爬
就可以爬出大量的訓練資料
語言模型就可以透過網爬的資料
來學習做文字接龍這件事情
那剛才雖然說用網爬的資料呢
不太需要人工介入
但是稍微一點人工介入往往還是必須的
那這邊呢是引用這個DeepMind的一篇論文
在這篇論文裡面
他們講解了他們訓練他們的大型模型
叫做Gopher的這個過程
那他們說他們也做了一些資料的清理
雖然網爬的資料
隨便爬俯拾皆是
但是爬下來的資料
還是需要做過一些處理的
什麼樣的處理呢
比如說第一個是過濾到有害的內容
比如說色情暴力的內容
如果你讓機器一直看一些色情網站的話
他就可能會講出一些色情網站裡面有的句子
那為了避免他講出這些話
不如在一開始的時候就不要讓他
接觸有色情或暴力內容的網站
所以應該要過濾掉有害的內容
那再來這些爬下來的網頁裡面呢
可能有很多HTML的符號
那這些符號對語言模型的訓練是沒有必要的
所以通常會把這些符號去掉
你只會保留一些你覺得在文字接龍的時候
語言模型接出來會有用的符號
比如說今天語言模型蠻能夠產生表情符號的
那就是在最後這個網爬資料在清理的時候
並沒有把表情符號清掉
所以他還是可以學會接出表情符號
那再來也需要對這個資料的品質
做一些控制
尤其是去除一些低品質的資料
但是什麼樣的資料叫高品質的資料
什麼樣的資料叫低品質的資料
這就是一個見仁見智的問題
那像在這個GPT-3
The Pile 還有PaLM
他們都是一些知名的語言模型
在他們的訓練過程中呢
都有使用到一個資料品質分類器
就開發這些模型的團隊
他們另外訓練了一個分類器
這個分類器會去決定說一筆資料
它是高品質的資料還是低品質的資料
如果是高品質的資料在訓練的時候
就會讓語言模型看比較多次
那它對最後訓練的結果
就會有比較大的影響力
那這些論文裡面通常是把這種
維基百科比較像維基百科
或比較像教科書裡面的句子的資料
當作是高品質的資料
那再來另外一件要做的事情呢
是去除重複的資料
那最後一步呢
Testing Set Filtering
這個是為了實驗的嚴謹性
那這邊就不解釋
那為什麼去除重複資料
也是一個重要的步驟呢
有一篇論文就告訴你說
網路上爬下來的資料
真的是有很多重複的資料
這篇文章發現說
以上這一個很長的段落
居然在網爬的資料裡面重複了六萬多次
這個資料到底是什麼呢?
這個資料是一個婚禮公司的業配
他告訴你說
你要把這些方案通通都用在你的婚禮上
旁邊的人就會覺得你真是太棒了
這句話在網路上足足出現了六萬次
所以如果你拿這樣子的資料來訓練你的語言模型
他之後就會動不動幫這個婚禮公司業配
動不動就講這個段落出來
所以我們需要去除重複的資料
那所有的文字資料都能拿來讓語言模型學做文字接龍嗎?
這就是一個見仁見智的問題了
最近有一個新聞,是去年年底有一個新聞
就是New York Times告了OpenAI跟Microsoft
因為他們認為OpenAI拿了他們的新聞
而且可能是付費會員才讀得到的新聞
來訓練語言模型
至於誰是誰非 我又不是法律的專家
在這邊就不做評論
只想要告訴你說
如果是任何資料都拿來訓練
教機器做文字接龍
也有可能會讓你惹上一些麻煩
不過今天其實多數的那個開發團隊啊
在訓練語言模型的時候
嗯 就是隨便爬資料隨便訓練啦
只要我看得到的資料
我爬得到的資料
通通都是我可以拿來用的
我聽到會很小心
要求每一筆資料都有授權的
只有那個科技
只有國科會的那個臺德計畫有這樣做耶
好 那這個ChatGPT啊
其實在ChatGPT之前
OpenAI就已經開發了一系列的GPT模型
這些GPT模型就是用
大量的網路上找到的文字訓練出來的
很多人以為OpenAI是這幾年才開始開發大型的模型
其實不是
OpenAI早在2018年的時候
就釋出了第一代的GPT
只是第一代的GPT模型非常的小
它只有117個million的參數
也就是這個一億個參數
那一億這個參數你可能覺得一億這個數量很大
但其實就模型而言
這不是一個特別大的模型
就算放在2018年
也不是一個特別大的模型
那他用的訓練資料也不多
大概就是這個700本書左右的內容而已
那上面這個數字啊
代表的是那個模型裡面的參數量
那如果你沒有辦法想像參數量是什麼意思的話
你就想成是模型的複雜程度
如果要做個比喻的話
這個參數量代表的就是人工智慧的天資
這個參數量越大就代表這個模型天生越聰明
但是光是有天資是不夠的
還需要後天的努力
那下面這個數字代表的是資料量
也就是用了多少的資料來教人工智慧做文字接龍
所以下面這個數字代表了後天的努力
所以要有天資也要有努力
兩者缺一不可才能夠訓練出一個聰明的語言模型
在2018年的時候GPT-1
它不是個聰明的模型
也不是個努力的模型
它沒有什麼特別的攻擊
所以就沒有掀起任何的波瀾
過了一年之後
OpenAI釋出了GPT-2
GPT-2是GPT-1的10倍大
它有15億個參數
15億在當年看來
是一個毀天滅地的巨大模型
但如同我在第一堂課就跟大家講的
今天GPT-2只是一個小模型
你在作業5要用的模型
比GPT-2還要大5倍左右
GPT-2也用了很多的資料
用了40GB的資料來進行訓練
這個數字指的是
它所使用的文字量的檔案大小
GPT-2有什麼神奇的結果嗎?
沒什麼神奇的結果
這是當年GPT-2文章裡面的一個數據
他說我們試OpenAI試了不同大小的模型
從GPT-1一直到GPT-2
縱軸是回答問題的正確率
當然越大的模型回答問題的正確率就越高
這個正確率大概是55%左右
但這個正確率就算放在2019年
也不是一個特別厲害的成果
這個綠色的虛線是其他模型的成果
有某一個模型可以得到遠比GPT-2還要更高的正確率
GPT-2沒有好的表現
怎麼辦呢?
OpenAI並沒有就此放棄
他們想說也許是因為模型不夠大
那我們就弄一個更大的模型
足足有GPT-2的100倍
GPT-3 2020年的時候發表的
他足足有GPT-2的再100倍大
他的訓練資料量也非常的驚人
有580GB的文字量
如果你對580GB的檔案大小沒有什麼概念
我告訴你580GB的文字量裡面
大概有3000億個token那麼多
如果你對3000億個token也沒有什麼概念的話
我會告訴你
這差不多相當於哈利波特全集閱讀了30萬遍
所以這個巨大的模型
他用哈利波特全集30萬遍的資料量
來學習做文字接龍
他的背後的知識儲備應該是非常的驚人
但這個巨大的模型
用了巨大的資料訓練的結果怎麼樣呢
還是不怎麼樣
這個是GPT-3的論文
這個橫軸是模型的大小
從最小的模型一直到最大的GPT-3
隨著模型越大
做正確率呢 回答問題的正確率呢 當然是越來越高
但是最高也不過高到50幾%而已
所以當年很多人覺得這個OpenAI就是走錯方向了
做文字接龍不斷地接 怎麼可能接出人工智慧來
到底這個GPT-3用起來 它是什麼樣的感覺呢
其實現在在OpenAI的Playground上面
你還是可以玩到GPT-3的某一個版本的
那我這邊就操作一下,讓你感受一下當年我們看到GPT-3的時候
它的感覺,它用起來是什麼樣子的
好,那我們來真的用一下GPT-3
讓你感受一下當年的GPT-3
用起來跟它對話是什麼樣的感覺
現在在OpenAI的Playground上面
你還可以找到當年殘留下來的GPT-3的幾個版本
那這邊用的是DAVINCI 002 GPT-3的某一個版本
那當你要用DAVINCI 002的時候他跟你說這個是個歷史的遺跡現在有
更好的模型了
那我們就來試用一下讓你
這個可以體驗一下當年我看到GPT-3的感受
還可以跟他說比如說問他
What is
Machine learning
看看他能不能夠回答你的問題喔
可以他告訴你
Machine learning是什麼什麼什麼
但他不是每次都可以回答你的問題
我們再試一次
他說What is machine learning
I want to do seriously machine learning
What course I should take
就我問他什麼是Machine Learning
那他反問我說
那我應該上什麼課
我才能夠學到Machine Learning呢
所以你知道這個模型
有時候好像在跟你講話
有時候又好像不知道你要什麼
好那這個模型
其實也知道蠻多
那如果你要讓這個模型
真的一定能夠回答你的問題的話
那你需要有一些小技巧啦
告訴他說這是一個問題
好接下來呢
強制他一定要產生一個答案
那這樣你就比較容易呢讓這個模型呢一定會回答你的問題
這邊呢先打ANS冒號那模型就會知道說後面呢
是要產生這個問題的答案不要產生奇奇怪怪的東西再試一次
他會
試著這個回答你的問題說machine learning是什麼回答完以後呢
又再自問自答產生新的問題跟新的答案
使用GPT-3的時候這個Prompt的template真的就非常重要
你怎麼下Prompt真的會大幅影響GPT-3的能力
那今天其實當你在用這些比較新的語言模型Cloud GPT-4的時候
老實說我覺得Prompt的template、Prompt的格式
對於語言模型的能力真的是影響不大
那我猜很多人會感覺這個Prompt的template、PUMP的格式非常重要
可能是當年使用GPT3的時候遺留下來的心理陰影
它真的是一個非常不受控的模型
大家知道蠻多事情的
比如說我問他說什麼是LOL
他會知道說LOL就是這個Left Out Loud
那LOL有很多不同的含義啊
怎麼讓他把多種不同的含義都講出來呢?
也許你可以這邊寫個1
暗示他說一定要產生多個答案
好他就會說LOL有很多不同的縮寫
可能是laughing out loud
可能是lots of love
可能是lots of laughter
可能是love of life等等
有各種不同的縮寫
總之你要非常認真的下Prompt
GPT-3才會給你答案
這個GPT-3用起來的感覺啊
真的是一言難盡
有時候好像覺得他很厲害
有時候又覺得
哎呀這個東西怎麼這麼不受控
你可能會想說
那是不是因為模型還不夠大呢
也許什麼750個175個Billion參數
1750億個參數還是太小了
那Google告訴你說 它訓練了一個更大的模型
叫做PaLM
足足是GPT-3的再三倍大
但是 剛才看到的那個控制不住自己說話的鏡頭還是存在
他們問模型一個問題 一個數學問題
你以為模型會回答你嗎?
不 它反問更多數學問題給你
你根本就控制不住這些模型的輸出
但是 為什麼我們控制不住語言模型的輸出呢?
為什麼他不能好好回答問題呢
如果你仔細一想你會發現
你其實也沒有教他回答問題啊
他的一切知識都是從網路上取得的
你拿臺灣最高的山是哪座山去網路搜尋
你可能得到這個網頁
告訴你臺灣最高山是哪座山
後面應該接三個選項
我臺灣最高的山是哪座山
知道答案的朋友請留言
對機器來說
他根本不知道要怎麼回答問題啊
所以第一階段機器自我學習之後
他好像從網路上學了點的東西
但是他不知道使用的方法
他就好像是這個石破天在摩天矮上
練了上乘的內功
但他根本不知道自己練了內功
他沒有辦法把他所學的內功使用出來
所以接下來就需要第二階段
由人類來指導這些語言模型
讓它發揮真正的潛力
Просмотреть больше связанных видео
A little guide to building Large Language Models in 2024
Stream of Search (SoS): Learning to Search in Language
【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论
Networking for GenAI Training and Inference Clusters | Jongsoo Park & Petr Lapukhov
大语言模型微调之道1——介绍
大语言模型微调之道5——准备数据
5.0 / 5 (0 votes)