【生成式AI導論 2024】第9講:以大型語言模型打造的AI Agent (14:50 教你怎麼打造芙莉蓮一級魔法使考試中出現的泥人哥列姆)

Hung-yi Lee
19 Apr 202424:46

Summary

TLDR本视频讲座探讨了大型语言模型在未来的发展趋势,特别是它们在构建AI代理(AI Agent)方面的潜力。AI代理能够执行多步骤的复杂任务,包括规划和调整计划。讲座中提到,尽管目前AI代理尚未广泛普及,但随着技术的发展,预计不久的将来它们将变得无处不在。讲师通过举例说明,如举办聚餐的多步骤规划,展示了AI代理如何在现实世界中应用。此外,还介绍了一些现有的AI代理,如AutoGPT,并讨论了它们的能力及局限性。视频中还涉及了AI代理的工作原理,包括它们如何通过感知器了解环境状态、生成计划、执行行为,并根据外界变化调整记忆和计划。最后,讲师通过一个虚构的“福利连”故事,形象地说明了AI代理如何根据经验做出决策,以及它们在未来可能的应用场景。

Takeaways

  • 🚀 大型语言模型的未来趋势是开发AI代理(AI Agent),能够执行多步骤的复杂任务。
  • 🔍 目前的AI应用通常仅限于单步任务,如翻译或图像生成,但未来AI将能够进行更复杂的任务规划和执行。
  • 🤖 AI代理将能够根据环境变化自主调整计划,具备记忆和学习的能力。
  • 🌐 通过大型语言模型,AI代理能够与环境互动,使用工具,并且有可能在虚拟或真实世界中执行任务。
  • 📈 AI代理的实现将使得AI的应用范围从简单的问答扩展到更广泛的自主操作。
  • 🧠 记忆能力对于AI代理至关重要,它允许AI从过去的互动中学习并改进未来的行动。
  • 🔗 已经有研究如Memory-GPT在探索如何赋予大型语言模型记忆能力。
  • 🔄 AI代理需要能够根据外界状态的变化实时调整其行动计划。
  • 📚 通过反思,AI代理可以从经验中学习,形成对未来有用的策略。
  • 🏃 未来的AI代理将更加个性化,能够根据记忆和经验提供更加定制化的服务。
  • 📈 AI代理的发展预示着AI技术的下一个重大进步,可能在不久的将来变得普遍。

Q & A

  • 什么是AI Agent?

    -AI Agent是指能够执行多步骤复杂任务的AI,它能够进行规划、修改计划,并与环境互动以解决问题。

  • 为什么AI Agent需要记忆能力?

    -AI Agent需要记忆能力来存储过去与环境互动时获得的经验,这有助于它做出更合理的决策和行动计划。

  • 大型语言模型在AI Agent中扮演什么角色?

    -大型语言模型是AI Agent的核心,它负责理解环境状态、生成行动计划,并根据反馈进行自我调整和学习。

  • AutoGPT是一个怎样的AI Agent?

    -AutoGPT是一个能够接受任务并自主寻找解决方案的AI Agent,它能够上网搜索、使用工具并进行自我反思以完成任务。

  • 在Minecraft中,AI是如何进行学习和探索的?

    -在Minecraft中,AI通过不断的探索和尝试,学习使用不同类型的工具,并掌握各种技能,如制作木制、石制、铁制工具,甚至钻石剑。

  • 为什么AI Agent在执行任务时需要修改计划?

    -AI Agent在执行任务时可能遇到预料之外的情况或障碍,因此需要根据环境变化灵活调整计划以适应新情况。

  • 什么是Slow Agent和Fast Agent?

    -Slow Agent负责生成高层次的行动指令,而Fast Agent则负责将这些指令转换成实际可执行的动作,如通过神经网络或生成代码来实现。

  • AI Agent如何通过经验改变行动?

    -AI Agent通过反思过去的行动和结果,总结经验教训,并在未来的决策中考虑这些经验,从而改进其行动计划。

  • 为什么AI Agent的未来发展备受期待?

    -AI Agent的未来发展备受期待,因为它们能够提供更加个性化、灵活和高效的服务,有望在未来一至两年内广泛应用于日常生活。

  • 如何将AI Agent的行动计划转化为实际行动?

    -可以通过训练专门的神经网络或生成特定代码,将AI Agent的自然语言描述的行动计划转化为物理世界或虚拟世界中可执行的行动。

  • 为什么说AI Agent是未来的趋势?

    -AI Agent代表了AI技术的自然进化,它们能够执行复杂的多步骤任务,提供更加智能化和自动化的服务,有望极大地提高生产效率和生活质量。

Outlines

00:00

🚀 大型语言模型与AI代理的未来趋势

第一段主要讨论了大型语言模型在AI代理中的应用和未来趋势。提到目前人们通常让AI完成单一任务,但人类能够执行更复杂的多步骤任务。举例说明了举办聚餐的多步骤过程,并提出AI代理(AI Agent)的概念,即AI能够执行多步骤复杂任务、制定和修改计划。还提到了AutoGPT等现有的AI代理实例,以及它们的能力限制。

05:01

🤖 AI的自主运作与虚拟世界中的例子

第二段探讨了AI自主运作的例子,如Stanford小镇和Minecraft中的AI。提及了Voyager论文,展示了AI在Minecraft中如何自主探索和学习新任务。还讨论了实体AI代理与物理世界互动的可能性,举例了Figure 1机器人和使用大型语言模型操控的机器人,以及自动驾驶汽车的研究。

10:02

🧠 AI代理的运作原理和记忆能力

第三段解释了AI代理的可能运作原理,包括它如何通过感知器了解外界状态、生成计划、执行行为,并对世界造成影响。讨论了AI代理如何根据外界状态修改记忆和计划,以及当前大型语言模型在记忆和计划方面的能力。还提到了ChatGPT的记忆能力,以及Memory-GPT等研究如何增强模型的记忆功能。

15:04

📚 通过故事讲述AI代理的实际应用

第四段通过一个关于一级魔法师考试和哥列姆的故事,具体说明了AI代理如何实际运作。哥列姆是一个由大型语言模型驱动的AI代理,能够在迷宫中自主运行并保护考生。故事中展示了哥列姆如何根据环境变化和经验调整行动计划,以及如何将自然语言描述的行动转化为可执行的物理世界行动。

20:04

🔄 环境变化下的AI代理行为调整

第五段深入讨论了当外部环境变化时,AI代理如何调整其行动计划。通过DEPS论文的例子,说明了语言模型如何在Minecraft中根据环境变化修改计划。还探讨了语言模型如何通过反思获取未来可用的经验,并通过React和Reflection论文进一步解释了这一点。最后,通过哥列姆的例子,展示了记忆和经验如何影响AI代理的行为。

Mindmap

Keywords

💡大型语言模型

大型语言模型是指具有大量参数和数据训练能力的人工智能模型,它们能够执行复杂的语言任务,如翻译、文本生成等。在视频中,大型语言模型是构建未来AI代理(AI Agent)的基础,这些代理能够执行多步骤的复杂任务,如规划和调整计划。

💡AI代理(AI Agent)

AI代理是一种能够执行多步骤复杂任务的人工智能系统。它们可以制定计划、修改计划,并与环境互动以完成任务。视频中提到,AI代理未来可能在日常生活中变得普遍,能够自主地执行任务,如规划聚餐、使用工具等。

💡多步骤任务

多步骤任务指的是需要多个连续步骤才能完成的任务。在视频中,举办聚餐的例子展示了如何通过多个步骤来完成一个复杂的任务,包括调查时间、预订餐厅、调整计划等。

💡规划与调整

规划与调整是指在执行任务过程中,根据当前状态和目标,制定行动计划并根据情况变化进行调整的过程。视频中提到,AI代理需要具备规划和调整计划的能力,以应对执行过程中的不确定性和变化。

💡AutoGPT

AutoGPT是一个知名的AI代理示例,它能够接受用户的任务指令,并尝试独立完成这些任务。尽管AutoGPT在某些情况下可能无法完美执行任务,但它展示了AI代理的潜力和未来趋势。

💡记忆能力

记忆能力是指AI代理能够记住过去的交互和经验,并在后续的决策中利用这些信息。在视频中,提到了ChatGPT正在开发具有记忆能力的版本,这将使AI代理更加个性化和高效。

💡实体互动

实体互动指的是AI代理与物理世界中的实体对象进行交互。视频中提到了AI代理未来可能具有实体形式,并能够与物理世界互动,如通过操控机器人手臂完成任务。

💡虚拟世界

虚拟世界是指由计算机生成的、用户可以进行交互的数字化环境。在视频中,提到了AI代理在虚拟世界如Minecraft中进行探索和学习,这展示了AI代理在非物理环境中的自主性和学习能力。

💡感知器(Sensor)

感知器是一种能够检测环境状态并将其转换为可处理信号的设备。在视频中,AI代理使用感知器来了解外部世界的状态,如视觉、听觉等,以便制定和调整行动计划。

💡行动计划

行动计划是AI代理基于当前状态、记忆和目标制定的一系列行动步骤。在视频中,AI代理通过行动计划来执行任务,如评估伤势、提供急救等,并根据环境变化调整行动计划。

💡经验学习

经验学习是指AI代理通过反思过去的行动和结果,从中获得经验,并利用这些经验来改进未来的决策。在视频中,AI代理通过经验学习来提高其在面对复杂任务时的表现。

Highlights

大型语言模型未来趋势是打造AI agent,能够执行多步骤复杂任务。

AI agent可以进行计划制定和修改,以适应环境变化。

AutoGPT是一个知名的AI agent,能够自主完成任务,但存在能力限制。

未来AI agent将不限于一问一答,而是能够与环境互动并解决问题。

Stanford小镇和Minecraft中的AI展示了AI在虚拟世界中的自主运作能力。

Figure 1机器人展示了使用大型语言模型操控实体机器人的可能性。

AI agent通过感知器了解外界状态,生成计划并执行行为。

AI agent能够根据外界变化修改记忆和计划,提高灵活性。

ChatGPT正在开发具有记忆能力的版本,以提供更个性化的服务。

Memory-GPT展示了如何通过RAG技术赋予大型语言模型记忆能力。

AI agent的行动计划可以根据经验和环境变化进行调整。

DEPS和React等研究展示了语言模型在环境中的规划和反思能力。

AI agent的行动可以从自然语言描述转换为物理世界或虚拟世界中的可执行行动。

通过Image Captioning技术,AI agent能够将视觉信息转换为文字输入。

AI agent的实际应用可能在一两年内变得普遍。

提供了一篇overview paper和相关论文链接,供有兴趣者深入了解AI agent。

AI agent的发展趋势预示着未来将有更多智能化、自动化的解决方案出现在日常生活中。

Transcripts

play00:00

好,那現在這一堂課呢,要跟大家講的是一個大型語言模型未來的趨勢

play00:08

用大型語言模型打造AI agent

play00:12

今天多數人呢,在使用AI幫我們做事的時候

play00:18

我們往往只要求AI做一個步驟

play00:22

舉例來說,你想要去GPT幫你做翻譯

play00:26

你就給他你要翻譯的句子

play00:29

他就給你翻譯的結果

play00:31

或你想用ChatGPT幫你畫圖

play00:34

你就說請幫我畫圖

play00:36

ChatGPT就呼叫DALLE去給你一張圖出來

play00:40

但是今天我們人類可以做更複雜的任務

play00:44

而這些任務往往是需要多個步驟才能夠完成的

play00:49

舉例來說我現在接到一個任務

play00:52

是要舉辦朋友間的聚餐

play00:55

那我可能需要先做一下計劃

play00:58

就我要先調查時間

play01:00

調查大家有空的時間

play01:02

統計一下最多人有空的時間

play01:05

然後我就訂我們常常吃的餐廳A

play01:09

然後所以我可能接下來

play01:11

就是先執行第一個步驟

play01:14

發出一個Google表單給我的朋友們

play01:17

然後我的朋友們就會填寫Google表單

play01:20

我過兩天之後

play01:22

再來統計一下時間

play01:24

看最多人有空的時間是在週四晚上

play01:27

然後呢我就跟餐廳A訂位

play01:31

但是餐廳A說不好意思週四晚上沒有位子了

play01:35

所以我就得訂另外一家餐廳

play01:38

那這個時候我可能會用Google Map查詢一下

play01:41

還有沒有其他可以去的餐廳

play01:44

然後呢Google Map會給我一些餐廳的推薦

play01:48

那我可能就選了另外一家餐廳B

play01:51

完成舉辦朋友間聚餐這個任務是需要多步驟的

play01:56

所以我需要先做一個規劃

play01:59

而這些步驟它的先後順序是重要的

play02:04

我不能先訂餐廳再來調查時間

play02:07

我一定要先調查時間才能夠訂餐廳

play02:10

不然沒有人來就糟糕了

play02:12

而我在執行的過程中這個計劃趕不上變化

play02:17

原來我計劃要訂餐廳A

play02:19

但是可能餐廳A沒有位置了

play02:21

我只好改訂另外一家餐廳

play02:24

這樣這種多步驟的複雜的任務

play02:27

今天我們有沒有可能讓AI來辦到這件事呢

play02:33

如果AI可以辦到這件事

play02:35

在這一堂課裡面

play02:37

我們就稱之為AI Agent

play02:41

那我知道Agent這個詞彙呢

play02:43

在不同的領域可能有不同的用法

play02:47

那甚至就算是在談論AI的時候

play02:51

講到AI Agent的時候

play02:52

每個人可能也都有不同的想像

play02:55

但這一堂課裡面

play02:56

我所謂的AI Agent指的就是

play02:59

讓AI能夠執行多步驟的複雜的任務

play03:03

能夠做計劃

play03:04

而且能夠修改計劃

play03:07

那今天AI有沒有能力做到這樣子的事情呢

play03:12

也許你現在還沒有看到太多AI

play03:15

可以做到類似的事情

play03:16

但是有了大型語言模型之後

play03:19

憑藉著大型語言模型的能力

play03:22

也許不久的將來

play03:24

AI agent就會出現在我們的日常生活中

play03:28

你可以想想看

play03:29

我今天所做的這些步驟

play03:31

包括做計畫

play03:33

包括調整計畫

play03:37

包括使用工具

play03:39

這些都是今天的語言模型

play03:42

有機會 或已經能夠做到的事情

play03:46

那今天假設你想要體驗一些AI Agent的話

play03:51

有一些現成的AI Agent

play03:54

那我就把幾個比較知名的AI Agent

play03:56

列在這一頁投影片上

play03:58

其中最知名的也許就是AutoGPT吧

play04:01

你可以給他下一個任務

play04:03

比如說幫我做個網頁

play04:04

接下來就不要管他了

play04:05

讓他自己去想辦法

play04:07

他會偶爾上網搜尋啊

play04:09

偶爾使用一些工具啊

play04:11

偶爾自己reflection啊

play04:13

想辦法完成你的任務

play04:15

啊不過他是否可以真的完成你的任務

play04:18

那個就不好說了

play04:20

Auto GPT曾經一度非常非常的紅

play04:22

不過很多人覺得他也許有點過譽了

play04:25

有個網紅

play04:26

下了一個指令給Auto GPT

play04:28

然後就跑了一個晚上

play04:29

最後什麼都沒有跑出來

play04:30

把所有OpenAI的錢都噴光了

play04:32

然後那網紅就非常生氣

play04:34

結果Auto GPT

play04:35

他畢竟還是有一些能力的極限

play04:37

幾天語言模型他有一些能力的極限

play04:40

你叫他自己想辦法解決任務的時候

play04:42

很多時候他還是解決不了的

play04:44

但是AI agent會是一個未來的趨勢

play04:48

未來語言模型幫人類做事的時候

play04:50

不會再侷限於一問一答

play04:53

也許未來你不會再期待語言模型馬上給你一個答案

play04:57

而是語言模型有能力自己跟環境互動

play05:01

最終想辦法解決問題

play05:04

那要講到這個AI可以自主運作的這件事情

play05:09

也許最知名的例子就是我們之前有提過的

play05:13

由AI村民所構成的Stanford小鎮

play05:16

那我之前的上課錄影也已經講過這一段

play05:18

希望大家都有看那一段錄影

play05:21

那除了讓這個AI活在這個小鎮裡面以外

play05:26

還有人讓AI玩Minecraft

play05:29

讓AI還活在我的世界

play05:31

活在Minecraft裡面

play05:33

AI就會自己想辦法做各式各樣的探索

play05:36

打造各式各樣的工具

play05:38

你可以看一篇叫做Voyager的論文,這個是去年五月的論文

play05:43

它會展示說它如何讓一個AI在Minecraft的世界裡

play05:48

AI自己不斷地做各式各樣的探索,學習新的任務

play05:52

那這是那篇paper裡面的一個截圖啦

play05:54

那不同的這個icon就代表AI學會了不同的技能

play05:58

那不同的線代表不同的方法

play06:00

那這邊論文提出來的方法當然是最好的橙色這一條線

play06:04

它要展示說它的方法真的非常厲害

play06:07

AI很快的就學會用木製工具,很快馬上就學會用石製工具,馬上就學會鐵器工具

play06:13

最終它的模型可以學會打造出鑽石劍,其他的方法都打造不出鑽石劍

play06:20

它的模型會越來越強,學到的技能會越來越多,大概繼續玩下去,很快就會打到終界龍了

play06:27

那剛才舉的例子都是讓AI活在虛擬的世界中

play06:32

未來也很有可能這些AI agents

play06:35

他們是有實體的可以跟物理的世界互動

play06:39

那最近最廣受矚目的一個例子就是Figure 1

play06:44

大家應該都看過這個影片了

play06:46

所以我們這邊就不播放給大家看

play06:48

有這個機器人

play06:49

他背後有一個大型語言模型

play06:51

所以你可以對他下指令

play06:53

叫他清理桌子或拿點吃的給我

play06:55

它是有辦法能夠做到的

play06:57

那其實用語言模型來操控機器人

play07:00

不是最近才有的觀念

play07:02

Figure01它真正厲害的地方

play07:04

不是拿語言模型操控機器人

play07:06

而是它那個機器人的機械手臂跟手指

play07:08

非常的靈活

play07:10

那至於用語言模型操控機器人這件事情

play07:13

其實早在有ChatGPT之前

play07:15

就已經有人嘗試類似的方向了

play07:18

這邊是引用一篇叫做Inner Monologue的論文

play07:22

它是2022年7月的論文

play07:25

是ChatGPT之前上古時代的論文

play07:28

那我們來看inner monologue運作起來是怎麼樣的

play07:34

就這個機器人背後有一個語言模型

play07:37

所以人下一個指令 給我一個汽水

play07:40

語言模型就開始想要做什麼

play07:43

語言模型說去找汽水

play07:45

然後機器人就去找汽水

play07:47

看到汽水了

play07:49

看到一杯可樂

play07:51

我想把可樂拿起來

play07:53

重點是在這個過程中遇到困難

play07:55

這個人很壞啊

play07:57

把他的這個可樂搶走了

play07:59

沒可樂怎麼辦呢

play08:01

他自己反思一下

play08:03

發現做不到這件事

play08:05

那他就跟人說

play08:07

看到一個orange soda

play08:09

喝orange soda好不好呢

play08:11

人說不好要喝點別的東西

play08:13

所以機器人只好

play08:15

再去找其他的飲料

play08:17

所以你就會看到說

play08:19

是一個用大型語言模型來操控機器人的例子

play08:23

那也有人嘗試用大型語言模型開自駕車

play08:27

你可以看一下Talk2Drive這篇paper

play08:30

這是去年年底的論文

play08:32

這個圖就講得很清楚了

play08:34

它背後是一個Large Language Model

play08:36

那人類司機下一個指令

play08:39

那這個Large Language Model

play08:40

就會根據各種的情報

play08:42

比如說天氣、交通狀況等等

play08:45

去開自駕車

play08:46

那它並不是真的去操控方向盤

play08:50

它並不是說輸出左轉方向盤踩煞車這樣的指令

play08:55

它是會寫一段程式碼

play08:57

用那一段程式碼去操控自駕車的各個零件

play09:02

然後人呢可以提供給這個自駕車回饋

play09:05

比如說不要超速啊

play09:07

或者是路邊停車的時候要小心一點啊等等

play09:10

人可以提供各式各樣的回饋

play09:12

然後這個機器呢就會把回饋存起來

play09:14

日後在做決策的時候

play09:16

會根據人過去所提供的回饋來進行決策

play09:22

好那講到這個AI agent

play09:24

那他實際上背後可能是怎麼運作的呢

play09:28

我們現在來講一下

play09:29

AI agent 運作的可能原理

play09:32

好那右邊呢是AI agent

play09:35

左邊呢是外界的環境

play09:37

那AI agent 會有一個終極的目標

play09:41

他終極要達成的任務

play09:43

那他可能會有記憶

play09:45

這個記憶代表他過去在跟環境互動的時候

play09:48

所獲得的經驗

play09:49

那他會從環境瞭解現在的狀態

play09:53

比如說他可以透過文字的輸入

play09:55

比如說他可能有視覺

play09:57

他可以看得到外面的世界

play09:59

比如說他有聽覺

play10:00

他可以聽到其他人的聲音

play10:02

或聽到外面世界發生什麼事情

play10:04

或甚至假設他有實體的話

play10:06

那他可能有觸覺

play10:08

他可能可以感受到

play10:09

現在碰到一個很燙的東西

play10:11

或碰到一個很冰的東西等等

play10:13

總之他可以從外界透過一些感知器

play10:15

透過一些sensor 瞭解外界的狀態

play10:19

那根據他的終極目標記憶跟狀態

play10:21

這個AI agent可以產生一個計劃

play10:24

那這個計劃就是AI agent的短期目標

play10:27

也就要達到這個終極目標之前

play10:29

需要採取的行動

play10:32

那根據這個短期目標

play10:33

這個AI agent就可以執行他的行為

play10:36

那這個行為可以是輸出文字

play10:38

也可以是產生圖

play10:40

也可以是說話

play10:41

那如果機械手臂的話

play10:43

也許你可以期待這個AI agent

play10:45

還可以去操作那個機械手臂

play10:47

那至於要怎麼操作機械手臂

play10:48

也有可能是產生一段程式碼

play10:50

用這段程式碼來運作機械手臂

play10:53

或者是跟其他的agent

play10:54

其他的AI互動等等

play10:56

那期待說AI agent

play10:58

透過一系列從環境得到的輸出

play11:01

透過一系列的記憶跟計畫

play11:03

那他可以採取適當的行動

play11:07

那他採取行動以後呢

play11:08

會對世界造成一些影響

play11:10

會改變現在外面世界的狀態

play11:13

所以他可以根據外面世界的狀態

play11:16

修改他的記憶

play11:18

他可以從外面世界的狀態學習到新的經驗

play11:21

修改他的記憶

play11:22

他也有可能可以修改他的計劃

play11:24

他不會計劃一定以後

play11:26

就永遠要照著那個計劃執行

play11:28

那這樣子太不靈活了

play11:29

太死板了

play11:30

他可能可以根據外面世界的狀態的變化

play11:33

來修改他的記憶

play11:35

那這個是今天我們想像中

play11:38

一個AI agent應該具有的能力

play11:40

那今天這些語言模型是否具有這些能力呢

play11:45

它是否可以根據記憶做回復、修改記憶

play11:49

它是否能制定計畫並修改計畫呢

play11:53

其實今天的大型語言模型

play11:56

對於產生記憶或修改計畫等等

play11:59

算是有一定程度的能力了

play12:02

所以我會說AI agent其實就在不遠的地方

play12:06

也許你今天這個時間點

play12:08

還沒有看到太多AI Agent的應用

play12:10

但我相信在一兩年之內

play12:12

AI Agent應該會滿地跑

play12:15

那講到記憶這件事情

play12:18

大家知道說

play12:19

ChatGPT其實是沒有長期記憶的

play12:23

今天ChatGPT能夠記得的事情

play12:26

都發生在同一則對話裡面

play12:30

一旦你按了開始新對話

play12:33

你之前跟他講過的事情

play12:35

他一概不知道一切都要從頭來過

play12:39

但事實上呢

play12:41

ChatGPT OpenAI也曾經一度聲稱

play12:45

他們在打造有記憶能力的ChatGPT

play12:49

那他們有一個Blog就是講說

play12:51

他們準備要釋出有記憶能力的ChatGPT

play12:54

甚至Twitter上有一些人講說

play12:56

我拿到的這個版本它是可以有記憶的

play13:00

但不知道為什麼後來這個功能就不見了

play13:03

我手頭是還沒有看到這個功能出現在我的ChatGPT帳號裡面啦

play13:07

如果有人手上有的話,記得跟我講一下

play13:10

但是總之,OpenAI顯然在打造有記憶力的ChatGPT

play13:15

有記憶力的ChatGPT運作起來可能是怎麼樣子呢?

play13:18

當你跟ChatGPT對話完之後

play13:21

它可能會把對話裡面的關鍵訊息進行摘要

play13:26

比如說它知道你現在正在準備期中考試

play13:29

接下來當你開始新的對話

play13:32

原來的ChatGPT一旦開始新的對話

play13:35

一切過去對話的內容都會清空

play13:37

但這一次他有做一些摘要

play13:40

所以他知道過去對話的內容裡面

play13:43

有哪些重點

play13:44

所以也許你下一次跟他對話的時候

play13:46

他會先對他過去的記憶做一下

play13:49

RAG搜尋一些跟你相關的資訊

play13:51

那他看到你跟他講話的時候

play13:53

他甚至可能會問你說

play13:54

那你期中考考得怎麼樣等等

play13:57

所以有可能給ChatGPT記憶

play14:00

那如果ChatGPT有記憶的話

play14:02

它就可以更加的個人化

play14:05

那雖然現在OpenAI的ChatGPT

play14:07

還沒有真正釋出記憶的功能

play14:11

但是其實也有很多人試圖在以ChatGPT為基礎

play14:15

打造有記憶能力的GPT

play14:18

舉例來說你可以看一篇paper

play14:20

叫做Memory-GPT

play14:22

它就會展示大型語言模型

play14:24

怎麼加上RAG讓它有這個記憶的能力

play14:30

好 那以上呢 講的是一些對於AI Agent的想像

play14:36

那如果你覺得講到這邊很模糊 沒有很具體的話

play14:40

那我們來舉一個具體的例子

play14:42

這邊又要講一個福利連的莫名其妙的故事了

play14:47

這個故事是這個樣子的

play14:49

大家都知道在福利蓮裡面有一級魔法師考試

play14:53

一級魔法師考試的其中一關

play14:56

就是要攻略靈洛的王座這一個迷宮

play15:00

那在進入這個迷宮之前 因為進入這個迷宮很危險

play15:04

所以在進入這個迷宮之前

play15:05

主考官呢 就發給每人一個逃脫用哥列姆

play15:10

逃脫用哥列姆是什麼呢

play15:12

他是一個裝在瓶子裡面的泥人

play15:15

如果你遇到危險的時候 就打破這個瓶子

play15:18

哥列姆呢 就會救你 帶你離開這個迷宮

play15:22

所以在迷宮裡面呢,在一級魔法師考試進入迷宮之後,有一個考生叫艾戴爾,他就遇到了染折的複製體,所以他就受了重傷,所以他就決定放棄這張考試,他就打破了這個瓶子,那這個哥列姆呢就出來,一開始出來的時候他是坐著的,感覺正在做一些運算

play15:41

然後這個時候呢 染折的複製體就對艾黛兒發動攻擊

play15:46

然後這個哥列姆呢 就幫艾黛兒擋住了染折的攻擊

play15:50

擋住了染折複製體的攻擊

play15:53

那艾黛兒還讚嘆了一句

play15:54

他還能確保使用者的安全啊 真是太方便了

play15:58

然後哥列姆就把艾黛兒抱起來 逃出了迷宮

play16:02

那這個哥列姆是怎麼做的呢

play16:04

你可能以為哥列姆是用魔法做的

play16:06

我告訴你 在這個動畫裡面有講

play16:09

這個哥列姆呢 是列努林這幾年才開發出來的

play16:15

你想魔法的發展都已經有上千年了

play16:17

為什麼這幾年才開發出可以自動運行的哥列姆呢

play16:22

那是因為哥列姆背後是用大型語言模型在運作的

play16:26

他是一個用大型語言模型運作的AI agent

play16:30

那個列努林就是發現了大型語言模型以後

play16:33

決定把它加到哥列姆裡面

play16:35

才能讓哥列姆可以做自主運行

play16:38

我們來看一下這個哥列姆是怎麼做自主運行的

play16:42

他是一個AI agent

play16:43

所以他需要有一個終極目標

play16:46

他的終極目標是什麼呢

play16:48

我想他的終極目標可能是

play16:50

你會自律行動安全的把考生帶出迷宮

play16:54

那哥列姆剛創造出來的時候

play16:56

他是沒有任何記憶的

play16:58

所以他的記憶是空的

play17:00

現在他看到的狀態是

play17:02

眼前是遭遇複製體攻擊而受到重傷的艾黛兒

play17:07

那你可能會想說

play17:08

可是實際上的狀況看到的是畫面啊

play17:11

要怎麼把它變成文字輸入給語言模型呢

play17:14

也許你可以用的是Image Captioning的技術

play17:17

現在已經有很多技術

play17:19

可以把圖片轉成描述的文字

play17:22

所以也許你可以呼叫一個Image Captioning的Model

play17:25

把現在的狀況翻譯成文字

play17:28

那大型語言模型就可以讀到現在的狀態

play17:30

是眼前是受到重傷的艾黛兒

play17:33

接下來呢

play17:34

這個語言模型就可以根據他的終極目標、記憶、還有狀態

play17:39

來制定接下來運行的計畫

play17:42

現在的GPT-4可以做到類似的事情嗎?

play17:46

可以做到類似的事情

play17:47

我就給他一個目標

play17:48

他的目標是你會自律行動安全的把考生帶出迷宮

play17:53

然後他的記憶目前是空白的

play17:56

他的狀態是看到受到重傷的愛戴爾

play17:59

接下來你只要叫他請產生行動計畫

play18:02

他就會自動產生一個行動計畫給你

play18:05

他的行動計畫第一點是

play18:07

立即評估艾黛萊的傷勢

play18:09

第二點是提供急救

play18:11

看起來都非常的合理

play18:13

現在呢有了這個行動計畫以後

play18:16

我們就把這個行動計畫給大型圓模型

play18:19

叫他按照這個行動計畫進行執行

play18:22

大型語言模型可以按照計畫進行行動嗎

play18:26

完全可以

play18:27

你就把剛才的目標、記憶、狀態

play18:30

還有剛才產生的這個行動計畫呢

play18:33

給大型語言模型

play18:35

接下來你跟大型語言模型說

play18:38

請採取下一步行動

play18:40

那我這邊有強調說執行一個動作就好

play18:42

不然他會把所有動作都執行完

play18:44

我叫他採取下一步的行動

play18:46

他就說那我下一步的行動

play18:48

就是評估愛戴爾的傷勢

play18:51

比如說他會仔細檢查身上的每一處傷口

play18:54

看有沒有大出血或骨折的跡象

play18:57

會看看他是否還有意識

play18:59

是否有震盪或其他休克的跡象等等

play19:02

那這邊的一個難題是

play19:04

這邊產生的是文字的行動

play19:06

這個文字的行動要怎麼轉成具體的行動呢

play19:11

一個機械人 一個哥列姆 一個泥人

play19:16

他要怎麼按照這串文字

play19:18

真的進行行動呢

play19:19

這就是整個AI agent

play19:21

我覺得目前最困難的地方

play19:24

你可以找到很多的論文

play19:26

在嘗試把這些文字的指令轉成真實在物理世界或在虛擬世界可執行的行動

play19:34

我這邊引用了一篇今年二月的論文

play19:37

他就說這個Agent要有兩個

play19:40

一個叫Slow Agent負責高層次的行動

play19:44

Slow Agent它產生的指令都是人類可以理解的自然語言

play19:49

但是我們還需要一個Fast Agent

play19:52

Fast Agent就是按照Slow Agent的指令

play19:55

去想辦法真的執行這個行動

play19:57

舉例來說

play19:58

他可能可以訓練一個類神經網路

play20:01

專門執行特定的行動

play20:02

或者是這個Fast Agent

play20:04

可以乾脆就產生一段程式碼

play20:07

運行這段程式碼以後

play20:09

把自然語言

play20:10

本來用自然語言描述的行為

play20:12

轉成在物理世界

play20:14

或者是虛擬世界真的可執行的行動

play20:17

那到底做起來怎麼樣

play20:18

我把論文的連結留在這邊

play20:20

給大家參考

play20:21

至少他看起來是可以運作在這個

play20:23

Minecraft的虛擬世界裡面的

play20:26

那總之假設我們的現在的行動是可以執行的

play20:30

真的能夠評估艾黛的傷勢

play20:32

那在評估傷勢的過程中

play20:34

外界的環境可能是會改變的

play20:37

比如說會有什麼樣的改變呢

play20:39

不要忘了染折的複製體還在那裡

play20:41

所以呢染折的複製體

play20:43

可能會襲擊哥列姆

play20:47

所以哥列姆受到染折的複製體的襲擊

play20:50

所以怎麼辦呢?現在外在的狀態變了

play20:53

所以計畫也應該跟著改變

play20:56

那這個語言模型可以透過反思的方式來改變它的計畫

play21:02

如果你想要看語言模型怎麼改變計畫

play21:05

你可以參考一篇叫DEPS的paper

play21:08

它也是運作在Minecraft裡面的

play21:10

讓語言模型在Minecraft裡面可以根據環境的變化

play21:14

改變它原來的計畫

play21:16

那我們就來試試看當狀態改變的時候

play21:19

之後計畫是否會跟著改變

play21:21

所以我現在就告訴語言模型

play21:23

除了剛才有的那些資訊以外

play21:25

告訴他現在執行的動作

play21:27

正在評估愛戴爾的傷勢

play21:29

然後有新的狀態,這個狀態是

play21:31

在評估傷勢的時候遭遇複製體的襲擊

play21:33

請產生新的行動計畫

play21:35

接下來呢

play21:37

這個語言模型

play21:39

就可以產生新的行動計畫

play21:41

發現他新的行動計畫的第一點呢

play21:43

是要保護愛戴爾

play21:45

因為評估傷勢現在已經沒有那麼重要了

play21:47

那麼重要了

play21:48

所以真正更重要的事情是

play21:50

他要優先保護愛戴爾

play21:53

他就可以產生一個新的行動計畫

play21:56

那除了產生行動計畫以外

play21:59

這個語言模型能不能夠反思剛才的狀態

play22:02

然後得到一些未來可以用的經驗呢

play22:05

也是可以的

play22:07

如果你想要知道語言模型

play22:09

如何透過反思取得未來可用的經驗

play22:12

可以參考 React 跟 Reflection 這兩篇 paper

play22:15

那我也把論文的連結留在投影片上

play22:18

我們就來實際試試看語言模型能不能夠產生有用的經驗

play22:23

語言模型如何產生經驗呢

play22:25

你就下一句指令告訴他

play22:27

簡短總結值得記下來的經驗

play22:30

他就反思之後列了幾點他覺得應該記下來的經驗

play22:34

包括要對環境有警覺性等等

play22:37

而有了這些經驗以後

play22:39

如果再遇到同樣的狀態

play22:42

模型就可以根據過去所得的經驗產生不同的行動

play22:46

這些經驗會影響模型採取的行動

play22:50

那我們就來看看剛才實際的例子

play22:52

看看哥列姆的例子

play22:53

看看模型是不是真的會因為經驗而改變它的行動

play22:58

這個是模型的目標

play23:01

它現在有記憶了

play23:03

剛才記憶是空的

play23:04

現在是有記憶的

play23:06

在有了記憶的情況下叫它產生行動計畫的時候

play23:09

它現在行動計畫的第一點

play23:11

第一點仍然是評估愛戴爾的傷勢

play23:13

但是第二點呢

play23:15

是要保持高度的環境警覺性

play23:17

剛才在沒有記憶的時候

play23:19

他的第二點是立即施予急救

play23:21

但現在他的第二點呢

play23:23

變成要保持高度的警覺性

play23:25

然後接下來根據這個計畫呢

play23:27

我們來產生下一步的行動

play23:29

如果在沒有任何記憶的情況下

play23:31

這個大型語言模型

play23:33

他下一步的行動

play23:35

是會立即評估愛戴爾的傷勢

play23:37

那如果有記憶的話

play23:39

他的行動就會略有不同

play23:41

你看他這邊多加了一句話

play23:43

就在評估愛戴爾傷勢的過程中

play23:45

我也會保持高度警覺

play23:47

注意四周是否有複製體

play23:49

或其他潛在的威脅

play23:51

所以有了記憶會影響

play23:53

有了記憶有了經驗

play23:55

會影響這個模型的行為

play23:57

讓他採取更好的行為

play23:59

他可以透過他的經驗

play24:01

改變他未來所會採取的行動

play24:04

所以這個就是一個

play24:06

想像中的未來AI agent

play24:08

可以做到的事情

play24:10

依據今天大型語言的能力

play24:12

我相信其實AI agent

play24:14

很有可能在一兩年後

play24:16

你就會看到滿坑滿谷的AI agent

play24:19

生活在我們的周遭

play24:22

而如果你想要知道更多有關AI agent的事情的話

play24:25

我這邊放了一篇overview paper

play24:27

然後這一個圖是從overview paper裡面截取出來的

play24:30

就是作者想像了一個未來

play24:32

充斥了AI agent的虛擬世界

play24:36

好 那這個部分呢 我其實就講到這邊

play24:39

那我們還有大概五分鐘的時間

play24:41

我就可以來回答一下同學們的問題

Rate This

5.0 / 5 (0 votes)

Related Tags
语言模型AI代理多步骤任务智能助手未来趋势AutoGPTStanford小镇Minecraft机器人操控自动驾驶记忆能力经验学习
Do you need a summary in English?