「上集」Reader API 来了,还要啥爬虫?4 种秒转网页给 AI 喂知识的办法,提升你的知识库构建技能 | 回到Axton

Axton 知识分享 / Axton knowledge sharing
29 Apr 202408:37

Summary

TLDR你好,欢迎回到 Axton 的分享。本次视频介绍了 Jina Reader API,这是一款简便的网页内容获取工具。你只需提供网址,它便能提取核心内容,适合用于构建知识库。视频展示了如何使用该 API 获取微信公众号文章、博客和新闻网站的内容,并介绍了如何将其应用于自动化工作流平台 Make 和 Zapier。此外,还展示了在 ChatGPT 的 GPTs 和 Dify 平台上构建智能体的方法。更多详细内容和免费的 Make 和 Zapier 模板可以访问 axtonliu.ai 获取。

Takeaways

  • 🌟 Jina推出了一款名为Jina Reader API的新工具,用于简化网页内容的获取。
  • 🔍 Jina Reader API能够将网页内容整理成适合大语言模型使用的格式,有助于构建知识库。
  • 📚 视频中介绍了Jina Reader API的四种用法,包括自动化工作流和AI智能体中的应用。
  • 🛠️ 测试Jina Reader API时使用了三种类型的网页:微信公众号文章、普通博客文章和TheVerge的新闻。
  • 📝 Jina Reader API的主要目的是提取网页的核心内容,并以Markdown格式输出,方便语言模型使用。
  • 🔗 使用Jina Reader API时,只需在浏览器中输入API网址后接所需网页的URL即可获取内容。
  • 🔄 Jina Reader API可以集成到Make和Zapier这样的自动化工作流平台中,以实现更广泛的应用。
  • 📈 Make平台能够与数千种APP集成,通过调用Reader API扩展其功能,例如与Notion结合使用。
  • 📑 Zapier平台使用webhook触发流程,调用Jina Reader API后在Notion中创建新记录。
  • 🤖 除了自动化平台,Jina Reader API还可以在AI智能体平台如ChatGPT的GPTs和Dify中使用。
  • 🎓 视频最后提供了Make和Zapier的模板下载链接,并推荐了关于AI核心能力和自动化的课程。

Q & A

  • Jina Reader API 是什么?

    -Jina Reader API 是一款由 Jina 推出的工具,能够将网页内容整理成适合大语言模型使用的格式,主要用于提取网页的核心内容,去除 HTML 标记和脚本等。

  • Jina Reader API 的主要目的是什么?

    -Jina Reader API 的主要目的是提取网页中的核心内容,并将其转换为 Markdown 格式,便于大语言模型处理和使用。

  • 如何使用 Jina Reader API 获取网页内容?

    -用户只需将需要爬取内容的网址输入到 Jina Reader API 的网址后面,然后点击获取内容按钮,等待一段时间后即可在输出结果中看到整理好的内容。

  • Jina Reader API 是否能处理微信公众号的文章?

    -根据脚本中的演示,Jina Reader API 能够处理微信公众号的文章,并且能够正常获取文章内容。

  • 脚本中提到的三种网页类型分别是什么?

    -脚本中提到的三种网页类型包括微信公众号的文章、普通的博客文章以及新闻网站 TheVerge 的一篇新闻。

  • 如何将 Jina Reader API 结合到自动化工作流平台中?

    -脚本中提到了两个自动化工作流平台 Make 和 Zapier,可以通过将 Jina Reader API 嵌入到这些平台的工作流程中,实现自动化获取网页内容的功能。

  • 在 Make 平台上如何调用 Jina Reader API?

    -在 Make 平台上,可以通过编写工作流程,将 Jina Reader API 的网址与需要爬取的网页 URL 结合,然后发送 HTTP 请求来调用 API,并获取处理后的结果。

  • Zapier 是如何使用 Jina Reader API 的?

    -Zapier 使用 webhook 来触发流程,用户可以在浏览器中输入 webhook 地址,并把要爬取的网页 URL 作为参数传递,从而触发整个流程并调用 Jina Reader API。

  • 脚本中提到的两个 AI 智能体平台是什么?

    -脚本中提到的两个 AI 智能体平台是 ChatGPT 的 GPTs 和一个叫做 Dify 的开源平台。

  • 如何获取 Make 和 Zapier 的模板?

    -脚本中提到,可以将 Make 和 Zapier 的模板免费分享给大家,感兴趣的朋友可以访问网址 axtonliu.ai,在精英学院中免费福利部分下载。

  • 脚本中提到的两门 AI 相关课程是什么?

    -脚本中提到的两门 AI 相关课程是 'AI 实战派' 和 'AI 自动化课程',前者以 Prompt Engineering 提示工程为主线,后者聚焦于 AI 与无代码自动化技术的结合。

Outlines

00:00

😀 Jina Reader API 介绍及基本用法

本段介绍了Jina Reader API,这是Jina推出的一款用于获取网页内容的工具。它能够将网页内容整理成适合大语言模型使用的格式,非常适合用于构建知识库。视频将展示四种不同的用法,包括在自动化工作流和AI智能体中的使用。测试将使用三种类型的网页:微信公众号文章、普通博客文章和TheVerge的新闻。Jina Reader API的主要目的是提取网页核心内容,去除HTML标记和脚本,为大语言模型提供数据输入。演示中展示了如何通过输入网址来获取网页内容,并将其转换成Markdown格式。此外,还介绍了如何将Jina Reader API嵌入到浏览器中直接使用,以及如何将其应用到Make和Zapier这样的工作流平台中。

05:02

😎 Jina Reader API 在自动化工作流平台的应用

这段内容主要讲述了如何将Jina Reader API应用到Make和Zapier这两个自动化工作流平台中。首先,介绍了Make平台的使用,它能够与数千种APP集成,从而扩展Reader API的应用范围。通过Make,可以创建一个流程,从Notion数据库中获取网页URL,然后使用Reader API抓取网页内容,并将其写入Notion页面。接着,演示了如何使用Zapier平台,它使用webhook来简化触发流程。通过在浏览器中输入webhook地址并传递URL参数,可以触发Zapier流程,调用Jina Reader API获取网页内容,并在Notion中创建新的数据库记录。此外,还提到了可以在AI智能体平台如ChatGPT和Dify中使用Reader API来构建机器人,并提供了Make和Zapier的模板下载链接,以及AI与自动化相关内容的课程信息。

Mindmap

Keywords

💡Axton

Axton 是视频中提到的一个平台或品牌,它与构建知识库和分析文章数据相关。视频中提到了欢迎回到Axton,表明这是一个系列内容或者是一个特定的社区平台,用于分享和讨论与AI相关的应用和工具。

💡Jina Reader API

Jina Reader API 是视频中介绍的一款工具,用于获取网页内容。它能够将网页内容整理成适合大语言模型使用的格式,是构建知识库的利器。视频中提到了Jina Reader API的网址和其主要功能,即提取网页核心内容并去除HTML标记和脚本。

💡自动化工作流

自动化工作流是指通过自动化技术来执行一系列任务的过程。在视频中,自动化工作流与Jina Reader API结合使用,展示了如何将网页内容自动提取并应用到不同的平台和场景中,如Make和Zapier。

💡微信公众号

微信公众号是微信平台上的一种服务账号,用户可以通过它发布文章和信息。视频中提到了使用Jina Reader API测试微信公众号文章的爬取,说明了API能够处理可能存在爬取限制的网页内容。

💡Markdown

Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的XHTML(或者HTML)文档。视频中提到Jina Reader API将网页内容转换成Markdown格式,便于后续的编辑和使用。

💡Make

Make 是一个自动化工作流平台,视频中提到了如何使用Make调用Jina Reader API,以及如何将结果集成到Notion中。Make的集成能力扩展了Reader API的应用范围,使得自动化流程更加灵活和强大。

💡Zapier

Zapier 是一个在线自动化工具,它允许用户在不同的网络应用程序之间创建工作流程。视频中展示了如何使用Zapier通过webhook触发流程,并结合Jina Reader API来获取网页内容并写入Notion。

💡Notion

Notion 是一款集成了笔记、数据库、看板等多种功能的应用,它支持用户以灵活的方式组织信息和工作。视频中提到了使用Make和Zapier将Jina Reader API获取的内容写入Notion,展示了Notion在自动化工作流中的应用。

💡Prompt Engineering

Prompt Engineering 是一种技术,它涉及设计和优化提示(prompts)来引导AI模型生成特定的输出。视频中提到了AI实战派课程,以Prompt Engineering为主线,教授如何利用这一技术提升AI的应用效果。

💡AI智能体

AI智能体是指能够执行任务、做出决策或以其他方式表现出智能行为的系统或程序。视频中提到了使用Jina Reader API在AI智能体平台如ChatGPT和Dify中打造机器人,说明了Reader API在AI领域的广泛应用。

Highlights

Axton介绍了Jina Reader API,一款简单易用的网页内容获取工具。

Jina Reader API能够将网页内容整理成适合大语言模型使用的格式。

介绍了Jina Reader API的四种用法,包括自动化工作流和AI智能体中的应用。

测试了Jina Reader API对微信公众号文章、普通博客文章和TheVerge新闻的处理能力。

Jina Reader API的主要目的是提取网页核心内容,去除HTML标签和脚本。

演示了如何通过Jina Reader API获取微信公众号文章的Markdown格式内容。

Jina Reader API的简单用法是在浏览器中输入网址获取网页内容。

Jina Reader API最适合嵌入到工作流中使用。

讲解了如何将Jina Reader API应用到Make和Zapier两大工作流平台。

Make平台可以与数千种APP集成,扩展了Reader API的应用范围。

展示了结合Reader API和Notion实现网页内容爬取的流程。

Make工作流可以将网页内容写入Notion页面。

Zapier使用webhook触发流程,简化了爬取网页内容的操作。

Zapier流程可以在Notion中创建新记录并写入爬取内容。

除了自动化平台,Jina Reader API还可以在AI智能体平台如ChatGPT和Dify中使用。

Make和Zapier的模板将免费分享给用户。

Axton提供了关于AI核心能力和AI自动化的课程。

AI实战派课程聚焦于Prompt Engineering的基础知识和高级应用。

AI自动化课程专注于AI与无代码自动化技术的结合,打造高效工作流。

Transcripts

play00:00

嘿,你好,欢迎回到 Axton

play00:02

构建知识库或者分析各种文章数据

play00:05

是大家使用 AI 很重要的一个应用场景

play00:08

因此我们常常会需要用到爬虫

play00:11

去爬取某个网站上的内容

play00:13

现在呢,Jina 推出了一款非常简单

play00:16

好用的获取网页内容的工具

play00:19

叫做 Jina Reader API

play00:21

你只要把网址给它

play00:23

它就能把网页的内容整理成

play00:26

很适合大语言模型使用的格式

play00:28

这简直就是构建知识库的利器啊

play00:31

那今天呢,我就给大家介绍它的四种用法

play00:34

这就分别包括在自动化工作流当中的使用

play00:38

以及在 AI 智能体当中的使用方法

play00:41

那测试过程中呢

play00:42

我们会用到三个类型的网页

play00:44

一个呢是微信公众号的文章

play00:47

微信公众号呢

play00:48

有时候会对爬取呢做一些限制

play00:50

我们看看它能不能正常的处理

play00:52

还有就是我的一个普通的博客文章

play00:55

另外,新闻网站 TheVerge 的一篇新闻

play00:59

我们就用这三个网址来进行我们今天的一系列的演示

play01:03

如果你对类似的话题感兴趣呢

play01:05

请帮我点个赞也能收藏起来

play01:07

方便你以后回看的时候查找

play01:09

好,咱们开始

play01:10

Jina Reader API 的网址呢

play01:12

就在 Jina.ai 后面加一个 reader

play01:14

翻译成中文呢,它叫做读取器

play01:17

那 Jina 做 Reader API 它的主要的目的呢

play01:20

就是提取网页当中的核心内容

play01:22

把其中的 HTML 当中的各种乱七八糟的标记啊

play01:25

脚本等等全部扔掉

play01:27

就交给你的大语言模型作为它的数据输入

play01:30

我们可以先直接来看它的演示

play01:33

好,在它的演示当中呢

play01:34

我们只需要把这边直接输入

play01:36

你需要爬取内容的网址就可以进行测试了

play01:39

比如我们可以先拿我这个微信公众号的文章来做测试

play01:43

我们把链接拷贝过来

play01:45

好,粘贴到这里

play01:47

这是微信公众号的一个 URL

play01:49

那输入之后呢,我们直接点这个按钮获取内容

play01:52

等待一段时间我们就可以在右边这边

play01:54

看到它的输出结果了

play01:56

好,左边呢是获取到的 HTML

play01:59

好,这边就返回了结果

play02:01

首先就是它的标题,然后 URL

play02:04

那页面的内容呢就被它转换成了

play02:06

Markdown 格式的内容

play02:08

我们可以直接把它的 Markdown 内容拷贝出来

play02:11

粘贴到 Markdown 编辑器里面我们看一下效果

play02:18

这是我的微信公众号的文章

play02:20

那 Jina API 取到的结果就是这样

play02:22

文章包括格式都保留了

play02:25

所以效果呢还是很不错的

play02:26

那它的用法呢其实也很简单

play02:28

就是你把你需要拔取的网页内容的网址 URL 呢

play02:33

写在它的网址 r.Jina.ai 的后面就可以了

play02:38

那所以呢它的几种用法当中

play02:40

最简单的一种用法呢

play02:42

就是我们直接在浏览器当中输入网址

play02:44

我们可以简单看一下效果

play02:46

好我重新打开一个浏览器

play02:48

首先这边输入的就是 Jina Reader API 的网址

play02:52

然后我们把公众号的这个网址再拷贝过来

play02:56

粘贴到它的后面

play02:58

好这就是它读出来的这个网页的

play02:59

Markdown 格式的内容

play03:01

这是最简单的一种用法

play03:03

当然这不是 Reader API 的主要的用法

play03:06

因为这样啊你还不如直接去网页里面拷贝内容呢

play03:10

所以呢这就是它的名字里面有个 API 的原因啊

play03:12

它最适合的用法呢

play03:14

就是把它嵌入到你的工作流当中去

play03:17

接下来呢就给大家讲解一下

play03:19

我们怎么样把这样的 API 呢

play03:21

应用到两大工作流平台

play03:23

Make 和 Zapier 当中去

play03:25

视频最后呢我会把 Make 和 Zapier 的两个模板呢

play03:27

免费分享给大家

play03:29

Make 呢它调用 Reader API 呢非常简单

play03:32

而且由于 Make 呢它能够跟

play03:34

数千种的 APP 呢进行集成

play03:36

所以啊也就相当于很大的程度上

play03:38

扩展了 Reader API 的应用范围

play03:41

比如我们就可以结合 Reader API 以及 Notion

play03:44

来做一个扒取网页的流程

play03:46

这里呢就是我的 Notion 的一个测试数据库

play03:48

我们可以看到呢它只有一个 URL 字段里头有内容

play03:52

就是一个网址

play03:54

标题是空的

play03:55

这个页面呢里头也没有内容

play03:57

那么我们这个 Make 流程的作用呢就是扒取

play04:00

Notion 这个 URL 它对应的网页内容

play04:03

然后把网页内容呢写到 Notion 的这个页面里面去

play04:08

这个网址呢是我的一篇博客文章

play04:10

我们可以先看一下它的原样长什么样

play04:13

一个对比评测的文章

play04:15

好,现在我们把 Notion 和 Make 工作流给它并排

play04:18

我们直接点击运行来运行这个工作流

play04:22

可以注意这边的变化

play04:24

好,有了标题

play04:25

然后这边图标出来了

play04:27

表示它的内容有了

play04:28

整个工作流呢也运行完成

play04:30

我们可以打开看一下

play04:32

标题

play04:33

然后 URL

play04:34

下面就是 Markdown 格式的我的网页的内容

play04:37

都获取过来了

play04:39

我们可以把它同样拷贝到一个

play04:40

Markdown 编辑器里面

play04:42

看看它的 Markdown 的效果

play04:44

粘贴过来

play04:45

好,这就是我的博客截取过来的效果

play04:48

这个效果还是很不错的

play04:50

图片也截到了

play04:51

那么 Make 这边是怎么调用 Reader API 呢

play04:54

其实很简单

play04:55

那为了演示方便呢

play04:56

这边我就直接把它要处理的

play04:57

这个 URL 呢写死在这个地方了

play05:00

当然你实际当中使用的时候呢

play05:02

你可以动态的去 Notion 的数据库

play05:03

里面获取这个 URL

play05:05

然后把它填在这就可以

play05:07

那这点呢对学过我自动化课程的小伙伴来说

play05:10

没有任何的难度

play05:11

所以呢从本质上来看

play05:12

我们用 Make 去调用 Jina Reader API 呢

play05:15

就是给这个组合出来的一个网址呢

play05:18

发一个 HTTP 的请求

play05:20

就可以得到 Jina Reader API 处理之后的

play05:23

相应的返回结果

play05:24

那既然 Make 能够做到

play05:25

同样作为自动化工作流的平台的 Zapier

play05:28

能不能做到呢

play05:29

当然是可以了

play05:31

我们就来看一下

play05:32

为了方便呢

play05:33

我们还是把它跟刚才的 notion 页面并排显示

play05:37

play05:38

这时候 notion 我放右边了

play05:40

Zapier 使用的是一个 webhook

play05:43

这样就让我们的触发流程变得更加简单了

play05:46

那过程就是这样

play05:48

我在浏览器当中呢

play05:50

输入 webhook 的地址

play05:52

然后把要爬取的网页内容的 URL 作为参数

play05:56

给到这种地址呢

play05:57

那这样呢就会触发 Zapier 的整个流程

play06:00

那之后呢

play06:01

Zapier 就会调用 Jina 的 reader API

play06:04

然后获取到网页内容之后呢

play06:06

在 notion 当中创建一个新的数据库记录

play06:09

并且把爬取到的内容写到 notion 的页面里头去

play06:13

好 我们来试一下效果

play06:15

好 这样

play06:16

大家看起来会更方便一些

play06:18

那首先我们要把 Zapier 的这个

play06:21

webhook 的地址 copy 过来

play06:23

好 我们首先粘贴的是 Zapier 的 webhook 的地址

play06:27

那在 webhook 的 URL 地址后面呢

play06:30

就是我们需要爬取的网页的地址

play06:32

那这里呢

play06:33

我就用我的一个博客

play06:34

一个普通的博客文章来作为测试

play06:37

这就是我前两天刚发布的一个 AI 快讯的文章

play06:40

主要内容就是这些

play06:42

我们拷贝他的 URL 过来

play06:44

因为这边我后面要给他的是一个 URL

play06:47

是一个网址参数嘛

play06:48

所以这边我要加上一个 URL

play06:51

再把我刚才的网址拷贝给他

play06:54

就是这么一串网址

play06:55

待会我们注意

play06:56

他这边会新增加一条记录

play06:58

好 我现在回车

play06:59

OK 新添加一条记录

play07:01

标题就是我就是测试一下 Zapier

play07:04

然后点进去

play07:05

我们可以看到他的内容也得到了

play07:07

标题 Title

play07:08

微信和 Make 平台的集成

play07:10

URL 的 Source

play07:12

以及 Markdown 格式的内容

play07:14

都已经成功的获取到了

play07:16

说明这个 Zapier

play07:17

整个 Zapier 的流程也是正常的

play07:19

好 那这里呢

play07:20

好,那除了能在自动化平台当中

play07:22

使用 reader API 呢

play07:23

咱们还可以在两个流行的

play07:25

AI 智能体平台

play07:27

用 reader API 来打造自己的机器人

play07:30

那这就是 ChatGPT 的 GPTs

play07:34

以及一个叫做 Dify 的开源平台

play07:37

那 Make 和 Zepier 的模板呢

play07:39

免费分享给大家

play07:41

大家可以把这些模板呢

play07:42

当做一个起点

play07:44

那感兴趣的朋友呢

play07:45

可以输入网址

play07:46

axtonliu.ai

play07:48

到我的精英学院里边

play07:50

在这里免费福利

play07:52

到这里去下载

play07:53

如果想了解更多

play07:54

AI 与自动化的内容呢

play07:56

也可以看一看我这两门

play07:58

关于 AI 的核心能力的课程

play08:00

AI 实战派呢

play08:01

它是以 Prompt Engineering 提示工程

play08:03

为主线的课程

play08:05

它带你学习从 GPT 和

play08:07

Prompt Engineering 的基础知识

play08:09

以及高级应用

play08:10

为你的 AI 之旅呢

play08:12

打下一个坚实的基础

play08:14

而 AI 自动化课程呢

play08:16

它是聚焦于

play08:17

AI 跟无代码自动化技术的配合

play08:19

它用来打造一个高效的

play08:21

自动化工作流

play08:22

并且呢应用于实践

play08:24

让 AI 啊

play08:25

能够真正地提升你的

play08:26

效率和竞争力

play08:27

成为你手中一个

play08:28

真实的力量

play08:29

好,我是 Axton

play08:30

今天的分享就到这里

play08:31

咱们下期继续讲

play08:32

Reader API 在

play08:33

AI 智能体当中的使用方法

play08:35

咱们下期再见

Rate This

5.0 / 5 (0 votes)

関連タグ
Jina Reader网页爬虫知识库自动化AI应用微信公众号博客文章新闻网站TheVergeMarkdown
英語で要約が必要ですか?