魔豆文库文章爬虫使用教程

魔豆文库文章爬虫使用教程

演示站点：https://moredoc.mnt.ltd
演示账号: admin
演示密码: mnt.ltd

介绍

魔豆文库系统【专业版】从 3.0 版本开始，支持文章爬虫对文章进行采集。该爬虫是一个通用的文章内容爬虫，支持智能提取和自定义两个采集模式。

智能提取

智能提取，自动根据给出的链接去采集网页并自动识别文章的主体内容，并提取出来。

识别率能达到80%以上的准确率。也就是您在采集文章时，80%以上的文章页面不需要专门写采集规则。

自定义

这个适合有HTML基础的人使用，可以自定义采集一个页面的哪个元素选择器下的内容，以及排除哪个选择器的内容。

使用

想要给哪些用户组开放文章采集权限，直接在管理后台设置即可。

管理后台 -> 用户管理 -> 角色管理 -> 编辑相应用户组，然后在对话框中启用允许采集文章。

采集演示：智能提取

进入到 https://moredoc.mnt.ltd/post 页面，可以使用以下链接分别粘贴进去，选择智能提取，然后点击采集按钮执行采集进行测试。

示例链接：

https://www.liaoxuefeng.com/wiki/1252599548343744/1298069154955297
https://gitee.com/mnt-ltd/morender
https://github.com/mnt-ltd/moredoc
https://www.bookstack.cn/read/moredoc/v3.1.0.md
https://www.oschina.net/news/291313/moredoc-3-1-0-released

如果采集过来的文章中的图片没法查看，则有可能是网站启用了防盗链，不需要管它，直接保存即可，程序会自动将图片采集过来。

自定义采集规则

以采集 https://nightlies.apache.org/flink/flink-docs-release-1.19/zh/docs/dev/datastream/execution_mode/ 的文章为例。

1. 分析页面内容结构

浏览器打开页面，按F12，查看和分析页面内容结构。

2. 写采集规则

通过分析，我们发现，文档的主体内容选择器是article.markdown。

同时发现页面中的h1~h6标题，有锚点存在，排除掉它。排除选择器为 .anchor

同时我们也想要把内容中的关键字，如执行模式替换为爬虫采集，则我们的采集规则如下：

3. 执行采集

点击采集按钮，采集到的内容如下：

声明

魔豆文库该爬虫只是一个通用的爬虫功能，不针对特定网站。