魔豆文库文章爬虫使用教程
- 演示站点:https://moredoc.mnt.ltd
- 演示账号: admin
- 演示密码: mnt.ltd
介绍
魔豆文库系统【专业版】从 3.0 版本开始,支持文章爬虫对文章进行采集。该爬虫是一个通用的文章内容爬虫,支持智能提取
和自定义
两个采集模式。
智能提取
智能提取,自动根据给出的链接去采集网页并自动识别文章的主体内容,并提取出来。
识别率能达到80%以上的准确率。也就是您在采集文章时,80%以上的文章页面不需要专门写采集规则。
自定义
这个适合有HTML基础的人使用,可以自定义采集一个页面的哪个元素选择器下的内容,以及排除哪个选择器的内容。
使用
想要给哪些用户组开放文章采集权限,直接在管理后台设置即可。
管理后台 -> 用户管理 -> 角色管理 -> 编辑相应用户组,然后在对话框中启用允许采集文章
。
采集演示:智能提取
进入到 https://moredoc.mnt.ltd/post 页面,可以使用以下链接分别粘贴进去,选择智能提取
,然后点击采集按钮执行采集进行测试。
示例链接:
https://www.liaoxuefeng.com/wiki/1252599548343744/1298069154955297
https://gitee.com/mnt-ltd/morender
https://github.com/mnt-ltd/moredoc
https://www.bookstack.cn/read/moredoc/v3.1.0.md
https://www.oschina.net/news/291313/moredoc-3-1-0-released
如果采集过来的文章中的图片没法查看,则有可能是网站启用了防盗链,不需要管它,直接保存即可,程序会自动将图片采集过来。
自定义采集规则
以采集 https://nightlies.apache.org/flink/flink-docs-release-1.19/zh/docs/dev/datastream/execution_mode/ 的文章为例。
1. 分析页面内容结构
浏览器打开页面,按F12,查看和分析页面内容结构。
2. 写采集规则
通过分析,我们发现,文档的主体内容选择器是article.markdown
。
同时发现页面中的h1~h6标题,有锚点存在,排除掉它。排除选择器为 .anchor
同时我们也想要把内容中的关键字,如执行模式
替换为爬虫采集
,则我们的采集规则如下:
3. 执行采集
点击采集按钮,采集到的内容如下:
声明
魔豆文库该爬虫只是一个通用的爬虫功能,不针对特定网站。