其他爬虫

支持Crawlab 来源:Crawlab 浏览 347 扫码分享 2020-03-31 20:56:24

其他框架和语言

爬虫任务本质上是由一个shell命令来实现的。任务ID将以环境变量CRAWLAB_TASK_ID的形式存在于爬虫任务运行的进程中，并以此来关联抓取数据。另外，CRAWLAB_COLLECTION是Crawlab传过来的所存放collection的名称。

在爬虫程序中，需要将CRAWLAB_TASK_ID的值以task_id作为可以存入数据库中CRAWLAB_COLLECTION的collection中。这样Crawlab就知道如何将爬虫任务与抓取数据关联起来了。当前，Crawlab只支持MongoDB。

当前内容版权归 Crawlab 或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问 Crawlab .

本文档使用 BookStack 构建