书栈网 · BookStack 本次搜索耗时 0.007 秒,为您找到 104 个相关结果.
  • 钉钉机器人

    钉钉机器人 钉钉机器人 如果您想启用钉钉机器人消息通知,请确保您已经获取了机器人的 API Webhook 以及在 Crawlab 中配置好了 API Webhook。如何获取 API Webhook 请查看 官方文档 。官方文档可能有些过时了,如果有问题请加微信 tikazyq1 拉群寻求帮助。 ⚠️注意:钉钉机器人要求安全验证,建议在“自定义...
  • 爬虫部署

    爬虫部署 MongoDB GridFS 爬虫部署 之前已经在部署爬虫 中介绍了,爬虫是自动部署在工作节点上的。下面的示意图展示了Crawlab爬虫部署的架构。 如上图所示,整个爬虫自动部署的生命周期如下(源码在services/spider.go#InitSpiderService ): 主节点每5秒,会从爬虫的目录获取爬虫信息,然后更新...
  • 任务结果

    任务结果 查看结果 下载结果 任务结果 查看结果 可以在 Crawlab 界面上查看任务结果,想看到结果的前提是需要将爬虫集成到 Crawlab。如何集成请查看 集成爬虫章节 。 查看结果位置在 任务详情 > 结果 标签。 下载结果 结果储存在数据库中之后,我们有时候需要将其导出,这时可以在界面中进行导出操作。 导航至 任务...
  • 监控

    监控 监控概览 监控时序图 监控 ⚠️注意:该功能为 Crawlab 专业版 专属功能,如需体验此功能,请访问 演示网站 。 对于企业级应用来说,特别是分布式应用服务,经常需要监控各个服务器或数据库的性能指标,例如 CPU、内存、磁盘空间以及网络资源。爬虫管理平台同样不例外,也是需要了解爬虫所在节点的性能状况,以便更合理的分配资源、及时扩容...
  • MySQL

    MySQL 数据源集成 MySQL 数据源集成 ⚠️注意:该功能为 Crawlab 专业版 专属功能,如需体验此功能,请访问 演示网站 。 以下为操作步骤: 在目标数据库中,创建目标表,要保证其中包含 task_id 列,并为 varchar 类型; 在 “设置” -> “数据源” 中创建新的数据源,选择 MySQL ,输入目标数据库...
  • CI/CD

    CI/CD 持续集成/持续部署 CI/CD 持续集成/持续部署 在生产环境或大型项目中,我们少不了需要版本控制系统(VCS)和自动化部署(Automatic Deployment)的情况。对于企业来说,生产环境的爬虫开发一般是一个自动化过程。它会经历开发、部署、上线、验证这几个步骤。而这个流程一般是不断迭代(Iterative)的,需要不断更新和发布...
  • 归档

    以下文档是crawlab作者未编排到目录中的文档,现归档到这里。 修改节点信息 网站 创建爬虫 统计数据汇总 下载结果 查看任务
  • 自定义爬虫

    自定义爬虫 通过 Web 界面 1. 打包为 Zip 文件 2. 输入爬虫数据 3. 创建爬虫 通过 CLI 命令行工具 执行命令上传爬虫 查看帮助信息 关于多爬虫项目 自定义爬虫 自定义爬虫是指用户可以添加的任何语言任何框架的爬虫,高度自定义化。当用户添加好自定义爬虫之后,Crawlab 就可以将其集成到爬虫管理的系统中来。 我们...
  • 自定义爬虫

    自定义爬虫 通过 Web 界面 1. 打包为 Zip 文件 2. 输入爬虫数据 3. 创建爬虫 通过 CLI 命令行工具 执行命令上传爬虫 查看帮助信息 关于多爬虫项目 自定义爬虫 自定义爬虫是指用户可以添加的任何语言任何框架的爬虫,高度自定义化。当用户添加好自定义爬虫之后,Crawlab 就可以将其集成到爬虫管理的系统中来。 我们...
  • 任务

    任务 任务 任务其实就是指某一次抓取任务或采集任务。任务与爬虫关联,其执行的也是爬虫指定的执行命令或采集规则。抓取或采集的结果与任务关联,因此可以查看到每一次任务的结果集。Crawlab的任务是整个采集流程的核心,抓取的过程都是跟任务关联起来的,因此任务对于Crawlab来说非常重要。任务被主节点 触发,工作节点 通过任务队列接收任务,然后在其所在节...