机器人拦截
功能说明
bot-detect
插件可以用于识别并阻止互联网爬虫对站点资源的爬取。
配置字段
名称 | 数据类型 | 填写要求 | 默认值 | 描述 |
---|
allow | array of string | 选填 | - | 配置匹配 User-Agent 请求头的正则表达式,匹配命中时将允许其访问 |
deny | array of string | 选填 | - | 配置匹配 User-Agent 请求头的正则表达式,匹配命中时将屏蔽请求 |
blocked_code | number | 选填 | 403 | 配置请求被屏蔽时返回的 HTTP 状态码 |
blocked_message | string | 选填 | - | 配置请求被屏蔽时返回的 HTTP 应答 Body |
allow
和 deny
字段可以均不配置,则执行默认的爬虫判断逻辑,通过配置 allow
字段可以将原本命中默认爬虫判断逻辑的请求放行,通过配置 deny
字段可以增加额外的爬虫判断逻辑。
默认的爬虫判断正则表达式集合如下:
配置示例
放行原本命中爬虫规则的请求
若不作该配置,默认的 Golang 网络库请求会被视做爬虫,被禁止访问。
增加爬虫判断
根据该配置,下列请求将被禁止访问: