如何防止死循环

打赏原作者来源:piaosanlang 浏览 1491 扫码分享 2020-03-24 07:47:31

在Scrapy的默认配置中，是根据url进行去重的。这个对付一般网站是够的。但是有一些网站的SEO做的很变态：为了让爬虫多抓，会根据request，动态的生成一些链接，导致爬虫在网站上抓取大量的随机页面，甚至是死循环。。

为了解决这个问题，有2个方案：

(1) 在setting.py中，设定爬虫的嵌套次数上限(全局设定，实际是通过DepthMiddleware实现的)：

DEPTH_LIMIT = 20

(2) 在parse中通过读取response来自行判断(spider级别设定) ：

def parse(self, response):
    if response.meta['depth'] > 100:
        print 'Loop?'

当前内容版权归 piaosanlang 或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问 piaosanlang .

本文档使用 BookStack 构建