从redis启动Spider

打赏原作者来源:piaosanlang 浏览 1476 扫码分享 2020-03-24 07:46:34

scrapy_redis.spiders下有两个类RedisSpider和RedisCrawlSpider,能够使spider从Redis读取start_urls

spider从redis中读取要爬的start_urls,然后执行爬取，若爬取过程中返回更多的request url，那么它会继续进行直至所有的request完成之后，再从redis start_urls中读取下一个url，循环这个过程

以example下mycrawler_redis.py举例

scrapy runspider example/spiders/myspider_redis.py

redis-cli lpush myspider:start_urls http://baidu.com

以example下mycrawler_redis.py举例

scrapy runspider example/spiders/mycrawler_redis.py

redis-cli lpush mycrawler:start_urls http://baidu.com

当前内容版权归 piaosanlang 或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问 piaosanlang .

本文档使用 BookStack 构建