从redis启动Spider
scrapy_redis.spiders
下有两个类RedisSpider和RedisCrawlSpider,能够使spider从Redis读取start_urls
spider从redis中读取要爬的start_urls,然后执行爬取,若爬取过程中返回更多的request url,那么它会继续进行直至所有的request完成之后,再从redis start_urls中读取下一个url,循环这个过程
RedisSpider
以example
下mycrawler_redis.py
举例
- 运行
scrapy runspider example/spiders/myspider_redis.py
- push urls to redis:
redis-cli lpush myspider:start_urls http://baidu.com
RedisCrawlSpider
以example
下mycrawler_redis.py
举例
- run the spider:
scrapy runspider example/spiders/mycrawler_redis.py
- push urls to redis:
redis-cli lpush mycrawler:start_urls http://baidu.com
当前内容版权归 piaosanlang 或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问 piaosanlang .