第4天-爬虫进阶篇

经过三天爬虫入门篇章学习之后,我们有两条路可以走

  • 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展

  • 另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题(企业用人要求),然后再深入学习它的源码等知识,进一步强化。

框架概述

爬虫框架,其中比较好用的是 Scrapy 和 PySpider。

  • PySpider

    优点:分布式框架,上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。

    缺点:自定义程度低

http://docs.pyspider.org/en/latest/Quickstart/

  • Scrapy

    优点:自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,拿来研究分布式和多线程等等是最合适不过的。

    缺点:非分布式框架(可以用scrapy-redis分布式框架)

Scrapy

官方文档:

http://doc.scrapy.org/en/latest/intro/tutorial.html

豆瓣Python小组:

https://www.douban.com/search?q=python+%E7%88%AC%E8%99%AB

企业招聘要求:

爬虫框架Scrapy - 图1