Scrapy

Scrapy,Python开发的一个快速,高层次的web抓取框架;

  • Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。

  • 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

  • Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试

  • Scrapy使用了Twisted 异步网络库来处理网络通讯。

整体架构大致如下

Scrapy框架介绍 - 图1

Scrapy运行流程大概如下:

(1)调度器(Scheduler)从 待下载链接 中取出一个链接(URL)

(2)调度器启动 采集模块Spiders模块

(3)采集模块把URL传给下载器(Downloader),下载器把资源下载下来

(4)提取目标数据,抽取出目标对象(Item),则交给实体管道(item pipeline)进行进一步的处理;比如存入数据库、文本

(5)若是解析出的是链接(URL),则把URL插入到待爬取队列当中