Scrapy 1.0 文档

本文档涵盖了所有Scrapy的内容。

获得帮助

遇到问题了?我们来帮您!

第一步

初窥Scrapy
了解Scrapy如何助你一臂之力。
安装指南
安装Scrapy。
Scrapy入门教程
编写您的第一个Scrapy项目。
例子
通过把玩已存在的Scrapy项目来学习更多内容。

基本概念

命令行工具(Command line tools)
学习用于管理Scrapy项目的命令行工具
Spiders
编写爬取网站的规则
选择器(Selectors)
使用XPath提取网页的数据
Scrapy终端(Scrapy shell)
在交互环境中测试提取数据的代码
Items
定义爬取的数据
Item Loaders
使用爬取到的数据填充item
Item Pipeline
后处理(Post-process),存储爬取的数据
Feed exports
以不同格式输出爬取数据到不同的存储端
Requests and Responses
了解代表HTTP请求(request)和返回(response)的class.
Link Extractors
方便用于提取后续跟进链接的类。
Settings
了解如何配置Scrapy以及所有的 available 配置
异常(Exceptions)
查看所有已有的异常及相应的意义.

内置服务

Logging
了解Scrapy提供的logging功能。
数据收集(Stats Collection)
收集爬虫运行数据
发送email
当特定事件发生时发送邮件通知
Telnet终端(Telnet Console)
使用内置的Python终端检查运行中的crawler(爬虫)
Web Service
使用web service对您的爬虫进行监控和管理

解决特定问题

常见问题(FAQ)
常见问题的解决办法。
调试(Debugging)Spiders
学习如何对scrapy spider的常见问题进行debug。
Spiders Contracts
学习如何使用contract来测试您的spider。
实践经验(Common Practices)
熟悉Scrapy的一些惯例做法。
通用爬虫(Broad Crawls)
调整Scrapy来适应并发爬取大量网站(a lot of domains)。
借助Firefox来爬取
了解如何使用Firefox及其他有用的插件来爬取数据。
使用Firebug进行爬取
了解如何使用Firebug来爬取数据。
调试内存溢出
了解如何查找并让您的爬虫避免内存泄露。
下载及处理文件和图片
下载爬取的item中的文件及图片。
Ubuntu 软件包
在Ubuntu下下载最新的Scrapy。
Deploying Spiders
在远程服务器上部署、运行Scrapy spiders。
自动限速(AutoThrottle)扩展
根据负载(load)动态调节爬取速度。
Benchmarking
在您的硬件平台上测试Scrapy的性能。
Jobs: 暂停,恢复爬虫
学习如何停止和恢复爬虫

扩展Scrapy

架构概览
了解Scrapy架构。
下载器中间件(Downloader Middleware)
自定义页面被请求及下载操作。
Spider中间件(Middleware)
自定义spider的输入与输出。
扩展(Extensions)
提供您自定义的功能来扩展Scrapy
核心API
在extension(扩展)和middleware(中间件)使用api来扩展Scrapy的功能
信号(Signals)
查看如何使用及所有可用的信号
Item Exporters
快速将您爬取到的item导出到文件中(XML, CSV等格式)

其他

Release notes
了解最近的Scrapy版本的修改。
Contributing to Scrapy
了解如何为Scrapy项目做出贡献。
Versioning and API Stability
了解Scrapy如何命名版本以及API的稳定性。