Scrapy 1.0 文档
本文档涵盖了所有Scrapy的内容。
获得帮助
遇到问题了?我们来帮您!
- 查看下 FAQ ,这里有些常见的问题的解决办法。
- 寻找详细的信息?试试 索引 或者 模块索引 。
- 您可以在 scrapy-users的邮件列表 中寻找内容,或者 提问问题
- 在 #scrapy IRC channel 提问
- 在 issue tracker 中提交Scrapy的bug
第一步
- 初窥Scrapy
- 了解Scrapy如何助你一臂之力。
- 安装指南
- 安装Scrapy。
- Scrapy入门教程
- 编写您的第一个Scrapy项目。
- 例子
- 通过把玩已存在的Scrapy项目来学习更多内容。
基本概念
- 命令行工具(Command line tools)
- 学习用于管理Scrapy项目的命令行工具
- Spiders
- 编写爬取网站的规则
- 选择器(Selectors)
- 使用XPath提取网页的数据
- Scrapy终端(Scrapy shell)
- 在交互环境中测试提取数据的代码
- Items
- 定义爬取的数据
- Item Loaders
- 使用爬取到的数据填充item
- Item Pipeline
- 后处理(Post-process),存储爬取的数据
- Feed exports
- 以不同格式输出爬取数据到不同的存储端
- Requests and Responses
- 了解代表HTTP请求(request)和返回(response)的class.
- Link Extractors
- 方便用于提取后续跟进链接的类。
- Settings
- 了解如何配置Scrapy以及所有的 available 配置
- 异常(Exceptions)
- 查看所有已有的异常及相应的意义.
内置服务
- Logging
- 了解Scrapy提供的logging功能。
- 数据收集(Stats Collection)
- 收集爬虫运行数据
- 发送email
- 当特定事件发生时发送邮件通知
- Telnet终端(Telnet Console)
- 使用内置的Python终端检查运行中的crawler(爬虫)
- Web Service
- 使用web service对您的爬虫进行监控和管理
解决特定问题
- 常见问题(FAQ)
- 常见问题的解决办法。
- 调试(Debugging)Spiders
- 学习如何对scrapy spider的常见问题进行debug。
- Spiders Contracts
- 学习如何使用contract来测试您的spider。
- 实践经验(Common Practices)
- 熟悉Scrapy的一些惯例做法。
- 通用爬虫(Broad Crawls)
- 调整Scrapy来适应并发爬取大量网站(a lot of domains)。
- 借助Firefox来爬取
- 了解如何使用Firefox及其他有用的插件来爬取数据。
- 使用Firebug进行爬取
- 了解如何使用Firebug来爬取数据。
- 调试内存溢出
- 了解如何查找并让您的爬虫避免内存泄露。
- 下载及处理文件和图片
- 下载爬取的item中的文件及图片。
- Ubuntu 软件包
- 在Ubuntu下下载最新的Scrapy。
- Deploying Spiders
- 在远程服务器上部署、运行Scrapy spiders。
- 自动限速(AutoThrottle)扩展
- 根据负载(load)动态调节爬取速度。
- Benchmarking
- 在您的硬件平台上测试Scrapy的性能。
- Jobs: 暂停,恢复爬虫
- 学习如何停止和恢复爬虫
扩展Scrapy
- 架构概览
- 了解Scrapy架构。
- 下载器中间件(Downloader Middleware)
- 自定义页面被请求及下载操作。
- Spider中间件(Middleware)
- 自定义spider的输入与输出。
- 扩展(Extensions)
- 提供您自定义的功能来扩展Scrapy
- 核心API
- 在extension(扩展)和middleware(中间件)使用api来扩展Scrapy的功能
- 信号(Signals)
- 查看如何使用及所有可用的信号
- Item Exporters
- 快速将您爬取到的item导出到文件中(XML, CSV等格式)
其他
- Release notes
- 了解最近的Scrapy版本的修改。
- Contributing to Scrapy
- 了解如何为Scrapy项目做出贡献。
- Versioning and API Stability
- 了解Scrapy如何命名版本以及API的稳定性。
当前内容版权归 scrapy-chs 或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问 scrapy-chs .