HTML 处理

处理 HTML 和 XML 的库。

  • BeautifulSoup:以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。官网
  • bleach:一个基于白名单的 HTML 清理和文本链接库。官网
  • cssutils:一个 Python 的 CSS 库。官网
  • html5lib:一个兼容标准的 HTML 文档和片段解析及序列化库。官网
  • lxml:一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。官网
  • MarkupSafe:为 Python 实现 XML/HTML/XHTML 标记安全字符串。官网
  • pyquery:一个解析 HTML 的库,类似 jQuery。官网
  • requests-html:人性化的,Pythonic 的 HTML 解析库。官网
  • untangle:将 XML 文档转换为 Python 对象,使其可以方便的访问。官网
  • xhtml2pdf:HTML/CSS 转 PDF 工具。官网
  • xmltodict:像处理 JSON 一样处理 XML。官网

爬取网络站点的库

  • Scrapy:一个快速高级的屏幕爬取及网页采集框架。官网
  • cola:一个分布式爬虫框架。官网
  • Demiurge:基于 PyQuery 的爬虫微型框架。官网
  • feedparser:通用 feed 解析器。官网
  • Grab:站点爬取框架。官网
  • MechanicalSoup:用于自动和网络站点交互的 Python 库。官网
  • portia:Scrapy 可视化爬取。官网
  • pyspider:一个强大的爬虫系统。官网
  • RoboBrowser:一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。官网