HTML 处理
处理 HTML 和 XML 的库。
- BeautifulSoup:以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。官网
- bleach:一个基于白名单的 HTML 清理和文本链接库。官网
- cssutils:一个 Python 的 CSS 库。官网
- html5lib:一个兼容标准的 HTML 文档和片段解析及序列化库。官网
- lxml:一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。官网
- MarkupSafe:为 Python 实现 XML/HTML/XHTML 标记安全字符串。官网
- pyquery:一个解析 HTML 的库,类似 jQuery。官网
- requests-html:人性化的,Pythonic 的 HTML 解析库。官网
- untangle:将 XML 文档转换为 Python 对象,使其可以方便的访问。官网
- xhtml2pdf:HTML/CSS 转 PDF 工具。官网
- xmltodict:像处理 JSON 一样处理 XML。官网
爬取网络站点的库