网页内容提取

用于进行网页内容提取的库。

  • Haul:一个可以扩展的图像爬取工具。官网
  • html2text:将 HTML 转换为 Markdown 格式文本。官网
  • lassie:人性化的网页内容检索库。官网
  • micawber:一个小型网页内容提取库,用来从 URLs 提取富内容。官网
  • newspaper:使用 Python 进行新闻提取,文章提取以及内容策展。官网
  • opengraph:一个用来解析开放内容协议(Open Graph Protocol)的 Python 模块。官网
  • python-goose:HTML 内容/文章提取器。官网
  • python-readability:arc90 公司 readability 工具的 Python 高速端口。官网
  • sanitize:为杂乱的数据世界带来调理性。官网
  • sumy:一个为文本文件和 HTML 页面进行自动摘要的模块。官网
  • textract:从任何格式的文档中提取文本,Word,PowerPoint,PDFs 等等。官网