11.1.7. 提取纯文本

如下所示读入 web 页面并把它转化成文本文件。当从 Web 中拷贝配置或者是在 web 页面中应用类似 grep(1) 的基础 Unix 文本工具时,以下命令是非常有用的。

  1. $ w3m -dump http://www.remote-site.com/help-info.html >textfile

同样,你可以使用如下所示的工具从其他格式提取纯文本数据。

表 11.5. 用于提取纯文本数据的工具列表

软件包流行度大小关键词功能
w3mV:80, I:4332323html→text用 “w3m -dump“ 命令把 HTML 转化为文本的转换器
html2textV:10, I:46269html→text高级的 HTML 到文本文件的转换器 (ISO8859-1)
lynxV:20, I:1031924html→text用 “lynx -dump“ 命令把 HTML 转化为文本的转化器
elinksV:10, I:291752html→text用 “elinks -dump“ 命令把 HTML 转化为文本的转换器
linksV:12, I:422207html→text用 “links -dump“ 命令把 HTML 转化为文本的转换器
links2V:2, I:165486html→text用 “links2 -dump“ 命令把 HTML 转化为文本的转换器
antiwordV:4, I:12618MSWord→text,ps转化 MSWord 文件到纯文本或 ps 文件
catdocV:54, I:114675MSWord→text,TeX转化 MSWord 文件到纯文本或 TeX文件
pstotextV:2, I:4126ps/pdf→text从 PostScript 和 PDF 文件里导出文本
unhtmlV:0, I:042html→text从一个 HTML 文件里面删除标记标签
odt2txtV:2, I:753odt→text从开放文档格式到文本格式的转化器