11.1.7. 提取纯文本
如下所示读入 web 页面并把它转化成文本文件。当从 Web 中拷贝配置或者是在 web 页面中应用类似 grep(1) 的基础 Unix 文本工具时,以下命令是非常有用的。
$ w3m -dump http://www.remote-site.com/help-info.html >textfile
同样,你可以使用如下所示的工具从其他格式提取纯文本数据。
表 11.5. 用于提取纯文本数据的工具列表
软件包 | 流行度 | 大小 | 关键词 | 功能 |
---|---|---|---|---|
w3m | V:80, I:433 | 2323 | html→text | 用 “w3m -dump “ 命令把 HTML 转化为文本的转换器 |
html2text | V:10, I:46 | 269 | html→text | 高级的 HTML 到文本文件的转换器 (ISO8859-1) |
lynx | V:20, I:103 | 1924 | html→text | 用 “lynx -dump “ 命令把 HTML 转化为文本的转化器 |
elinks | V:10, I:29 | 1752 | html→text | 用 “elinks -dump “ 命令把 HTML 转化为文本的转换器 |
links | V:12, I:42 | 2207 | html→text | 用 “links -dump “ 命令把 HTML 转化为文本的转换器 |
links2 | V:2, I:16 | 5486 | html→text | 用 “links2 -dump “ 命令把 HTML 转化为文本的转换器 |
antiword | V:4, I:12 | 618 | MSWord→text,ps | 转化 MSWord 文件到纯文本或 ps 文件 |
catdoc | V:54, I:114 | 675 | MSWord→text,TeX | 转化 MSWord 文件到纯文本或 TeX文件 |
pstotext | V:2, I:4 | 126 | ps/pdf→text | 从 PostScript 和 PDF 文件里导出文本 |
unhtml | V:0, I:0 | 42 | html→text | 从一个 HTML 文件里面删除标记标签 |
odt2txt | V:2, I:7 | 53 | odt→text | 从开放文档格式到文本格式的转化器 |