11.1. 文本数据转换工具 - 11.1.7. 提取纯文本 - 《Debian 参考手册（版本 2.76）》

如下所示读入 web 页面并把它转化成文本文件。当从 Web 中拷贝配置或者是在 web 页面中应用类似 grep(1) 的基础 Unix 文本工具时，以下命令是非常有用的。

$ w3m -dump http://www.remote-site.com/help-info.html >textfile

同样，你可以使用如下所示的工具从其他格式提取纯文本数据。

表 11.5. 用于提取纯文本数据的工具列表

软件包	流行度	大小	关键词	功能
`w3m`	V:80, I:433	2323	html→text	用 “`w3m -dump`“ 命令把 HTML 转化为文本的转换器
`html2text`	V:10, I:46	269	html→text	高级的 HTML 到文本文件的转换器 (ISO8859-1)
`lynx`	V:20, I:103	1924	html→text	用 “`lynx -dump`“ 命令把 HTML 转化为文本的转化器
`elinks`	V:10, I:29	1752	html→text	用 “`elinks -dump`“ 命令把 HTML 转化为文本的转换器
`links`	V:12, I:42	2207	html→text	用 “`links -dump`“ 命令把 HTML 转化为文本的转换器
`links2`	V:2, I:16	5486	html→text	用 “`links2 -dump`“ 命令把 HTML 转化为文本的转换器
`antiword`	V:4, I:12	618	MSWord→text,ps	转化 MSWord 文件到纯文本或 ps 文件
`catdoc`	V:54, I:114	675	MSWord→text,TeX	转化 MSWord 文件到纯文本或 TeX文件
`pstotext`	V:2, I:4	126	ps/pdf→text	从 PostScript 和 PDF 文件里导出文本
`unhtml`	V:0, I:0	42	html→text	从一个 HTML 文件里面删除标记标签
`odt2txt`	V:2, I:7	53	odt→text	从开放文档格式到文本格式的转化器