11.2.3. XML 数据提取

使用下面的方法,你能够从其它格式提取 HTML 或 XML 数据。

表 11.10. XML 数据提取工具列表

软件包流行度大小关键词说明
wvV:4, I:8717MSWord→任何格式从微软 Word 格式到 HTML, LaTeX, 等格式的文件转换器。
texi2htmlV:0, I:91832texi→html从 Texinfo 到 HTML 的转换器
man2htmlV:0, I:3141man 手册页→html从 man 手册页到 HTML 的转换器(支持 CGI)
unrtfV:1, I:4148rtf→html从 RTF 到 HTML 等的转换器
info2wwwV:2, I:3156info→html从 GNU info 到 HTML 的转换器 (支持 CGI)
ooo2dbkV:0, I:0217sxw→xml从 OpenOffice.org SXW 文档到 DocBook XML 的转换器
wp2xV:0, I:0215WordPerfect→任意格式WordPerfect 5.0 和 5.1 文件到 TeX, LaTeX, troff, GML 和 HTML
doclifterV:0, I:0451troff→xmltroff 到 DocBook XML 的转换器

对于非 XML 的 HTML 文件,你能够转换它们为 XHTML,XHTML 是一个相当成型的 XML 实例。XHTML 能够被 XML 工具处理.

表 11.11. XML 美化打印工具列表

软件包流行度大小关键词说明
libxml2-utilsV:22, I:289173xml↔html↔xhtml使用 xmllint(1) 的 XML 命令行工具 (语法检查,重新格式化,梳理, …)
tidyV:1, I:1684xml↔html↔xhtmlHTML 语法检查和重新格式化

一旦适当的 XML 生成,基于标记的内容等,你能够使用 XSLT 技术提取数据。