11.2.3. XML 数据提取
使用下面的方法,你能够从其它格式提取 HTML 或 XML 数据。
表 11.10. XML 数据提取工具列表
软件包 | 流行度 | 大小 | 关键词 | 说明 |
---|---|---|---|---|
wv | V:4, I:8 | 717 | MSWord→任何格式 | 从微软 Word 格式到 HTML, LaTeX, 等格式的文件转换器。 |
texi2html | V:0, I:9 | 1832 | texi→html | 从 Texinfo 到 HTML 的转换器 |
man2html | V:0, I:3 | 141 | man 手册页→html | 从 man 手册页到 HTML 的转换器(支持 CGI) |
unrtf | V:1, I:4 | 148 | rtf→html | 从 RTF 到 HTML 等的转换器 |
info2www | V:2, I:3 | 156 | info→html | 从 GNU info 到 HTML 的转换器 (支持 CGI) |
ooo2dbk | V:0, I:0 | 217 | sxw→xml | 从 OpenOffice.org SXW 文档到 DocBook XML 的转换器 |
wp2x | V:0, I:0 | 215 | WordPerfect→任意格式 | WordPerfect 5.0 和 5.1 文件到 TeX, LaTeX, troff, GML 和 HTML |
doclifter | V:0, I:0 | 451 | troff→xml | troff 到 DocBook XML 的转换器 |
对于非 XML 的 HTML 文件,你能够转换它们为 XHTML,XHTML 是一个相当成型的 XML 实例。XHTML 能够被 XML 工具处理.
表 11.11. XML 美化打印工具列表
软件包 | 流行度 | 大小 | 关键词 | 说明 |
---|---|---|---|---|
libxml2-utils | V:22, I:289 | 173 | xml↔html↔xhtml | 使用 xmllint(1) 的 XML 命令行工具 (语法检查,重新格式化,梳理, …) |
tidy | V:1, I:16 | 84 | xml↔html↔xhtml | HTML 语法检查和重新格式化 |
一旦适当的 XML 生成,基于标记的内容等,你能够使用 XSLT 技术提取数据。