11. 语言学数据管理 - 3.1 从网上获取数据 - 《Python 自然语言处理第二版》

3.1 从网上获取数据

3.1 从网上获取数据

网络是语言分析的一个丰富的数据源。我们已经讨论了访问单个文件，如 RSS 订阅、搜索引擎的结果（见3.1）的方法。然而，在某些情况下，我们要获得大量的 Web 文本。

最简单的方法是获得出版的网页文本的文集。Web 语料库 ACL 特别兴趣组（SIGWAC）在http://www.sigwac.org.uk/维护一个资源列表。使用定义好的 Web 语料库的优点是它们有文档、稳定并允许重复性实验。

如果所需的内容在一个特定的网站，有许多实用程序能捕获网站的所有可访问内容，如 GNU Wget http://www.gnu.org/software/wget/。For maximal flexibility and control, a web crawler can be used, such as Heritrix http://crawler.archive.org/. 为了最大的灵活性和可控制，可以使用网络爬虫如(Croft, Metzler, & Strohman, 2009)。例如：如果我们要编译双语文本集合，对应两种语言的文档对，爬虫需要检测站点的结构以提取文件之间的对应关系，它需要按照捕获的对应方式组织下载的页面。写你自己的网页爬虫可能使很有诱惑力的，但也有很多陷阱需要克服，如检测 MIME 类型、转换相对地址为绝对 URL、避免被困在循环链接结构、处理网络延迟、避免使站点超载或被禁止访问该网站等。