1. 语言处理与 Python

上百万字的文本,是容易拿到手的。假设我们会写一些简单的程序,那我们可以用它来做些什么?在本章中,我们将解决以下几个问题:

  1. 将简单的程序与大量的文本结合起来,我们能实现什么?
  2. 我们如何能自动提取概括文本风格和内容的关键词和短语?
  3. Python 编程语言为上述工作提供了哪些工具和技术?
  4. 自然语言处理中有哪些有趣的挑战?

本章分为完全不同风格的两部分。在“语言计算”部分,我们将选取一些语言相关的编程任务而不去解释它们是如何实现的。在“近观 Python”部分,我们将系统地回顾关键的编程概念。两种风格将按章节标题区分,而后面几章将混合两种风格而不作明显的区分。我们希望这种风格的介绍能使你对接下来将要碰到的内容有一个真实的体味,与此同时,涵盖语言学与计算机科学的基本概念。如果你对这两个方面已经有了基本的了解,可以跳到第5 节 ; 我们将在后续的章节中重复所有要点,如果错过了什么,你可以很容易地在http://nltk.org/上查询在线参考材料。如果这些材料对你而言是全新的,那么本章将引发比解答本身更多的问题,这些问题将在本书的其余部分讨论。