5. 分类和标注词汇 - 5.5 标注生词 - 《Python 自然语言处理第二版》

5.5 标注生词

5.5 标注生词

我们标注生词的方法仍然是回退到一个正则表达式标注器或一个默认标注器。这些都无法利用上下文。因此，如果我们的标注器遇到词 blog，训练过程中没有看到过，它会分配相同的标记，不论这个词出现的上下文是 the blog 还是 to blog。我们怎样才能更好地处理这些生词，或词汇表以外的项目？

一个有用的基于上下文标注生词的方法是限制一个标注器的词汇表为最频繁的 n 个词，使用3中的方法替代每个其他的词为一个特殊的词 UNK。训练时，一个一元标注器可能会学到 UNK 通常是一个名词。然而，n-gram 标注器会检测它的一些其他标记中的上下文。例如，如果前面的词是 to（标注为TO），那么 UNK 可能会被标注为一个动词。