1.6 序列分类

为了捕捉相关的分类任务之间的依赖关系,我们可以使用联合分类器模型,收集有关输入,选择适当的标签。在词性标注的例子中,各种不同的序列分类器模型可以被用来为一个给定的句子中的所有的词共同选择词性标签。

一种序列分类器策略,称为连续分类或贪婪序列分类,是为第一个输入找到最有可能的类标签,然后使用这个问题的答案帮助找到下一个输入的最佳的标签。这个过程可以不断重复直到所有的输入都被贴上标签。这是5中的二元标注器采用的方法,它一开始为句子的第一个词选择词性标记,然后为每个随后的词选择标记,基于词本身和前面词的预测的标记。

1.7中演示了这一策略。首先,我们必须扩展我们的特征提取函数使其具有参数history,它提供一个我们到目前为止已经为句子预测的标记的列表[1]history中的每个标记对应sentence中的一个词。但是请注意,history将只包含我们已经归类的词的标记,也就是目标词左侧的词。因此,虽然是有可能查看目标词右边的词的某些特征,但查看那些词的标记是不可能的(因为我们还未产生它们)。

已经定义了特征提取器,我们可以继续建立我们的序列分类器[2]。在训练中,我们使用已标注的标记为征提取器提供适当的历史信息,但标注新的句子时,我们基于标注器本身的输出产生历史信息。

  1. def pos_features(sentence, i, history): ![[1]](/projects/nlp-py-2e-zh/Images/78bc6ca8410394dcf6910484bc97e2b6.jpg)
  2. features = {"suffix(1)": sentence[i][-1:],
  3. "suffix(2)": sentence[i][-2:],
  4. "suffix(3)": sentence[i][-3:]}
  5. if i == 0:
  6. features["prev-word"] = "<START>"
  7. features["prev-tag"] = "<START>"
  8. else:
  9. features["prev-word"] = sentence[i-1]
  10. features["prev-tag"] = history[i-1]
  11. return features
  12. class ConsecutivePosTagger(nltk.TaggerI): ![[2]](/projects/nlp-py-2e-zh/Images/854532b0c5c8869f9012833955e75b20.jpg)
  13. def __init__(self, train_sents):
  14. train_set = []
  15. for tagged_sent in train_sents:
  16. untagged_sent = nltk.tag.untag(tagged_sent)
  17. history = []
  18. for i, (word, tag) in enumerate(tagged_sent):
  19. featureset = pos_features(untagged_sent, i, history)
  20. train_set.append( (featureset, tag) )
  21. history.append(tag)
  22. self.classifier = nltk.NaiveBayesClassifier.train(train_set)
  23. def tag(self, sentence):
  24. history = []
  25. for i, word in enumerate(sentence):
  26. featureset = pos_features(sentence, i, history)
  27. tag = self.classifier.classify(featureset)
  28. history.append(tag)
  29. return zip(sentence, history)