5.2 分离训练和测试数据

来源:ApacheCN 浏览 697 扫码分享 2019-05-28 23:14:29

5.2 分离训练和测试数据

5.2 分离训练和测试数据

现在，我们正在一些数据上训练一个标注器，必须小心不要在相同的数据上测试，如我们在前面的例子中的那样。一个只是记忆它的训练数据，而不试图建立一个一般的模型的标注器会得到一个完美的得分，但在标注新的文本时将是无用的。相反，我们应该分割数据，90％为测试数据，其余 10％为测试数据：

>>> size = int(len(brown_tagged_sents) * 0.9)
>>> size
4160
>>> train_sents = brown_tagged_sents[:size]
>>> test_sents = brown_tagged_sents[size:]
>>> unigram_tagger = nltk.UnigramTagger(train_sents)
>>> unigram_tagger.evaluate(test_sents)
0.811721...

虽然得分更糟糕了，但是现在我们对这种标注器的用处有了更好的了解，如它在之前没有遇见的文本上的表现。

当前内容版权归 ApacheCN 或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问 ApacheCN .

本文档使用 BookStack 构建