2.1 条件和事件
频率分布计算观察到的事件,如文本中出现的词汇。条件频率分布需要给每个事件关联一个条件。所以不是处理一个单词词序列,我们必须处理的是一个配对序列:
>>> text = ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] ![[1]](/projects/nlp-py-2e-zh/Images/eeff7ed83be48bf40aeeb3bf9db5550e.jpg)
>>> pairs = [('news', 'The'), ('news', 'Fulton'), ('news', 'County'), ...] ![[2]](/projects/nlp-py-2e-zh/Images/6efeadf518b11a6441906b93844c2b19.jpg)
每个配对的形式是:(条件, 事件)
。如果我们按文体处理整个布朗语料库,将有 15 个条件(每个文体一个条件)和 1,161,192 个事件(每一个词一个事件)。