书栈网 · BookStack 本次搜索耗时 0.030 秒,为您找到 157666 个相关结果.
  • 三、Word2Vec

    三、Word2Vec 3.1 CBOW 模型 3.1.1 一个单词上下文 3.1.2 参数更新 3.1.3 多个单词上下文 3.2 Skip-Gram 3.2.1 网络结构 3.1.2 参数更新 3.3 优化 3.3.1 分层 softmax a) 网络结构 b) 参数更新 3.3.2 负采样 a) 原理 b) 参数更新 3.3.3...
  • Snowball词典

    Snowball词典 Snowball词典 Snowball词典模板支持词干分析词典,基于Martin Porter的Snowball项目,内置有许多语言的词干分析算法。openGauss中预定义有多种语言的Snowball词典,可通过系统表PG_TS_DICT 查看预定义的词干分析词典以及支持的语言词干分析算法。 无论是否可以简化,Snowball...
  • 新闻组语料库

    新闻组语料库 把不要的东西丢掉! 常用词和停词 编写Python代码 新闻组语料库 我们下面要处理的数据集是新闻,这些新闻可以分为不同的新闻组,我们会构造一个分类器来判断某则新闻是属于哪个新闻组的: 比如下面这则新闻是属于rec.motorcycles组的: 注意到这则新闻中还有一些拼写错误(如accesories、ussually...
  • 3.2 简单的评估和基准

    3.2 简单的评估和基准 3.2 简单的评估和基准 现在,我们可以访问一个已划分词块语料,可以评估词块划分器。我们开始为没有什么意义的词块解析器cp 建立一个基准,它不划分任何词块: >>> from nltk . corpus import conll2000 >>> cp = nltk . RegexpParser ( ""...
  • 2.3 用正则表达式进行词块划分

    2.3 用正则表达式进行词块划分 2.3 用正则表达式进行词块划分 要找到一个给定的句子的词块结构,RegexpParser 词块划分器以一个没有词符被划分的平面结构开始。词块划分规则轮流应用,依次更新词块结构。一旦所有的规则都被调用,返回生成的词块结构。 2.3 显示了一个由 2 个规则组成的简单的词块语法。第一条规则匹配一个可选的限定词或所有格...
  • 5. 分类和标注词汇

    5. 分类和标注词汇 5. 分类和标注词汇 早在小学你就学过名词、动词、形容词和副词之间的差异。这些“词类”不是闲置的文法家的发明,而是对许多语言处理任务都有用的分类。正如我们将看到的,这些分类源于对文本中词的分布的简单的分析。本章的目的是要回答下列问题: 什么是词汇分类,在自然语言处理中它们是如何使用? 一个好的存储词汇和它们的分类的 Pyth...
  • 3.8 分割

    3.8 分割 断句 分词 3.8 分割 本节将讨论更高级的概念,你在第一次阅读本章时可能更愿意跳过本节。 分词是一个更普遍的分割问题的一个实例。在本节中,我们将看到这个问题的另外两个实例,它们使用与到目前为止我们已经在本章看到的完全不同的技术。 断句 在词级水平处理文本通常假定能够将文本划分成单个句子。正如我们已经看到,一些语料库已经提供...
  • 自定义分析器

    自定义分析器 创建自定义分析器 自定义分析器 虽然 Elasticsearch 内置了一系列的分析器,但是真正的强大之处在于定制你自己的分析器。你可以通过在配置文件中组合字符过滤器,分词器和标记过滤器,来满足特定数据的需求。 在 【分析器介绍】 中,我们提到 分析器 是三个顺序执行的组件的结合(字符过滤器,分词器,标记过滤器)。 字符过滤器 ...
  • 分析

    分析和分析器 字符过滤器 分词器 标记过滤 内建的分析器 标准分析器 简单分析器 空格分析器 语言分析器 当分析器被使用 测试分析器 指定分析器 分析和分析器 分析(analysis) 是这样一个过程: 首先,标记化一个文本块为适用于倒排索引单独的词(term) 然后标准化这些词为标准形式,提高它们的“可搜索性”或“查全率...
  • Snowball词典

    Snowball词典 Snowball词典 Snowball词典模板支持词干分析词典,基于Martin Porter的Snowball项目,内置有许多语言的词干分析算法。openGauss中预定义有多种语言的Snowball词典,可通过系统表PG_TS_DICT 查看预定义的词干分析词典以及支持的语言词干分析算法。 无论是否可以简化,Snowbal...