×
思维导图备注
Python 自然语言处理 第二版
首页
白天
夜间
小程序
阅读
书签
我的书签
添加书签
移除书签
6 使用 OLAC 元数据描述语言资源
来源:ApacheCN
浏览
954
扫码
分享
2019-05-28 23:17:07
6 使用 OLAC 元数据描述语言资源
6 使用 OLAC 元数据描述语言资源
NLP 社区的成员的一个共同需要是发现具有很高精度和召回率的语言资源。数字图书馆社区目前已开发的解决方案包括元数据聚集。
当前内容版权归
ApacheCN
或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问
ApacheCN
.
上一篇:
下一篇:
说明(重要)
Python 自然语言处理 第二版
前言
1. 语言处理与 Python
1 语言计算:文本和单词
1.1 Python 入门
1.2 NLTK 入门
1.3 搜索文本
1.4 词汇计数
2.2 索引列表
2.3 变量
2.4 字符串
3 计算语言:简单的统计
3.1 频率分布
3.2 细粒度的选择词
3.3 词语搭配和双连词
3.4 计数其他东西
4.2 对每个元素进行操作
4.3 嵌套代码块
4.4 条件循环
5 自动理解自然语言
5.1 词意消歧
Docutils System Messages
2. 获得文本语料和词汇资源
1 获取文本语料库
1.1 古腾堡语料库
1.2 网络和聊天文本
1.3 布朗语料库
1.4 路透社语料库
1.5 就职演说语料库
1.6 标注文本语料库
1.8 文本语料库的结构
1.9 加载你自己的语料库
2 条件频率分布
2.1 条件和事件
2.2 按文体计数词汇
2.3 绘制分布图和分布表
2.4 使用双连词生成随机文本
3.2 函数
3.3 模块
4 词汇资源
4.1 词汇列表语料库
4.2 发音的词典
4.3 比较词表
4.4 词汇工具:Shoebox 和 Toolbox
5 WordNet
5.1 意义与同义词
5.2 WordNet 的层次结构
5.3 更多的词汇关系
5.4 语义相似度
6 小结
7 深入阅读
8 练习
3 处理原始文本
3.1 从网络和硬盘访问文本
3.2 字符串:最底层的文本处理
3.3 使用 Unicode 进行文字处理
3.4 使用正则表达式检测词组搭配
3.6 规范化文本
3.7 用正则表达式为文本分词
3.8 分割
3.9 格式化:从列表到字符串
3.10 小结
3.11 深入阅读
3.12 练习
4 编写结构化程序
4.1 回到基础
4.2 序列
4.3 风格的问题
4.4 函数:结构化编程的基础
4.5 更多关于函数
4.6 程序开发
4.7 算法设计
6 小结
4.10 深入阅读
4.11 练习
Docutils System Messages
5. 分类和标注词汇
1 使用词性标注器
2 已经标注的语料库
2.1 表示已经标注的词符
2.2 读取已标注的语料库
2.3 通用词性标记集
2.4 名词
2.5 动词
2.6 形容词和副词
2.7 未简化的标记
2.8 探索已标注的语料库
3 使用 Python 字典映射单词到其属性
3.1 索引列表 VS 字典
3.3 定义字典
3.4 默认字典
3.5 递增地更新字典
3.6 复杂的键和值
3.7 反转字典
4.1 默认标注器
4.2 正则表达式标注器
4.3 查询标注器
4.4 评估
5 N-gram 标注
5.1 一元标注
5.2 分离训练和测试数据
5.3 一般的 N-gram 标注
5.4 组合标注器
5.5 标注生词
5.6 存储标注器
5.7 准确性的极限
6 基于转换的标注
7 如何确定一个词的分类
7.1 形态学线索
7.2 句法线索
10 练习
6. 学习分类文本
1 有监督分类
1.1 性别鉴定
1.2 选择正确的特征
1.3 文档分类
1.4 词性标注
1.5 探索上下文语境
1.6 序列分类
1.7 其他序列分类方法
2 有监督分类的更多例子
2.1 句子分割
2.2 识别对话行为类型
2.3 识别文字蕴含
2.4 扩展到大型数据集
3 评估
3.1 测试集
3.2 准确度
3.3 精确度和召回率
3.4 混淆矩阵
3.5 交叉验证
4 决策树
4.1 熵和信息增益
5 朴素贝叶斯分类器
5.1 底层的概率模型
Docutils System Messages
7. 从文本提取信息
1 信息提取
2 词块划分
2.1 名词短语词块划分
2.2 标记模式
2.3 用正则表达式进行词块划分
2.4 探索文本语料库
2.5 词缝加塞
2.6 词块的表示:标记与树
3 开发和评估词块划分器
3.1 读取 IOB 格式与 CoNLL2000 语料库
3.2 简单的评估和基准
3.3 训练基于分类器的词块划分器
4 语言结构中的递归
4.1 用级联词块划分器构建嵌套结构
4.2 Trees
4.3 树遍历
5 命名实体识别
6 关系抽取
7 小结
8 深入阅读
9 练习
8. 分析句子结构
1 一些语法困境
1.1 语言数据和无限可能性
3.3 句法结构中的递归
4.2 移进-归约分析
4.3 左角落分析器
5 依存关系和依存文法
5.2 扩大规模
6 语法开发
6.1 树库和语法
6.2 有害的歧义
7 小结
8 深入阅读
9 练习
9. 构建基于特征的语法
1 语法特征
1.1 句法协议
1.2 使用属性和约束
1.3 术语
2 处理特征结构
2.1 包含和统一
3 扩展基于特征的语法
3.1 子类别
3.2 核心词回顾
3.3 助动词与倒装
3.4 无限制依赖成分
3.5 德语中的格和性别
4 小结
5 深入阅读
6 练习
10. 分析句子的意思
1 自然语言理解
1.1 查询数据库
3 一阶逻辑
3.1 句法
3.2 一阶定理证明
3.3 一阶逻辑语言总结
3.5 独立变量和赋值
3.6 量化
3.7 量词范围歧义
3.8 模型的建立
4 英语句子的语义
4.1 基于特征的语法中的合成语义学
4.2 λ演算
4.3 量化的 NP
4.5 再述量词歧义
5 段落语义层
5.1 段落表示理论
5.2 段落处理
6 小结
7 深入阅读
8 练习
11. 语言学数据管理
1 语料库结构:一个案例研究
1.1 TIMIT 的结构
1.2 主要设计特点
1.3 基本数据类型
2 语料库生命周期
2.1 语料库创建的三种方案
2.2 质量控制
2.3 维护与演变
3 数据采集
3.1 从网上获取数据
3.2 从字处理器文件获取数据
3.3 从电子表格和数据库中获取数据
3.4 转换数据格式
3.5 决定要包含的标注层
3.6 标准和工具
3.7 处理濒危语言时特别注意事项
4 使用 XML
4.1 语言结构中使用 XML
4.2 XML 的作用
4.3 ElementTree 接口
4.4 使用 ElementTree 访问 Toolbox 数据
4.5 格式化条目
5 使用 Toolbox 数据
5.1 为每个条目添加一个字段
5.2 验证 Toolbox 词汇
6 使用 OLAC 元数据描述语言资源
6.1 什么是元数据?
6.2 OLAC:开放语言档案社区
6.3 传播语言资源
7 小结
8 深入阅读
9 练习
后记:语言的挑战
Index
暂无相关搜索结果!
本文档使用
BookStack
构建
×
分享,让知识传承更久远
×
文章二维码
手机扫一扫,轻松掌上读
×
文档下载
普通下载
下载码下载(免登录无限下载)
你与大神的距离,只差一个APP
请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
PDF
文档
EPUB
文档
MOBI
文档
温馨提示
每天每在网站阅读学习一分钟时长可下载一本电子书,每天连续签到可增加阅读时长
下载码方式下载:免费、免登录、无限制。
免费获取下载码
下载码
文档格式
PDF
EPUB
MOBI
码上下载
×
微信小程序阅读
您与他人的薪资差距,只差一个随时随地学习的小程序
×
书签列表
×
阅读记录
阅读进度:
0.00%
(
0/0
)
重置阅读进度