×
思维导图备注
Python 自然语言处理 第二版
首页
白天
夜间
小程序
阅读
书签
我的书签
添加书签
移除书签
3 数据采集
来源:ApacheCN
浏览
496
扫码
分享
2019-05-28 23:16:43
3 数据采集
3 数据采集
当前内容版权归
ApacheCN
或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问
ApacheCN
.
上一篇:
下一篇:
说明(重要)
Python 自然语言处理 第二版
前言
1. 语言处理与 Python
1 语言计算:文本和单词
1.1 Python 入门
1.2 NLTK 入门
1.3 搜索文本
1.4 词汇计数
2.2 索引列表
2.3 变量
2.4 字符串
3 计算语言:简单的统计
3.1 频率分布
3.2 细粒度的选择词
3.3 词语搭配和双连词
3.4 计数其他东西
4.2 对每个元素进行操作
4.3 嵌套代码块
4.4 条件循环
5 自动理解自然语言
5.1 词意消歧
Docutils System Messages
2. 获得文本语料和词汇资源
1 获取文本语料库
1.1 古腾堡语料库
1.2 网络和聊天文本
1.3 布朗语料库
1.4 路透社语料库
1.5 就职演说语料库
1.6 标注文本语料库
1.8 文本语料库的结构
1.9 加载你自己的语料库
2 条件频率分布
2.1 条件和事件
2.2 按文体计数词汇
2.3 绘制分布图和分布表
2.4 使用双连词生成随机文本
3.2 函数
3.3 模块
4 词汇资源
4.1 词汇列表语料库
4.2 发音的词典
4.3 比较词表
4.4 词汇工具:Shoebox 和 Toolbox
5 WordNet
5.1 意义与同义词
5.2 WordNet 的层次结构
5.3 更多的词汇关系
5.4 语义相似度
6 小结
7 深入阅读
8 练习
3 处理原始文本
3.1 从网络和硬盘访问文本
3.2 字符串:最底层的文本处理
3.3 使用 Unicode 进行文字处理
3.4 使用正则表达式检测词组搭配
3.6 规范化文本
3.7 用正则表达式为文本分词
3.8 分割
3.9 格式化:从列表到字符串
3.10 小结
3.11 深入阅读
3.12 练习
4 编写结构化程序
4.1 回到基础
4.2 序列
4.3 风格的问题
4.4 函数:结构化编程的基础
4.5 更多关于函数
4.6 程序开发
4.7 算法设计
6 小结
4.10 深入阅读
4.11 练习
Docutils System Messages
5. 分类和标注词汇
1 使用词性标注器
2 已经标注的语料库
2.1 表示已经标注的词符
2.2 读取已标注的语料库
2.3 通用词性标记集
2.4 名词
2.5 动词
2.6 形容词和副词
2.7 未简化的标记
2.8 探索已标注的语料库
3 使用 Python 字典映射单词到其属性
3.1 索引列表 VS 字典
3.3 定义字典
3.4 默认字典
3.5 递增地更新字典
3.6 复杂的键和值
3.7 反转字典
4.1 默认标注器
4.2 正则表达式标注器
4.3 查询标注器
4.4 评估
5 N-gram 标注
5.1 一元标注
5.2 分离训练和测试数据
5.3 一般的 N-gram 标注
5.4 组合标注器
5.5 标注生词
5.6 存储标注器
5.7 准确性的极限
6 基于转换的标注
7 如何确定一个词的分类
7.1 形态学线索
7.2 句法线索
10 练习
6. 学习分类文本
1 有监督分类
1.1 性别鉴定
1.2 选择正确的特征
1.3 文档分类
1.4 词性标注
1.5 探索上下文语境
1.6 序列分类
1.7 其他序列分类方法
2 有监督分类的更多例子
2.1 句子分割
2.2 识别对话行为类型
2.3 识别文字蕴含
2.4 扩展到大型数据集
3 评估
3.1 测试集
3.2 准确度
3.3 精确度和召回率
3.4 混淆矩阵
3.5 交叉验证
4 决策树
4.1 熵和信息增益
5 朴素贝叶斯分类器
5.1 底层的概率模型
Docutils System Messages
7. 从文本提取信息
1 信息提取
2 词块划分
2.1 名词短语词块划分
2.2 标记模式
2.3 用正则表达式进行词块划分
2.4 探索文本语料库
2.5 词缝加塞
2.6 词块的表示:标记与树
3 开发和评估词块划分器
3.1 读取 IOB 格式与 CoNLL2000 语料库
3.2 简单的评估和基准
3.3 训练基于分类器的词块划分器
4 语言结构中的递归
4.1 用级联词块划分器构建嵌套结构
4.2 Trees
4.3 树遍历
5 命名实体识别
6 关系抽取
7 小结
8 深入阅读
9 练习
8. 分析句子结构
1 一些语法困境
1.1 语言数据和无限可能性
3.3 句法结构中的递归
4.2 移进-归约分析
4.3 左角落分析器
5 依存关系和依存文法
5.2 扩大规模
6 语法开发
6.1 树库和语法
6.2 有害的歧义
7 小结
8 深入阅读
9 练习
9. 构建基于特征的语法
1 语法特征
1.1 句法协议
1.2 使用属性和约束
1.3 术语
2 处理特征结构
2.1 包含和统一
3 扩展基于特征的语法
3.1 子类别
3.2 核心词回顾
3.3 助动词与倒装
3.4 无限制依赖成分
3.5 德语中的格和性别
4 小结
5 深入阅读
6 练习
10. 分析句子的意思
1 自然语言理解
1.1 查询数据库
3 一阶逻辑
3.1 句法
3.2 一阶定理证明
3.3 一阶逻辑语言总结
3.5 独立变量和赋值
3.6 量化
3.7 量词范围歧义
3.8 模型的建立
4 英语句子的语义
4.1 基于特征的语法中的合成语义学
4.2 λ演算
4.3 量化的 NP
4.5 再述量词歧义
5 段落语义层
5.1 段落表示理论
5.2 段落处理
6 小结
7 深入阅读
8 练习
11. 语言学数据管理
1 语料库结构:一个案例研究
1.1 TIMIT 的结构
1.2 主要设计特点
1.3 基本数据类型
2 语料库生命周期
2.1 语料库创建的三种方案
2.2 质量控制
2.3 维护与演变
3 数据采集
3.1 从网上获取数据
3.2 从字处理器文件获取数据
3.3 从电子表格和数据库中获取数据
3.4 转换数据格式
3.5 决定要包含的标注层
3.6 标准和工具
3.7 处理濒危语言时特别注意事项
4 使用 XML
4.1 语言结构中使用 XML
4.2 XML 的作用
4.3 ElementTree 接口
4.4 使用 ElementTree 访问 Toolbox 数据
4.5 格式化条目
5 使用 Toolbox 数据
5.1 为每个条目添加一个字段
5.2 验证 Toolbox 词汇
6 使用 OLAC 元数据描述语言资源
6.1 什么是元数据?
6.2 OLAC:开放语言档案社区
6.3 传播语言资源
7 小结
8 深入阅读
9 练习
后记:语言的挑战
Index
暂无相关搜索结果!
本文档使用
BookStack
构建
×
分享,让知识传承更久远
×
文章二维码
手机扫一扫,轻松掌上读
×
文档下载
普通下载
下载码下载(免登录无限下载)
你与大神的距离,只差一个APP
请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
PDF
文档
EPUB
文档
MOBI
文档
温馨提示
每天每在网站阅读学习一分钟时长可下载一本电子书,每天连续签到可增加阅读时长
下载码方式下载:免费、免登录、无限制。
免费获取下载码
下载码
文档格式
PDF
EPUB
MOBI
码上下载
×
微信小程序阅读
您与他人的薪资差距,只差一个随时随地学习的小程序
×
书签列表
×
阅读记录
阅读进度:
0.00%
(
0/0
)
重置阅读进度