文本处理
用于解析和操作文本的库。
- 通用
- chardet:字符编码检测器,兼容 Python2 和 Python3。官网
- difflib:(Python 标准库)帮助我们进行差异化比较。官网
- ftfy:让 Unicode 文本更完整更连贯。官网
- fuzzywuzzy:模糊字符串匹配。官网
- Levenshtein:快速计算编辑距离以及字符串的相似度。官网
- pangu.py:在中日韩语字符和数字字母之间添加空格。官网
- pypinyin:汉字拼音转换工具 Python 版。官网
- shortuuid:一个生成器库,用以生成简洁的,明白的,URL 安全的 UUID。官网
- simplejson:Python 的 JSON 编码、解码器。官网
- unidecode:Unicode 文本的 ASCII 转换形式 。官网
- uniout:打印可读的字符,而不是转义的字符串。官网
- xpinyin:一个用于把汉字转换为拼音的库。官网
- yfiglet-figlet:pyfiglet -figlet 的 Python 实现。
- flashtext: 一个高效的文本查找替换库。官网
- Slug 化
- 解析器