本文档是开发者集成科大讯飞MSC(Mobile Speech Client,移动语音终端)iOS版SDK的使用指南,定义了语音听写、语音识别、语音合成、语音评测、语音唤醒、身份验证(包括人脸和声纹)等服务接口的使用。关于各服务接口更详细的说明,请参考 MSC iOS API 文档。在集成过程中如有疑问,可登录语音云开发者论坛,查找答案或与其他开发者交流。

1. iOS语音SDK概述

MSC SDK的主要功能接口如下图所示:

概述  - 图1

2. 业务描述

为了更好地理解后续内容,这里对文档中出现的若干专有名词进行解释说明,更为详细的信息可查看官网文档(http://www.xfyun.cn/doccenter )中的语音服务部分。

名词解释
语音合成将一段文字转换为成语音,可根据需要合成出不同音色、语速和语调的声音,让机器像人一样开口说话。
语音听写将一段语音转换成文本,把语音中的文字信息提取出来,并可以优先识别用户手机特有的联系人和个性化数据。
语法识别判断用户所说的内容是否与预定义的语法相符合,主要用于识别用户是否下达某项指令,使用语法识别前,需要先定义语法。
语音评测通过智能语音技术自动对发音水平进行评价,给出用户综合得分和发音信息。
语音唤醒即设备(手机、玩具、家电等)在休眠(或锁屏)状态下也能检测到用户的声音,并根据声音提示进行相应操作,开启全语音交互,同时支持唤醒+识别、唤醒+语义的OneShot方案。
身份验证在本方案中,开发者可根据应用场景灵活的选择身份验证方式,如单人脸验证、单声纹验证以及人脸+声纹的融合验证方式。这样既解决了单生物特征识别暴露的局限性,也提供了更精准、更安全的识别和检测方案。身份验证方案还会持续增加更多的常用特征,达到更广泛的市场应用前景。