1. 语音识别

语音识别(SpeechRecognizer),包括听写、语法识别功能。语音识别技术(Auto Speech Recognize, 简称ASR)即把人的自然语言音频数据转换成文本数据。除了听写、语法识别外,还有语义理解 SpeechUnderstander(见后面章节)。关于文本数据转语音的功能,请参考语音合成类 SpeechSynthesizer (见后面章节)。

语法识别,是基于语法规则,将与语法一致的自然语言音频转换为文本输出的技术。语法识别的结果值域只在语法文件所列出的规则里,故有很好的匹配率,另外,语法识别结果携带了结果的置信度,应用可以根据置信分数,决定这个结果是否有效。语法识别多用于要更准确结果且有限说法的语音控制,如空调的语音控制等。在使用语法识别时,应用需要先构建一个语法文件上传给服务器,并在会话时,传入语法ID,以使用该语法。

听写,是基于自然语言处理,将自然语言音频转换为文本输出的技术。语音听写技术与语法识别技术的不同在于,语音听写不需要基于某个具体的语法文件,其识别范围是整个语种内的词条。在听写时,应用还可以上传个性化的词表,如联系人列表等,提高列表中词语的匹配率(见后面章节)。