1. 接口说明
语音听写接口可将语音(≤60秒)转换成对应的文字信息,支持中文普通话、英文以及多种中文方言,可在 这里 在线体验效果。该能力是通过HTTP API的方式给开发者提供一个通用的接口,适用于一次性交互数据传输的AI服务场景,即将音频一次性发送至云端,块式传输。相较于SDK,API具有轻量、跨语言的特点,不过请注意该接口使用的HTTP API协议不支持跨域。
2. 接口Demo
示例demo请点击 这里 下载。目前仅提供部分开发语言的demo,其他语言请参照下方接口文档进行开发。也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。
3. 接口要求
集成语音听写API时,需按照以下要求。
内容 | 说明 |
---|---|
请求协议 | http(s) |
请求地址 | http[s]://api.xfyun.cn/v1/service/v1/iat |
请求方式 | POST |
接口鉴权 | 签名机制,见接口描述-授权认证 |
字符编码 | UTF-8 |
响应格式 | 统一采用JSON格式 |
开发语言 | 任意,只要可以向讯飞云服务发起HTTP请求的均可 |
适用范围 | 任意操作系统,但因不支持跨域不适用于浏览器 |
音频属性 | 采样率16k或8k、位长16bit、单声道 |
音频格式 | PCM、WAV、SPEEX,样例音频可点击 这里 下载 |
音频大小 | 最长60s,编码后大小不超过2M |
语言种类 | 中文普通话、英文以及多种中文方言 |
注: 在控制台添加服务后默认开通中文普通话和英文引擎,其他方言权限默认不开通,请在 这里 在线体验效果,若效果能满足您的需求请联系商务人员。
4. 接口调用流程
采用通用的接口调用流程,详细请参照 接口描述 。
接口地址示例:
POST http[s]://api.xfyun.cn/v1/service/v1/iat HTTP/1.1
Content-Type:application/x-www-form-urlencoded; charset=utf-8
5. 接口请求参数
5.1. Header参数
在 Http Request Header 中配置授权认证参数,见 接口描述-授权认证 。其中 X-Param 为各配置参数组成的 JSON 串经 BASE64 编码之后的字符串,原始 JSON 串各字段说明如下:
参数 | 类型 | 必须 | 说明 | 示例 |
---|---|---|---|---|
enginetype | string | 是 | 引擎类型,可选值:sms16k(16k采样率普通话音频)、sms8k(8k采样率普通话音频)、sms-en16k(16k采样率英语音频),sms-en8k(8k采样率英语音频),更多请和商务人员申请。 | sms16k |
aue | string | 是 | 音频编码raw(未压缩的pcm或wav格式)speex(speex格式、采样率8k)speex-wb(宽频speex格式、采样率16k) | raw |
speex_size | string | 否 | speex音频帧率,仅在speex音频时使用1. 当speex编码为非讯飞定制speex编码时必须指定2. 当speex编码为讯飞定制speex编码时不要设置注:_ 讯飞定制SPEEX编码工具请参考这里 speex编码 。 | 60 |
scene | string | 否 | 情景模式。如需使用热词功能,必须指定scene=main。 | main |
vad_eos | string | 否 | 后端点检测(单位:ms),默认1800,取值范围0-10000 | 2000 |
X-Param生成示例:
原始JSON串:
{
"engine_type": "sms16k",
"aue": "raw"
}
BASE64编码(即X-Param):
eyJlbmdpbmVfdHlwZSI6ICJzbXMxNmsiLCJhdWUiOiAicmF3In0=
5.2. Body参数
在 Http Request Body 中配置以下参数:
参数 | 类型 | 必须 | 说明 | 示例 |
---|---|---|---|---|
audio | string | 是 | 音频数据base64编码后进行urlencode要求base64编码和urlencode后大小不超过2M,原始音频时长不超过60s | exSI6ICJlbiIsCgkgICAg… |
_注:_base64 编码后大小会增加约1/3
6. 接口返回参数
返回值为 json 串,各字段如下:
参数 | 类型 | 说明 |
---|---|---|
code | string | 结果码(具体见错误码) |
data | string | 语音识别后文本结果 |
desc | string | 描述 |
sid | string | 会话ID |
其中 sid 字段主要用于追查问题,如果出现问题,可以提供 sid 给讯飞技术人员帮助确认问题。
示例如下:
失败:
{
"code": "10106",
"desc": "invalid parameter|invalid X-Appid",
"data": "",
"sid": "zat0000bb3f@ch3d5c059d83b3477200"
}
成功:
{
"code":"0",
"data":"科大讯飞作为中国最大的智能语音技术提供商",
"sid":"zat00000009@ch0fc40d9e4cdf000100",
"desc":"success"
}
7. 调用示例
8. 音频样例
语音听写 音频样例 中文普通话 SPEEX文件(讯飞定制SPEEX编码) 采样率16k
语音听写 音频样例 中文普通话 SPEEX文件(讯飞定制SPEEX编码) 采样率8k
语音听写 音频样例 合肥方言 SPEEX文件(讯飞定制SPEEX编码) 采样率16k
语音听写 音频样例 合肥方言 SPEEX文件(讯飞定制SPEEX编码) 采样率8k
注: 音频文件格式转换工具以及讯飞定制SPEEX编码工具请参考这里 音频格式说明
Copyright © iflytek.com 2018 all right reserved,powered by Gitbook该文件修订时间:2019-05-07 07:12:51