语音翻译 API 接入文档

本文档是百度翻译开放平台语音翻译API的用户指南，描述了语音翻译相关接口的说明。API接入方式对于IOS端、Android端、Web端均适用。新版本不再提供语音翻译SDK服务，已经接入的用户可下拉至本文档末尾查看SDK错误码列表。

接口限制：

需要上传完整的录音文件，录音文件时长不超过 60 秒

音频编码要求：采样率 16000、8000，16 bit 位深，单声道

支持音频语种及格式：

语种格式中文、粤语 pcm、wav、amr、m4a 英语、日语、韩语、俄语、德语、法语、泰语、葡萄牙语、西班牙语、阿拉伯语 pcm

音频格式说明：

pcm（无损音频格式）：也称为 raw 格式。音频输入最原始的格式，不用解码。

wav（无损音频格式，pcm 编码）：在 pcm 格式的开头额外包含一段描述采样率、编码等信息的编码。

amr（有损压缩格式）：对音频数据进行有损压缩，类似 mp3 文件。

m4a（有损压缩格式，AAC 编码）：对音频数据进行有损压缩，通常仅供微信小程序使用的格式。

由于底层识别使用的是 pcm 格式，因此推荐直接上传 pcm 格式。若上传其它格式，在服务器端会有额外转换为 pcm 格式的工作，从而增加一定的调用耗时。

API接入方式（IOS端、Android端、Web端均适用）

如何使用语音翻译API

1.使用您的百度账号登录百度翻译开放平台；
2.注册成为开发者，获得APPID；
3.进行开发者认证；
4.开通语音翻译API服务：开通链接；
5.参考技术文档和Demo编写代码。

请求签名 `X-Sign` 计算方法

将音频文件进行base64编码，得到音频编码，即用于请求参数中的 voice 字段

拼接字符串： X-Appid + X-Timestamp + voice

使用 hmac_sha256 加密算法对（2）中的字符串进行加密，并得到base64格式的签名（因为hmac一般得到的是二进制字节流），做为 X-Sign 。hmac_sha256 的密钥来自于使用翻译开放平台分配的密钥，（可在管理控制台 - 开发者信息获得）

示例

appid = '2015063000000001'  # 请替换为您的APP ID
timestamp = '1646034877'  # 10位Unix时间戳
voice_bytes = b'00010101011101010101'
secret_key = 'XWG7Gyj'  # 翻译开放平台分配的密钥
# step1: base64编码音频文件
voice = base64encode(voice_bytes)
# step2: 得到待加密的字符串
msg = appid + timestamp + voice
# step3: 加密得到签名，作为`X-Sign`。若hmac得到的是二进制字节，需要进行base64编码
sign = base64encode(hmac_sha256(secret=secret_key, message=msg))

各语言hmac_sha256加密方法参考：

hmac_sha256加密方法（点击下载）

application/json

Body

code

integer

必需

错误码 0：成功非0：失败

msg

string

错误信息

必需

data

object

必需

结果结构，当且仅当code为 0 时存在

source

string

语音识别的原文

必需

target

string

翻译后的译文

必需

target_tts

string

必需

译文 TTS，base64数据

语音翻译 API 接入文档

语音翻译 API 接入文档#

接口限制：#

语种 格式 中文、粤语 pcm、wav、amr、m4a 英语、日语、韩语、俄语、德语、法语、泰语、葡萄牙语、西班牙语、阿拉伯语 pcm#

音频格式说明：#

API接入方式（IOS端、Android端、Web端均适用）#

如何使用语音翻译API#

请求签名 X-Sign 计算方法#

#

示例#

各语言hmac_sha256加密方法参考：#

请求参数

返回响应

语音翻译 API 接入文档

接口限制：

语种格式中文、粤语 pcm、wav、amr、m4a 英语、日语、韩语、俄语、德语、法语、泰语、葡萄牙语、西班牙语、阿拉伯语 pcm

音频格式说明：

API接入方式（IOS端、Android端、Web端均适用）

如何使用语音翻译API

请求签名 `X-Sign` 计算方法

示例

各语言hmac_sha256加密方法参考：