语音合成(音色融合) | 大装置帮助中心
跳到主要内容

语音合成-音色融合

接口描述(Description)

基于给定的文字信息,融合多种音色,生成音频。


请求地址(Request URL)

[POST] https://api.sensenova.cn/v1/audio/tts

请求头(Request Header)

无特殊Header,请参考接口鉴权


请求体(Request Body)

参数名类型是否必填默认值说明
modelstring模型名称:用于指定语音合成所采用的模型,当前为 SenseNova-Audio-Fusion-0603 。
inputstring合成文本内容:待转换为语音的文本信息,支持中文及英文内容输入。
voicestring主音色名称:用于指定语音合成时的主要音色,在使用融合音色功能时,该音色也必须包含在 timber_weights 中。
streambooleanFALSE是否返回音频流:用于控制是否以音频流形式返回合成结果,适用于实时语音合成场景。布尔值类型,默认值为 false,表示返回完整的音频数据。
speedfloat1语速:用于设置语音的播放速度,取值范围为 [0.5, 2.0]。其中,1.0 表示正常语速,数值越小语速越慢,数值越大语速越快。
volumefloat1音量:用于调节合成语音的响度,取值范围为 (0, 10],值越大音量越高。
languagestringzh支持语言: zh,en,默认zh
pitchint0音调:用于控制合成语音的音高,取值范围为整数 [-12, 12]。其中,0 表示保持原始音调,正值提高音调,负值降低音调。
timber_weightsobject (map)融合音色权重(音色名称: 权重值):用于自定义混合多种音色的合成效果。各音色的权重值总和建议为 1.0,voice 参数指定的主音色必须包含在该权重列表中。
response_formatstringmp3输出结果格式:可选值 mp3、wav、pcm
sample_rateint32000音频采样率,取值范围【8000,16000,22050,24000,32000,44100】
channelint2音频声道,支持单声道1,双声道2
bitrateint128000音频码率,支持MP3,取值范围【32000,64000,128000,256000】
  • voice 可选音色如下:
Voice ID名称是否支持融合
child_reqing热情孩童
man_zhengqi正气中年
man_weiyan威严霸总
guy_qingshuang清爽帅哥
guy_wenrun温润暖男
male_shenqing深情男友
male_miantian腼腆男友
woman_daihuo带货女神
female_chunzhen纯真少女
female_jiaomei娇媚女友
woman_fengyun风韵少妇
man_qiangyu强欲霸总
guy_shizun清冷师尊
guy_nangong挚爱男攻
female_taimei甜甜台妹
guy_guimi男性闺蜜
female_shumei熟媚女神
man_nuanren暖人青叔
guy_naigou1贴心奶狗
guy_xingui冷御新贵
female_sajiao撒娇甜妹
female_diantai电台女声
female_diantai_b娇俏小妹
female_jiejie明魅御姐
female_jiejie_a爱欲女王
female_jiejie_b柔情女王
girl_banxia娇怜软妹
girl_banxia_a破碎少女
man_cucao冷面硬汉
guy_xingui_b深情病娇
guy_qiangai强爱病娇
guy_shengse生涩奶狗
female_jiaonv_a羞婉娇女
female_ruanmei_a俏萌软妹
oldman_zhangzhe威严长者
woman_xiuse羞涩御姐

请求示例(Request Example)

  • 流式
curl --request POST "https://api.sensenova.cn/v1/audio/tts" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $API_TOKEN" \
-d '{
"model": "string",
"input": "string",
"voice": "female_jiaomei",
"stream": false,
"timber_weights":
{
"female_jiaomei": 0.7,
"female_taimei": 0.3
},
"response_format": "string",
"language": "zh",
"speed": 1,
"pitch": 0,
"volume": 3,
"bitrate": 32000,
"sample_rate": 32000,
"channel": 2
}'

响应示例(Response Example)

返回与输入参数response_format指定格式相同的音频文件,单声道,采样率为16000Hz 。

  • mp3,有损压缩格式,默认输出,不支持流式传输;
  • acc,有损压缩格式,采用ADTS格式编码,支持流式传输;
  • wav,无损压缩格式,不支持流式传输,标准格式解码;
  • pcm,无损压缩格式,支持流式传输,解码参数为:
    • 采样率:16000
    • 通道数:1
    • 采样位数:小端模式16位有符号整数 采样