logo
产品简介 产品简介
基本概念 基本概念
平台新手指引 平台新手指引
计价模式 计价模式
开发者文档下拉
开放平台计价
定制服务计价
获取访问令牌 获取访问令牌
语音合成 语音合成
开发者文档下拉
接口说明
发音人列表
在线合成 开发者文档下拉
Android SDK
iOS SDK
C++(Linux) SDK
RESTful API
Websocket API
长文本语音合成API
离线合成 开发者文档下拉
离线合成 Android SDK
离线合成 iOS SDK
语音识别 语音识别
开发者文档下拉
一句话识别 开发者文档下拉
RESTful API
Websocket API
实时长语音识别 开发者文档下拉
Websocket API
录音文件识别 开发者文档下拉
RESTful API
SDK文档 开发者文档下拉
Android SDK
iOS SDK
声音复刻 声音复刻
开发者文档下拉
定制模型 开发者文档下拉
RESTful API
Android SDK
iOS SDK
语音合成 开发者文档下拉
RESTful API
声音转换 声音转换
开发者文档下拉
Websocket API
Android SDK
iOS SDK
协议规则 协议规则
开发者文档下拉
平台服务协议
平台通用规则
法律声明及隐私政策
服务等级协议SLA
常见问题 常见问题
开发者文档下拉
语音合成
语音识别

语音合成常见问题

xml标签如何使用

通过URL合成文本时,请将“#”替换成“%23”,否则包含“#”的标签会失效。 这个只有在浏览器的情况下才需要替换,程序中不需要

  • 可以指定数字的读法(数字读法/电报读法);
  • 可以指定汉字的拼音(合成时按指定拼音发音);
  • 可以指定停顿类型(一级/二级/三级停顿);
  • 可以指定英文单词的读法(英文单词读法);
  • 可以指定静音时长[前提:#3韵律处指定才能生效,否则无效];
  • 可以指定车牌号读法[英文按字母读,数字按电报读]
  • 可以在指定位置增加换气声[前提:定制库中有长换气/短换气对应的定制库音频]
xml标签 说明 举例 效果
数字读法 <figure>xxx</figure type=digit> 指定“xxx”的合成采用数字读法。其中“xxx”必须为单字节阿拉伯数字。 1.食物加热需要<figure>110</figure type=digit>分钟才能完成。
2.遭遇紧急情况请拨打<figure>110</figure type=digit>报警电话
数字都读成:一百一十
<figure>xxx</figure type=ordinal> 指定“xxx”的合成采用电报读法。其中“xxx”必须为单字节阿拉伯数字。 1.食物加热需要<figure>110</figure type=ordinal>分钟才能完成。
2.遭遇紧急情况请拨打<figure>110</figure type=ordinal>报警电话。
数字都读成:幺幺零
拼音 X<cnphone py=xxx>或X(xxx) 指定“X”合成时的拼音为“xxx”。其中,本标签只控制标签前的一个汉字“X”,且“X”必须为汉字。指定的拼音必须合法[声韵母完整],声调为1-5,其中5为轻声。 1.标贝科技<cnphone py=ji1>
2.标贝科技(ji1)
“技”的读音将从四声“ji4”变为一声“ji1”
停顿类型 <pause type=xx> 指定合成时标签所在位置的停顿类型为“xx”。其中“xx”的取值为“#0”、“#1”、“#2”、“#3”之一。 标贝科技<pause type=#3>专注于智能语音交互<pause type=#3>提供智能语音整体解决方案和数据服务 #0:没有停顿
#1:词语间的微小停顿
#2:短句间的中级停顿
#3:句子间的长停顿
英文读法 <readmode>XXX</readmode type=eng> 指定“XXX”的合成采用英文单词读法。其中“XXX”必须为单字节英文字母和单字节数字(包含小数)组成的单词。 上地<readmode>MOMA</readmode type=eng> 单词“MOMA”会被读成:...牟嘛…
静音时长 <silence len=xxx> 指定合成时标签所在位置的静音时长。其中“xxx”的取值范围为[0, 3000],单位为毫秒。注:silence标签只能在#3处生效,所以可以配合 <pause type="#3"> 一起使用 <pause type="#3">一起使用。</pause> </pause> 标贝科技<pause type=#3><silence len=200>专注于智能语音交互<pause type=#3><silence len=500>提供智能语音整体解决方案和数据服务 “科技”与“专注”之间会有200ms静音;“交互”与“提供”之间会有500ms静音
录音 <usraud>xxxx</usraud> 指定合成文本“xxxx”时直接取录音。 (注:本标签需要搭配录音库文件一起使用。如果没有录音库文件则本标签失效,按正常逻辑合成) 标贝科技专注于智能语音交互,提供<usraud>智能语音整体解决方案</usraud>和数据服务 文本“智能语音整体解决方案”在合成时直接取录音,其余文本走正常合成
车牌号 <carnum>xxxx</carnum> 指定合成文本“xxxx”时直接按车牌来读,即英文都按字母读法,数字都按电报读法。 (注:车牌号支持两种类型:①“省市简称+数字/字母/-组合”,如:京A1B2C3;②“数字/字母/-组合”,如:1B2C3。特别提醒:被修饰文本除省市简称外不能包含其它汉字;如果以省市简称开头,则省市简称的后接字符必须为大写英文字母) e.g.1请问您是车牌号为<carnum>京A1B2C3</carnum>的车主吗?
e.g.2请问您是车牌号尾号为<carnum>1B2C3</carnum>的车主吗?
e.g.1中,“京A1B2C3”会被读成“京 A 一 B 二 C 三”;
e.g.2中,“1B2C3”会被读成“一 B 二 C 三”
姓名读法 <name>XXX</name> 指定""合成是按照姓名读法,第一个汉字按姓氏读,第二个XXX汉字开始按照常用发音读。其中"XXX"必须为汉字 <name>单单单</name> 尊敬的<name>单单单</name>您好。 第一个"单"读"shan4",后面两个"单"读"dan1" 每一列,通过\t来分隔

音子边界信息(interval时间戳)

系统收到一段文本的合成请求后,会进行文本分析、韵律分析生产音子序列在进行音频合成,每合成一个小片段系统返回一次音频(包括静音),返回音频后计算音频的音子边界信息, 音子边界返回的时间单位是秒,每个小句的音频会从头开始计时

  • 音子合集

    "SIL","SP3",

    "ZH","Z","Y","W","V","UW","UHR","UH","TS","TR","TH","T","SH","S","R","P","OY","OW","NG","N","M","L","K","JH","IY","IHR","IH","HH","G","F","EY","ER","EHR","EH","DZ","DR","DH","D","CH","B","AY","AX","AW","AO","AH","AE","AA",

    "b","ch","c","d","f","g","h","j","k","l","m","n","p","q","r","sh","s","t","x","zh","z",

    "a","ai","an","ang","ao","e","ei","en","eng","er","i","ia","ian","iang","iao","ie","in","ing","io","iong","iou","iu","o","ong","ou","u","ua","uai","uan","uang","uei","uen","ueng","ui","un","uo","v","van","ve","vn",

    "air","angr","anr","aor","ar","eir","engr","enr","iangr","ianr","iaor","iar","ier","ingr","inr","ir","iur","ongr","or","our","uair","uangr","uanr","uar","ueir","uengr","uenr","uir","unr","uor","ur","vanr","ver","vnr","vr"

    SIL和SP3都表示静音,其他大写字母为英文音标,小写字母为中文的音素。

  • 国际音标表
  • 国际音标 CMU 例子 国际音标 CMU 例子 国际音标 CMU 例子
    ɑ: 美音不存在,会读成ae,ar(若有r时) au AW cow y Y yield
    ʌ AH hut əu OW no θ TH theta
    ə AX
    ɔ/ɑ AA odd UH R poor ð DH the
    ɔ: AO ought ɛə EH R there ʃ SH she
    ɝ ER hurt p P pee ʒ ZH seizure
    ə: 美音不存在 美音不存在 b B be CH cheese
    ı IH it t T tea JH gee
    i: IY eat d D dee tr T R tree
    u UH hood k K key dr D R dress
    u: UW who g G green ts T S effects
    e EH ed m M me dz D Z fields
    æ AE at n N knee v V vee
    AY hide ŋ NG ping w W we
    EY detail l L lee f F fee
    ɔı OY toy s S sea r R read
    ıə IH R hear z Z zee h HH he

什么是定制库

  • 什么是定制库?

    定制库是根据客户提供的话术文本进行指定发音人的录音定制,然后集成到客户购买的tts中,调用的时候如果合成文本包含客户定制的文本则直接取定制的录音音频返回给调用方。

  • 制作定制库的流程是什么?

    客户提供需要定制的文本,我们进行此文本的录音录制,再经过数据的加工生成一个.dat的文件,配置到tts中即可。

  • 什么时候会考虑使用定制库?
    • 高频的固定话术(比如客服场景,智能设备唤醒词);
    • 通过tts合成的效果达不到客户的要求;
    • 我方短期内无法优化达到客户的要求;

    如果有定制库的部分,我们会在发给你们安装包的邮件中详细说明哪些文件是定制库,如果没有说明则表示此音库没有定制库文件,也不需要相关定制库的配置。

疑问解答

Q: 语音合成API或SDK可以设置音量、语音、语调吗?
A:可以,支持设置音量、语速、语调,具体可以参考接口文档。
Q: 语音合成单次调用可以合成多少文字
A:语音合成一次输入支持最长不超过1024个字节,超过限制接口会提示错误。
Q: 语音合成的音频是什么格式
A:可以合成 采样率 8000Hz或16000Hz,位深16bits、单声道 pcm、wav、mp3.
Q: 语音合成可以知道文字发音吗
A:可以,具体方式参考xml标签使用。