logo
产品简介 产品简介
基本概念 基本概念
平台新手指引 平台新手指引
计价模式 计价模式
开发者文档下拉
开放平台计价
定制服务计价
获取访问令牌 获取访问令牌
语音合成 语音合成
开发者文档下拉
接口说明
发音人列表
短文本合成 开发者文档下拉
Android SDK
iOS SDK
C++(Linux) SDK
RESTful API
Websocket API
长文本合成 开发者文档下拉
长文本合成API
离线合成 开发者文档下拉
模型文件说明
离线合成(普通版) Android SDK
离线合成(普通版) iOS SDK
离线合成(精品版) Android SDK
离线合成(精品版) iOS SDK
XML标签
SSML标签
语音合成时间戳功能
语音识别 语音识别
开发者文档下拉
音频格式说明
一句话识别 开发者文档下拉
RESTful API
Websocket API
Android SDK
iOS SDK
实时长语音识别 开发者文档下拉
Websocket API
Android SDK
iOS SDK
录音文件识别 开发者文档下拉
RESTful API
自学习工具 开发者文档下拉
热词
个性化模型
声音复刻 声音复刻
开发者文档下拉
定制模型 开发者文档下拉
RESTful API
Android SDK
iOS SDK
定制声音合成 开发者文档下拉
RESTful API
声音转换 声音转换
开发者文档下拉
发音人列表
Websocket API
Android SDK
iOS SDK
离线声音转换 离线声音转换
开发者文档下拉
发音人列表
Android SDK
iOS SDK
声纹识别 声纹识别
开发者文档下拉
RESTful API
语音评测 语音评测
开发者文档下拉
RESTful API
声音理解 声音理解
开发者文档下拉
RESTful API
协议规则 协议规则
开发者文档下拉
平台服务协议
平台通用规则
法律声明及隐私政策
服务等级协议SLA
常见问题 常见问题
开发者文档下拉
语音合成
语音识别

xml标签说明

xml标签如何使用

通过URL合成文本时,请将“#”替换成“%23”,否则包含“#”的标签会失效。 这个只有在浏览器的情况下才需要替换,程序中不需要

  • 可以指定数字的读法(数字读法/电报读法/电话号码/地址/ID/逐字符读法/标点读法/日期读法/时间读法/货币读法/度量衡读法);
  • 可以指定汉字的拼音(合成时按指定拼音发音);
  • 可以指定停顿类型(一级/二级/三级停顿);
  • 可以指定英文单词的读法(英文单词读法);
  • 可以指定静音时长[前提:#3韵律处指定才能生效,否则无效];
  • 可以指定车牌号读法[英文按字母读,数字按电报读]
  • 可以在指定位置增加换气声[前提:定制库中有长换气/短换气对应的定制库音频]
  • 建议:
    • 不要在配对的双标签中嵌套使用双标签或单标签,以免造成标签失效;
    • 指定中文拼音时推荐使用“X<cnphone py=xxx>”标签;
    • 使用时请严格参照上述说明,请勿随意增删空格等字符,以免造成标签失效;
    • silence和<pause type=#3>一起使用是有效的;silence单独使用也是有效的;silence加在“。”等断句符号前面是可以生效的。

数字等字符串读法

  • 数字读法
    • xml标签
      <figure>xxx</figure type=digit>
    • 说明
      指定“xxx”的合成采用数字读法。其中“xxx”必须为单字节阿拉伯数字。
    • 举例
      1.食物加热需要<figure>110</figure type=digit>分钟才能完成。
      2.遭遇紧急情况请拨打<figure>110</figure type=digit>报警电话
    • 效果
      数字都读成:一百一十
  • 电报读法
    • xml标签
      <figure>xxx</figure type=ordinal>
    • 说明
      指定“xxx”的合成采用电报读法。其中“xxx”必须为单字节阿拉伯数字。
    • 举例
      1.食物加热需要<figure>110</figure type=ordinal>分钟才能完成。
      2.遭遇紧急情况请拨打<figure>110</figure type=ordinal>报警电话。
    • 效果
      数字都读成:幺幺零
  • 电话号码读法
    • xml标签
      <figure>xxx</figure type=telephone>
    • 说明
      指定“xxx”的合成采用电话号码读法,按电话号码的常用方式发音。
      支持格式包括:
      ①座机号:2345678。
      ②座机号+分机号:2345678-123、2345678分机123。
      ③区号+座机号:0102345678。
      ④区号+座机号+分机号:010-2345678-123。
      ⑤国家代买+区号+座机号:(86)010-2345678。
      ⑥国家代码+区号+座机号+分机号:(86)010-2345678-123。
      ⑦手机号:13912345679。
      ⑧国家代码+手机号:+8613912345678。
      ⑨服务号:95111。
    • 举例
      ① <figure>62552560</figure type=telephone>
      ② <figure>4930286-109</figure type=telephone>
      <figure>4930286分机109</figure type=telephone>
      ③ <figure>0102345678</figure type=telephone>
      ④ <figure>010-2345678-123</figure type=telephone>
      ⑤ <figure>(86)010-2345678</figure type=telephone>
      ⑥ <figure>(86)010-2345678-123</figure type=telephone>
      ⑦ <figure>13912345678</figure type=telephone>
      ⑧ <figure>+8613912345678</figure type=telephone>
      ⑨ <figure>95111</figure type=telephone>
    • 效果
      ① 六二五五 二五六零
      ② 四九三 零二八六 转幺零九
      四九三 零二八六 分机幺零九
      ③ 零幺零 二三四 五六七八
      ④ 零幺零 二三四 五六七八 转幺二三
      ⑤ 八六 零幺零 二三四 五六七八
      ⑥ 八六 零幺零 二三四 五六七八 转幺二三
      ⑦ 幺三九 幺二三四 五六七八
      ⑧ 八六 幺三九 幺二三四 五六七八
      ⑨ 九五幺幺幺
  • 地址读法
    • xml标签
      <figure>xxx</figure type=address>
    • 说明
      指定“xxx”的合成采用地址读法,按地址读法发音。
    • 举例
      ① <figure>元和镇嘉元30-9</figure type=address>
      ② <figure>市台路388弄1107-1108号</figure type=address>
      ③ <figure>华润二十四城六期锦云府3-1-3205</figure type=address>
      ④ <figure>圣华名都大厦2幢2006室</figure type=address>
      ⑤ <figure>五常街道庭院5幢4单元201</figure type=address>
    • 效果
      ① 元和镇嘉元三十杠九
      ② 市台路三八八弄幺幺零七杠幺幺零八号
      ③ 华润二十四城六期锦云府三杠一杠三二零五
      ④ 圣华名都大厦二幢二零零六室
      ⑤ 五常街道庭院五幢四单元二零幺
  • ID读法
    • xml标签
      <figure>xxx</figure type=id>
    • 说明
      指定“xxx”的合成采用ID读法,适用于账号名称、ID等场景。ID由半角阿拉伯数字、半角英文大小写字母和半角下划线组成,超出此范围则为非法ID,会导致标签失效。
    • 举例
      ① <figure>dell0101</figure type=id>
      ② <figure>myid_1998</figure type=id>
      ③ <figure>AiTest</figure type=id>
    • 效果
      ① D E L L 零幺零幺
      ② M Y I D 下划线幺九九八
      ③ A I T E S T
  • 逐字符读法
    • xml标签
      <figure>xxx</figure type=characters>
    • 说明
      指定“xxx”的合成采用逐字符读法,将标签内的文本按字符一一读出来。支持中文汉字、大小写英文半角字符、半角阿拉伯数字0~9以及部分全角和半角字符。
    • 举例
      ① <figure>ISBN 1-001-099098-1</figure type=characters>
      ② <figure>x10b2345_u</figure type=characters>
      ③ <figure>v1.0.1</figure type=characters>
      ④ <figure>版本号2.0</figure type=characters>
      ⑤ <figure>αβγ</figure type=characters>
    • 效果
      ① I S B N 一杠零零幺杠零九九零九八杠一
      ② X 幺零 B 二三四五下划线 U
      ③ V 一点零点一
      ④ 版本号二点零
      ⑤ 阿尔法贝塔伽玛
  • 标点读法
    • xml标签
      <figure>xxx</figure type=punctuation>
    • 说明
      指定“xxx”的合成采用标点读法,将标签内的文本按标点负号的方式读出来。
      支持的标点符号包括:
      “(左双引号)、‘(左单引号)、!(叹号)、”(右双引号)、’(右单引号)、((左括号)、)(右括号)、,(逗号)、。(句号)、—(杠)、:(冒号)、;(分号)、?(问号)、、(顿号)、…(省略号)、……(省略号)、《(左书名号)、》(右书名号)、¥(人民币符号)、≥(大于等于)、≤(小于等于)、≠(不等于)、≈(约等于)、±(加减)、×(乘)、π(派)、Α(阿尔法)、Β(贝塔)、Γ(伽玛)、Δ(德尔塔)、Ε(艾普西龙)、Ζ(捷塔)、Θ(西塔)、Ι(艾欧塔)、Κ(喀帕)、∧(拉姆达)、Μ(缪)、Ν(拗)、Ξ(克西欧)、Ο(麦克轮)、∏(派)、Ρ(柔)、∑(西格玛)、Τ(套)、Υ(宇普西龙)、Φ(fai)、Χ(器)、Ψ(普赛)、Ω(欧米伽)、α(阿尔法)、β(贝塔)、γ(伽玛)、δ(德尔塔)、ε(艾普西龙)、ζ(捷塔)、η(依塔)、θ(西塔)、ι(艾欧塔)、κ(喀帕)、λ(拉姆达)、μ(缪)、ν(拗)、ξ(克西)、ο(欧麦克轮)、π(派)、ρ(柔)、σ(西格玛)、τ(套)、υ(宇普西龙)、φ(fai)、χ(器)、ψ(普赛)、ω(欧米伽)、!(叹号)、#(井号)、$(dollar)、%(百分号)、&(and)、((左括号)、)(右括号)、*(星)、+(加)、,(逗号)、-(杠)、.(点)、/(斜杆)、:(冒号)、;(分号)、<(小于)、=(等号)、>(大于)、?(问号)、@(at)、[(左方括号)、\(反斜线)、](右方括号)、^(脱字符)、_(下划线)、`(反引号)、{(左花括号)、|(竖线)、}(右花括号)、~(波浪线)
    • 举例
      ① <figure><=>?@</figure type=punctuation>
      ② <figure>……</figure type=punctuation>
      ③ <figure>!#$%&</figure type=punctuation>
      ④ <figure>‘()*+</figure type=punctuation>
      ⑤ <figure>[\]^_</figure type=punctuation>
    • 效果
      ① 小于等号大于问号 at
      ② 省略号
      ③ 叹号井号 dollar 百分号 and
      ④ 左单引号左括号右括号星加
      ⑤ 左方括号反斜线右方括号脱字符下划线
  • 日期读法
    • xml标签
      <figure>xxx</figure type=date>
    • 说明
      指定“xxx”的合成采用日期读法,按日期发音。
      不支持英文格式日期
      支持的中文日期格式包括:
      xx年、xx年xx月、xx年xx月xx日、xx年xx月xx号、xx月xx号、年/月、年/月/日、xx年xx月xx日~xx年xx月xx日、xx年xx月xx日~xx日、xx年xx月~xx年xx月、xx月xx日~xx月xx日、xx月xx日~xx日、年.月.日~年.月.日、月/日~月/日、xx~xx月、月/日/年
    • 举例
      ① <figure>71年</figure type=date>
      ② <figure>2021年</figure type=date>
      ③ <figure>2021/10/01</figure type=date>
      ④ <figure>2021/09/01/~2021/10/01</figure type=date>
    • 效果
      ① 七一年
      ② 二零二一年
      ③ 二零二一年十月一日
      ④ 二零二一年九月一日到二零二一年十月一日
  • 时间读法
    • xml标签
      <figure>xxx</figure type=time>
    • 说明
      指定“xxx”的合成采用时间读法,按时间发音。
      支持的中文时间格式包括:
      xx:xx、xx:xx:xx、xx:xx~xx:xx、上午xx:xx~下午xx:xx、xx:xx:xxam、xx:xx:xxpm
    • 举例
      ① <figure>10:20:30</figure type=time>
      ② <figure>11:00~12:00</figure type=time>
      ③ <figure>上午10:20~下午13:30</figure type=time>
      ④ <figure>5:20:12am</figure type=time>
    • 效果
      ① 十点二十分三十秒
      ② 十一点到十二点
      ③ 上午十点二十分到下午十三点三十分
      ④ 上午五点二十分十二秒
  • 货币读法
    • xml标签
      <figure>xxx</figure type=currency>
    • 说明
      指定“xxx”的合成采用货币读法,按金额发音。
      支持的货币符号包括(大小写敏感):
      $(美元)、ARS(阿根廷比索)、ARS$(阿根廷比索)、ATS(奥地利先令)、AUD(澳元)、BEF(比利时法郎)、BGN(保加利亞列弗)、CAD(加元)、CHF(瑞士法郎)、CNY(元)、DEM(德国马克)、ESP(西班牙比塞塔)、EUR(欧元)、FIM(芬兰马克)、FRF(法国法郎)、Fr(法郎)、GBP(英镑)、HKD(港币)、IDR(印尼盾)、IEP(爱尔兰镑)、ITL(意大利里拉)、JPY(日元)、J¥(日元)、KRW(韩国元)、LUF(卢森堡法郎)、Lm(马耳他里拉)、MYR(马来西亚林吉特)、NLG(荷兰盾)、NOK(挪威克朗)、NT$(新台币)、NZD(新西兰元)、PHP(菲律宾比索)、PTE(葡萄牙埃斯库多)、R$(巴西雷亚尔)、RMB(人民币)、Rp(印尼盾)、S$(新加坡元)、SEK(瑞典克朗)、SGD(新加坡元)、SUR(俄罗斯卢布)、Sk(斯洛伐克克朗)、THB(泰铢)、USD(美元)、VND(越南盾)、kr(丹麦克朗)、¥(人民币)、лв(保加利亞列弗)、руб(俄罗斯卢布)、€(欧元)、£(英镑)、¥(元)、$(美元)
    • 举例
      ① <figure>12.00RMB</figure type=currency>
      ② <figure>$12.12</figure type=currency>
      ③ <figure>1213.00KML</figure type=currency>
      ④ <figure>$12,000.99</figure type=currency>
    • 效果
      ① 十二人民币
      ② 十二点一二美元
      ③ 一千二百一十三 K M L
      ④ 一万两千点九九美元
  • 度量衡读法
    • xml标签
      <figure>xxx</figure type=measure>
    • 说明
      指定“xxx”的合成采用度量衡读法,按计量单位发音。
      支持的度量单位包括(大小写敏感):
      nm(纳米)、μm(微米)、mm(毫米)、cm(厘米)、m(米)、km(千米)、ft(英尺)、in(英寸)、mm2(平方毫米)、cm2(平方厘米)、㎡(平方米)、km2(平方千米)、SqFt(平方英尺)、cm3(立方厘米)、m3(立方米)、km3(立方千米)、mL(毫升)、L(升)、gallon(加仑)、μg(微克)、mg(毫克)、g(克)、kg(千克)、min(分)、sec(秒)、ms(毫秒)、μA(微安)、mA(毫安)、Ω(欧姆)、Hz(赫兹)、KHz(千赫兹)、MHz(兆赫兹)、GHz(吉赫兹)、V(伏)、kV(千伏)、kWh(千瓦时)、dB(分贝)、Pa(帕)、kPa(千帕)、Mpa(兆帕)、k㎡(平方千米)、kHz(千赫兹)、c㎡(平方厘米)、kW(千瓦)、cal(卡路里)
    • 举例
      ① <figure>120㎡56cm2</figure type=measure>
      ② <figure>10~15kg</figure type=measure>
      ③ <figure>100多毫克</figure type=measure>
    • 效果
      ① 一百二十平方米五十六平方厘米
      ② 十至十五千克
      ③ 一百多毫克

拼音读法

  • xml标签
    X<cnphone py=xxx>或X(xxx)
  • 说明
    指定“X”合成时的拼音为“xxx”。其中,本标签只控制标签前的一个汉字“X”,且“X”必须为汉字。指定的拼音必须合法[声韵母完整],声调为1-5,其中5为轻声。
  • 举例
    1.标贝科技<cnphone py=ji1>
    2.标贝科技(ji1)
  • 效果
    “技”的读音将从四声“ji4”变为一声“ji1”

停顿类型读法

  • xml标签
    <pause type=xx>
  • 说明
    指定合成时标签所在位置的停顿类型为“xx”。其中“xx”的取值为“#0”、“#1”、“#2”、“#3”之一。
  • 举例
    标贝科技<pause type=#3>专注于智能语音交互<pause type=#3>提供智能语音整体解决方案和数据服务
  • 效果
    #0:没有停顿
    #1:词语间的微小停顿
    #2:短句间的中级停顿
    #3:句子间的长停顿

英文读法

  • xml标签
    <readmode>XXX</readmode type=eng>
  • 说明
    指定“XXX”的合成采用英文单词读法。其中“XXX”必须为单字节英文字母和单字节数字(包含小数)组成的单词。
  • 举例
    上地<readmode>MOMA</readmode type=eng>
  • 效果
    单词“MOMA”会被读成:...牟嘛…

静音时长读法

  • xml标签
    <silence len=xxx>
  • 说明
    指定合成时标签所在位置的静音时长。其中“xxx”的取值范围为[0, 3000],单位为毫秒。注:silence标签只能在#3处生效,所以可以配合 <pause type="#3"> 一起使用 <pause type="#3">一起使用。
  • 举例
    标贝科技<silence len=200>专注于智能语音交互<silence len=500>提供智能语音整体解决方案和数据服务
  • 效果
    “科技”与“专注”之间会有200ms静音;“交互”与“提供”之间会有500ms静音

录音读法

  • xml标签
    <usraud>xxxx</usraud>
  • 说明
    指定合成文本“xxxx”时直接取录音。 (注:本标签需要搭配录音库文件一起使用。如果没有录音库文件则本标签失效,按正常逻辑合成)
  • 举例
    标贝科技专注于智能语音交互,提供<usraud>智能语音整体解决方案</usraud>和数据服务
  • 效果
    文本“智能语音整体解决方案”在合成时直接取录音,其余文本走正常合成

车牌号读法

  • xml标签
    <carnum>xxxx</carnum>
  • 说明
    指定合成文本“xxxx”时直接按车牌来读,即英文都按字母读法,数字都按电报读法。
    注:车牌号支持两种类型:
    ①“省市简称+数字/字母/-组合”,如:京A1B2C3;
    ②“数字/字母/-组合”,
    如:1B2C3。
    特别提醒:被修饰文本除省市简称外不能包含其它汉字;如果以省市简称开头,则省市简称的后接字符必须为大写英文字母
  • 举例
    e.g.1请问您是车牌号为<carnum>京A1B2C3</carnum>的车主吗?
    e.g.2请问您是车牌号尾号为<carnum>1B2C3</carnum>的车主吗?
  • 效果
    e.g.1中,“京A1B2C3”会被读成“京 A 一 B 二 C 三”;
    e.g.2中,“1B2C3”会被读成“一 B 二 C 三”

姓名读法

  • xml标签
    <name>XXX</name>
  • 说明
    指定""合成是按照姓名读法,第一个汉字按姓氏读,第二个XXX汉字开始按照常用发音读。其中"XXX"必须为汉字 <name>单单单</name>
  • 举例
    尊敬的<name>单单单</name>您好。
  • 效果
    第一个"单"读"shan4",后面两个"单"读"dan1" 每一列,通过\t来分隔

音子边界信息(interval时间戳)

系统收到一段文本的合成请求后,会进行文本分析、韵律分析生产音子序列在进行音频合成,每合成一个小片段系统返回一次音频(包括静音),返回音频后计算音频的音子边界信息, 音子边界返回的时间单位是秒,每个小句的音频会从头开始计时

  • 音子合集

    "SIL","SP3",

    "ZH","Z","Y","W","V","UW","UHR","UH","TS","TR","TH","T","SH","S","R","P","OY","OW","NG","N","M","L","K","JH","IY","IHR","IH","HH","G","F","EY","ER","EHR","EH","DZ","DR","DH","D","CH","B","AY","AX","AW","AO","AH","AE","AA",

    "b","ch","c","d","f","g","h","j","k","l","m","n","p","q","r","sh","s","t","x","zh","z",

    "a","ai","an","ang","ao","e","ei","en","eng","er","i","ia","ian","iang","iao","ie","in","ing","io","iong","iou","iu","o","ong","ou","u","ua","uai","uan","uang","uei","uen","ueng","ui","un","uo","v","van","ve","vn",

    "air","angr","anr","aor","ar","eir","engr","enr","iangr","ianr","iaor","iar","ier","ingr","inr","ir","iur","ongr","or","our","uair","uangr","uanr","uar","ueir","uengr","uenr","uir","unr","uor","ur","vanr","ver","vnr","vr"

    SIL和SP3都表示静音,其他大写字母为英文音标,小写字母为中文的音素。

  • 国际音标表
  • 国际音标 CMU 例子 国际音标 CMU 例子 国际音标 CMU 例子
    ɑ: 美音不存在,会读成ae,ar(若有r时) au AW cow y Y yield
    ʌ AH hut əu OW no θ TH theta
    ə AX
    ɔ/ɑ AA odd UH R poor ð DH the
    ɔ: AO ought ɛə EH R there ʃ SH she
    ɝ ER hurt p P pee ʒ ZH seizure
    ə: 美音不存在 美音不存在 b B be CH cheese
    ı IH it t T tea JH gee
    i: IY eat d D dee tr T R tree
    u UH hood k K key dr D R dress
    u: UW who g G green ts T S effects
    e EH ed m M me dz D Z fields
    æ AE at n N knee v V vee
    AY hide ŋ NG ping w W we
    EY detail l L lee f F fee
    ɔı OY toy s S sea r R read
    ıə IH R hear z Z zee h HH he