logo
产品简介 产品简介
基本概念 基本概念
平台新手指引 平台新手指引
计价模式 计价模式
开发者文档下拉
开放平台计价
定制服务计价
获取访问令牌 获取访问令牌
语音合成 语音合成
开发者文档下拉
接口说明
发音人列表
短文本合成 开发者文档下拉
Android SDK
iOS SDK
C++(Linux) SDK
RESTful API
Websocket API
长文本合成 开发者文档下拉
长文本合成API
离线合成 开发者文档下拉
模型文件说明
离线合成(普通版) Android SDK
离线合成(普通版) iOS SDK
离线合成(精品版) Android SDK
离线合成(精品版) iOS SDK
XML标签
SSML标签
语音合成时间戳功能
语音识别 语音识别
开发者文档下拉
音频格式说明
一句话识别 开发者文档下拉
RESTful API
Websocket API
Android SDK
iOS SDK
实时长语音识别 开发者文档下拉
Websocket API
Android SDK
iOS SDK
录音文件识别 开发者文档下拉
RESTful API
自学习工具 开发者文档下拉
热词
个性化模型
声音复刻 声音复刻
开发者文档下拉
定制模型 开发者文档下拉
RESTful API
Android SDK
iOS SDK
定制声音合成 开发者文档下拉
RESTful API
声音转换 声音转换
开发者文档下拉
发音人列表
Websocket API
Android SDK
iOS SDK
离线声音转换 离线声音转换
开发者文档下拉
发音人列表
Android SDK
iOS SDK
声纹识别 声纹识别
开发者文档下拉
RESTful API
语音评测 语音评测
开发者文档下拉
RESTful API
声音理解 声音理解
开发者文档下拉
RESTful API
协议规则 协议规则
开发者文档下拉
平台服务协议
平台通用规则
法律声明及隐私政策
服务等级协议SLA
常见问题 常见问题
开发者文档下拉
语音合成
语音识别

语音合成常见问题

xml标签如何使用

点击查看xml标签使用说明

音子边界信息(interval时间戳)

系统收到一段文本的合成请求后,会进行文本分析、韵律分析生产音子序列在进行音频合成,每合成一个小片段系统返回一次音频(包括静音),返回音频后计算音频的音子边界信息, 音子边界返回的时间单位是秒,每个小句的音频会从头开始计时

  • 音子合集

    "SIL","SP3",

    "ZH","Z","Y","W","V","UW","UHR","UH","TS","TR","TH","T","SH","S","R","P","OY","OW","NG","N","M","L","K","JH","IY","IHR","IH","HH","G","F","EY","ER","EHR","EH","DZ","DR","DH","D","CH","B","AY","AX","AW","AO","AH","AE","AA",

    "b","ch","c","d","f","g","h","j","k","l","m","n","p","q","r","sh","s","t","x","zh","z",

    "a","ai","an","ang","ao","e","ei","en","eng","er","i","ia","ian","iang","iao","ie","in","ing","io","iong","iou","iu","o","ong","ou","u","ua","uai","uan","uang","uei","uen","ueng","ui","un","uo","v","van","ve","vn",

    "air","angr","anr","aor","ar","eir","engr","enr","iangr","ianr","iaor","iar","ier","ingr","inr","ir","iur","ongr","or","our","uair","uangr","uanr","uar","ueir","uengr","uenr","uir","unr","uor","ur","vanr","ver","vnr","vr"

    SIL和SP3都表示静音,其他大写字母为英文音标,小写字母为中文的音素。

  • 国际音标表
  • 国际音标 CMU 例子 国际音标 CMU 例子 国际音标 CMU 例子
    ɑ: 美音不存在,会读成ae,ar(若有r时) au AW cow y Y yield
    ʌ AH hut əu OW no θ TH theta
    ə AX
    ɔ/ɑ AA odd UH R poor ð DH the
    ɔ: AO ought ɛə EH R there ʃ SH she
    ɝ ER hurt p P pee ʒ ZH seizure
    ə: 美音不存在 美音不存在 b B be CH cheese
    ı IH it t T tea JH gee
    i: IY eat d D dee tr T R tree
    u UH hood k K key dr D R dress
    u: UW who g G green ts T S effects
    e EH ed m M me dz D Z fields
    æ AE at n N knee v V vee
    AY hide ŋ NG ping w W we
    EY detail l L lee f F fee
    ɔı OY toy s S sea r R read
    ıə IH R hear z Z zee h HH he

什么是定制库

  • 什么是定制库?

    定制库是根据客户提供的话术文本进行指定发音人的录音定制,然后集成到客户购买的tts中,调用的时候如果合成文本包含客户定制的文本则直接取定制的录音音频返回给调用方。

  • 制作定制库的流程是什么?

    客户提供需要定制的文本,我们进行此文本的录音录制,再经过数据的加工生成一个.dat的文件,配置到tts中即可。

  • 什么时候会考虑使用定制库?
    • 高频的固定话术(比如客服场景,智能设备唤醒词);
    • 通过tts合成的效果达不到客户的要求;
    • 我方短期内无法优化达到客户的要求;

    如果有定制库的部分,我们会在发给你们安装包的邮件中详细说明哪些文件是定制库,如果没有说明则表示此音库没有定制库文件,也不需要相关定制库的配置。

疑问解答

Q: 语音合成API或SDK可以设置音量、语音、语调吗?
A:可以,支持设置音量、语速、语调,具体可以参考接口文档。
Q: 语音合成单次调用可以合成多少文字
A:语音合成一次输入支持最长不超过300个汉字,超过限制接口会提示错误。
Q: 语音合成的音频是什么格式
A:可以合成 采样率 8000Hz或16000Hz,位深16bits、单声道 pcm、wav、mp3.
Q: 语音合成可以知道文字发音吗
A:可以,具体方式参考xml标签使用。