中文标准女声音库(10000句)
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。
TTS语音合成技术是实现人机语音通信关键技术之一。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别ASR相比,语音合成的技术相对来说要成熟一些,是应用范围较广的技术。
随着人工智能产业的飞速发展,语音合成系统也得到了更加广泛的应用。除了语音合成初期的清晰度、可懂度以外,人们对语音合成的自然度、节奏感以及音质的要求也越来越高。而语音库的质量也是决定语音合成效果的关键因素。
【中文标准女声音库】采集对象的音色风格知性阳光、亲切自然,专业标准普通话女声,听感乐观积极。录制环境为专业录音室和录音软件,录音环境和设备自始至终保持不变,录音环境的信噪比不低于35dB;单声道录音,用48KHz 16比特采样频率、pcm wav格式。录音语料涵盖各类新闻、小说、科技、娱乐、对话等领域,语料设计综合语料样本量,力求在有限的语料数据量内,对音节音子、类型、音调、音连以及韵律等尽可能全面的覆盖。根据合成语音标注标准对音库进行文本音字校对、韵律层级标注、语音文件边界切分标注。

科研

生活出行

智能科技

教育、娱乐等
技术参数
- 数据内容 中文标准女声语音库数据
- 录音语料 综合语料样本量;音节音子的数量、类型、音调、音连以及韵律等进行覆盖。
- 有效时长 约12小时
- 平均字数 16字
- 语言类型 标准普通话
- 发 音 人 女;20-30岁;声音积极知性
- 录音环境 声音采集环境为专业录音棚环境:1)录音棚符合专业音库录制标准;2)录音环境和设备自始至终保持不变;3)录音环境的信噪比不低于35dB。
- 录制工具 专业录音设备及录音软件
- 采样格式 无压缩pcm wav格式,采样率为48KHz、16bit
- 标注内容 音字校对、韵律标注、中文声韵母边界切分
- 标注格式 文本标注为.txt格式文档;音节音素边界切分文件为.interval格式
- 质量标准 1.语音文件为48k 16bit wav格式,音色、音量、语速一致,无漂零无截幅;
2.标注文件字准率不低于99.8%;
3.音素边界错误大于10ms的比例小于1%;音节边界准确率大于98%. - 存储方式 FTP存储
- 文件格式 音频文件:wav 文本标注文件:TXT 边界标注文件:INTERVAL