标贝科技-智能语音交互与AI数据服务专家

产品简介

基本概念

平台新手指引

计价模式

开放平台计价

定制服务计价

获取访问令牌

语音合成

接口说明

发音人列表

短文本合成

Android SDK

iOS SDK

C++(Linux) SDK

RESTful API

Websocket API

长文本合成

长文本合成RESTful API

长文本合成Websocket API

离线合成

模型文件说明

离线合成(普通版) Android SDK

离线合成(普通版) iOS SDK

离线合成(精品版) Android SDK

离线合成(精品版) iOS SDK

XML标签

SSML标签

语音合成时间戳功能

语音识别

音频格式说明

一句话识别

RESTful API

Websocket API

Android SDK

iOS SDK

实时长语音识别

Websocket API

Android SDK

iOS SDK

录音文件识别

RESTful API

自学习工具

热词

个性化模型

声音复刻

定制模型

RESTful API

Android SDK

iOS SDK

定制声音合成

短文本合成RESTful API

长文本合成Websocket API

声音转换

发音人列表

Websocket API

Android SDK

iOS SDK

离线声音转换

发音人列表

Android SDK

iOS SDK

声纹识别

RESTful API

声音理解

RESTful API

协议规则

平台服务协议

平台通用规则

法律声明及隐私政策

服务等级协议SLA

常见问题

语音合成

语音识别

产品简介

语音识别

自动语音识别（ASR Automic Speech Recognition）通过先进的深度学习技术，将自然语音精准转换成文本信息。支持一句话语音识别，实时语音识别，录音文件转写。适用于多个应用场景中，包括智能问答、智能质检、实时演讲字幕、访谈录音转写等场景，在金融、保险、司法、电商等多个领域均有应用。

一句话语音识别
对时长较短（一分钟以内）的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等，可集成在各类App、智能家电、智能助手等产品中。
实时长语音识别
对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。
录音文件转写
对用户上传的录音文件进行识别，可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景
自学习技术
热词：在语音识别服务中，如果在您的业务领域有一些特有的词，默认识别效果较差的时候可以考虑使用热词功能，将这些词添加到词表，改善这部分词的识别结果。

自学习模型：支持您上传业务相关的文本语料训练自学习模型，可以在该业务领域中获得更高的识别准确率，比如司法、金融等领域。

语音合成

语音合成(TTS Text To Speech)
通过先进的深度学习技术，将文本转换成自然流畅的语音。标贝语音合成服务，有多种音色可供选择。支持音量、语速、语调调节。适用于智能客服，语音交互，有声阅读等场景
产品优势
- 持续深耕技术能力
  兼顾了多级韵律停顿，达到自然合成韵律的目的，综合利用声学参数和语言学参数，建立基于深度学习的多重自动预测模型。
- 多领域覆盖
  在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库，使标贝语音合成技术对各领域、各行业的词汇发音更准确。
- 合成音听感自然逼真
  经海量音频数据训练，使合成音真实饱满、抑扬顿挫、富有表现力，MOS评分达到业内顶级水准。
语音合成声音定制
为企业提供深度定制TTS声音的能力。通过先进的深度学习技术，用更少的数据量，更快速高效地为您定制个性化语音合成声音。将自然流畅的TTS声音带到服务或设备上。
适用场景
- 智能客服
  提供多行业多场景的智能客服语音合成能力。提高解答效率，提升客户满意度，降低呼叫中心人工成本。
- 智能设备
  为智能家居、音箱、车载和可穿戴设备等赋予一个最有温度的声音。
- 有声阅读
  让富有感染力的声音为您讲故事、读小说和播新闻，满足“懒人”的阅读需求。
- 无障碍播报
  无论是健全人还是残疾人，无论是年轻人还是老年人，将文字转成流畅动听的自然语言声音。

声音复刻

声音复刻基于自研的深度学习技术和迁移技术，让用户采集少量的语音数据，能够快速低成本的定制一个新的音色，在声音相似度和声音的自然度上，都能够达到产品化的要求。可以满足家人陪伴、智能交互、在线教育、智能客服等场景对声音个性化的要求。

声音转换

声音转换(Voice conversion)，基于深度学习技术、表征学习和迁移学习，将用户输入的原说话人的声音，转换成目标说话人的声音。在改变输出声音音色的同时，很大程度的保留了原说话人的语气、风格，让声音的生成多样化，更富有表现力和创造力。适用于智能客服、媒体娱乐、虚拟直播等不同的应用场景，满足不同人群对于声音创作，以及声音音色稳定性输出的要求。

声纹识别

提供自研的声纹识别基本算法与声纹管理功能，仅通过声音，就可以识别说话人身份，采集成本更低。通过标贝自主研发的强大的声纹算法引擎，实现声纹注册和声纹1:1、1:N 对比验证服务，对说话人的声波特征进行提取和验证辨识，高准确率、低延迟。

开发者文档

产品简介

语音识别

语音合成

声音复刻

声音转换

声纹识别

智能语音

AI数据服务

场景解决方案

关于我们

标贝科技有限公司