logo
产品简介 产品简介
基本概念 基本概念
平台新手指引 平台新手指引
计价模式 计价模式
开发者文档下拉
开放平台计价
定制服务计价
获取访问令牌 获取访问令牌
语音合成 语音合成
开发者文档下拉
接口说明
发音人列表
短文本合成 开发者文档下拉
Android SDK
iOS SDK
C++(Linux) SDK
RESTful API
Websocket API
长文本合成 开发者文档下拉
长文本合成API
离线合成 开发者文档下拉
模型文件说明
离线合成 Android SDK
离线合成 iOS SDK
离在线合成 Android SDK
离在线合成 iOS SDK
XML标签
SSML标签
语音合成时间戳功能
语音识别 语音识别
开发者文档下拉
音频格式说明
一句话识别 开发者文档下拉
RESTful API
Websocket API
Android SDK
iOS SDK
实时长语音识别 开发者文档下拉
Websocket API
Android SDK
iOS SDK
录音文件识别 开发者文档下拉
RESTful API
自学习工具 开发者文档下拉
热词
个性化模型
声音复刻 声音复刻
开发者文档下拉
定制模型 开发者文档下拉
RESTful API
Android SDK
iOS SDK
定制声音合成 开发者文档下拉
RESTful API
声音转换 声音转换
开发者文档下拉
发音人列表
Websocket API
Android SDK
iOS SDK
离线声音转换 离线声音转换
开发者文档下拉
发音人列表
Android SDK
iOS SDK
声纹识别 声纹识别
开发者文档下拉
RESTful API
语音评测 语音评测
开发者文档下拉
RESTful API
声音理解 声音理解
开发者文档下拉
RESTful API
协议规则 协议规则
开发者文档下拉
平台服务协议
平台通用规则
法律声明及隐私政策
服务等级协议SLA
常见问题 常见问题
开发者文档下拉
语音合成
语音识别

产品简介

语音识别

自动语音识别(ASR Automic Speech Recognition) 通过先进的深度学习技术,将自然语音精准转换成文本信息。支持一句话语音识别,实时语音识别,录音文件转写。适用于多个应用场景中,包括智能问答、智能质检、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用。

  • 一句话语音识别

    对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。

  • 实时长语音识别

    对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。

  • 录音文件转写

    对用户上传的录音文件进行识别,可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景

  • 自学习技术

    热词:在语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果较差的时候可以考虑使用热词功能,将这些词添加到词表,改善这部分词的识别结果。

    自学习模型:支持您上传业务相关的文本语料训练自学习模型,可以在该业务领域中获得更高的识别准确率,比如司法、金融等领域。

语音合成

  • 语音合成(TTS Text To Speech)

    通过先进的深度学习技术,将文本转换成自然流畅的语音。标贝语音合成服务,有多种音色可供选择。支持音量、语速、语调调节。适用于智能客服,语音交互,有声阅读等场景

  • 产品优势
    • 持续深耕技术能力

      兼顾了多级韵律停顿,达到自然合成韵律的目的,综合利用声学参数和语言学参数,建立基于深度学习的多重自动预测模型。

    • 多领域覆盖

      在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库,使标贝语音合成技术对各领域、各行业的词汇发音更准确。

    • 合成音听感自然逼真

      经海量音频数据训练,使合成音真实饱满、抑扬顿挫、富有表现力,MOS评分达到业内顶级水准。

  • 语音合成声音定制

    为企业提供深度定制TTS声音的能力。通过先进的深度学习技术,用更少的数据量,更快速高效地为您定制个性化语音合成声音。将自然流畅的TTS声音带到服务或设备上。

  • 适用场景
    • 智能客服

      提供多行业多场景的智能客服语音合成能力。提高解答效率,提升客户满意度,降低呼叫中心人工成本。

    • 智能设备

      为智能家居、音箱、车载和可穿戴设备等赋予一个最有温度的声音。

    • 有声阅读

      让富有感染力的声音为您讲故事、读小说和播新闻,满足“懒人”的阅读需求。

    • 无障碍播报

      无论是健全人还是残疾人,无论是年轻人还是老年人,将文字转成流畅动听的自然语言声音。

声音复刻

声音复刻基于自研的深度学习技术和迁移技术, 让用户采集少量的语音数据,能够快速低成本的定制一个新的音色,在声音相似度和声音的自然度上,都能够达到产品化的要求。可以满足家人陪伴、智能交互、在线教育、智能客服等场景对声音个性化的要求。

声音转换

声音转换(Voice conversion),基于深度学习技术、表征学习和迁移学习,将用户输入的原说话人的声音,转换成目标说话人的声音。在改变输出声音音色的同时,很大程度的保留了原说话人的语气、风格,让声音的生成多样化,更富有表现力和创造力。适用于智能客服、媒体娱乐、虚拟直播等不同的应用场景,满足不同人群对于声音创作,以及声音音色稳定性输出的要求。

声纹识别

提供自研的声纹识别基本算法与声纹管理功能,仅通过声音,就可以识别说话人身份,采集成本更低。通过标贝自主研发的强大的声纹算法引擎,实现声纹注册和声纹1:1、1:N 对比验证服务,对说话人的声波特征进行提取和验证辨识,高准确率、低延迟。