产品简介
语音识别
自动语音识别(ASR Automic Speech Recognition) 通过先进的深度学习技术,将自然语音精准转换成文本信息。支持一句话语音识别,实时语音识别,录音文件转写。适用于多个应用场景中,包括智能问答、智能质检、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用。
- 一句话语音识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。
- 实时长语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。
- 录音文件转写
对用户上传的录音文件进行识别,可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景
- 自学习技术
热词:在语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果较差的时候可以考虑使用热词功能,将这些词添加到词表,改善这部分词的识别结果。
自学习模型:支持您上传业务相关的文本语料训练自学习模型,可以在该业务领域中获得更高的识别准确率,比如司法、金融等领域。
语音合成
- 语音合成(TTS Text To Speech)
通过先进的深度学习技术,将文本转换成自然流畅的语音。标贝语音合成服务,有多种音色可供选择。支持音量、语速、语调调节。适用于智能客服,语音交互,有声阅读等场景
- 产品优势
- 持续深耕技术能力
兼顾了多级韵律停顿,达到自然合成韵律的目的,综合利用声学参数和语言学参数,建立基于深度学习的多重自动预测模型。
- 多领域覆盖
在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库,使标贝语音合成技术对各领域、各行业的词汇发音更准确。
- 合成音听感自然逼真
经海量音频数据训练,使合成音真实饱满、抑扬顿挫、富有表现力,MOS评分达到业内顶级水准。
- 持续深耕技术能力
- 语音合成声音定制
为企业提供深度定制TTS声音的能力。通过先进的深度学习技术,用更少的数据量,更快速高效地为您定制个性化语音合成声音。将自然流畅的TTS声音带到服务或设备上。
- 适用场景
- 智能客服
提供多行业多场景的智能客服语音合成能力。提高解答效率,提升客户满意度,降低呼叫中心人工成本。
- 智能设备
为智能家居、音箱、车载和可穿戴设备等赋予一个最有温度的声音。
- 有声阅读
让富有感染力的声音为您讲故事、读小说和播新闻,满足“懒人”的阅读需求。
- 无障碍播报
无论是健全人还是残疾人,无论是年轻人还是老年人,将文字转成流畅动听的自然语言声音。
- 智能客服
声音复刻
声音复刻基于自研的深度学习技术和迁移技术, 让用户采集少量的语音数据,能够快速低成本的定制一个新的音色,在声音相似度和声音的自然度上,都能够达到产品化的要求。可以满足家人陪伴、智能交互、在线教育、智能客服等场景对声音个性化的要求。
声音转换
声音转换(Voice conversion),基于深度学习技术、表征学习和迁移学习,将用户输入的原说话人的声音,转换成目标说话人的声音。在改变输出声音音色的同时,很大程度的保留了原说话人的语气、风格,让声音的生成多样化,更富有表现力和创造力。适用于智能客服、媒体娱乐、虚拟直播等不同的应用场景,满足不同人群对于声音创作,以及声音音色稳定性输出的要求。
声纹识别
提供自研的声纹识别基本算法与声纹管理功能,仅通过声音,就可以识别说话人身份,采集成本更低。通过标贝自主研发的强大的声纹算法引擎,实现声纹注册和声纹1:1、1:N 对比验证服务,对说话人的声波特征进行提取和验证辨识,高准确率、低延迟。