logo
产品简介 产品简介
基本概念 基本概念
平台新手指引 平台新手指引
计价模式 计价模式
开发者文档下拉
开放平台计价
定制服务计价
获取访问令牌 获取访问令牌
语音合成 语音合成
开发者文档下拉
接口说明
发音人列表
在线合成 开发者文档下拉
Android SDK
iOS SDK
C++(Linux) SDK
RESTful API
Websocket API
长文本语音合成API
离线合成 开发者文档下拉
离线合成 Android SDK
离线合成 iOS SDK
语音识别 语音识别
开发者文档下拉
一句话识别 开发者文档下拉
RESTful API
Websocket API
实时长语音识别 开发者文档下拉
Websocket API
录音文件识别 开发者文档下拉
RESTful API
SDK文档 开发者文档下拉
Android SDK
iOS SDK
声音复刻 声音复刻
开发者文档下拉
定制模型 开发者文档下拉
RESTful API
Android SDK
iOS SDK
语音合成 开发者文档下拉
RESTful API
声音转换 声音转换
开发者文档下拉
Websocket API
Android SDK
iOS SDK
协议规则 协议规则
开发者文档下拉
平台服务协议
平台通用规则
法律声明及隐私政策
服务等级协议SLA
常见问题 常见问题
开发者文档下拉
语音合成
语音识别

语音识别常见问题

排查语音识别错误

  • 先使用cooledit或者Adobe Audition打开查看语音格式,播放试听并查看分轨情况、波形、能量和频谱图。ASR识别标准格式是:8KHz或16KHz采样率、16bit采样位数、单声道的语音数据(录音文件识别服务可上传双声道语音数据)。
  • 检查管控台项目中使用的模型是否支持音频的采样率和场景。
  • 听:播放声音进行试听。
    • 一听是否存在噪音,若存在,是人噪(人发出的声音或者远场非主说话人的声音)还是非人噪(如敲桌子、开门、汽车鸣笛等)。
    • 二听是否发音清晰、是否可以听清或辨识度高,是否存在吞音、过于快语速或者重口音、方言等(切记主观语义判断,以听为主进行判断)。
  • 看:查看波形、能量和频谱图,对于录音文件识别服务,查看分轨情况
    • 一看波形幅度是否过小或过大。
    • 二看频段信息,是否是音段信息完整的8K或16K数据(频段对应数字乘以2是实际多少K的数据)。

解决方案

说明: 语音识别不可能达到100%识别准确,不是所有的badcase都能解掉。
  • 在项目中选择支持音频采样率和场景的模型。
  • 以上吞音、辨识度不高、听不懂等情况无法解决,听不清无法认定是ASR的识别错误。
    • 如果是存在方言和重口音等,有可能asr的训练数据覆盖不全造成识别错误。
    • 如果有大量的重口音(非方言)识别需求,可以联系标贝同学进一步评估。
  • 如果存在人噪被误识别,此问题很难解决,噪声模型优先考虑只要是人发出的声音就会被送进ASR识别。
  • 如果存在非人声噪声被误识别,可以多收集一些噪声数据,提供给标贝同学进行噪声模型优化。
  • ASR模型的标准训练数据为频段完整的8K或16K数据。建议您确认是否可以存储频段完整的8K或16K数据。

疑问解答

Q: 语音识别出现识别率不高的现象是什么原因?
A:
造成识别率很低的原因有很多,排查的思路(音量格式不符合要求、音频质量较差、设置的方言语种采样率等参数不对等等)。
Q: 语音识别的音频是什么格式?
A:
  • 一句话识别和实时长语音识别目前支持无压缩的PCM文件或WAV文件,采样率为8K或16K,位深16bits的单声道音频
  • 录音文件目前支持单/双声道PCM、WAV、MP3格式,上传音频数据方式一次最多不超过64MB或提交音频URL方式文件大小不超过512MB的录音文件。