语音识别常见问题
排查语音识别错误
- 先使用cooledit或者Adobe Audition打开查看语音格式,播放试听并查看分轨情况、波形、能量和频谱图。ASR识别标准格式是:8KHz或16KHz采样率、16bit采样位数、单声道的语音数据(录音文件识别服务可上传双声道语音数据)。
- 检查管控台项目中使用的模型是否支持音频的采样率和场景。
-
听:播放声音进行试听。
- 一听是否存在噪音,若存在,是人噪(人发出的声音或者远场非主说话人的声音)还是非人噪(如敲桌子、开门、汽车鸣笛等)。
- 二听是否发音清晰、是否可以听清或辨识度高,是否存在吞音、过于快语速或者重口音、方言等(切记主观语义判断,以听为主进行判断)。
-
看:查看波形、能量和频谱图,对于录音文件识别服务,查看分轨情况
- 一看波形幅度是否过小或过大。
- 二看频段信息,是否是音段信息完整的8K或16K数据(频段对应数字乘以2是实际多少K的数据)。
解决方案
- 在项目中选择支持音频采样率和场景的模型。
-
以上吞音、辨识度不高、听不懂等情况无法解决,听不清无法认定是ASR的识别错误。
- 如果是存在方言和重口音等,有可能asr的训练数据覆盖不全造成识别错误。
- 如果有大量的重口音(非方言)识别需求,可以联系标贝同学进一步评估。
- 如果存在人噪被误识别,此问题很难解决,噪声模型优先考虑只要是人发出的声音就会被送进ASR识别。
- 如果存在非人声噪声被误识别,可以多收集一些噪声数据,提供给标贝同学进行噪声模型优化。
- ASR模型的标准训练数据为频段完整的8K或16K数据。建议您确认是否可以存储频段完整的8K或16K数据。
疑问解答
- 一句话识别和实时长语音识别目前支持无压缩的PCM文件或WAV文件,采样率为8K或16K,位深16bits的单声道音频
- 录音文件目前支持单/双声道PCM、WAV、MP3格式,上传音频数据方式一次最多不超过64MB或提交音频URL方式文件大小不超过512MB的录音文件。