当前位置: 首页 > 标贝动态

让语音助手更像人,要做出哪些努力?

2018年03月05日           虎嗅网

标贝科技是一家2016年2月组建,6月开始正式运营的语音合成公司。凭借不到30人的小团队和仅仅1人的市场兼销售,他们在成立当年便与百度、滴滴等大企业展开合作,确立了自己在语音合成领域的位置。


语音合成对多数人而言并不是多么陌生的技术,大家都知道这一技术应用在哪些地方。百度地图、滴滴出行等出行类app,喜马拉雅小雅音箱、Rokid若琪等智能音箱,出门问问等语音助手都被我们熟知。他们的声音背后,都有标贝的方案。


语音的背后是智能。标贝科技在产业中所处的位置,是人工智能的人机交互部分,这部分可进一步细分为语音识别、语义分析(2017年在国内骤然兴起的NLP)及语音合成三个领域。诚然,作为一家创业公司,标贝科技需要面对不少先行者乃至巨头;幸运的是,科大讯飞、捷通华声等老前辈把更多精力集中于语音识别,近些年国内的创业同行们也普遍专攻NLP,语音合成则相对是市场认知较晚、从业专家较少的领域。


国内最早研究语音合成的团队,一些在国家机关如中科院,一些集中在高等学府如北大、清华、中科大等,一些则在科大讯飞、捷通华声等公司任职。最初的语音合成技术,应用于银行叫号机、火车站广播等跟互联网没啥关系的产品。严格来说,那个时代的语音合成并不是人工智能的细分领域;也因此,在需求变化后,当语音合成离不开人工智能,这个行业需要一定程度的「从头再来」,这也就给了标贝科技等创业公司以机会。


虽然尚属创业公司,但标贝科技的创始团队及其核心技术人员普遍有着六、七年以上的从业经历,他们来自科大讯飞、捷通华声、百度等大企业,不仅是这一曾经的冷门行业中为数不多的高级人才,彼此之间的合作也早有年月。此次出来创业,以创始人刘博为首的标贝科技,打算带着语音合成的专业知识和经验,全面拥抱人工智能时代。


仅仅提到「语音合成」,不足以描述标贝科技的垂直程度,实际上他们更专注于语音合成背后的数据库及其加工方式。简而言之,机器说话可以理解为对人类说话的一种模仿,但人类说话并没有一种固定的模式——拿高德地图来说,林志玲语音包和默认语音包能一样么?基于林志玲创建的语音数据库,可能就比来自其他人的更受欢迎一些。


更细微的差别不止于此。一个成年人在兴奋时什么语气,沮丧时什么语气,正午什么音调,子夜什么音调,工作时如何用词,私密时如何用词,可能都会有显著区别。对于社会而言,10年前人们普遍的说话方式,及今天人们普遍的说话方式,差异也是一听便知。


比如你现在走进屋子来录音。你刚刚进来时的声音,和你坐了一个小时后的声音,其实是不一样的。如果用这种有瑕疵的数据库来做语音合成,就很难避免不自然、不像人的地方。

消除语音助手的「机器味」,或至少避免严重的违和感,产品背后的语音数据库就一定要与产品调性匹配,并且与时俱进——同样是神似真人的声音,你大概不希望打理日常琐事的语音助手,是2006年黄健翔解说足球比赛那个风味吧?


标贝所做的事情,就是通过构建更完善、更优质的数据库,让机器发声更自然、更贴近真人,也更适合产品自身的需要。使用过小雅音箱或若琪(这两款音箱的语音合成都来自标贝)的朋友大可自己判断,和其他产品相比,哪些声音听起来更舒服。


标贝科技创始人刘博表示,从数据库切入市场也有另一重考量,在于数据库更有说服力。比起对技术的解读,直接展示手中的资源更容易打动客户。不过,如今的标贝也推出了比数据库更直观的产品——免费、公开的TTS评测系统,让不了解自己「为什么做不好语音合成」的客户明白问题出在哪儿。


发现问题后,有些问题可以通过技术层面的改善解决,有些则必须调整数据库本身。这时,标贝积累的资源就能派上用场。基于更好的数据库,很多努力都可以事半功倍;对于企业来说,既然没必要重复造轮子,提前做好准备的标贝,就顺势成为了许多企业的首选。毕竟,时代已不同以往,想要在人工智能领域取得优势,细节非常重要。


不管说的内容是什么,有人说话让你听着很舒服,有人则让你很烦躁。声音是一个与体验密切相关的东西,合格的就是合格,不合格的就是不合格。不合格的声音再怎么做些微改善,也达不到今天的要求。


而不合格的声音带来的,则是顾客对产品评价的全面下降。回忆一下,在与通常的语音客服交流时,听着那种语速极慢的机器声音逐个蹦字「XXX请按1,XXX请按2……」,你的第一需求是否是「马上转接人工」?类似语音客服的存在,不仅没有很好地缓解人工客服的压力,更是浪费了客户的时间。不管对企业还是对社会,这种听起来就像机器的声音,都有改善的必要。


「人工智能兴起之前,市场没有对语音合成的需求。所以直到2015年、2016年,这个行业才有创业的机会。」刘博说,标贝能很快与各行各业、很多公司开始合作,也正因为语音合成的圈子太小,谁做了什么、做得怎么样,圈里人都一清二楚。团队实力强劲的标贝,很快便受到关注,业务起步迅速也是情理之中了。


正因为行业以前有点「隐形」,从业人员太少,现在的人工智能公司,无论做智能音箱、语音助手还是儿童玩具,都极难找到足够人才组建自己的语音合成团队。这时,由行业精英组成的,为数不多的几家创业公司,会对市场起到举足轻重的支持作用。标贝科技也因此被凯泰资本看好,于2017年10月拿到1000万元规模的Pre-A轮融资。


值得一提的是,从成立初期一直到2018年,标贝提供的主要服务就是数据库及部分算法,从一个相当垂直的角度切入市场,打造了良好口碑。但今年开始,考虑到越来越多的新公司、小团队也加入了人工智能大军,而他们需要的更可能是完整的语音合成方案,标贝也推出了自己的语音合成全套服务。


那么,哪些行业最可能成为标贝的客户呢?刘博透露道,虽然目前能见到的还不多,但人工智能语音很快就会在泛文娱方向发力,尤其是游戏及儿童玩具等。刘博说,游戏中的NPC引入人工智能后,就能应对更多的情况,不再重复向玩家播放两三句固定台词。


这不禁令我想起《上古卷轴5:天际》的一些智能NPCmod。mod虽然带来了更丰富的内容,无非也只是从一个小框架跳到一个大框架里,用mod作者的努力代替了游戏团队的更新。但智能化的NPC,则能跳出框架,进入一个真正自由的领域。届时,游戏,尤其是近年火热的开放世界游戏,显然会给玩家带来更丰富多变的体验,也能极大延长游戏的寿命。


与此同时,若将更好的语音合成技术应用于机器人,则家用机器人就会更有陪伴感,更适合照顾小孩、老人。今年的中国,机器人娱乐很可能成为重要的一环,我们不妨批判一下它们的语音系统——谁是智能的,谁还停留在「银行客服」水平。