新闻中心

格兰研究发布《中国智能语音业务与应用发展白皮书》

2018-03-24 13:44:00

分享到:

来源:搜狐网


2018年3月21日,格兰研究举办了中国智能语音业务集成发展峰会,从原有的机顶盒、智能电视等视频终端等领域的研究拓展到了智能终端、智慧家庭领域,借助此次机会格兰研究发布了《中国智能语音业务与应用发展白皮书》(以下简称《白皮书》),《白皮书》从语音技术发展、语音音箱市场、语音应用现状、影响语音业务应用发展的因素几个方面主要阐述了国内外智能语音音箱的发展。

语音技术提供商在不断发力,为智能终端产品升级提供有力支撑。目前国内多数语音厂商的在安静状态下的语音识别准确率大都达到95%以上,支持5米远场交互,如今均在向非标准环境下提高远场识别准确率、降低误唤醒率及响应速度的方向发展。

语音识别技术的发展促使语音终端市场百家争鸣。人工智能技术在2017年席卷全球,其中语音识别技术的发展带动了音箱市场的发展,语音智能终端的发展使得产品的推出速度不断加快。自从2014年亚马逊推出Echo后,国内众多企业涌入语音智能音箱市场,语音智能音箱品类也在逐年递增,2015年叮咚智能音箱进入市场后,其他品牌语音智能音箱开始涌入,2016年有4款语音智能音箱推入市场,2017年下半年更是呈现出爆发式增长,密集发布10余款语音智能音箱新品。

图表 1 国内外智能音箱发布情况示意图


国内智能语音音箱skills实现方式主要包括互动式、指令式、播放式三种。用户唤起工具达成事务:设备在这里模式中,是用户和生活服务的连接桥梁。解放双手,通过语音就能控制家居、发送短信、叫外卖等等。设备为用户提供内容:设备在这里模式中,扮演的是联网音箱的基础功能,将音乐、新闻、菜谱等内容推送给终端用户。用户和设备多轮交互:不再是指令式和播报式,而是和设备的多轮对话。主要用于在娱乐领域,如问答测试、情景探险、试图对话、听音唱歌等功能。

图表 2 智能语音音箱skills实现方式



从整从整体市场来看,语音智能终端场景应用较少,主要集中在家居场景、车载场景和其他移动场景。这三类场景下有一些通用的应用领域,也有部分有场景特殊性的应用领域。


图表 3 国内智能语音应用场景情况



目前国内智能语音智能终端支持的skills种类较少,各厂家产品应用类别相似度高,集中分布在音乐、娱乐类、生活类、智能控制家居类等。格兰研究对市场上二十多款智能音箱功能监测的数据来看,音乐类、娱乐类功能的应用率最高,分别达到100%和87.5%。

图表 4 智能语音功能应用分类状况

娱乐类应用中,听音乐的功能应用率最高。智能音箱在具备听音乐功能外,有很多音箱选择了与第三方平台进行合作,如小AI音箱、天猫精灵、叮咚音箱等都拥有海量音频内容,可以听取喜马拉雅、蜻蜓FM上的电台。

图表 5 娱乐类应用中不同功能覆盖率情况



生活类应用中,“闹钟”“天气查询”功能应用率最高。生活类应用种类多,但是覆盖差别大。多数智能音箱都具备日期查询、天气查询、闹钟等与生活息息相关的实用功能,但是各音箱支出功能差别大。

图表 6 生活类应用中不同功能使用率情况示意图



教育类应用中“有声读物”功能的应用率最高,为68.8%,儿童类应用中“儿童故事”的应用率最高,为75.0%。教育类、儿童类应用热门,主要以互动问答形式为主,并且覆盖内容差异化小。如何加强产品功能,让识别时间及识别准确度成为重中之重。

图表 7 教育类应用覆盖率情况

图表 8 儿童类应用覆盖率情况


智能控制家居类应用中,支持空调功类应用、电灯应用的使用率最高。智能音箱在生活、娱乐等应用场景的功能基本大同小异,但在控制家居设备品牌上差异较大。未来,谁家的智能音箱控制的硬件设备品牌越多,谁将在智能家居控制领域占据优势。

图表 9 智能控制家居类覆盖率情况



在购物类应用中,网络购物类应用率为31.3%,使用率比较低。智能音箱支持购物类应用低。对于中国消费者,习惯了货比三家,从图片、参数各种浏览外,还会去社区搜使用心得。日常消耗品还好说一些,不需要对比,但其他商品如果想仅凭“大数据”推荐,还是很大程度降低了购物体验呢。因此网上购物如何语音下单成了一大亟待结局的问题。

图表 10 购物类应用覆盖率情况



《中国智能语音业务与应用发展白皮书》显示,影响语音业务应用的发展,受到包括语音终端的市场规模、语音职能终端产品的价格、产品性能等造成对用户体验差距大,对产品褒贬不一,影响用户对语音应用的体验,从而进步影响市场规模化推广;

语音应用场景较少也会影响语音应用的发展,语音应用场景趋同化多,缺乏杀手锏应用。由于语音智能终端的应用场景有限,主流应用场景和杀手级应用的缺乏,导致目前很难培养用户的使用习惯;

语音识别技术识别的真实应用体验不断提升,但是实际应用打大折扣。在真实使用场景中,如因空间距离、背景噪音、其他人声干扰、回声、方言、口音等问题,识别准确率大打折扣。目前远场识别的错误率是近场识别的两倍左右,所以解决远场以及强噪声干扰情况的语音识别是有待进一步研究的问题。

从听清逐渐实现听懂,但是能够满足用户随心所欲的需要还需要不断的训练和试验。



随着中国语音智能终端的市场出货量逐步增多,智能音箱skills的类型也会更加丰富、更加贴近生活、更加实用,数量增长速度也会加快。同时,随着语音智能终端的skills数量增多,能够满足更多用户多样化需求,从而也进一步提升用户黏性,带动市场需求扩大,促进语音智能终端市场良性发展。