重磅!全双工技术被公布 微软如何成为语音交互的领航者?
- +1 你赞过了
不久前,拿到一台Yeelight语音助手,回家使用多日,非常方便,最大的感受还是里面的微软小冰。她是一位既有趣也有用的人工智能少女。拥有完整的智能家居设备控制技能。用户在一次唤醒小冰后即可进行连续对话,其间不再需要唤醒词。据微软方面表示,和小冰聊天的人最长记录达到4个多小时,用户总共说了1600多句话。总之,如果用一句话来评价小冰:那就是“神通广大”。
微软小冰为何如此厉害?这背后离不开微软所拥有的核心技术。
3月22日,微软(亚洲)互联网工程院宣布推出新一代语音交互技术:全双工语音交互感官(Full-duplex Voice Sense),并且完成产品化落地,最典型的代表就是小冰。
根据官方介绍,与既有的单轮或多轮连续语音识别不同,全双工技术可以实时预测人类即将说出的内容,实时生成回应并控制对话节奏,从而让长程语音交互成为可能。
在使用时,用户不必多次说出唤醒词,一次唤醒,即可轻松实现连续对话。这大大提高和改善了用户体验,并且把语音交互的自然度推进到新层次。
实际上,语音交互如此受欢迎,它已经成为对话式人工智能及智能硬件设备的基础之一。一方面,无论是国外的Facebook、亚马逊、苹果、微软,还是国内的阿里、百度、科大讯飞等,它们都在语音交互方面开展研究。
另一方面,从智能音箱、手机到其他智能设备,语音交互成为必备功能。4年前,亚马逊凭借智能语音交互技术,重磅推出Echo产品,让智能音箱一炮而红。自此,多家厂商跟进,智能音箱市场几乎成为“百箱大战”,而国内市场依旧不愠不火。
现在,笔者认为,一种转机正在出现:那就是微软小冰背后的全双工技术,它正在带来新的语音交互变革。
先来看看微软小冰:
小冰是微软(亚洲)互联网工程院基于2014年提出建立的情感计算框架,通过算法、云计算和大数据的综合运用,采用代际升级的方式,逐步形成向EQ方向发展的完整人工智能体系。
目前,微软小冰已进入第五代,在中国、日本、美国、印度、印度尼西亚五个国家共14个平台上落地,包括中国大陆地区的微信、QQ、微博、美拍,美国地区的Facebook Messenger,以及日本地区的LINE等。
全球小冰拥有超过1亿人类用户,对话数据超过300亿轮,进化速度不断加快。小冰与人类之间发生的最长一次单人连续对话,达到历史性的7151轮,不间断进行了29小时33分钟。
这种语音交互变革或许是行业未来发展的方向之一。在微软(亚洲)互联网工程院副院长、微软小冰全球负责人李笛看来,“整个行业里,全球范围内正在发生一些趋势上的变化,而语音交互感官则意味着我们整体框架的最后一环开始补齐。”
谈语音交互,不能不谈到人工智能语音交互底层的两种框架:第一种是Turn-oriented,以Facebook的M、苹果Siri、亚马逊Alexa、微软小娜为代表;第二种是Session-oriented,以微软小冰为代表。用中文来解释两种框架,第一种就是面向单个任务,第二种称之为面向对话全程。其思想与面向对象和面向过程的两种编程思想有异曲同工之妙。
如何理解这两种框架?
Turn-oriented(面向单个任务):
在李笛看来,Turn-oriented是大家遵循最早落地的原则,当初设计不同对话系统的时候,都会使用这种方式。“她的方式是一问一答,内容就可以传递过去,或者一问一答,再有一问一答,通过一个最少的多功能对话帮助你把任务完成。这是她优化的方向。”他说。
Turn-oriented的框架中,每一个对话就像是一个十字路口一样。李笛说,“它像一个十字路口中间的交警,每次你输入一个命令,这个民警就会把你引导到相应的地方去。比如,问天气,它会把天气内容提炼出来,然后以对话的形式给你。这个任务完成后,一切又归零。”
简单说,大家使用Siri或者其他的AI助手,都是这种典型的一问一答。如果回答不了,它会从网上搜索很多资料给你,让你查找自己所需信息。
Session-oriented(面向对话过程):
相比Turn-oriented,这个系统更复杂一些。
李笛表示,“对话就像河流一样,我们认为任何一个自然发生的对话,它是混合的。就像河流一样,从一个Turn往下一个Turn走。随着交流的发展不断引发出新任务,然后又随新任务引发一些知识的了解,是一个流转。”
当对话关注整个过程时,那么对话过程的质量要高于任何一个单一完成的质量高低。在过去的对话系统,一个很难解决的问题是“痛苦”。比如,你跟它说,想要一个手机,然后它引导你到一个对话系统中,会问很多的问题。它的目的是最后给你一个很精确的答案。“但是这个过程非常的痛苦,不是它痛苦,而是你痛苦。”李笛说。
而Session-oriented并不要求有很长的对话,它的问题在于从底层的基础框架上,是否随时准备好接受一个可能发生的情况。
简而言之,Turn-oriented(面向单个任务)的上限决定了其未来的发展空间不够大。李笛表示,“我们1年多以前就开始进行全双工语音交互,包括让小冰给不同的人打了60多万个电话,用来测试。与单轮语音交互相比,全双工语音交互简直惨不忍睹。但是一旦越过一个点之后,就有极大的发展空间。”
目前,全双工技术的应用让微软已经走在同行业之前。李笛提到,微软的布局是这样:我们做一个再做一个。在之前的社交平台上,小冰已经积攒了大量的用户。比如,小冰是腾讯QQ群的人工智能机器人。,并且李笛表示:“我们能够超越同行,不是因为小冰有多厉害,当然也有这个原因。她的前端表现形式很好,后端又采用了Session-oriented的框架,可以和人进行长时间沟通,能做许多事情。”
现在,除了IoT平台、智能音箱,微软在车载方面也进行了将近一年时间的研究。
更重要的是,当有些人把人工智能视为智能设备或其他硬件的一个功能时,李笛却认为,“当我们拥有一个人工智能系统时,无论是IoT,还是智能音箱和车载设备,它们都是人工智能的一个载体。”或许就像未来的小冰一样,变化无形,却又无处不在!
最新资讯
热门视频
新品评测