详解Siri原理:本地语音识别+云计算服务
- +1 你赞过了
北京时间11月4日消息,美国科技资讯网站Zdnet周四刊文称,苹果语音助理服务Siri已成为iPhone手机用户经常谈论的热门话题之一,但对于Siri的具体工作原理,恐怕没有多少普通iPhone用户能够解释得清楚。而Zdnet的姊妹网站SmartPlanet本周三刊登了一篇长文,对Siri语音识别工作的具体步骤进行了“解剖”,称该服务实际上就是“本地语音识别+云计算服务”。
SmartPlanet网站上的原文很长,为此Zdnet对该文进行了简化。以下为Zdnet所改写全文:
“语音识别”可谓Siri的工作核心。但仅凭这些词汇,并不能完全解释Siri的具体工作过程。比如用户对着手机说话:“给詹森·珀洛(Jason Perlow)发一则信息:去刮一下胡子,你这个Linux痴迷者。”在此过程中,其具体工作原理是什么,我们并不是非常清楚。好在Zdnet的姊妹网站SmartPlanet周三刊登了一篇长文,并详细解释了Siri的工作原理。
SmartPlanet的这则文章这样写道:用户对着iPhone说话后,这些语音将立即被编码,并转换成一个压缩数字文件,该文件包含了用户语音的相关信息。由于用户手机处于开机状态,这些语音信号将被转入用户所使用移动运营商的基站当中,然后再通过一系列固定电线发送至用户的互联网服务供应商(ISP),该ISP拥有云计算服务器。该服务器中的内置系列模块,将通过技术手段来识别用户刚才说过的内容。
与此同时,用户说过的语音内容,也将在用户手机当中被加以识别和分析。安装在用户手机中的语音识别器,将同云计算服务器联系,以了解指令是否适合通过本地方式(即在用户手机当中)被处理。比如用户指令可能要求手机播放一首歌曲,而其他一些指令则有可能需要手机与网络连接,以寻求进一步帮助。如果语音识别器认为,手机内部模块完全有能力处理用户的指令,那么手机将会告知云计算服务器,不需要云服务器的支持。
根据用户说话的声调和语序,云服务器将对语音加以静态对比,以了解用户所说语音中包含了哪些字母。在此期间,用户手机的语音识别器也将对用户语音进行静态对比。无论是在服务器端还是手机端,可能性最高的识别内容都将获得优先处理权。
通过上述处理程序,被识别出的那部分用户语音内容,已经包含一系列元音和辅音字母。随后这些内容将被发送至一个语言模块,以分析用户语音中可能包含了哪些词汇。在此基础上,计算机将根据所识别词汇的可信度级别,而创建一个用户所说内容的列表,从而具体分析用户语音表述中最有可能会表达何种意思。
如果上述分析和判断结果已具有足够的可信度,那么计算机将能理解用户所说的内容:比如计算机得出结论,用户是要求手机发送短信或查找联系人列表中的某个联系人。在经过上述一系列后台处理后,用户将会看到手机屏幕上出现所需的内容,而不必进行手动操作。在此过程中,如果用户的语音含义过于模糊,计算机就会询问用户,以了解用户希望查找的联系人究竟是埃里卡·奥尔森(Erica Olssen)还是埃里卡·施密特(Erica Schmidt)。
SmartPlanet网站上的原文还谈到了搜索产业的发展史,其中包括谷歌、微软以及其他科技公司在语音识别技术领域所作出的努力。
最新资讯
热门视频
新品评测