详解Siri原理：本地语音识别+云计算服务

北京时间11月4日消息，美国科技资讯网站Zdnet周四刊文称，苹果语音助理服务Siri已成为iPhone 手机用户经常谈论的热门话题之一，但对于Siri的具体工作原理，恐怕没有多少普通iPhone用户能够解释得清楚。而Zdnet的姊妹网站SmartPlanet本周三刊登了一篇长文，对Siri语音识别工作的具体步骤进行了“解剖”，称该服务实际上就是“本地语音识别+云计算服务”。

SmartPlanet网站上的原文很长，为此Zdnet对该文进行了简化。以下为Zdnet所改写全文：

“语音识别”可谓Siri的工作核心。但仅凭这些词汇，并不能完全解释Siri的具体工作过程。比如用户对着手机说话：“给詹森·珀洛(Jason Perlow)发一则信息：去刮一下胡子，你这个Linux痴迷者。”在此过程中，其具体工作原理是什么，我们并不是非常清楚。好在Zdnet的姊妹网站SmartPlanet周三刊登了一篇长文，并详细解释了Siri的工作原理。

SmartPlanet的这则文章这样写道：用户对着iPhone说话后，这些语音将立即被编码，并转换成一个压缩数字文件，该文件包含了用户语音的相关信息。由于用户手机处于开机状态，这些语音信号将被转入用户所使用移动运营商的基站当中，然后再通过一系列固定电线发送至用户的互联网服务供应商(ISP)，该ISP拥有云计算服务器。该服务器中的内置系列模块，将通过技术手段来识别用户刚才说过的内容。

与此同时，用户说过的语音内容，也将在用户手机当中被加以识别和分析。安装在用户手机中的语音识别器，将同云计算服务器联系，以了解指令是否适合通过本地方式(即在用户手机当中)被处理。比如用户指令可能要求手机播放一首歌曲，而其他一些指令则有可能需要手机与网络连接，以寻求进一步帮助。如果语音识别器认为，手机内部模块完全有能力处理用户的指令，那么手机将会告知云计算服务器，不需要云服务器的支持。

根据用户说话的声调和语序，云服务器将对语音加以静态对比，以了解用户所说语音中包含了哪些字母。在此期间，用户手机的语音识别器也将对用户语音进行静态对比。无论是在服务器端还是手机端，可能性最高的识别内容都将获得优先处理权。

通过上述处理程序，被识别出的那部分用户语音内容，已经包含一系列元音和辅音字母。随后这些内容将被发送至一个语言模块，以分析用户语音中可能包含了哪些词汇。在此基础上，计算机将根据所识别词汇的可信度级别，而创建一个用户所说内容的列表，从而具体分析用户语音表述中最有可能会表达何种意思。

如果上述分析和判断结果已具有足够的可信度，那么计算机将能理解用户所说的内容：比如计算机得出结论，用户是要求手机发送短信或查找联系人列表中的某个联系人。在经过上述一系列后台处理后，用户将会看到手机屏幕上出现所需的内容，而不必进行手动操作。在此过程中，如果用户的语音含义过于模糊，计算机就会询问用户，以了解用户希望查找的联系人究竟是埃里卡·奥尔森(Erica Olssen)还是埃里卡·施密特(Erica Schmidt)。

SmartPlanet网站上的原文还谈到了搜索产业的发展史，其中包括谷歌、微软以及其他科技公司在语音识别技术领域所作出的努力。