微软创新日2013 自然用户界面成果分享

返回分页阅读

【天极网云计算频道专稿】十五周年——“微软亚洲研究院创新日2013”多年创新旅途上的一个重要里程碑。为了庆祝这个锐意创新的15周年，微软将举行“创新日2013”活动，回顾一路走来的辉煌时刻，并展示其研究人员如何通过前瞻性的研究、产品和全球合作来推进前沿科技的发展。

届时，来自微软亚洲研究院、微软全球研究院的研究员们将与合作伙伴一起演示20余项先进的技术与服务。参展技术将围绕四大主题进行展示：自然用户界面(NUI)、云计算与移动技术、大数据与机器学习，以及科技引领产品创新。

自然用户界面(NUI)——人与计算机间的自然交流

简而言之，自然用户界面(NUI)是个以人为中心的计算科学研究领域，它将使技术体验变得更加人性化与直观。人与人之间交流时，会获得对方的回应——一个温暖的微笑或鼓励的拥抱可以帮助他人平复不安的情绪，缓解压力。NUI即是创造类似的方式，实现人与科技之间自然的交流与互动。今天，计算技术正在不断进步以迎合人类的需求，并展现出越来越高的智能性。在这种智能的作用下，计算机的角色正在从“工具”转为“帮手”，他们能从对环境、人类行为及意图的认知出发，代表我们完成工作。最终，人与计算机互动的方式将会变得非常自然，甚至潜移默化地影响我们的生活，无处不在。

NUI时代为整个计算机行业、微软公司和消费者提供了一个绝佳的机会。从医疗、娱乐、旅行，到我们的日常生活，NUI始终处于现代计算新纪元的核心位置。在这里，计算机真正代表我们并在我们的控制之下工作。NUI和机器学习技术让计算机变得更加智能和人性化，相较于传统计算机，现代人机交互方式已越来越类似于人与人的沟通方式。以下就是此次“创新日2013”中，微软将会分享的有关自然用户界面的成果。

3D面部表情跟踪

眨眨眼，笑一笑，噘噘嘴，鼓鼓腮。借助实时3D面部表情跟踪技术，在屏幕另一侧的虚拟形象能够立即惟妙惟肖地模仿出你的表情—而这一切只需通过一只普通的网络摄像头即可实现。 NUI技术帮助用户实现通过自己的面部表情来实时控制数字虚拟头像的表情;而这项神奇功能的幕后英雄则是机器学习算法：利用用户预先做出的一些面部表情视频作为训练数据，算法首先得到这一特定用户的表情计算模型。之后，算法就可以从新的用户视频中快速准确的推断出用户的面部动作和表情了。如此高效的系统只需要一只普通的网络摄像头，而这种摄像头早已成为目前大多数笔记本电脑、平板电脑和智能手机的标配，因此该系统对于普通用户具有很高的实用价值。未来，该系统可使计算机仅凭用户的面部表情来了解用户的心理活动，并据此做出个性化的反应。我们正努力让计算机更快、更好的展现，传递并理解人类的情感。

用于触摸屏与指尖互动的触觉反馈

触摸很重要。无论是迫切需要获得肯定的孩子，还是迟暮之年回首往事的孤独老人，都需要触摸来感知与他人之间的微妙关联。视觉和听觉障碍人士更有切身体会：他们用敏感的双手抚摸说话者的面颊，以判断他们的讲话内容。触觉反馈，是一种我们都需要的反应，而在体验新技术时，它同样非常关键。现在，我们已经能够在触摸屏上实现“触觉反馈”——触摸屏首次具备了反过来“触摸”你的能力。沿着手机触摸屏滑动手指，就可以借助贴在屏幕边缘的压电致动器营造表面摩擦效果。看似很简单，却意义重大——它将转变和提升基于触摸的交互技术，进一步丰富用户体验。

基于视网膜中央凹视觉的3D图像

高品质3D图像吸引着人们的眼球，并开创了各种视觉化可能。然而遗憾的是，目前的硬件设备在实时处理超高分辨率的图像时存在很大局限。人们往往面临两种选择：为获得极致的3D体验购买庞大且昂贵的设备;或是接受真实感略为逊色的效果而使用轻便的移动设备。如今，这种两难的境况将有所改变。我们正在开发一项技术，根据人类视觉形成的特点，对3D画面进行绘制——在视觉焦点处绘制高分辨率和精度的图像，而在其他区域，由于人类视觉无法清楚感知，则可采用相对较低的分辨率。这项名为“基于视网膜中央凹视觉的3D图像”技术正是在人眼观察方向的度量范围内放置高层次细节，并以同心圆方式向外逐级减少细节。为了在现实世界的物理局限下实现我们所期望的视觉体验，就必须充分利用有关人类视觉的全部知识，超越对像素渲染的单纯追求，展现人类的智慧而非显示器本身。这种体验更贴合人类视觉的原理，在实现惊人的清晰度和逼真度的同时，却更加节能。我们可以用更少的资源做更多的事情。

基于Kinect的手语翻译系统

世界各地有3.6亿的听力障碍人士，其中来自中国的听力障碍患者人数将近2100万。每一天，他们都面临着大多数人从来无需考虑也难以想象的沟通挑战。我们长期以来致力研发，试图解决这个困扰业界多年的难题：如何开发一种工具，让人“听”得懂手语，帮助听障人士改善生活质量。为此，我们正在与中国科学院计算技术研究所和北京联合大学合作，借助Kinect设备打破沟通障碍。高性价比的Kinect通过同时捕捉色彩和深度图像信息为我们实现目标开辟了新的机遇。这项研发以微软研究院在翻译和自然语言处理、语音和手势识别等自然用户界面领域的广泛研究成果为基础，并更进一步。多式输入数据的应用将突破先前单纯依靠视觉输入或语音数据的局限性。其所应用的技术除 Kinect For Windows外，还包括必应词典、微软翻译、语言建模和3D建模等来自微软亚洲研究院的技术。设想一下，听障人士在健听的观众面前用自己的语言(手语)发表演说，每位观众都能不费吹灰之力听懂他的演说，这让我们看到了让聋哑患者“发声”的新希望。

eHeritage：敦煌飞天

敦煌莫高窟俗称千佛洞，被誉为20世纪最有价值的文化发现，以精美的壁画闻名于世。然而，人为的破坏和生态的恶化，使敦煌这一历史文化遗产面临着严峻的考验。在更大的游客量需求和为后代保护这份无比宝贵遗产的责任之间寻求平衡是敦煌莫高窟面临的最大挑战。微软亚洲研究院向敦煌研究院捐赠的专门为莫高窟量身定制的十亿级像素数字相机系统 “飞天号”，大幅度提高了洞窟内壁画拍摄的效率，满足了对佛龛、壁画等文物颜色、几何细节等高精度数字采集的要求。该相机的一大特色是利用焦点合成技术来高精度地捕捉被拍摄物的立体细节，这个功能是其他同类相机无法做到的。当拍摄具有复杂景深变化的斜披、洞顶和佛龛时，“飞天号”能够自动计算景深，分次拍摄多张同一场景但焦点不同的图像，然后将所有的图像合成，使得同一场景下的每尊塑像、每处壁画都呈现焦点清晰的影像，阴影区域也保留了丰富的细节。这对敦煌莫高窟的数字档案前期拍摄是一个突破，把过去无法拍摄高分辨率的佛龛变成了可能，使得洞窟的数字档案实现了绘塑完整的统一空间。

Kinect在中风患者居家上肢复健中的应用

中风已成为最主要的致残原因，并且其发病率呈现上升趋势。常规的康复护理既昂贵又不普及。医疗与工程等领域的研究人员一直在协作，共同研究以试图解决这些重大的社会挑战。在韩国，研究员们已经利用Kinect开发出一种先进的复健系统。他们的想法很独特：为中风后患者提供一种新的互动方式，借助一个高性价比且能在家使用的系统，恢复机体功能。这种新方法能够让身处偏远地区的患者以低廉的成本显著改善生活质量，并鼓励患者间的相互交流。我们开发了自动化机能评估工具和简易的康复计划，通过使用Kinect，引入游戏组件并借鉴塑形概念，鼓励病人参与。这项研究为复健领域带来了一种改变游戏规则的新方法。

微软创新日2013 自然用户界面成果分享

热门标签