殷皓:微软如何面对大数据的挑战?
- +1 你赞过了
在移动计算、云计算以及物联网等多种技术和应用的推动下,人类世界的数据量在以惊人的速度在增长。在这种情况下,微软如何帮助客户应对大数据带来的挑战?如何将大数据当中所蕴含的商机挖掘出来?为此,记者独家专访了微软公司亚太研发集团服务器与开发工具中国研发中心商务战略总监殷皓先生,揭示了微软的大数据战略——帮助客户将结构性数据和非结构性数据整合到一起,能够作为数据服务来满足应用需求。
Q:在大数据环境下,企业用户对捕捉、存储、整合、管理和分析海量异构数据都有巨大的需求。在您看来,中国的企业级用户目前最迫切的需求是什么?
殷皓:大数据应用是一个步进的过程。首先是存储数据,然后就是对数据有洞察、有解释,从数据当中挖掘出价值。如果将试探、事件、信号都转成数据存储起来,数据量将非常惊人。实际上,如何将结构化和非结构化数据通过一种有组织的方式进行高效的存储,为将来的应用作准备,这也是中国有大数据应用需求的用户目前的重点。另一方面,则是云计算和数据服务的整合。结构化数据和非结构化数据需要有机地整合在一起,作为数据服务层提供给企业用户或者是政府用户。在数据存储就绪之后,接下来自然就会是分析优化和应用。在我个人看来,在最近的一两年内,对大数据的应用、分析、处理都会有非常迅速的发展。
微软公司亚太研发集团服务器与开发工具中国研发中心商务战略总监殷皓
Q:如您所说,国内已经有一些大企业在关注大数据应用了。那么,这些客户在应用大数据分析处理工具时,会遇到什么困难?
殷皓:在大数据应用当中,难点主要集中在非结构化数据方面。目前,客户的结构化数据,最大也就几十TB,在这个范围之内还是相对容易操作的,应用并不是大问题。真正的挑战是一些新兴场景,特别是影像数据、数据流或者是传感器流,数据的产生会变得非常非常频繁。这些新兴的数据渠道,可能需要我们的技术进行相应的调整。在我看来,挑战可以分为四个方面。
第一,数据量剧增对IT设备带来的挑战。以物联网应用为例,当物联网普及之后,会有非常多的传感器开始传递地理、空间、时间等信息,这对运算和存储都会带来极大的冲击。第二,数据量的指数级剧增带来的管理上的挑战。一个企业可能非常熟悉管理1TB数据,但由于增加了新的数据源,借助新的技术能力,数据量猛增到20TB,这种爆炸性的增长对企业就是一个挑战。第三,在数据上的应用。如何基于这些数据作出有效的分析,基于分析上作出有效的预测,挖掘出商业价值,这也是比较大的挑战。第四,随着新的数据源增加,尤其是其中有很多非结构化的数据源,这改变了我们在传统上对数据的认知,如何在传统的数据模型上融合新元素,从而快速地对海量数据作出新分析,这也是一个新的挑战。
Q:如您所说,对数据的分析和应用是一个难点。那么,微软是否有相应的工具帮助客户从大数据当中挖掘出相应的商业价值?
殷皓:这可以落实到SQL Server 2012上。从SQL Server 2008开始,微软就将其定位为数据服务,而不是单纯的数据库。在今后的数据爆炸时代,大数据也只数据服务当中的一个元素。我们要做的工作不仅是对数据的存储,还有对数据的使用。在SQL Server 2012当中,微软发布了一系列很有意义的Hadoop组件:首先,微软在SQL Server公有云服务上有一款Hadoop服务,产品代号叫Isotope。接下来,微软还有一个服务器版本会发布,该版本会着重在企业内部搭建一个Isotope集群,该集群与传统的Hadoop集群相比有三大优势。第一,前者与微软Window Server有非常好的集成,在该操作系统上有性能优化;其次,Isotope集群能很好地与企业的安全系统、认证系统进行整合。第三,能够与微软传统的BI(业务分析)工具进行很好的整合。
在数据爆炸和大数据时代,微软目前只是跨出了第一步,这一步的目的让用户有手段、有能力,把结构性数据和非结构性数据使用起来。特别是,微软发现现在对非结构性数据,或者说在NoSQL数据基础上,可以对各个数据作出分析的工具几乎是空白。在今后,这类分析工具将会有很大的发展空间。微软将在这方面投入大量研发资源,未来微软将打破结构化和非结构化的壁垒,提供一个扩展的数据服务。
在微软规划未来的数据库产品时,今后也将在数据库集群、数据库服务和横向扩展的服务领域投入更多资源,其中有很大一部分会投入到云服务,关键目的就是程度承受这种非常大的、数据可拓展的积存压力。同时,如何将结构性数据和非结构性数据作为数据服务提供给用户,也是其中非常重要的环节。
Q:但是,要做一个有效的分析,还需要有一个可靠、有效的数据模型。那么,微软如何让自己的大数据分析工具能适合相应的行业需求?是微软自己建立行业模型吗?
殷皓:这是一个很有意思的问题。这个问题涉及到微软在行业当中的投入。微软是一个核心技术平台公司,因此通常情况下,微软在特定行业当中的积累是不如行业合作伙伴深厚的。但也如你刚刚所指出的,对大数据进行分析时往往需要对行业有非常深的认识,数据模型通常代表了对这个行业,对运维数据的理解、对业务的理解。因此,微软的策略是,持续在核心技术上做非常大量的投入,与合作伙伴合作推出行业模型。
微软在核心技术上的投入,如果用SQL Server 2012举例,其中的Power View可以认为是微软在分析方向迈出的一小步。他可以让用户非常快速的、在已有的数据模型上作出更改,或者是建起新的数据模型来做数据分析,可以做很多What if的数据分析,甚至可以让用户做分析模型,可以和其他用户或者部门来分享。这就是微软在核心技术上做出的投入。微软推出的数据模型,不仅是一个多维度的模型,还包括对整个数据模型的理解,是一个通用数据模型、分析模型。但在这个基础上,微软还是希望有合作伙伴,可以用微软的工具整合他们对行业的认知和积累来推出解决方案。
在中国,微软也非常积极在看跟合作伙伴的合作机会,例如智能城市、物联网新应用等。微软在中国的研发,最近也有很大一部分投入到实时事态处理、物联网、智能城市的一些支撑性核心技术上。而在这些周围行业的解决方案,如何与合作伙伴整合,也是微软最近的一大工作重点。
Q:您刚刚也提到,随着新的数据源增加,尤其是非结构化数据源的增加,将改变我们认知数据的方式。那么,对微软SQL Server而言,采用了哪些方式将非结构化的数据源有效地引入?
殷皓:这就牵扯到几个非常有意思的技术环节,我们可以先谈一下技术。SQL Server2012有一个叫StreamInsight(复杂试探处理引擎)的组件,这也是比尔?盖茨钦点启动的一个项目。StreamInsight的前端是一个内存处理引擎,其上有一系列可定制的输入适配器,可以把触感器、感知器的流水型的数据,甚至图片等不同的事态源通过适配器把事态转变成标准的事件模式,然后导入到内存处理引擎。StreamInsight的后端有一个导出适配器,当处理引擎处理完事态之后,在符合处理规则的条件下,就会通过导出适配器推送出一个事件。例如,推送到实时更新的Silverlight前端的一个网站,或者推送进一个数据库,或者是一个预警装置、一个邮件的门户,它的核心引擎规则的处理是用标准的语言进行连接。
微软为什么做这样的东西?因为,现在有标准的Visual Studio开发工具,用户可以非常快速的在前端开发出不同的适配器,在后端开发出不同的适配器,中间的规则用标准的链接匹配。这样,用户就能非常迅捷地写出很多他特定的规则。那么,这个引擎的性能表现如何?根据微软的测试,一秒钟能处理将近20万个事态、事件。同时,这个引擎也将会是微软去投入很多的智能城市,物联网,更可能是车联网一个核心的技术环节。
Q:现在也有一种说法,大数据处理是一个富人的游戏。微软的大数据处理方式,贵吗?
殷皓:技术普及的一大障碍就是成本。很多技术都可以用非常高端的产品来解决,很多商业问题也可以用非常高端的技术来解决,但这样的结果是成本会非常高。微软的目的是让更多的人享受技术,尽力降低技术成本。举例而言,当某一个技术只能解决特定人群的特定场景需求时,其成本必定高——因为特定人群需要承担整个解决方案的成本。但是,当该解决方案可以被很多人来分享时,它的成本就可以降低。
因此,微软的出发点是,我们希望做一款产品,可以让很多人来用,这样的话可以把它的成本降低。例如,我们刚刚谈到的复杂事态处理引擎,我们中国研发部门就做了好几个项目,将它转变成一个通用领域的,能够公开使用,能够适用于非常大范围的服务。现在,我们还看到客户想把它应用到实时公文处理,例如实时检测报销单据是否合规,或者是供应链,智能电网实时的环境检测,有害气体检测等。所有这些应用场景的基础核心就是复杂事态处理引擎提供的服务。因此,我们现在在国内大力推的一些应用场景里面,都是尽量让这个服务能够重复使用,这样就可以减少用户的投入。
最新资讯
热门视频
新品评测