×关闭背景

中国信息通信研究院魏凯:企业需要什么样的大数据平台

2015-08-26 16:08:32      来源:移动Labs       

2015中国国际大数据大会

【摘要】【移动LABS】8月26—27日,2015中国国际大数据大会在北京召开,移动LABS作为大会战略合作媒体受邀现场直播。中国信息通信研究院标准所高级工程师魏凯做了题为“企业需要什么样的大数据平台”的主题演讲。

【移动LABS82627日,2015中国国际大数据大会在北京召开,移动LABS作为大会战略合作媒体受邀现场直播。中国信息通信研究院标准所高级工程师魏凯做了题为“企业需要什么样的大数据平台”的主题演讲。

中国信息通信研究院标准所高级工程师 魏凯

以下为演讲速记:

首先非常感谢本次会议给我机会跟大家一块交流,我来自中国信息通信研究院,我在院里做了很多与大数据有关的事情,有很多高大上的事,周三国务院会议的文件我们也是参与方。他们说我是唯一一个参与国科技部、发改委、工信部顶层文件的人,我觉得挺幸运。整天做很多高大上的事情,但是离落地我觉得非常远,其实还需要做很多实的事情来推动。

我今天讲那些高大上大家不一定感兴趣,所以我今天就讲一些落地的事情,我们也在做很多这方面的事情。有一个就是我们在做大数据的相关的平台的标准和测试,我今天分享一下我们对这一块的认识,就是企业到底需要一个什么样的大数据平台。

有两个方面的内容:

第一个方面,有些调研数据我跟大家分享一下,对大数据市场的一些发展和企业大数据平台的调研情况。

第二个方面,就是企业级大数据平台怎么认识和评价它,以及我们组织的第一轮评测活动的结果,跟大家分享一下。

这个调研是我们今年的5月份公开发布的,转载率也挺高的,我们院对国内几个行业,像零售、金融和互联网的一些行业的800多个企业做大数据方面应用的调查,我们调查里头有很多问题,其中有些问题是跟平台特性相关的。我是选了几个方面跟大家分享

第一个就是企业里的数据到底是什么类型的。其实大家说很多大数据可能是非结构化数据为主,其实这个不对。现在大部分企业还是结构化数据是最主要的数据的主体,价值最高的,这是占73%的都是数据库表的形式,还是他们数据最主要的部分,这是一个结果。

还有一个问题就是说现在建设大数据平台有很多方式,可以买硬件、买软件去搭这个平台。但是也有一种方式就是可以虚拟机来做,或者直接在网上买云服务去做。到底是什么样的构成我们也对这些企业做了一个调研。大概还是传统的为主,但是也越来越多像一些小企业,他们不想去做的可以直接在网上买云服务,大概是三七开的一个形势,这是怎么来建设这个平台的调研。

大数据平台很多也是开源为主,开源很多几乎是一个事实标准,但是有多少企业在真正直接使用开源软件去搭,有多少人购买商业软件去走。毕竟开源软件有很多使用不便的情况,大概71%的人还是倾向于,尤其是企业,因为开源有的时候找不到维护的人,尤其银行、电信很难下决心把自己的系统托福给开源系统,除非自己有强大的运维开发的团队,所以他们更倾向于交给商业软件提供商去承接这个事情,71%仍然是这样的一个趋势。

大数据很大,一定是很大吗?我们也对大数据平台做了调研,大概一半左右的企业大数据平台里头的服务器在50台以上,好象不是说都很大,有很多集群规模都很小。其实包括国有的四大行里头的,像好几个银行,他们的大数据平台都很小,有十几台的,不一定平台都很大。我这里没有运营商的数据,我这里有全国大概150多家保险公司的调研数据,企业的数据量有多大,我们看到10TB以下的,就是数仓里头的数据10TB以下的占到一半,也就是一个机器的10块硬盘可以装下,这是量的变化。他们的服务器大概20台左右,这已经占到一半左右。所以说大数据真的很吗吗?现实中其实不是很大。它其实是一个慢慢成长的过程。

大家关心什么样的特性?在选择和运维一个平台和使用一个平台的时候关心什么?这里我们也列出来让大家选。大概选产品安全性、稳定性、及时性、应用性、选这些的很多,选性价比的反倒少点。因为确实开源这个平台免费,但是隐性成本挺高的。所以这个是大家对这个平台的需求。

这是我们调研的一些数据,跟大家做一些分享。

总的来看其实大家可以看到这样的开源为主,或者来自开源社区的平台是从互联网过草根来的,它要到企业里去,到高大上的有钱的买主那去的话,其实要经过很长的产品化的转型,要把bug和安全和运维问题解决才能进入这些场合,进入生产系统。所以我们觉得从开源到商用的道路上企业到底需要一个什么样的平台还是很关键的。我们就跟国内的30多家,包括IBM、微软、三大运营商、华为、中兴等,大概30多家单位一块定了一个标准,就是怎么来评价一个大数据的系统,特别是商用的平台级的产品,像hadoopspark等平台级产品为主的平台级产品的能力和性能。

今年57月份还组织了一次测试活动,这次测试也创造了全球第一的一个平台上进行的测试,之前没有一个机构做过这么多厂商在统一环境下进行的测试,是第一个工业级产品,所有的厂商都是商用厂商的测试,还有多任务的,我们有10个任务的数据量非常大的测试,也是对于公有云大数据平台做的第一次的测试。大概有5个厂商参加了测试活动,包括中国移动、华为、中兴和新华(音)和(英文)几家不同的公司参与这个测试,也是有一定的代表性的。测试的负载和数据的规模在这里可以看到其实是非常有挑战性的,我们这里用的大概10个负载,10个负载的数据量,可以测到的是21亿条数据,测文本的排序选了13.6TB,大概每个物理机分到1TB的排序量。总之是多任务负载下的,极端条件下的一个数据的测试。

我们考察的方面其实有这么几个方面。一个是性能,这是最基本的。另外就是这个系统能不能扛住容错的节点时效,节点时效能不能正常工作,能不能从错误恢复回来。另外有没有加密人证的权限管理。大三是三个方面测试。

我们分享一下测试结果,这是性能部分,性能部分我们测了10个负载,这里头只是给大家分享其中三个负载测得的平均值。平均值大概是比如说做一个聚合操作,每秒吞吐量大概是2G每秒,平均到每个节点是139M每秒结构化数据的OLEP的查询,这也是一个非常大的数字了。在(英文)这个组件上做的(英文)的测试是1.25G每秒,节点是84M的处理量。另外(英文)的结果,比如读取最快的是70万条,70ops,分到每个节点是7万多ops,这个是性能方面的测试。性能是最基本的要求,企业对它的需求。

容错性也很关键,到底从什么角度衡量容错性,我们跟厂商一块商量定下来,比如说主节点,单周的(英文),不同的节点失效情况下能不能扛住错误。这几家厂商都做了一些测试。从安全和运维也做,比如身份加密、人证,权限管理和统一的人证,这是安全和运维方面的测试的一些项目。

包括最近我们也跟这些用户单位和机构交流,我们大概梳理了9个维度的需求。没有写在片子里,我能记得起来的第一个就是性能、安全,还有一个很特殊的就是可扩展性,线性扩展。因为现在的规模不代表明天的规模,因为现在每家企业的数据量都是50%的往上翻,所以能不能做到性能和线性扩展这是一个。还有像现在其实大数据这个平台慢慢深入到核心系统,以前是离线平台,数据分析掉了以后可以重启一下不影响业务,但是现在很多业务都是依赖于数据分析。比如银行的秒贷的,如果数据分析掉线了就中断了,算不清用户的征信分数。大数据慢慢深入到在线的流程系统里了,这种情况下对备份越来越重要了,原来开源产品很少考虑到。在这种情况下机房之间异地或者同城互备的迁移问题很关键。还有像合规性,尤其金融客户他们很关心分布式系统能不能满足银行、银监会或者人民银行对他们的监管要求。我们梳理了是9种不同的需求。

现在其实我们正在做的一个事情就是来更新我们的标准,希望跟不同的方面,包括使用这个技术的部门和提供这个技术的部门,以及学术界一块开发一套更完善的大数据的评价的标准来共同促进整个产业的繁荣。

原来我们自己感觉中国大数据的技术走到现在其实无比接近于国际水平,其实原来在每一个技术浪潮上我们都离得很远,现在仍然有差距,但是差距越来越小,但这好象是离得最近的一次机会。如果我们能把用户单位和产业界的提供商一块联合起来形成一个合力的话,我觉得我们可以在这里头站住,所以我希望我们形成一个平台性的框架跟大家一块来做,而且也有一轮的经验和结果,我们后面也会推出更多的标准和测试的活动。

我以上跟大家分享的内容就是这些,欢迎大家多提宝贵意见,谢谢!

声明:所有会议记录均为现场速记整理,未经演讲者审阅,本站刊登此文出于传递更多信息之目的,并不表示赞同其观点或证实其描述。

更多会议精彩内容请参见专题:http://labs.chinamobile.com/bigdata_2015

(责任编辑:王源野)
共 1 页
分享到: 0

评论

全部评论我的评论

满栋梁2015-08-26 16:48

图文并茂,挺好!

能痴大师2015-08-26 16:45

好棒好棒