×关闭背景

赛凡科技创始人兼CEO黄剑:海量存储大数据之路

2015-08-27 10:39:31      来源:移动LABS       作者:移动LABS

大数据

【摘要】【移动LABS】8月26—27日,2015中国国际大数据大会在北京召开,移动LABS作为大会战略合作媒体受邀现场直播。赛凡信息科技创始人兼CEO黄剑分享海量存储大数据之路的话题。

【移动LABS】8月26—27日,2015中国国际大数据大会在北京召开,移动LABS作为大会战略合作媒体受邀现场直播。赛凡信息科技创始人兼CEO黄剑分享海量存储大数据之路的话题。

赛凡信息科技创始人兼CEO黄剑

以下为演讲速记:

我们公司主要是做存储的,讲大数据,其中包含着一个隐藏的话题,也就是说大数据,这么多的数据谁来帮你们管,怎么管?我今天重点讲这个话题。

首先讲一下智慧城市建设所带来的海量数据的困难,简单提一下对付海量数据存储最新的技术。

赛凡如何用单一存储池技术满足智慧城市的主要需求。最后向赛凡在医疗影像云上面的案例。

问题很尖锐,什么是海量数据,从数据分析来讲,从60年代开始就有数据的分析和统计,其实真正的大数据至少是海量数据,什么是海量数据?我个人理解,目前为止,原来可以谈TB,现在可以谈PB,一个PB大概是2504TB硬盘的规模,通常这个数据是叫非结构化数据,它不是传统的数据库的数据,而是比如说视频、照片、甚至日志,主要是这几方面的数据占据主要的地位。

举一个例子,Facebook,目前为止是单一数据量全球最大的,有4000亿张照片,每天增加3.5亿,大家觉得这40000亿张怎么来的?其实三、五年之前只有6亿张照片,到40亿张照片增长速度非常快,这种数据量如何管理?如何分析?目前我们国内对大数据的理解主要还是在BI层面,主要还是以Oracle数据库、SUN数据库行数据为基础的分析工作。

这个方案是我们公司给一个城市做的智慧城市的规划,这是一个大数据中心为基础的方案。大家可以看到,有基础的平台,有电子政务平台、有旅游、城市管理等平台,之上发展出来的是应用,包括智慧旅游、指挥管网、包括智慧健康等等。这是很综合的一个体系,这里面的基础是大数据中心,这个大数据中心的功能是实现委办局的数据打通,也是数据的清洗。除了收集、分析、消费以外清洗也很重要,如何把数据的质量提高,提高分析数据的质量。这里面有政府核心数据比如人口、法人数据,包括政务、业务打通的数据,和社会上的综合大数据,除了运营商以外还有电商、包括很多的可穿戴医疗设备,都是大数据中心所要面临的挑战。数据这么多我们面临的是存储的困扰,之前一张硬盘大概就是1T,从一个硬盘考另一个硬盘还是可以忍受的,现在存储数据量是PB级别的,内存是GB级的,差10000倍以上,数据是PB级的,硬盘是TB级的,差1000倍以上,数据是PB级的,总线是GB级的,也是10000倍的差别,所以数据提高质量,更好的分析是大数据行业面临的挑战。

数据越大已经不适合我们经常搬迁,最好一辈子不搬迁,所以整个存储是从单机存储往集存储过渡,用性能聚合方法将总性能提高一到两个数郎级,例如Hadoop。如果数据量那么大,数据存三倍,硬盘很难忍受,所以需要一些新的技术解决这个问题。同时数据量大了以后,我们的处理上通常都是用云处理模式,或者用分散的这种处理模式,所以很多新兴的编程模式也涌现出来了,最开始的时候Map-Reduce,现在新的STORMSPARK编程模式出来了。数据如果不搬迁,不迁移的话,这就涉及到数据的还原,也就是说数据本身从哪儿来,这个数据本身是从电信收集过来的,还是移动收集过来的,这就涉及到了数据的溯源技术,主要就是数据的来源和数据的变迁过程,还有就是数据产生的环境包括它的物理环境甚至是逻辑环境、虚拟环境。所以数据溯源技术目前也是非常重要的一部分。

我们公司有幸现在是中国标准化研究院参与了这个活动,把大数据的标准制订了出来,一部分标准就是数据溯源技术。

刚刚说到了数据量大,放到一个池子里面,但是这么多数据很大一部分数据是不需要使用的,现在统计数据显示95%的的数据量周以后人们不需要访问它了,这95%的数据已经是适合被归档了。但是还有一个很小的可能性,必须访问这95%的数据怎么办?同时高性能低延迟的数据库目前的量是低于20%。所以数据量大了以后存储的介质成本、机房成本包括人工成本都越来越承受。所以业界用多种不同的介质组合方式解决数据需求的问题。在热数据、温数据和冷数据之间需要进行自动的转换和迁移。所以大数据的场合下,需要一个存储池来满足所有的存储管理与消费需求已成为一个趋势。

再看看存储介质的发展,硬盘主流的是6TB,从硬盘和磁带蓝光比较的话,从成本上磁带最贵,蓝光应该是最便宜的,搜索的话磁带最差,蓝光是不错的从存放来说蓝光是50年,硬盘是还可以。其实在归档的时候主要看,比如建机房成本很大,这点来说蓝光盘对于归档是一个不错的介质,这点最近也得到了Facebook的采用。因为它对电的要求、对空调的要求低很多,因为一个蓝光的机器,一个42亿这样的机柜大概能长一点几P,耗电量只有200多瓦。

所以云数据中心包括以大数据为基础的云数据中心,多层次的存储布局基本上已经成为一个方向。热数据现在慢慢的被全闪存阵列所取代这是TB级别的。温数据是由硬盘、闪存组合的,这是PB级别的。冷数据包括磁带库和光盘库就适合存ZB级的。

理想的单一云存储有很多要求,首先是对于客户的支持不应该只是支持巨型客户应该是小型客户大型客户都能支持,这是单一节点开始的和设备的共享程度。同时要支持多种计算模式和数据消费模式,这里面的N1就是多服务源,并行处理的模式,数据处理非常快,有时候需要并行处理。还有一种就是归档功能,大数据分析功能都要在一个池子实现。同时数据的设备量很大的,几千台、上万台甚至十万台的服务器规模,如果说一台服务器平均寿命是35年,100台服务器的话就是每个月坏一台,1万台的话就是每个坏10几台了,所以这种情况下对硬件维护一定是去中心化、全对称性、没有单点故障的设计。

另外所有的数据都在一个池子里面,这个池子是一个全局的单一命名空间,由于你进到C盘或者D盘里面,打开一个根目录,所有数据再一个根目录下,而且数据可以自动的进行负载均衡。就是在透明的在线扩展基础上,就是把机器的性能和扩张跟用户使用习惯分开了。我们在最节省的空间前提下提高数据的可用性,我们尽量不用做全副本的,如果说一个副本坏了,这时候是你对还是我对?判断不清楚是谁的数据坏掉了,所以要存三份,如果是PB级的,硬盘上千万张,这时候来个三倍,谁也受不了这样的成本,所以尽量不要做副本。

性能上面要做到极致,读写要非常好,同时无论访问哪一个硬件性能都应该是差不多的,这个池子对大数据分析平台来说就是一个完全透明的、统一的存储池,来解决我们今后所需要的大数据分析的所有的问题。

赛凡C4100:海量存储最佳选择。

简单提一下N+N编码和双控制的节点,赛凡的做法是在每个节点上用双控制方法实现大规模的集群。相对于扩展度、扩展限制和容忍最高节点数据损坏方面有非常大的优势,硬盘成本来说双副本是成本最高的。

总结:对于一个好的存储池来说必须同时支持快速的高性能计算、并行计算,同时支持很多人成千上万人甚至上百万人同时共享。因为数据本身无法进行迁移,我们在本池子里面也要支持大规模的归档。另外因为数据必须就地分析,所以也应该支持大数据的分析接口。这个数据对我们客户来说是数字资产,今后很快随着企业平衡表里会有一项数据资产,数据资产它的稳定性、可用性会成为一个非常头疼的事情。所以池子里面必须要同时解决稳定性、可用性的解决,所有这些功能放在一起,就是赛凡的大数据存储池。

我们跟统计信息服务中心在20135月份就已经开启了大数据方面的合作,江主任是实验室的主任,我们在厦门承建统计信息服务中心的大数据研究服务基地。这个服务基地是多方面数据集中平的台,这里面有地方政府的数据开放,有国家统计局的一些统计信息,由统计信息服务中心提供,同时跟合作伙伴一起提供大数据分析的工具,同时就是赛凡的影像云存储平台。对外我们提供大数据分析的服务。

简单讲一下赛凡的医疗影像云,首先,医疗影像目前成长非常快,最近刚刚才从2D医疗影像过渡到3D医疗影像,我们的大数据平台包含了目前冗灾与大数据分析二合一的功能。大数据平台一边提供市级所有医院医疗影像的数据备份,同时在备份池子里搭建了大数据的分析平台,进行医疗影像的分析。这里包含了比较领先的图像分析技术,同时可以把池子上的数据进行备份,也就是说通过一个池子同时实现备份和分析的目的。

声明:所有会议记录均为现场速记整理,未经演讲者审阅,本站刊登此文出于传递更多信息之目的,并不表示赞同其观点或证实其描述。

更多会议精彩内容请参见专题:http://labs.chinamobile.com/bigdata_2015

(责任编辑:王砾瑟)
共 1 页
分享到: 0

评论

全部评论我的评论

2015-08-27 10:51

转走了

周杨2015-08-27 10:49

转走

肖骁2015-08-27 10:45

值得借鉴