×关闭背景

百度大数据实验室科学家沈志勇做主题演讲

2015-01-19 15:35:19      来源:移动LABS       

信息化移动信息化移动信息化高层研讨会

【摘要】为了更好的推进大数据应用和移动信息化发展,加强政企合作,中国通信学会于1月15日在京举办“2015移动信息化高层研讨会”。

  【移动LABS】为了更好的推进大数据应用和移动信息化发展,加强政企合作,中国通信学会于1月15日在京举办“2015移动信息化高层研讨会”。图为百度大数据实验室科学家沈志勇做主题演讲。

  以下是演讲速记:

  大家好!我是来自百度大数据实验室的科学家。

  首先,大概介绍一下背景,现在大数据时代,百度顺应这个时代提出了一个叫大数据引擎的概念。另外,我还会跟大家介绍一下智能运维,基于大数据的运维解决方案。

  大数据时代来临的过程,其实就是信息化的过程,然后再慢慢向交易系统发展,再后来互联网开始崛起。到现在就更多了,还有现在正在流行的可穿戴设备,还不光是量大。在这个前提下,给各个行业带来了一些挑战,这个挑战分为这么三个层次:最底下的,数据量大了以后最基本的需求,怎么存、怎么算?这不是那么容易做到的。数据即使存下来了,怎么管理它?类似于数据仓库的问题。数据已经存好了,我上面能不能做像数据挖掘、智能分析相关的东西,这些都会对传统行业,会形成一些技术的门槛。

  数据大家都知道,大数据时代的话,大家都喜欢把数据合并起来,这样可能会产生一些1+1大于2的效果,但很少有平台能把数据都综合起来,现在大部分数据都是孤岛。

  以百度为代表的大型互联网企业,大家都在说的BAT这些企业,他们的大数据现状是什么样的。先拿百度举例,百度最主要的产品就是搜索引擎,搜索引擎怎么回事呢?它是把海量所有能爬下来的信息都爬下来放在服务器上,然后响应用户索引的需求,给他找到相应的网页。这里面大家想想,网页是千亿、万亿级的,怎么把这些存起来进行索引?在座的都用过百度,我们每天要响应大概60-70亿次的产品请求。所有这一切都要求我们,首先要把这些存储,然后还要再往上走,就要做一些分析。

  我们这么多年积累下来的技术,我们能不能通过某种方式开放出来,来翘动作为整个行业大数据应用的驱动力,在去年4月份的时候,我们提出来百度大数据引擎这样的概念。这个概念是这样的,最底层的我们叫做开放云,开放云其实就是数据中心,它的物理实体就是百度现在的各数据中心,大概数十万台的服务器,体现的一个是存储、一个是计算。

  然后在开放云的上面,我们能存、能算以后,再上一层,我们叫做数据工厂,数据工厂俗话就是数据仓库,要支持查询,还有ETL的基本操作。在这里面有一些数据指标。最上层就是智能分析那一层,我们把这个叫做百度大脑,我主要是设计这个事情,所以我接下来就详细介绍一下。

  如果刚才说的大数据引擎,指的是百度大数据能力,那么百度大脑就是百度大数据智能分析技术。

  这是跟百度运维团队合作的项目,在他们手里有一个数据仓库,里面放了2亿多条各个系统的指标,其实信息化的过程,很多时候会涉及到很多设备,设备都会有一些运行指标在那边,包括硬件本身和操作系统。

  里面我大概抽象出这些问题,首先我们对这些指标要进行监控,监控涉及到可视化等等问题。再往下走,我们希望自动找出这些指标中的异常,行话叫异常检测。还有另外一条思路,现在是这样,将来怎么走?将来的趋势怎么样?我们能不能做出一些自动的调整和修复?这是我们抽象出来的一个技术框架。

  然后我再讲一讲我们做这件事情的意义,我们可以做一些故障的预警,有些企业有些设备可能布在荒郊野外,如果你能提前知道它会坏的话我们提前过去,而且设备开始坏如果救回来的话说不定还能完好如初,像有些硬盘就是这样,开始坏了早点找回来,修复好还能用。我们报出来以后怎样去快速定位,这样如果省下了时间就省下了钱。另外还有跟钱有关的,就是预算优化。

  这背后的技术,再往下走就是一些具体的技术了。我们发现,运维相关的数据都是一些持续的数据。你真正靠人去生成数据,效率会非常非常低,很多大数据都是机器。我们作为一个研究部门需要有一定前瞻性,我们也归纳了这些问题,一个是预测,还有模式的挖掘,这些都是一些基本的问题,然后在这个基础上可以做一些甄别。

  其实我们信息化在很多行业已经达成,但我们现在想做的其实是智能化,工业4.0我大概扫了一眼,发现里面谈到了很多智能化的事情。但我们在做智能化的时候发现个很大的问题,因为人工智能非常大的基础是不断给它数据,最好是把整理好的数据喂给它,但现在清洗数据的工作量很大很大。其很大的问题就是,就是因为存数据的人和用数据的人不是同一个人,他不会考虑用数据的问题。另外,机器学习方法的可复用性低。

  时间关系就讲到这里,谢谢大家。

(责任编辑:小猫)
共 1 页
分享到: 0

评论

全部评论我的评论

肖骁2015-01-19 15:41

希望互联网的内容多一些

降龙十巴掌2015-01-19 15:37

文章视角独到,字字斟酌