×关闭背景

优酷土豆单明辉:大数据催化视频业务

2015-08-27 15:31:31      来源:移动Labs       

2015中国国际大数据大会

【摘要】【移动LABS】8月26—27日,2015中国国际大数据大会在北京召开,移动LABS作为大会战略合作媒体受邀现场直播。优酷土豆大数据技术总监单明辉做了题为“大数据催化视频业务”的主题演讲。

【移动LABS82627日,2015中国国际大数据大会在北京召开,移动LABS作为大会战略合作媒体受邀现场直播。优酷土豆大数据技术总监单明辉做了题为“大数据催化视频业务”的主题演讲。

优酷土豆大数据技术总监 单明辉

以下为演讲速记:

大家下午好!这是今天分享的主题,四个方面:

一、视频业务的需求

视频承载的用户需求,大家看视频归纳起来有这么几个需求,第一个,从视频本身体验到愉悦感、快乐,比如看电影、听音乐、看相声片段等等,这是从视听体验本身得到的感受。第二个,希望从视频中得到资讯,比如看看财经新闻,比如想买手机了,看看手机的评测,看看市场上哪个车降价了等等。第三个,从视频上得到更深入的知识,能够提供自己,比如英语教程、修车、挖掘机技术怎么开拖拉机等等。第四个,沟通交互需求,这里面承载社交的需求,比如在平台上有一个土豪送给主播个火箭,主播点名感谢了我,我特别高兴、特别有自豪感。包括现在90后特别喜欢弹幕,不光视频本身有意思,看弹幕也觉得特别爽。还有一些特别小的和别人不太一样的需求,比如直播视频,比如边看边买,购买视频中的东西等等。

视频承载用户需求有两个特点:兴趣表达力强、覆盖面广,包括长期、短期,包括老的、少的、城市的、乡村的。以前在地铁上我们看视频,现在在等电梯一分钟时也要拿手机看一个小短视频,视频从原来的30分钟片段到15分钟片段到现在1分钟片段。在这么大的需求情况下,在这么多片段化时间情况下,整个行业会呈现出百花齐放。在这个行业里面,我们判断没有一家公司可以从上游到下游通吃,也就是说这个行业比较适合生长出平台式公司,8月我们做了战略转变,我们想做平台式公司,让不同的需求、不同垂直行业在我们土壤上百花齐放的效果。

二、业务挑战

面临三个典型的挑战:第一个挑战,我们有这么多内容,大部分内容从数量上看都是用户上传的,这么多内容就会给海量用户带来困难,我们是使用大推荐系统来应对的。第二个挑战,我们兴趣覆盖面这么广,视频本身文本携带率这么少,我们对图像理解的技术又不是这么深入,也就是说我们理解广的信息点时感觉数据很难用,这方面我们用VideoProfile,用户和视频画像来应对的。第三个挑战,我们想做视频平台,扶植生态中的大鱼小鱼,生态需要培养,不同的业务需要扶植,我们手里拥有的工具少,所以我们有一个精准定向系统来支撑它。下面分三个点讲这三个系统:

1、大推荐。我们看看大推荐的需求,现在每天都有20万新视频上传到我们网上,缝值有2个亿用户,每分钟有30小时是时长被上传。就存在海量用户的选择困难症。8月发布的生态战略有三个地方很有意思,一个是新人计划,就是我们未来需要培养10万个粉丝过1000的个人帐号,万万计划是希望培育出来1万个每月收入过万的,未来计划达成时可想而知用户面临的选择困难更大。

看看用户与内容间的渠道,用户通过热点首页、榜单、筛选的方式,当用户有明确目的性时,通常通过搜索,这两点照顾的都是同步的内容,只有大热的内容才能够通过这种渠道触达到用户。对于更多中长尾内容,只能通过我们推荐系统来达成。

右边是大推荐系统框图,用户过来之后通过算法策略,可以把不同的算法组合配置,然后在不同的场景中可以组合不同算法服务的逻辑和流程,下面就是典型大数据平台一般的架构,比如说有Hadoopstorage,也有hbase等实施服务。我们的算法是标签、指纹序列化的算法,系统特点是系统策略配置,包括想上什么新的业务、想上什么新场景时候,往往通过配置组合封装就能够达成这种服务,可以支持小流量的分流,然后做完备的统计分析。

不细讲里面的性能和算法了,我们讲几个典型的问题和我们现在的处理手段,第一个是我们发现视频有一个特点,就是说有相当擦边的视频,什么意思?就是说我们往往看到一些视频说黄色视频也不是黄色视频,但是表现出来比如大胸罩、比如惹眼的照片,这样的视频往往点击率很高,就对网站用户体验和风格有伤害。就会出现用户一边点一边骂,一边骂还一边点的效果。对于这类问题我们用一款模型识别这种热点视频,把擦边球视频用一个规则去打压。第二个是标题党,标题写着“不看会后悔”,比如“北京男性最爱看的10个美女”,但是点击发现了可能是个广告,文图不对。因为我们对内容的理解没有那么深入,那我们怎么做的?视频可以播放,所以往往通过播放完成率,用户如果受骗的话可能对这个内容关掉,所以通过这些行为对标题党内容做反抓取,然后做规则惩罚。第三类是隐私视频,用户点到一些擦边球之后看得很爽,但是视频记录未必想告诉系统,未必想通过自动化方式计算出来。有用户投诉说隐私暴露了,想关又关不掉,怎么办?我们会通过标签化方式对兴趣点标注,标注出来它是隐私的兴趣点和不是隐私兴趣点,曾经在计算中对它进行规避,减少这样的情况发生。

这是讲大数据大推荐的效果,我们推荐10几种内容模型,一个连续剧十几个视频,包括一些电影,包括一些综艺,比如《快乐大本营》每一期嘉宾和看点都不太一样,你仅仅突给他推荐“快乐大本营”没什么意义。每日更新量数亿条,请求量10亿左右,曝光量150亿多,通过这种灵活架构支持100多种场景,包括个性化、相关、消息推送等等。

下面列的是几个典型的场景。这是单视频的相关推荐,当我看到“奔驰E63”这个视频时,右边显示一系列相关的单视频。这是一个剧集的推荐,当你看《花千骨》TV版时,我还可以给你推荐类似你可能比较喜欢的剧。,

这是我们推荐半年播放量占全站播放量的占比,大的聚集占一半流量情况下我们还能达到20%左右的播放量占比,也是挺不容易的。在移动个性化PUSH,通过我们个性化的策略,能够把点击率提升50%左右。这是第一个挑战,是我们通过大数据推荐应对的。

2UserProfile用户画像。我们通过内容画像和用户画像方式,把数据落地做抽象。我主要是讲用户画像,目标是说以标签为核心刻画用户,汇聚多方数据,这个平台上可能不包括自己的行为数据,我们还可以调放站外有关数据放到这里,希望提供给用户实时查询和群体筛选分析功能。

下面是几个例子,比如我们看到小黄飞这个,小黄飞是二人转知名度比较高的女演员,还题字搞笑的,它的用户属性上明确显示出东北三省比例特别高,所以明显看出来有一些地域特点能够体现出来。喜欢小黄飞的这些人竟然很奇怪的喜欢旅游,这些信息对于我们了解用户是很有启发的,这种时候在视频上播放旅游广告甚至给一个旅游代金券可能效果是最好的。

下面是分析了不同的播客的不同数据,第一个,观看时间点上,蓝条是绝对的时间分布,从这两个图上来看,大家都是在凌晨看得很少,晚上看得很多,差异并不明显。但是处理之后,发现相对时间点上来说,第一个视频高峰期是两个,一个是上班时候六七八点,第二个是晚上六七八点,这两个时间点相对播放比例比较高。第二个视频明显是在半夜时候相对比例会比较高。

还是两个视频,第一个视频用户关注的往往是在居住所在地,尤其是IT从业人士所汇聚的回龙观、上地等等区域。而第二个视频往往是在北航、五道口,一看就是大学院校所在地,也是区分差异比较大。看这个视频的人还喜欢看什么节目?从这可以看出一些端倪,看第一个视频的人喜欢《逻辑思维》,看第二个视频的人喜欢《伍声2009》。

通过我们挖掘出来的用户标签,他在点击率上、品牌总体认知上等等都领先于其他方面,所以定向效果和挖掘效果是蛮管用的。

这是VP界面,左边可以看到各个不同维度,视频可以来回拖拽播放条,通过拖拽行为我们有一个分析,就是用户从哪一点最容易拖到哪一点,比如除了播放结束点之外,用户到了这几个点最容易从头再看,第二个点在4143秒竟然也有拖动,发现这有一个波纹,用户倾向于把波纹跳过去,这种数据对于节目的分析很有帮助的。

3、精准定向推荐系统。它的需求有几大类,比如英语教学自频道长李雷勤奋专业有潜力,优土想扶持他成为“万万计划”的一员。这里面牵扯到流量怎么运营、如何扶持他。第二个是韩梅梅新做餐馆评测,想尽可能让中关村区域的小清新吃货尽快看到,这些人和我的口味比较搭,这其实是用户场景定向的需求。第三个是《捉妖记》有可能打破中国大陆地区的票房记录,那这两种片花哪种更容易打动大学生群体,这其实是用户调查反馈的一个问题。我们精准定向推荐就面向这些需求而存在。

怎么做?我们会给用户一个最小的方式,就是我可以指定不同的投方方向、不同的人群、不同位置、不同场景,用户可以选择一些素材,针对这些定向的条件对素材的投放,来完成对特定人群的触达,并且可以分析其效果。这是一个典型的例子,是说用户想在相关推荐这个位置上投放一些和汽车相关的会员电影,引导用户来看一些会员电影,但是实际上我会把内容匹配到他点击内容之上,这两个标题内容是有很强相关性的,这就是点型的精准定向推荐。除了这个之外,像BANNER广告位等等都可以接入精准定向推荐。这是流程图。

精准定向推荐有三个特点,第一个,精准触达某个人群,精准命中某个场景,第二个,以类似广告的价值双导向,一方面,用户的时间价值是我们排序的依据,另一方面,参考这个内容在当前场景下的点击率预估是什么样子的,综合评判内容该怎样呈现,第三个,触达用户之后会有丰富的闭环策略,让用户看到某些人群上效果怎样,用户可以根据效果修改自己的投机策略。

我们精准定向推荐从20154月上线之后,落地优酷/土豆等28个场景,有10余种素材类型、20多内部团队的定向投放需求。

希望有识之士投奔我们,谢谢大家!

声明:所有会议记录均为现场速记整理,未经演讲者审阅,本站刊登此文出于传递更多信息之目的,并不表示赞同其观点或证实其描述。

更多会议精彩内容请参见专题:http://labs.chinamobile.com/bigdata_2015

(责任编辑:王源野)
共 1 页
分享到: 0

评论

全部评论我的评论

马云飞2015-08-27 16:40

转走

马云飞2015-08-27 16:36

很喜欢楼主的文章,关注一下。