language
  • 中文
  • English
  • 日本語
  • Español
圈子简介
圈子介绍:用户行为分析从用户的行为、观点中采用数据挖掘/文本挖掘/Web挖掘/统计分析、社会网络分析等技术,发现用户行为的一般模式及兴趣,用于精确营销、产品开发等应用
创建者: lakecloud
管理员: taozhenwu  春华秋实  吴晶

吴晶
邀请
积分:866
头衔:同进士出身
装备:对讲机
BrowseRank:挑战google PR背后的故事
发帖日期:2008-09-17 10:19:42
今年7月在新加坡举行的第31届国际信息检索大会(SIGIR)上,微软亚洲研究院的一篇论文《BrowseRank: Letting Web Users Vote for Page Importance》获得了最佳学生论文奖(Best Student Paper Award)。

论文首先分析了Google PageRank演算法的一些局限:1)可以恶意建立许多链接到自营网站以提高网站PR值;2)未考虑使用者浏览过程中的行为模式,如花费时间等。所以论文希望以user behavior data评估网站重要性。例如针对adobe官网的PR值非常高,因为许多网站都有提供其产品的链接,却并不代表广大用户常去浏览adobe官网。从而提出了基于User Behavior Data获取分析的两种方式:1)利用类似Web Server的Log file方式;2)安裝Browser plug-in 记录,数据格式主要包括「Input」(网址)和「Click」(超链接),多来源于IE。



思路并不复杂或多么新颖,但较AlexaRank(只是Domain-level ranking)还是更深入了一些,进入到Page-level Ranking和Website-level Ranking层面,而PageRank是通过link-analysis获取页面重要程度(近来已有修订完善,未找到公开资料)。

有人提出几个不错的问题:“我們可以粗略的說AlexaRank標示了網域的熱門度, BrowseRank標示了網頁/網站的熱門度, PageRank標示了網頁的重要度。到底哪個比較精準, 就牽涉到幾個問題:(1)比較熱門的網站是否就比較重要?(2)link數目多就代表比較重要?(3)不同階層的使用者, 熱門度如何參考?(4)廣度網站與深度網站, 熱門度如何參考?”

这也是我们在未来互联网、移动互联网用户行为分析中更加重视思考的。最后分享论文作者发表的论文背后的一些故事,至少蛮诚恳的。
-----------------------------------------------------------------------------
千锤百炼出深山

论文最初的想法来自我们关于网页重要性计算方法的一次讨论。谈到这个问题,在互联网搜索领域里的人大都会想起PageRank算法,但是这个算法经常会被做网页排名欺诈(spam)的人利用,他们建立大量的链接场(link farm)网站并链接到需要提升重要性排名的网页上,通过欺骗搜索引擎来获得较高的排名。经过大家的激烈讨论,我们发现问题出在看待网页重要性的立场上了。PageRank算法运行在网络链接图(link graph)上,这张图基本上是由各个网站的建造者建立的,里面的链接所反应的重要性也是源自这些网站建造者,如果他们当中有人想做欺诈排名简直易如反掌。然而,互联网毕竟还是要服务于广大网络用户的,如果我们站在用户的立场上来看待网页的重要性,或许会更加合理。于是,一个崭新的想法逐渐浮现在我们眼前:利用大量用户访问网页的信息来估计网页的重要性,一个网页访问的用户数量越大,并且用户在这个网页上停留的时间越长,这个网页的重要性就越高。换句话说,就是让广大的互联网用户在无形中来“投票”决定网页的重要性,我们称之为BrowseRank算法。

通过反复论证,我们发现随机过程中的连续时间马氏链(continuous-time Markov chain)理论可以很好地对这个问题进行建模。作为我们团队的一个传统,对于每项研究工作,从选题、建模到实验,我们都会进行多次内部评审,大家找问题挑毛病(俗称拍砖),更重要的是提出建设性意见,目的是让更多的问题暴露在文章投稿之前,并且把这些问题及时有效地解决。在一次评审讨论会上,有人指出用户在网页上停留的时间很难精确估计,因为网速的差别、用户习惯、以及是否突发事件的打扰都会影响用户的停留时间。为此,我们重新调查审视这个问题,通过查阅大量资料文献和小规模模拟实验终于找到了大家都能认可的一个去噪声方案,从而避免这些因素对算法有效性的影响。我们感觉到大家的这种严格筛选在很多时候比会议的审稿人来的更严格和全面,也使得我们的论文在投稿之前已经经过了千锤百炼。在建立了基本模型以后,我们又对这个算法的理论基础进行了深入地探讨。后来,经过实习生刘玉婷的努力,我们最终证明这个模型在理论上是合理可行的。

接下来的任务就是要做大规模模拟实验,实验数据来自产品部门。这里还有一个小插曲,由于数据量十分庞大,网络传送不方便,需要用多块大容量移动硬盘来运送。(哈哈,有些经历神奇的相似……)我们请一个出差的同事顺便带回,没想到这位同事早就在行李箱里装好了给他的宝宝买的大量婴儿用品,再加上这些大砖块一样的硬盘,行李严重超重。到了机场,航空公司要加收行李费用,但当他们打开行李检查的时候,发现这么多婴儿用品,竟然善心大发,说:”Wow! You are a good father. Then, we will not charge you. Good luck!” 后来我们开玩笑说,以后行李超重了,就再往里塞点奶粉、纸尿布之类(又是纸尿布,汗)的东西,说不定人家发了善心就不收超重费了。

几个月的实验下来,结果表明BrowseRank算法能够计算出比PageRank更好的网页重要性排名,并且能够有效地抵制网页排名欺诈行为。有了好的实验结果,接下来就是论文的写作。在一个多月的时间里,从初稿到最终稿,我们一共写了82个版本。一共有四人参与写作,平均每人改了20版。

1楼

lakecloud
邀请
积分:892
头衔:团长
装备:对讲机
发帖日期:2008-09-17 10:58:09
确实是一个很好的思路。不过这种方法是否计算量太大了?此外,如何防止排名欺诈呢?想欺诈的只要写个机器人 定期访问、刷新,也可以伪造热门的假象吧。
2楼

吴晶
邀请
积分:866
头衔:同进士出身
装备:对讲机
发帖日期:2008-09-17 11:42:59
机器人的访问一般会比较没有时序或模式目的规律(有一些反恶意攻击方法研究这个),数据清理时可作为无效数据过滤发现。

计算复杂度的确不小,我当初做兴趣迁移模式时也使用了HMM,采用滤波的forward和backward可以降低一定的复杂度。

3楼

irving
邀请
积分:748
头衔:同进士出身
装备:对讲机
发帖日期:2008-09-18 13:54:40
除了复杂度以外,这个角度还有其他的现实问题
1)浏览器:要了解用户的行为,就需要用户使用的所有的浏览器支持并提供数据给搜索引擎,鉴于浏览器厂商之间竞争关系,没有哪个搜索能够获得使用排名头2位的浏览器数据支持。
2)用户:用户行为属于隐私数据,大量的用户并不愿意暴露自己的行为数据,如果有浏览器胆敢擅自开后门,恐怕没多少用户会继续使用。

4楼

吴晶
邀请
积分:866
头衔:同进士出身
装备:对讲机
发帖日期:2008-09-18 15:21:34
目前为止,互联网用户行为数据获取一直是一项尴尬且难以推进的研究课题,思路不外乎加载浏览器插件、智能代理、服务器脚本、cookie识别等,稍有不慎便会涉及用户隐私安全或用户体验不佳,数据量、隐私风险和用户认可环环相扣,监督机制不健全也导致厂商间都在暗渡陈仓。可以肯定的是,top前几的互联网厂商们私下都在想尽办法利用自己的产品利器收集用户的行为数据,只要不非法透露给第三方,改进完善自己的产品竞争力还是很有价值的。

有时,用户也应该体谅这种“游戏规则”,想得到更完美的体验,也应适当舍身当一回小白鼠,当然前提是双方都秉承“安全平等,开放共享”的理念和约定。

5楼

a7758526
邀请
积分:22
头衔:书生
装备:书信
发帖日期:2011-10-27 15:56:08

有一个疑问,用户的浏览行为更新速度应该远远超过link的更新速度,这种数据规模下需要的计算资源远远超出page rank,带来的压力恐怕挺大的



guest
Labs推荐给你的相关资讯
帖子
    新闻
      博文
        报告
          看过此帖的还看过