正在加载...

wikipedia-logo维基百科从2001年建立到现在已经走过了8个年头了,词条也在众多用户的不断努力下从8年前的20, 000个增加到了目前的3,125,894个, 成为了名副其实的网上自由的百科全书。基本涵盖了我们日常生活领域里方方面面的知识。此外,我们在使用搜索引擎的时候,也发现在搜索引擎的结果中,维基百科的内容扮演着越来越越重要的角色。维基百科和搜索引擎,看似没有交集的两种产品,现在却越来越多的被联系到了一起。

为什么搜索引擎会青睐维基百科类网站的结果? 而维基百科又可以我们带来一些什么呢?

维基百科性质的网站的本身特点

1. 维基百科的知识内容具有很高的可信度。 我们曾经将维基百科从2001年5月到2008年1月8日的所有维基百科的历史记录下载下来进行统计。 一个词条往往是经过了很多次的修改,最多的词条经过了多大20,000+次的修改(不包括错别字,符号的修改), 在经过了很多用户反反复复的不断修改,改善以后的词条。如果在一段时间内没有大的变化,我们就应该可以认为这样的词条是可信的,至少它是一个被各个不同背景用户都赞同的一个中立性的词条。其权威性能够被大家肯定。

2. 维基百科的本身的页面结构比较容易做挖掘. 维基百科作为百科全书,为了保证其词条的统一性, 每个词条都会具有一个固定的结构。通常来说,每一个词条的第一段会将词条本身做一个简单而全面的介绍。且看下面的例子:

bradpitt

从布拉德皮特的词条中,我们根据第一部分的内容,就可以知道一些关于布拉德皮特的一些基本信息。甚者,搜索引擎只要挖掘右边表格中的信息,就可以知道: 出生年月,职业,配偶等信息了。

3. 数据是免费的,任何人都可以从其网站上获得完整的数据集. 维基百科作为一个开放的平台。其所有的数据都是开放的。也就是说,个人和搜索引擎都可以毫无障碍的获得全部的维基百科集合。作为研究团队来说,你甚至可以从这里下载到完整的维基百科的数据集。为研究数据集的属性,提高挖掘的精度做各种实验。

为什么搜索引擎应该在结果页里提倡百科类网站而不是其他问答性的网站?

1. 信息的全面性. 维基百科是经过很多人长时间的修改,删除,增加而成形的知识体系,其内容的全面性固然不容分说。而通常的问答性网站(Answer.com)不可否认的是,这些内容页往往只是更注重影响力,而忽视了页面的质量。 近日,在ReadWriteWeb上有署名文章就指出,像Demand Media,AOL和Answer.com这种过分依赖于用户本身的机制本身就不能够保证提供的内容的完整性,回答者只是根据了提问者的要求进行问答式的回答,而缺少了对背景资料的提供。例如, 用户如果希望知道the busiest airport in the world (世界上最繁忙的机场)。Answer.com会告诉你是亚特兰大的机场. 但是仅此而已,你甚至都没办法在这个页面中找到关于这个机场的其他更多的信息。而在维基百科的相关页面中,我们可以看到详细的排名,还包括了各个不同机场介绍的链接。

题外话: Michael Arrington 的The End of Hand Crafted Cotent 对于AOL近日聘请了1500名网络写手为其填充 新闻内容的做法表示出了强烈的不满。他把这种方式类比成丰田汽车的组装模式,把许多article part拼在一起,对于新闻的内容只注重数量和影响而不注重质量。就像是快餐食品一样,可以很快填饱你的胃,但是你吃进去都是junk

2. 信息的客观性. Q&A 系统往往是某个人或者少数人对一个人的提问做出的回答. 答案本身的正确性由提问者来判断。这种单一判断好坏的模式本身就存在很大程度的随意性。一些对于提问者是好的答案,在其他搜索用户的眼里就是垃圾或者过于主观。而另一方面,正如上文提到的那样,维基百科是经过成千上万用户审阅过的文本,每个用户都可以对任意的词条进行修改,只要他认为该词条有不妥之处。但是这种修改又是受到限制的:任何不妥或者主观臆断的修改都有可能被其他用户不认可,从而否决掉这次修改(维基百科里只需要undo,就可以撤销上次的修改操作)。正是这种多人协作的方式,保证了维基百科词条在不断的修改中变得客观了。

搜索引擎可以利用维基百科做什么?

1. 做搜索提示中的结果。比如说,像前文所说,因为维基百科是知识型站点,一些内容可以很容易的让搜索引擎挖掘出来作为搜索提示的扩展,比如说:

flight

2. 作相关搜索的依据. 对于搜索引擎的相关搜索而言,通常搜索引擎都会通过对整个互联网信息的进行统计,做相关性分析得到与查询相近的词条。而现在,如果搜索引擎能够通过挖掘维基百科中,词条之间的一些关系,为相关搜索提供一些指导性的依据呢?

bradpitt2事实上,在今年的SIGIR会议上,就出现了一篇题为Query Dependent Pseudo-Relevance Feedback based on Wikipedia的文章。其主要思想就是挖掘维基百科中每个词条内部的信息,并利用这些信息对用户的查询更加具体化,从而达到精确搜索结果的目的。

  1. 百度还是维基,谁才是我们的百科全书?
  2. 雅虎和微软达成最后的合作协议
  3. 关于搜索引擎,微博客,及其三方应用。
  4. Twitter在09年实现盈利
  5. 百度,该起床闻闻咖啡的味道了!
  6. 必应也有自私的一面
  7. 华中大在线FTP搜索引擎剖析
  8. 汤普森公司到底在哪?

: http://jinruhe.com/blog/archives/116

本文相关评论 - 1条评论都没有呢

还没有评论呢。