正在加载...

Twitter 于上周公布了2009的热门趋势的词条,关于这些Twitter公布的这些数据也是在很多国外的博客上被炒得很热。在这些讨论中,我觉得最有意思的一篇文章是说,Twitter公布了这么些关键词对于搜索引擎来说顶个鸟用。文中指出,Twitter应该在公布这些关键词的同时,发布一些针对关键词的统计数据。这些关键词最后都指向了一些什么样的网页。时间分布是什么样的等等。近日又有一篇博文把Twitter列为2009 Top 10 failure之列。虽然言辞有些极端,但足以反映出Twitter这些年发展是惊人的。

1. Twitter的特点:

现在是一个信息爆炸的时代,谁先获得了信息,谁就获得了机会。Twitter正是在这样的环境中诞生,成长起来。由于Twitter只允许用户一次发布不超过140个字的文字,所以人人都能够利用twitter迅速的将自己的观点,所见信息快速传播出去。同时也能够从following的Twitter那最快获取信息。也正是由于Twitter的这个特点,使得Twitter的功能变得多样了起来:

1. Twitter可以是一个微博客: 用户可以在上面通过1,2,3句话发表自己的观点,传达最新的信息。或者通过url来引导读者去获取更加详细的信息。

2. Twitter可以是一个聊天工具: 用户可以使用@的方式对话,对话的方式是随意的,内容可能很简单或者根本没有实际的意义。

3. Twitter可以作为传播信息的渠道: 用户通过RT的方式将有趣的或者重要的实时情况转发给他人。

Twitter功能的多样性,使得Twitter上的信息就显得Twitter信息的杂乱,随意性和过载。任何人都可以将自己任何想说的话发表在自己的Twitter上,而同时也为接受到的海量垃圾信息苦恼。我们一直希望看到一个这样的Twitter: 能够对于不同的Tweets进行归类和整理。以一种更加简洁明了的方式呈现出来而又不遗漏最新的信息

同时,搜索更加注重的实时性,之前Twitter与谷歌微软达成了协议,谷歌提供的实时搜索从信息获取速度上给用户提供了便利,却还存在着一个根本的问题: 信息的有效性和质量。Jason5Ng在可能吧的一篇文章中曾提到根据RT的多少来判断信息的重要性,而且现在确实有公司在做这件事情。 但是我们发现,在提取信息重要性的时候,及时性就丢失了。

2.  Twitter所更加需要的功能

在这里,我们将焦点集中在一些第三方插件的讨论上

1. 网址缩短服务.

为什么现在网址缩短服务会这么流行。这么多公司在做网址压缩。就连谷歌都要来凑一脚? 人们很容易想到原因是,因为它能把变态的长网址做短塞进Twitter这样一个只容许140个字符的微博客里面。除此之外,我们可以把这种服务网站看成是用户和实际网页中的一个代理。用户通过短网址访问到短网址提供商(etc. bit.ly) bit.ly通过映射再把长网址返回给用户使得用户得以访问原网页。在这个过程里,用户告诉了短网址提供商:当前流行的话题。他们喜欢的话题。当前流行的页面。而对于搜索引擎(Google)来说,获取了这些数据可以:

1. 了解用户的上网行为,将用户分类,根据不同用户喜好提供不同的搜索结果。

2. 在获取实时动态并能把用户引导到这些含有最新信息的网站上。

3. 不断更新其网址库,提高流行网站的权值,使其能够出现在搜索结果的前面。

其实说到底,就是能够改善搜索质量。提高搜索效率。因为现在用户的上网行为是没有办法捕捉到的。通过搜索引擎的日志来学习用户的行为,存在很大的误差。但是,如果能有更多的途径,让搜索引擎来跟踪用户的行为,无疑能够让搜索引擎更快更准的掌握用户的上网习惯,从而给出最适合用户的排序方法。

2. 聚合服务.


TweetMeme, 玩聚SR作为一款聚合网页的应用,从其诞生起就一直受到大家的关注。实际上,和bit.ly这类缩短网址提供商类似的是:TweetMeme是给网页和Twitter搭起了一座桥梁。用户希望将感兴趣的网页通过TweetMeme, ReTweet到Twitter上。TweetMeme则可以从中获得关于这个网页有引起了多少人在Twitter上的兴趣,被多少人Retweet过。将统计的结果在自己的页面上反映。他和bit.ly最大的不同就在于: TweetMeme减少了用户在网页和Twitter之间所需要的操作。通常,用户发现一个有趣的网页,希望分享到Twitter需要经过的步骤是:

a. 复制网址 ->b. 打开bit.ly页面, 粘贴网址 -> c. 获得短网址, 复制短网址 ->d. 打开twitter, 粘贴短网址和标题,发表.

使用TweetMeme只需要点击网页上TweetMeme嵌入的Retweet 链接。就可以直接发表到自己的Twitter里了。实际上,TweetMeme只是让用户RT了自己关于这个网页生成的一条Tweets然后对RT的数量进行了统计。Tweetmeme使得网页的流行性变得可视化:

a.在内嵌TweetMeme的网页本身就可以知道该页面的流行程度: Retweet数

b.在TweetMeme用户可以找到最近流行的被RT过很多次的网络页面。这样,用户在获取Tweet趋势的时候,在不丧失信息量的前提下,也可以通过RT的数量知道最新最热门的消息资讯了。

3.  TweeRank, TweetRank…. 基于Twitter的ranking

以上两种,不论是bit.ly还是做网页聚合。都可以作为Twitter中获取实时信息的依据。但是别忘了,有时候,我们在Twitter发布的重要信息可能并不包括网页。意味着,很多时候,Twitter上的一句话就包含着最新的内容。那么,对于这种最新的内容我们怎么去捕捉?

有人提出了类似于 PageRank的rank算法,其依据就是把Twitter这个社交网络映射到Web网络中去。每一个用户映射成一个页面,用户的followers映射成inlink, following映射成outlink。利用Pagerank的模型。可以得到每个用户的一个分数。作为Twitter排序的机制。

但是,PageRank和Twitter的rank还是有很大区别的:

1. PageRank中页面的内容是静态的,是不变的。Twitter中每一个用户都是实时更新Tweets的。不是每个得分高的用户发的每一条Tweets都有价值。所以如果笼统将具有High rank的用户的每一条Tweets都给予很高的权值,是不公平也不准确的。

2. PageRank一个很大的假设前提是,权威页面的链向的页面也是权威的。但是在Twitter里,这一条是行不通的: 一个拥有很多followers的权威用户可能会follow一个不怎么更新twitter的人,仅仅因为她是他的暗恋对象,仅仅想了解她日常生活的一举一动。

基于此,一种叫做TweetRank的算法在今年(明年) WSDM大会上将被提出。在这里,研究人员根据话题本身与用户的相关性来对Tweet排序。不过,在其关于Topic建模的方面。个人觉得过于理想化。而TweeFind似乎是一种已经将某种综合了PageRank, RT数量,Tweet数量融合到了一起的搜索工具。但是,实际应用起来,却感觉体验一般,比如说:

我希望获得关于Brittany Murfy这个今天死于家中的年轻演员的一些情况。我在里面搜索获得的结果是这样的,前面四条结果中,有3条基本上都是没有意义的Tweets.

4. 我们是不是对实时搜索的期盼太苛刻了?

我们是不是要求得太高?我们既希望搜索引擎能够把最新的消息反馈给我们,又希望搜索引擎给我们的是全面的,确实的,信息量高的内容。可能从根本上这两者就只能做一种折衷.

又或者,绝对意义上的实时信息是没有意义的? 用户可能并不在其获取的信息是在事件发生之后的1分钟还是10分钟。或者就算是半个小时也无妨?

  1. Twitter在09年实现盈利
  2. 谷歌一周更新回顾(1) —— 实时搜索
  3. 维基百科和搜索引擎
  4. 百度,该起床闻闻咖啡的味道了!
  5. 必应也有自私的一面
  6. 华中大在线FTP搜索引擎剖析
  7. 汤普森公司到底在哪?

: http://jinruhe.com/blog/archives/146

本文相关评论 - 1条评论都没有呢

还没有评论呢。