正在加载...

由hjr 新浪博客迁移至此. 原文发布时间 2007-08-19

1. 历史

第一阶段:2005年7月~2005年8月

项目主要参与人员: nid, martin, idoloveyou(顾问)

主要贡献:完成华中大在线1.0版本。并成功推出了http://so.hustonline.net。这是我们网站第一次尝试做FTP搜索引擎,也算是圆了martin长久以来的一个梦想:)教育网内960万数据采集,1个星期到15天的更新速度,在当时可以算是比较强大了。整套代码用C++完成,数据存储使用的是SQLServer2000。搭配SQLServer2000的全文检索。

主要问题:因为使用的是C++的API,所以我们不能够灵活的对FTP文件的类别和其他一些信息进行采集。另外,SQLServer2000的全文检索也是有局限性的。搜索mp3,txt这种结果很多的关键词就会造成效率低下。

第二阶段:2006年1月~2006年7月

项目主要参与人员:nid, martin, Jinru, lrl

主要贡献:针对第一个版本遇到的问题,完全摒弃使用原先的C++。重新使用C#。重写了Crawler部分。大大提高了采集FTP数据的灵活性。为了提高效率首次尝试使用了基于.net remoting的分布式搜索技术。数据存储换成了SQLserver2005。在索引速度和效率上都有极大的提升。这个版本在两个客户端搜集的情况下一个星期可以搜集数据大概2000万左右。

主要问题:过于复杂的结构造成了操作的不方便。SQLServer2005的全文检索仍然没有能够根本的解决上一个版本中检索遗留下的问题。

第三阶段:2006年12月~2007年7月

项目主要参与人员:Jinru, liulei, nid, lrl

可以算是华中大在线FTP搜索具有很大意义的一版搜索。因为从这个版本开始,就已经实现了独立的文件系统,彻底摒弃了数据库系统。抛弃了原先的分布式搜索的想法,改成在Crawler中开启更多的线程。


更多内容

百度百科和维基中文百科全书一直都是目前中文领域最有影响力的两个知识性网站。百度百科自2006年6月24号推出以来,在短短的3年时间里,已经收录了超过100万词条——相比于维基百科英文创建8年刚刚才突破240万的速度来说,是迅速的。按照百度官方的解释:精神上,百度百科主张的是“平等、协作、分享”。技术上,百度百科与百度贴吧、百度知道构成三位一体的系统,并且会结合补足搜索引擎在搜索质量上的缺失。但是,真的如百度所说的那样么?维基还是百度,到底谁才是我们的百科全书?

更多内容

2009-12
28

本文翻译自TechCrunch. 原文地址: http://www.techcrunch.com/2009/12/24/top-ten-ipo-candidates-2010/ 有修改。

TechCrunch今天有文章讨论到,在即将到来的2010年,在经历了漫长IPO干旱的硅谷,似乎有了回暖的迹象。这些现象表现在:Yelp拒绝了Google的收购请求; Twitter募集了1亿美元的资金等等。这似乎又意味着另一轮上市热潮的开始了。

以下是我们认为在2010年最有可能实现公开募股几家技术公司, 我之前进行了一次私下针对一些大型风险投资商和天使投资人的调查。这些公司是他们以及在其他高科技圈子中常常被谈论到的名字。前提是,经济的回暖和大众能够重新接受公开募股,特别是在下半年.从目前情况来看,市场已经开始复苏,标准普尔500指数在今年回升了24个百分点。如果牛市能够继续,我们将有希望看到这些潜在的IPO们,如果不能,额,并购案是随时随地都在可以进行的,不是吗?

更多内容

2009-12
27

因为装系统的缘故,将操作系统的默认搜索引擎设置成了Bing。想把搜索引擎换成谷歌。

我在bing中搜索,返回给我的结果如下:

看来,Bing也有自私的一面啊,哈哈~

1. 什么是云计算

云计算与其说是一种新的技术,倒不如说是一种概念。这个概念的核心其实已经存在了很多年。简单来说就是

一种服务器客户端架构,遵循是胖服务器,瘦客户端的原则

用户端是计算能力很弱的终端设备,比如说上网本或者智能手机或者任何能够联入网络的设备(电视机,冰箱,微波炉等等,只要能够连入网络 :-P ),作用是与用户进行简单的输入输出交互,然后通过网络,将我们的请求发给服务端。在客户端我们不需要去关心服务器是怎么能够从亿万级别的web页面中,找到我们所需要的内容的,也不需要去关心我们的文档被服务器丢在了哪个角落,如何存放的。我们知道的是,通过这个网络,我们可以随时随地的找到我们存储在服务器上的文件,并且对我们的文档进行编辑修改,就像在自己电脑上一样。

这个所谓的服务端只是个抽象意义上的服务器,实际上可能包含着成百上千甚至上万台并行计算的工作站

更多内容

据纽约时报的消息: 即将出版的1月技术回顾特别刊登了一篇文章讨论云计算的安全性问题:现有的云计算是否已经在安全性方面做到了能够给公众使用呢?

David Talbot在”以太网络中的安全性” 这篇文章中揭示了好几个基于云计算平台技术上的严重问题,这些平台的应用包括Gmail, Twitter和Facebook, Talbot先生访问了安全和云方面的专家,一些专家表示在我们的数据在云端是非常非常脆弱的。作为商业化或者公共使用的云计算平台在安全性方面还有很长的路要走。

Talbot写道:

云计算实际上是把几个单独但却有联系的安全风险摆在了人们面前,我们在云端存储的数据不仅仅是可能被黑客窃取或者由于机器的故障而丢失,而且,云的提供人员也有可能由于操作不当而造成数据方面的损失。

他同时还说到,曾经有三个来自于加州大学圣迭戈校和麻省理工大学的计算机科学家,租用了Amazon公司的EC2云计算服务平台的虚拟机进行大规模试验。虽然他们本身并没有窃取任何数据,但是他们相信,只要是一个有经验的程序员在这样的虚拟机上就可以很容易的获取其他人的数据。

无独有偶,最近一次Twitter遭受攻击,就是由于某个Twitter员工的Gmail账户密码被破解所致。安全专家不止一次的和我们说,一个只要求单一密码的云平台是脆弱的,不足以进行商务应用。要对大众全面开放,要做的工作还有很多。

相关参考: 什么是云计算?

今天看到一篇报道说,百度于近日公开招聘精通俄语,德语,伊朗语等一些小语种的专家。根据百度CEO李彦宏的说法,百度希望在2012年的时候和谷歌实现划洋而治。根据作者我的愚见,意思是百度要做一个国际化的大型搜索引擎。看到这里,我脑海中蹦出的第一个想法是:百度,咱就不开这种国际玩笑了好不,自己人愚弄一下自己也就算了。

关于百度为什么在国内能够骑在谷歌头上作威作福,很多博客中的博文都已经长篇累牍的反复讨论个这个问题了。说到底就是

1. 谷歌被政府阉割+制裁,百度从来都是听党妈妈的话,不让她受伤.

2. 百度的搜索结果是用人工来进行排序的,在某种程度上当然比自动排序做得好。

但是,当我们把问题放到一个全世界范围内来审视,在缺乏以上两个条件的地区,百度有胜算的把握么?

更多内容

根据布隆伯格的报道称,Twitter今年下半年与谷歌和微软达成的搜索交易让收入了2500万美元,足以使Twitter在今年实现盈利——虽然利润不多。根据之前的报告,和谷歌达成的交易让Twitter 从谷歌今年从谷歌那里获得了1500万美元的收入,类似的在于微软的交易中,微软将支付1000万美元用来使用Twitter的数据在其实时搜索上。

根据之前外界的推断,Twitter一年的运行成本约为2500万美元。这意味着可能Twitter在今年已经实现了小额度的盈利。而Twitter官方并没有公布这些数据。

更多内容

Twitter 于上周公布了2009的热门趋势的词条,关于这些Twitter公布的这些数据也是在很多国外的博客上被炒得很热。在这些讨论中,我觉得最有意思的一篇文章是说,Twitter公布了这么些关键词对于搜索引擎来说顶个鸟用。文中指出,Twitter应该在公布这些关键词的同时,发布一些针对关键词的统计数据。这些关键词最后都指向了一些什么样的网页。时间分布是什么样的等等。近日又有一篇博文把Twitter列为2009 Top 10 failure之列。虽然言辞有些极端,但足以反映出Twitter这些年发展是惊人的。

更多内容

wikipedia-logo维基百科从2001年建立到现在已经走过了8个年头了,词条也在众多用户的不断努力下从8年前的20, 000个增加到了目前的3,125,894个, 成为了名副其实的网上自由的百科全书。基本涵盖了我们日常生活领域里方方面面的知识。此外,我们在使用搜索引擎的时候,也发现在搜索引擎的结果中,维基百科的内容扮演着越来越越重要的角色。维基百科和搜索引擎,看似没有交集的两种产品,现在却越来越多的被联系到了一起。

为什么搜索引擎会青睐维基百科类网站的结果? 而维基百科又可以我们带来一些什么呢?

更多内容