谁帮我做新一代搜索引擎?

论坛:IT江湖作者:青梅发表时间:2006-05-24 06:10
1.传统搜索引擎工作方式
传统搜索引擎是这样工作的:
a.假定网络上的网页都连在一起,起码从通过一些方法得到的入口处开始分析链接,能够得到需要索引的所有网页;
b.通过一些方法得到的入口开始分析链接并下载网页,绘制网络地图;
c.对得到的每个页面进行文本分析处理,让用户能使用关键字或关键字组合命中包含目标信息的网页;
d.周期性重复前述流程,更新索引信息库;
e.对与其他网页失去联系的过期网页进行释放。
2.传统搜索引擎缺陷
我承认,在早期,传统搜索引擎有很多好处,那时网页内容不多,这样做也够用了,可是,随着网络上信息爆炸式增长,传统的爬虫式搜索引擎缺点越来越明显了:
a.带宽消耗太厉害,从经验来看,google爬虫下载的页面数相当于通过google到访的用户下载的页面数(该网站平均每个用户下载6个页面)三分之二还多,等于是通过搜索引擎来一个用户,google下载4个页面,对于通过搜索引擎到访用户量很大的网站,带宽消耗会增加很多,某网站九成用户通过google和其合作伙伴过来,带宽消耗增加三分之一,等于是搜索引擎消耗带宽占整体带宽消耗四分之一,这是很可怕的,前段时间donews上也有抱怨百度爬donews的wiki把服务器弄当机的事;
b.由于信息量太大,搜索引擎工作时做了大量的假定,包括某个链接在所有页面的重复情况等,导致一方面信息被漏收录的量很大,另一方面,重复的量也很大,还有对不同线程处理时间估算(匹配比较需要费资源太多,所以只进行估算)导致需要耦合的流程未同时结束就把索引结果发布出去了,诸如此类的假定,造成搜索结果非常不可靠,而且,说实话,按目前的工作流程,即使增加服务器,对这些假定造成的漏洞,也不可能改善;
c.数据更新不及时,有的网站数据要数个月才会被收录,时效性太差;
d.资料类静态数据被收录量远低于人们需求,造成收录量小——用户少——入口少——数据量少——用户更少的恶性循环;
e.由于假定网页之间都有联系,而实际上SNS类网站用户页面之间的联系相当松散,会导致大量网页很难被收录。
3.新一代搜索引擎简介
新一代搜索引擎,由网站主动在网站服务器上安装索引数据库,当网站发生更新时,只就更新部分进行索引,并发布索引的摘要信息给搜索引擎网站,并增加版本管理等功能,网站可选择是否保留历史版本让用户可以查看,并可以按日期搜索网页。
4.新一代搜索引擎优势
由于新一代搜索引擎工作机制,优势非常明显:
a.节约钱,用节约带宽的费用购买硬盘以容纳索引数据库,是非常经济的;
b.节约服务器计算资源,由于只就更新部分索引,比传统的爬虫式重复劳动要节约很多;
c.索引信息时效性、完整性、可管理性都强了很多;
d.当网站服务器不能正常工作时,搜索结果页面里也就不会有该网站摘要信息,用户不会浪费时间(当然,这也限制快照的使用了);
e.版本管理功能网站所有者和搜索用户都是非常有用的,特定页面的版本管理可以编辑成为网志;
f.可以按发布时间搜索网页,使用户迅速找到和时间相关的某些信息。
5.起步的推广
可以有传统搜索和新搜索两个界面,传统搜索使用google接口,上面可以有gogle图标,新搜索只收录安装了了索引服务器软件的网站数据,通过版本管理吸引网站,通过网志功能、时间搜索等功能吸引用户,还可以这样吸引网站:
安装了索引数据库的网站,在搜索网站上安装有镜象,并且指向目标网站的爬虫全部被指向镜象,而通过搜索引擎到镜象网站的用户,则通过页面跳转到真实网站上。这样,爬虫的资源消耗被搜索引擎网站承担,并且不影响搜索引擎对这些网站的收录。
标签: 添加标签

0 / 0

发表回复
 
  • 标题
  • 作者
  • 时间
  • 长度
  • 点击
  • 评价

京ICP备14028770号-1