泡网俱乐部

Message box content.

谁帮我做新一代搜索引擎？

论坛：IT江湖作者：青梅发表时间：2006-05-24 06:10

1.传统搜索引擎工作方式
传统搜索引擎是这样工作的：
a.假定网络上的网页都连在一起，起码从通过一些方法得到的入口处开始分析链接，能够得到需要索引的所有网页；
b.通过一些方法得到的入口开始分析链接并下载网页，绘制网络地图；
c.对得到的每个页面进行文本分析处理，让用户能使用关键字或关键字组合命中包含目标信息的网页；
d.周期性重复前述流程，更新索引信息库；
e.对与其他网页失去联系的过期网页进行释放。
2.传统搜索引擎缺陷
我承认，在早期，传统搜索引擎有很多好处，那时网页内容不多，这样做也够用了，可是，随着网络上信息爆炸式增长，传统的爬虫式搜索引擎缺点越来越明显了：
a.带宽消耗太厉害，从经验来看，google爬虫下载的页面数相当于通过google到访的用户下载的页面数（该网站平均每个用户下载6个页面）三分之二还多，等于是通过搜索引擎来一个用户，google下载4个页面，对于通过搜索引擎到访用户量很大的网站，带宽消耗会增加很多，某网站九成用户通过google和其合作伙伴过来，带宽消耗增加三分之一，等于是搜索引擎消耗带宽占整体带宽消耗四分之一，这是很可怕的，前段时间donews上也有抱怨百度爬donews的wiki把服务器弄当机的事；
b.由于信息量太大，搜索引擎工作时做了大量的假定，包括某个链接在所有页面的重复情况等，导致一方面信息被漏收录的量很大，另一方面，重复的量也很大，还有对不同线程处理时间估算（匹配比较需要费资源太多，所以只进行估算）导致需要耦合的流程未同时结束就把索引结果发布出去了，诸如此类的假定，造成搜索结果非常不可靠，而且，说实话，按目前的工作流程，即使增加服务器，对这些假定造成的漏洞，也不可能改善；
c.数据更新不及时，有的网站数据要数个月才会被收录，时效性太差；
d.资料类静态数据被收录量远低于人们需求，造成收录量小——用户少——入口少——数据量少——用户更少的恶性循环；
e.由于假定网页之间都有联系，而实际上SNS类网站用户页面之间的联系相当松散，会导致大量网页很难被收录。
3.新一代搜索引擎简介
新一代搜索引擎，由网站主动在网站服务器上安装索引数据库，当网站发生更新时，只就更新部分进行索引，并发布索引的摘要信息给搜索引擎网站，并增加版本管理等功能，网站可选择是否保留历史版本让用户可以查看，并可以按日期搜索网页。
4.新一代搜索引擎优势
由于新一代搜索引擎工作机制，优势非常明显：
a.节约钱，用节约带宽的费用购买硬盘以容纳索引数据库，是非常经济的；
b.节约服务器计算资源，由于只就更新部分索引，比传统的爬虫式重复劳动要节约很多；
c.索引信息时效性、完整性、可管理性都强了很多；
d.当网站服务器不能正常工作时，搜索结果页面里也就不会有该网站摘要信息，用户不会浪费时间（当然，这也限制快照的使用了）；
e.版本管理功能网站所有者和搜索用户都是非常有用的，特定页面的版本管理可以编辑成为网志；
f.可以按发布时间搜索网页，使用户迅速找到和时间相关的某些信息。
5.起步的推广
可以有传统搜索和新搜索两个界面，传统搜索使用google接口，上面可以有gogle图标，新搜索只收录安装了了索引服务器软件的网站数据，通过版本管理吸引网站，通过网志功能、时间搜索等功能吸引用户，还可以这样吸引网站：
安装了索引数据库的网站，在搜索网站上安装有镜象，并且指向目标网站的爬虫全部被指向镜象，而通过搜索引擎到镜象网站的用户，则通过页面跳转到真实网站上。这样，爬虫的资源消耗被搜索引擎网站承担，并且不影响搜索引擎对这些网站的收录。

标签：添加标签

顶 0 / 踩 0

相关回复

标题
作者
时间
长度
点击
评价

谁帮我做新一代搜索引擎？
青梅
2006-05-24 06:10
2848
1377
0/0

你要发财了
发散
2006-05-24 19:20
14
734
0/0

baidu是故意的
e频
2006-05-24 08:47
86
771
0/0

这个说法太好玩了，哈哈哈哈
青梅
2006-05-24 08:54
54
736
0/0

没看懂
屁颠屁颠
2006-05-24 16:10
111
802
0/0

Re: 没看懂
青梅
2006-05-24 16:18
35
769
0/0

从日志分析来看
青梅
2006-05-24 10:12
287
929
0/0

Google 早就做好了
新松鼠
2006-05-24 06:18
268
763
0/0

天啊，你居然还活着
青梅
2006-05-24 07:32
392
927
0/0

泡网俱乐部

登录

谁帮我做新一代搜索引擎？