P2P搜索引擎开源项目启动了!

论坛:IT江湖作者:青梅发表时间:2006-06-17 09:35
网志网需求说明
1.引言
1.1WEB2.0的本质
是“我的互联网”,也就是说,信息都以“我”为中心组织,我需要的信息,自动推送到我面前,我发出的信息,我能很方便地跟踪别人对信息地反馈及意见。
现在的网络,即使号称WEB2.0的一些网站,也离此要求差很远,何解?
1.2网志网简述
网志网由三部分构成:a.网志网站点;b.社区网站开源代码;c.P2P搜索引擎DEMO。
网志网站点包括各门户网站及大论坛每天热门内容排行榜及上榜主题摘要,并有与排行有关的资讯,如点击、评论数量等,并可点击评论链接看到来自各社区网站的评论内容,以及进入各社区网站。
社区网站开源代码可以很方便地让其他网站建立自己的社区,并建立网志网网志部分镜象,使本站用户可以方便地跟踪热门资讯,并对热门资讯的评论也自动纳入本站用户的个人文集。
P2P搜索引擎的两个P分别指被索引网站和用户端,通过提供给被索引网站合适的工具减少带宽及计算消耗,开放词频统计及索引端口,让研究人员方便地获得中文词频统计资料。
网志网不支持用户注册,也不进行内容生产,只是为用户跟踪热门资讯以及保存自己的发言提供一个纽带作用。
使用开源代码的社区网站之间可以不仅共享评论,而且在文字聊天等方面,也可以方便地共享用户资源。
1.3用户行为模式假定
a.用户喜欢看大家都在关注的内容;
b.用户发表评论时会先看看别人已发表的评论;
c.用户关心别人对自己发言的反馈。
2.网站详述
2.1网志网
2.1.1站点结构
 网站首页
首页列使用网志镜象的站点链接。
 网志
 被收录站点——日期——排行榜
被收录站点按站点名称排列,书页方式显示,程序员分析完一个站点加一“页”。
日期按博客日期显示方式,年份及月份在底部有绝对地址链接。默认显示当前日期。
排行榜可显示摘要或只显示标题,每条内容显示项目除标题、摘要之外,还有:查看原文(XXX人)、阅读评论(XXX条)、快速回复(因为在阅读评论里也有回复框)。
 演示
演示为镜象站添加代码说明。镜象站在网页中添加所示代码即可添加上相应站点的网志镜象。(镜象站可以按网站本身用户群选择网志中合适站点添加)
 社区网站开源代码下载
社区网站代码说明及下载。
 搜索
P2P搜索引擎代码下载及说明,搜索执行页。
2.1.2程序逻辑
用户在镜象站点发回复自动被网志网收录,并被收入用户在镜象站所属社区网站的个人文集,网志网可阻止不合适的评论在网志收录的评论中显示,但并不能删除原站点的内容。
2.1.3角色分配
网志网管理员:阻止不适当言论。
社区网站管理员:删除不适当言论、封ID等。
社区网站用户:可对网志发表评论并显示在评论列表中,显示在评论列表中的同时被收入个人文集。
2.2社区网站
2.2.1站点结构
 用户站点
 个人档案/编辑
 日志/管理
 个人文集/管理
 相册/管理
 聊天室/管理
 管理后台
 模板管理
 标签管理
 用户管理
 日志管理
 文集管理
 相册管理
 聊天室监控
 网志镜象
2.2.2程序逻辑
社区网站代码为开源代码,针对不同服务器配置有不同版本。
用户以登陆状态进入本人站点页面时,出现相应的编辑或管理按钮,点击弹窗方式打开编辑或管理界面。
个人档案以标签方式管理,用户可以自由使用(不使用)标签项。
聊天室可匿名登陆,只有各用户站点主人在时才可以打开。
2.2.3角色分配
用户:创建自己的个人站点及使用。
管理员:管理站点。
2.3P2P搜索引擎
2.3.1站点结构
 搜索主界面
 演示及字典、程序下载
 字典管理
 链接类型管理
2.3.2程序逻辑
搜索引擎服务器收集词频统计结果进行整理生成字典分发给被索引网站(第一次字典由搜索引擎服务器根据网志收集的文本进行词频统计生成)。
被索引网站根据字典进行索引,只判断文本中有无某个词,不判断分词位置,如果网页有某个词,则将逻辑信息表中相应位置的0改成1。对不属于任何词的字串进行词频统计,频率超过站点设置值进入站点的字典管理界面,站点可对其舍弃或标注词性(标注词性只标注是否专有名词)后提交给搜索引擎,提交内容包括词、是否专有名词、频率。被索引网站可以根据本站服务器情况设置索引颗粒度,比如只根据高频词索引还是索引到低频词。词频为相对词频,即同首字的字串总数中比例,比如“蟋蟀”在“蟋”为首的字串中比例很高,所以虽然“蟋蟀”本身频率不高,但“蟋蟀”是高频词。
逻辑信息表:由0和1组成,每位对应字典中一个词,每个网页一张,如果网页中有某个词,则相应位置由0改成1,如果没有,则保持0不变。
被索引网站根据设定的时间提交索引信息表及词频统计信息。
被索引网站根据软件爬虫生成的大致的站点地图进行链接类型划分,确定需要定期更新的页面、需要进行版本管理的页面、索引一次以后无须再更新的页面等,并确定更新方式,是跟踪日志来更新未索引页面还是定期根据文件命名规则更新,以及整站重索引时间。
被索引网站将逻辑信息表和词频统计信息发送给搜索引擎。
搜索引擎根据收集的逻辑信息表进行计算,生成全网索引信息图。
用户搜索网页时,输入的内容根据字典转化为逻辑值,根据全网索引信息图命中相应网页并提出摘要生成索引页(摘要不经过搜索引擎,而是直接由被命中网站的服务器传到用户端)。
2.3.3角色分配
搜索引擎管理员:主要管理字典及下载站。
被索引网站管理员:主要管理字典及频率。
3.广告位置分配
由于存储和计算有部分分配到了被索引网站,因此,评论列表框及索引列表的右侧广告位置,都分配镜象网站和被索引网站,并提供相应管理工具,使其可以根据用户来源发行不同广告。
(评论框上的广告参考搜狐论坛,索引列表右侧广告参考google。)
标签: 添加标签

0 / 0

发表回复
 
  • 标题
  • 作者
  • 时间
  • 长度
  • 点击
  • 评价

京ICP备14028770号-1