首页> 中文学位 >校园网新闻信息检索系统的设计和实现
【6h】

校园网新闻信息检索系统的设计和实现

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1 本论文的研究目的和意义

1.2 国内外研究状况

1.3 本文的主要工作

1.4 论文的结构安排

第二章 相关理论和技术

2.1 搜索引擎的基本流程

2.1.1 网页搜索

2.1.2 预处理

2.1.3 查询服务

2.2 搜索引擎的体系结构

2.3 搜索引擎评价原则

2.4 Nutch概述

第三章 校园网新闻检索的系统设计

3.1 需求分析

3.1.1 校园新闻检索系统的需求

3.1.2 用例图分析

3.2 系统设计

3.2.1 校园新闻检索系统的体系结构

3.2.2 数据库结构

3.2.3 校园新闻检索系统的实现流程

第四章 校园网专题新闻信息搜集

4.1 专题搜索概述

4.2 校园网专题新闻信息搜索的分析设计

4.2.1 设计校园网专题新闻信息搜集的目的

4.2.2 专题新闻信息搜索的设计分析

4.3 专题新闻搜集的实现

4.3.1 实现流程

4.3.2 测试效果

4.4 小结

第五章 校园网新闻检索的结果排序

5.1 概述

5.2 Nucth搜索结果排序分析

5.3 结果优化排序方法

5.3.1 Nutch排序算法的问题

5.3.2 改进算法设计

5.4 实验测试

5.5 小结

第六章 校园网新闻检索系统的实现

6.1 专题信息搜集

6.1.1 专题关键词管理

6.1.2 校园网专题新闻信息网页的收集

6.2 结果排序

6.2.1 加入网页最新修改时间排序因子

6.2.2 实现重要网页加分

6.3 用户界面

6.3.1 相关词推荐的实现

6.3.2 摘要检索词显示

6.3.3 检索结果显示

6.4 系统测试

6.4.1 系统安装

6.4.2 系统配置

6.4.3 检索效果

全文总结

参考文献

致谢

展开▼

摘要

Web已成为人们获取信息的一个重要途径,随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。搜索引擎随之成为人们最普遍使用的信息检索的工具。但目前主流的搜索引擎往往是针对新闻、娱乐等方面,或是针对整个互联网,无法有效地应用于具有专门内部网络环境下的政府机构、组织、高校等组织的要求。因此,面向各组织、机构专门信息网的专网搜索引擎具有很大的需求。
   本文的主要工作是设计和实现面向校园网应用的校园新闻性信息检索系统,目标是开发一个能满足高校校园网应用需求的校园网新闻信息检索系统。
   校园网新闻信息不仅来自校园网内部的信息发布系统,而可以来自校外的互联网站点。本文采用非贪婪搜索算法从校外站点发现并下载校园信息相关的新闻网页并建立索引,与校园站内索引资源合并,使搜索的资源不局限于站内,适当地扩充了搜索的范围。由于适度控制搜索的范围,使得搜索内容具有较强的针对性,并通过优化搜索算法,从而使搜索性能不因搜索范围的扩大而明显下降,体现了专题搜索的能力。
   由于新闻检索系统对新闻的实时性有较高的要求。论文在搜索结果排序算法的改进中,引入了时间排序因素、重要网页加分等,使搜索结果体现了实时性的价值。经过测试证明,引入这些排序因素后搜索结果的匹配度评分依然控制在合理的范围,使得搜索结果既真实反映搜索内容的要求,又体现了时间价值等因素,更能从整体的高度去“关注”和“发掘”出对用户真正有价值的信息的目的。
   论文给出了校园新闻信息检索系统总体架构设计,并基于开源搜索引擎Nutch来构建校园新闻信息搜索系统,论文阐述了基于Nutch二次开发的系统实现机制。在Nutch的基础上,开发完成了系统的结果显示功能,如相关词推荐、关键词高亮显示、搜索结果分页显示等,增强了系统的实用性;加入了网页最后修改时间因素、给重要网页加分等来优化搜索排序结果,使搜索结果的排序更加符合应用的需求;增加了校外新闻教育专题搜索服务,并与站内搜索进行整合,扩充了新闻信息服务的涵盖范围。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号