首页> 中文学位 >面向特定领域的主题搜索技术研究
【6h】

面向特定领域的主题搜索技术研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1课题背景

1.2国内外研究现状

1.3本论文的主要工作

1.4论文的组织结构

第2章主题搜索相关理论和技术

2.1通用搜索引擎

2.1.1搜索引擎的分类

2.1.2搜索引擎的工作原理

2.1.3搜索引擎相关技术

2.2主题搜索引擎

2.2.1领域主题搜索引擎基本架构

2.2.2领域主题搜索引擎的关键技术

2.3本章小结

第3章主题搜索引擎关键实现技术研究

3.1领域知识库建立及更新技术

3.1.1领域主题词典的构建

3.1.2领域主题词典的动态更新

3.2领域主题识别技术

3.2.1 Web页面的主题特征

3.2.2向量空间模型介绍

3.2.3主题特征模型的建立

3.2.4页面信息模型的建立

3.2.5主题识别算法的选择

3.3本章小结

第4章主题网络爬行器的设计

4.1主题爬行器工作原理

4.2主题网络爬行器的搜索策略

4.2.1基于链接的搜索策略

4.2.2基于内容评价的搜索策略

4.2.3基于内容和链接的综合性搜索策略

4.3主题网络爬行器的设计与实现

4.3.1爬行器系统结构设计

4.3.2主题种子链接的初始化

4.3.3爬行器的搜索启发策略

4.3.4主题相关度的计算方法

4.3.5爬行器设计的其它问题

4.4本章小结

第5章原型系统实验与结果分析

5.1开源系统Nutch介绍

5.2原型系统体系结构

5.3实验平台与运行环境

5.4实验评价指标

5.5实验与结果分析

5.5.1系统实验领域定制

5.5.2实验结果与分析

5.5.3系统评价与总结

5.6本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

展开▼

摘要

随着互联网的飞速发展,互联网络上的信息量正在以几何级数的速度增长,Internet已经成为目前世界上最大的信息资源库。如何满足人们快速、准确、全面获取信息的需求,已经成为人们面临的一大难题。搜索引擎的出现从一定程度上解决了信息获取问题。但是随着信息多元化的增长,通用搜索引擎越来越难以满足特定用户专业化、个性化、更深入的搜索需求。在这种背景下,近年来面向特定领域的主题搜索技术成为网络信息检索领域的研究热点。 本文首先对比介绍了通用搜索引擎和领域主题搜索引擎在系统架构、工作原理、关键技术等方面的异同,分析了面向特定领域主题搜索技术的研究现状和发展方向。 随后,研究了主题搜索技术中领域知识库的构建、更新与领域主题识别两项关键技术。重点研究了关键词典的结构和建立方法,以及主题特征模型和页面信息模型的构建过程,并提出了相关算法。 接下来,研究了主题网络爬行器的搜索启发策略,对比分析了几种典型搜索算法,并提出了基于综合价值搜索策略。在此基础上,设计了一个主题网络爬行器。 最后,在以上研究内容基础上,实现了一个面向特定领域的主题搜索引擎原型系统。该系统不仅能够准确自动地爬行到主题相关的网页,而且还可以节约网络带宽,具有良好的稳定性。该系统通过一些典型实验,验证了系统在查全率、查准率、主题满意度等评价指标上都达到了较高水平并取得了良好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号