首页> 中文学位 >搜索引擎智能化技术中若干关键问题的研究与实现
【6h】

搜索引擎智能化技术中若干关键问题的研究与实现

代理获取

摘要

随着互联网技术的飞速发展和网络信息资源爆炸式地增长,互联网用户的数量也在以惊人的速度增加着。越来越多的网民开始习惯于通过搜索引擎在网上检索信息。现在搜索引擎已成为人们必需的网络应用工具,随着搜索引擎应用的广泛普及,人们已不再满足于传统的搜索引擎为人们提供的服务,人们希望搜索引擎能够更加智能化,更加人性化,检索结果能够更加准确,这些新的需求都给搜索引擎技术提出了更高的要求。
   本文对目前处于研究热点的智能搜索引擎技术领域的几个关键性问题进行了一些探索性的研究。内容主要包括:1)提出并实现了基于网站优先级调整算法的网页信息动态采集技术,通过检测采样网页平均时新度的变化来动态调整网站的优先级别,从而达到对相应网站网页信息采集频度的动态调整。2)研究了网页源码中的中文文字密度与网页正文的关系,提出并实现了基于文字密度的网页正文提取算法,摆脱了已有的网页正文提取算法对网页HTML(Hyper Text Mark-up Language,超文本标记语言)标签的依赖,辅助以一定的规则,从而实现了高效快速地提取网页正文。3)对文本自动分类领域里的几个关键问题进行了研究,提出并实现了基于哈希表的动态向量降维技术,提出并实现了改进的向量余弦相似度算法,研究了概念主题词对网页文档的唯一标引性,构建了基于主题词向量的向量空间模型,并且研究了这些算法在文本自动分类中的应用。4)研究了文本自动分类技术在网页自动分类中的应用,提出并实现了类别中心向量分类算法和CKNN(聚类K近邻)分类算法。5)研究了基于向量空间模型的文档结构模型和向量余弦相似度在文本自动摘要中的应用,提出并实现了基于相似度的文本摘要算法。最后应用本课题研究成果实现了一个集网页信息动态采集、网页正文自动提取、网页自动分类、网页主题词提取和网页文档自动摘要功能于一体的,具有实时性和自适应性的实用的网页信息动态采集系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号