首页> 中文学位 >新闻垂直搜索引擎中文分词与网页去重的应用与研究
【6h】

新闻垂直搜索引擎中文分词与网页去重的应用与研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外的研究现状

1.3 目前存在的问题

1.4 研究的目标和内容

第二章 垂直搜索引擎的关键技术

2.1垂直搜索引擎工作原理

2.2网络爬虫技术

2.3 中文分词技术

2.4 网页去重技术

2.5 本章小结

第三章 新闻垂直搜索引擎的的总体方案设计

3.1 系统的需求分析

3.2 系统设计要求

3.3系统功能模块设计

3.4本章小结

第四章 新闻垂直搜索引擎系统的设计与实现

4.1网络爬虫子系统的设计与实现

4.2 网页提取模块设计

4.3 分词模块设计

4.4 网页去重设计

4.5 索引模块设计

4.6本章小结

第五章 新闻垂直搜索引擎的试验结果

5.1 系统开发平台

5.2 网页提取模块试验结果及分析

5.3 索引建立试验结果

5.4 中文分词试验

5.5 去重模块试验

5.6 程序最终运行结果

5.7 本章小结

第六章 结论与展望

6.1 结论

6.2 工作展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

自互联网诞生以来,网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具,但是传统的搜索引擎利用网络爬虫从互联网上大规模的搜集到的信息其中很多信息是完全重复或近似重复的,还有很多信息是用户不需要的,这样就加重了用户使用搜索引擎的负担。而垂直搜索引擎能够精确的获得用户关心的相关领域信息。垂直搜索引擎不像通用搜索引擎那样,它仅仅搜集某一特定领域相关的网页内容。
  本文首先描述了垂直搜索引擎的工作原理,并讨论了垂直搜索引擎的几个关键技术,主要技术包括:网络爬虫技术、中文分词技术、网页预处理技术、网页去重技术、索引和检索技术等。对包含这几项关键技术的功能模块进行了详细描述并进行具体实现。
  本文设计了一个多线程网络爬虫,使其高效的爬取互联网资源,并使用布隆过滤器,用来排除重复的 url;网页主题内容提取部分实现了基于网页内容结构和正则表达式技术的算法,和其他网页主题内容提取技术相比,性能有所提高;网页索引部分,采用Lucene技术,高效的建立了倒排索引库;研究并分析了中文分词技术,实现了基于双向最大匹配法和基于数学统计分析的两种歧义消除规则的算法,试验结果表明,该算法在歧义消除和正确分词上都有了提高;此外对网页去重技术进行了深入研究,提出了基于web文档长度和web主题内容的重复网页检测算法,试验结果表明,该算法相比传统的基于主题内容的网页去重算法和MinHash算法在运行效率去重质量上有了提高。基于以上技术,本文实现了一个新闻垂直搜索引擎。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号