首页> 中文学位 >基于MySQL新闻搜索引擎的设计与实现
【6h】

基于MySQL新闻搜索引擎的设计与实现

代理获取

目录

摘要

第一章 绪论

1.1 本文研究背景

1.2 本文所研究的内容

1.3 课题研究意义

1.4 本文的章节安排

第二章 搜索引擎基本概念

2.1 搜索引擎发展历史

2.2 搜索引擎的工作原理

2.3 搜索引擎的构成

2.4 搜索引擎的工作步骤

2.5 搜索引擎的关键技术

2.5.1 超文本传输协议

2.5.2 Web采集器技术

2.6 新闻搜索引擎

2.7 本章小结

第三章 新闻搜索引擎网络爬虫

3.1 网络爬虫的分类

3.2 网页爬取策略

3.2.1 宽度优先搜索算法

3.2.2 深度优先搜索算法

3.2.4 网页爬取代码实现

3.4 多线程爬虫技术

3.5 网页内容分析与提取

3.5.1 网页净化

3.5.2 URL提取与去重

3.5.3 链接分析算法

3.5.4 C++代码实现

3.6 本章小结

第四章 新闻搜索引擎索引的建立

4.1 对新闻内容分词

4.2 计算TF-IDF

4.3 建立倒排索引

4.3.1 正排索引

4.3.2 倒排索引

4.4 将倒排文件存入MySQL数据库

4.5 本章小结

第五章 新闻搜索引擎查询

5.1 查询模块的结构设计

5.2 用户查询日志实现

5.3 查询服务的实现

5.4 搜索引擎质量的评价方法

5.5 本章小结

第六章 新闻搜索引擎系统截图

6.1 后台实现部分截图

6.2 前台查询部分截图

第七章 总结与展望

参考文献

致谢

声明

展开▼

摘要

随着现代信息技术的飞速发展,互联网络上的信息量和类型正在发生爆炸性的增长。这为人们的日常生活、工作以及学习带来了极大的便利。但是在信息量爆增的同时也带来了新的问题。比如如何对这些海量的信息进行统一的管理,如何将这些分散的资源建立索引,以及如何从海量的信息资源中准确地获取需要的信息等等。搜索引擎是解决这些问题的关键技术,但是传统的通用搜索引擎是对Web上的所有种类的信息都进行搜集,并面向所有不同层次的用户,这种想做的面面俱到的努力在海量信息面前变得越来越没有突破性进展。
  普通的用户对信息的关注程度和宽度是比较集中的。所以面向特定领域和特定需求的专业搜索引擎的概念应用而生。与传统的通用搜索引擎所不同的地方是专业搜索引擎只会收集与某个主题相关的Web上的信息,在收集信息时并不是来者便收,而是通过分析判断信息内容是否与特定主题相关,并只对相关的信息进行进一步处理。因此,专业搜索引擎无论在资源消耗,还是在查询准确度上都有了显著的提高。
  本文的主要研究工作就是面向专业搜索引擎,且以新闻为搜索主题。在研究过程中,通过对搜索引擎中关键技术进行深入的理论的学习和实践,进一步加深对搜索引擎领域的了解。在本文中的新闻专业搜索引擎中,选择新浪新闻网站作为网络爬虫的入口地址,对其进行有针对性地收集新闻页面。收集页面的工作由专业的新闻网络爬虫完成,它从新闻首页开始,提取出其中的新闻链接地址,并将这些链接地址存入到待爬取的队列之中,通过三层的深度优先搜索算法对Web网站进行遍历。之后,爬虫还将对收集后的页面进行净化处理和提取有效信息,最后由索引器建立搜索引擎中非常核心的数据:倒排索引。搜索引擎最终是要面向普通用户的,所以,设计好一个用户体验度好的查询接口为用户提供新闻查询服务也是非常必须的任务。本文中详细介绍了网络爬虫是设计和实现,网页的净化和信息抽取以及索引库的构建。这些技术都是目前自然语言处理和人工智能方面的研究热点,通过对这些技术和理论的学习,加深对专业的技能。
  本面向新闻内容的搜索引擎从最简单的技术着手,逐步实现了搜索引擎这一庞杂系统中的关键模块,实验结果表明系统具有一定的准确率,达到了良好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号