摘要
第一章 绪论
1.1 本文研究背景
1.2 本文所研究的内容
1.3 课题研究意义
1.4 本文的章节安排
第二章 搜索引擎基本概念
2.1 搜索引擎发展历史
2.2 搜索引擎的工作原理
2.3 搜索引擎的构成
2.4 搜索引擎的工作步骤
2.5 搜索引擎的关键技术
2.5.1 超文本传输协议
2.5.2 Web采集器技术
2.6 新闻搜索引擎
2.7 本章小结
第三章 新闻搜索引擎网络爬虫
3.1 网络爬虫的分类
3.2 网页爬取策略
3.2.1 宽度优先搜索算法
3.2.2 深度优先搜索算法
3.2.4 网页爬取代码实现
3.4 多线程爬虫技术
3.5 网页内容分析与提取
3.5.1 网页净化
3.5.2 URL提取与去重
3.5.3 链接分析算法
3.5.4 C++代码实现
3.6 本章小结
第四章 新闻搜索引擎索引的建立
4.1 对新闻内容分词
4.2 计算TF-IDF
4.3 建立倒排索引
4.3.1 正排索引
4.3.2 倒排索引
4.4 将倒排文件存入MySQL数据库
4.5 本章小结
第五章 新闻搜索引擎查询
5.1 查询模块的结构设计
5.2 用户查询日志实现
5.3 查询服务的实现
5.4 搜索引擎质量的评价方法
5.5 本章小结
第六章 新闻搜索引擎系统截图
6.1 后台实现部分截图
6.2 前台查询部分截图
第七章 总结与展望
参考文献
致谢
声明
复旦大学;