摘要
ABSTRACT
第一章 绪论
1.1 引言
1.2 搜索引擎的发展概况
1.3 国内外研究及发展现状
1.4 基于电路课程的主题搜索引擎的设计与本文组织结构
第二章 主题搜索引擎的关键技术
2.1 主题搜索引擎功能模块
2.2 中文分词技术
2.3 专业爬虫技术
2.3.1 专业搜索引擎中网络蜘蛛模型
2.3.2 目前主题网络蜘蛛所存在的问题
2.3.3 普通爬虫和主题爬虫对比
2.4 网页抽取技术
2.4.1 信息抽取技术概述
2.4.2 信息抽取技术的评价标准
第三章 主题搜索引擎框架设计
3.1 信息采集模块
3.1.1 Robots.txt 和META 标签
3.1.2 链接过滤
3.1.3 主题网络蜘蛛的算法选择
3.1.4 页面访问
3.2 主题词
3.2.1 主题词的选择及设置
3.2.2 根据主题词及其权值改变搜索顺序
3.3 权重网页和聚合网页
3.3.1 权重网页和聚合网页选择计算公式
3.3.2 权重网页和聚合网页的选择算法
3.4 查询模块
3.4.1 基于MVC 模式的查询子系统
3.5 详细设计与实现步骤
3.6 本章小结
第四章 主题搜索引擎在电路课程中的应用
4.1 开放源代码Lucene
4.1.1 Lucene 简介
4.1.2 选用Lucene 的原因
4.1.3 Lucene 框架构成
4.1.4 Lucene 在本文中的应用
4.2 运行环境
4.3 Esearch 系统搭建
4.4 抓取系统(Spider)
4.4.1 网页抓取性能分析
4.5 搜索性能分析
4.6 Ajax 技术的使用
4.7 本章小结
第五章 总结与展望
参考文献
附录1 Spider 起始判断模块
附录2 Spider 分析页面处理代码模块
附录3 Spider 下载线程代码模块
附录4 建立索引模块代码
致谢
攻读硕士学位期间已录用的学术论文
上海交通大学学位论文答辩决议书