摘要
第一章 绪论
1.1 课题背景
1.2 通用搜索引擎
1.3 主题搜索引擎
1.4 本文的组织结构和内容
第二章 Web文本挖掘和搜索引擎相关技术
2.1 Web文本挖掘技术
2.2 搜索引擎的基本结构
2.3 搜索引擎的排序模型
2.4 本文系统中使用的关键技术
第三章 主题搜索系统的需求分析
3.1 系统设计目标
3.2 系统工作流程
3.3 系统总体用例图
3.4 系统各模块需求分析
3.4.1 网页下载模块的工作流程
3.4.2 Web文本挖掘模块工作流程
3.4.3 索引模块
3.4.4 查询模块
第四章 主题搜索系统的设计和实现
4.1 系统总体架构
4.2 网页下载模块
4.2.1 Heritrix的配置
4.2.2 使用Heritrix建立抓取任务
4.2.3 改进Heritrix多线程性能
4.3 Web文本挖掘模块
4.3.1 网页解析器
4.3.2 中文分词器
4.3.3 特征提取
4.3.4 文本分类器的实现
4.4 索引模块的实现
4.5 查询模块的实现
4.6 系统的应用效果
第五章 实验结果和分析
5.1 运行环境配置
5.2 分类评价标准
5.3 实验分析
第六章 结论和展望
参考文献
致谢
声明
复旦大学;