声明
摘要
第一章 绪论
1.1 研究背景与意义
1.2 相关技术的国内外现状
1.2.1 手机浏览器的发展
1.2.2 移动手机搜索引擎的应用现状
1.3 主要研究内容
1.4 论文组织结构
1.5 小结
第二章 相关技术
2.1 网页净化
2.1.1 网页适应
2.1.2 网页分割
2.1.3 网页主题信息抽取
2.2 全文检索
2.3 全文检索引擎工具包Lucene
2.3.1 Lucene系统架构
2.3.2 Lucene索引介绍
2.3.3 Lucene索引结构
2.4 自动摘要技术
2.4.1 基于理解的自动摘要
2.4.2 基于统计的自动摘要
2.4.3 基于信息抽取的自动摘要
2.5 构造正则表达式
2.6 小结
第三章 网页净化模块的设计
3.1 HTML的基本概念及其结构
3.2 HTML解析包HTMLParser
3.2.1 Node
3.2.2 过滤器Filter类
3.2.3 通过Visitor访问
3.3 HTML主题信息提取
3.4 小结
第四章 信息检索模块设计
4.1 创建索引
4.2 查询
4.3 中文分词
4.3.1 Lucene中文分词
4.3.2 最大概率分词方法
4.3.3 中文分词算法的改进
4.4 小结
第五章 系统的整体设计与实现
5.1 系统整体设计框架
5.1.1 系统基本框架
5.1.2 系统平台和开发环境
5.2 网页搜索
5.3 网页预处理
5.3.1 预处理步骤
5.3.2 线程池
5.4 内容服务
5.4.1 建立txt文件索引库
5.4.2 txt文本摘要提取
5.5 小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
攻读学位期间的主要研究成果
浙江理工大学;