文摘
英文文摘
第一章 绪论
1.1引言
1.2课题的研究背景与意义
1.2.1 Web文本信息挖掘的难点
1.2.2 Web文本信息挖掘中的关键技术
1.3相关技术与国内外研究现状
1.3.1目前国外的研究现状
1.3.2目前国内的研究现状
1.4本课题研究的内容及工作
1.5论文大纲
第二章 搜索引擎
2.1综述
2.2搜索引擎基本构成及采用技术
2.3搜索引擎的分类及其工作原理
2.3.1搜索引擎的分类
2.3.2搜索引擎的工作原理
2.4搜索引擎的主要指标
2.5现有搜索引擎的不足和缺点
2.6搜索引擎的未来发展趋势
第三章 Web文本挖掘及其技术
3.1文本挖掘的起源和主要任务
3.2 Web文本挖掘的过程及其任务
3.3 Web文本挖掘与Web信息检索的区别
3.4中文分词技术
3.4.1中文分词及其方法
3.4.2中文分词技术的现状
3.4.3中文分词的难点及其处理方法
3.5系统的文档建模
第四章 文本分类
4.1文本分类的定义和应用
4.2文本分类的方法
4.3合理分类的前提
4.4文本分类的过程
4.5分类器
4.5.1概念
4.5.2分类器的类型
4.6文档相似度计算
4.7分类器的准确度评估方法
4.8文本分类的评估指标
第五章 基于特定领域的Web文本信息获取系统的设计
5.1系统的结构框架
5.2系统的模块组成及其功能划分
5.3分类器的选择及训练
5.4特征项集的构造及其原则
第六章 总结与展望
6.1工作总结
6.2进一步研究的方向
参考文献
致谢
攻读学位期间发表的学术论文和取得的科研成果