文摘
英文文摘
声明
第1章绪论
1.1本文研究背景
1.2国内外研究现状
1.3研究意义
1.4本文所作的工作
第2章搜索引擎及其相关技术介绍
2.1搜索引擎概述
2.1.1搜索引擎的工作原理
2.1.2搜索引擎分类
2.1.3搜索引擎发展历史
2.2元搜索概述
2.3权威web页面定义及特性
2.4本章小结
第3章web文本聚类相关技术
3.1 web文本特点
3.1.1超文本的结构性特点
3.1.2超文本的组成
3.2文本表示
3.2.1布尔逻辑模型
3.2.2向量模型空间
3.2.3概率模型空间
3.2.4各模型之间比较
3.3权重计算方法
3.4分词
3.4.1基于词库的分词方法
3.4.2基于统计的分词方法
3.4.3基于理解的切分方法
3.5特征提取方法
3.5.1特征频度
3.5.2文本频度
3.5.3特征熵
3.5.4信息增益
3.5.5 x2统计法
3.5.6互信息量
3.5.7词条CHI统计法
3.5.8各特征方法之间比较
3.6本章小节
第4章web文本聚类算法的研究
4.1聚类概述
4.2聚类算法的要求
4.2.1可伸缩性
4.2.2处理不同类型属性的能力
4.2.3能发现任意形状的聚类
4.2.4使决定输入参数的领域知识最小化
4.2.5能够有效地处理噪声数据
4.2.6对于输入纪录的顺序不敏感
4.2.7高维性
4.2.8基于约束的聚类
4.2.9可解释性和可用性
4.3主要的聚类方法
4.3.1划分方法
4.3.2层次方法
4.3.3基于密度的方法
4.3.4基于模型的方法
4.3.5基于网格的方法
4.4常用的聚类分析方法
4.4.1 K-means算法概述
4.4.2层次聚类算法
4.4.3动态聚类算法
4.4.4各算法之间比较
4.5本章小结
第5章基于web文本聚类的元搜索引擎的设计与实现
5.1基于文本聚类的中文元搜索引擎的系统结构
5.2基于文本聚类的中文元搜索引擎的设计
5.2.1元搜索模块的设计
5.2.2网页分析模块的设计
5.3原型系统的实现与评测
5.3.1系统平台与开发工具
5.3.2系统评测
5.4本章小结
第6章结论与未来发展
6.1创新点
6.2有待解决的问题及未来工作
致谢
参考文献
攻读学位期间的研究成果