首页> 中文学位 >模糊聚类在搜索引擎自动分类上的应用
【6h】

模糊聚类在搜索引擎自动分类上的应用

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1研究背景

1.2搜索引擎分类

1.3搜索引擎工作原理

1.4目前搜索引擎存在的主要问题

第2章 Web网页模糊聚类

2.1模糊集概念

2.2模糊划分

2.3文档聚类的分类

2.4模糊相似系数的标定

2.5几种模糊聚类方法

第3章 Web超链分析

3.1超链分析概念

3.2超链分析的应用范围

3.3权威网页和中心网页

3.4超链分析算法

第4章 基于锚文本扩展的网页特征识别方法

4.1链文本相关概念

4.2锚文本的扩展方法

4.3基于锚文本扩展的网页特征提取

4.4网页特征的筛选

第5章 基于模糊聚类的超链分析方法

5.1基于模糊聚类动态生成类别

5.2 Web网页隶属度PR值相结合

第6章 实验结果分析

6.1基于锚文本扩展的网页特征识别方法性能检验

6.2基于模糊聚类的超链分析方法性能检验

第7章 总结与展望

7.1工作总结

7.2今后工作

参考文献

攻读学位期间公开发表的论文

致谢

展开▼

摘要

Web上的信息资源呈爆炸式的增长,人们查找信息越来越难。搜索引擎是其信息利用的主要工具,然而当前搜索引擎存在不足:基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前期下,提出建立具有自动分类功能的搜索引擎,并尝试对这方面的部分关键技术进行研究。
   文中首先从分析搜索引擎的种类和工作原理入手,分析当前搜索引擎存在的问题。然后分析了Web文档模糊聚类和Web超链分析技术,在此研究的基础上,进一步从下面三个方面对网页的自动分类技术做了深入研究:
   1)模糊聚类方法应用于Web网页的自动分类,通过计算网页与网页之间的相似度建立分类类别,动态确定网页分类划分。
   2)提出通过提取源网页的扩展锚文本,进行目标网页特征识别,具体分析了不同位置的锚文本扩展,以及利用XPath提取网页特征的方法,并通过实验分析其性能。
   3)利用模糊聚类方法结合超链分析算法对搜索引擎的检索结果自动分类,设置调节值,值的取值变化兼顾考虑分类和PR值的影响,返回的结果可以使用户比较快速地定位到所需要的高质量信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号