首页> 中文学位 >基于聚类分析的网络用户兴趣挖掘方法研究
【6h】

基于聚类分析的网络用户兴趣挖掘方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景与意义

1.2 国内外研究现状与分析

1.3 本文的研究内容

1.4 本文的内容安排

第二章 网络用户兴趣挖掘模型研究

2.1 网络用户兴趣模式描述

2.2 基于全信息理论的信息处理模型

2.3 网络用户兴趣挖掘概念模型

2.4 基于聚类分析的网络用户兴趣挖掘模型

第三章 基于小世界网络模型的关键词提取方法研究

3.1 引言

3.2 小世界网络模型

3.3 文档关键词提取的理论依据

3.4 复合关键词提取算法

3.5 实验分析

3.6 本章小结

第四章 基于网络社团结构的用户兴趣聚类算法研究

4.1 引言

4.2 网络社团结构发现算法

4.3 文本特征选择与表示

4.4 词语语义相似度计算

4.5 基于 Newman 算法的文本聚类算法

4.6 用户兴趣生成算法

4.7 实验与分析

4.8 本章小结

第五章 基于人工免疫网络的文本聚类算法研究

5.1 引言

5.2 免疫网络与克隆选择仿生学原理

5.3 自适应多克隆聚类算法与实验分析

5.4 自适应多克隆聚文本聚类算法与实验分析

5.5 本章小结

第六章 基于后缀树和语义后缀网的聚类算法研究

6.1 引言

6.2 基于后缀树的聚类算法

6.3 基于后缀树的中文文本聚类算法与实验分析

6.4 基于语义计算的中文后缀树聚类树算法与实验分析

6.5 基于语义后缀网的中文文本聚类算法与实验分析

6.6 本章小结

第七章 网络用户兴趣迁移模式的挖掘研究

7.1 引言

7.2 隐马尔可夫模型

7.3 基于隐马尔可夫模型的用户兴趣序列提取

7.4 用户兴趣迁移模式挖掘

7.5 实验与分析

7.6 本章小结

总结

致谢

参考文献

攻读博士学位期间的研究成果

展开▼

摘要

网络应用的深入发展使网络信息服务系统的服务模式从集中统一的被动型向分布式个性化的主动型演进。实现这种服务模式转换的一个前提条件是对网络用户需求规律的深入理解,进而依据这些规律指导信息服务系统的信息资源组织与调整,使用户的需求信息与系统提供的尽可能一致。网络用户兴趣作为网络用户信息需求规律的一种形态,是构造新一代信息服务系统中资源组织自适应机制的工作基础。
  本文围绕用户兴趣模式提取这一目标,以用户访问的网页中文文本信息为对象,利用复杂网络理论、图论、随机过程理论、人工免疫网络原理及中文语义计算等方法与技术,较为深入的研究基于文本聚类的用户兴趣挖掘算法及相关问题,以期在降低聚类算法的计算复杂度,实现软聚类及探索新的处理方法等方面进行有益的尝试。主要研究内容包括下述四个方面:
  (1)用户兴趣挖掘模型。网络用户兴趣模式是用户个体和用户群体使用网络行为规律的描述,网络兴趣挖掘模型则是获取用户兴趣模式的一组规范处理流程。针对Web用户访问Web站点的行为过程,本文依据全信息理论中的信息过程模型,提出了一种网络用户兴趣挖掘概念模型,其核心是从信息认知角度描述挖掘用户兴趣模式的处理过程,这种信息认知是由语法认识和语义认知二个层次来描述。该挖掘模型的重要特点是将多层次多角度的用户兴趣处理过程统一到一个框架
  中。为了具体指导网络用户兴趣挖掘工作,文本给出基于聚类分析的用户兴趣模式及迁移模式的挖掘模型。应用实践表明所提出两个模型是合理的。
  (2)文本聚类中的降维处理算法。针对文本特征集维数较大这一典型问题,利用小世界网络模型具有描述自然界和人造系统的动态属性和结构特征之间关系的特点,本文采用K-最近邻耦合方式构造文本词语网络图,该文本词语网络中的节点表示文本中的词语,边表示词语间的某种空间距离上的相邻关系。引入词语聚类系数变化量和平均最短路径变化量度量词语的重要性。通过计算词语的这两个变化量来确定词语是否存在小世界特征,进而实现特证词的选择。该方法的特点从基于空间距离的文本组织结构中选择特征词。实验结果表明该方法是有效的,为文本特征提取提供一条新的解决途径。
  (3)文本聚类算法研究。虽然已有许多成熟聚类方法较好地实现文本聚类分析,但由于词语的多义性,文本特征的稀疏性以及文本类别分布的多样性,使得聚类结果很难保证生成文本类别与人们所期望的类保持高度一致。为此,仍需从多种技术途径研究聚类算法。
  鉴于传统基于优化方法的聚类算法普遍存在需要事先知道聚类类别数,对类边界不清晰的数据处理不当及易陷入局部极大等问题,将人工免疫系统(ArtificalImmuneSystem,AIS)方法引入到文本聚类处理之中,提出自适应多克隆聚类算法,其主要处理环节是引入重组算子来增加抗体种群中个体的多样性,以扩大解的搜索范围,避免过早出现早熟现象;引入非一致变异算子增强局部求解的自适应性,优化局部求解性能,加快解的收敛速度;用亲和度函数调节聚类类别。另外,利用Markov链证明算法的收敛性。针对文本数据,对上述算法进行适当的裁剪,提出基于人工免疫网络的文本聚类算法,实验结果表明算法聚类的有效性高。
  现实生活中许多事物都可以用一个复杂的网络来描述,在这些实际网络中都存在着一个共同的性质:社团结构。复杂网络中的社团结构发现本质上就是网络上节点的聚类处理,本文将复杂网络理论中的方法引入到文本聚类分析中,提出基于社团结构发现的文本聚类算法,利用知网(Hownet)语义相似度计算公式,定义文本相似性度量方法,依据文本相似性构造文本关联图,利用称为Newman聚类算法实现文本的聚类分析。这种方法的特点是可处理大规模问题。
  针对目前的大多数文本聚类算法都将文本进行严格归为一类和计算复杂度高的问题,考虑后缀树模型能有效的表示特征词间的关系、具有增量式更新以及遍历时间短等特点,本文将后缀树模型引入文本聚类中,提出了基于语义计算的后缀树聚类算法,该算法通过对特征词语义相似度和权重的判断构建后缀树,选择基类节点构造基类连通图,求解树连通性以便实现聚类处理。为了降低算法的时间和空间复杂度,进一步提出基于语义后缀网的聚类算法,本算法的改进之处是:通过计算特征词间的语义相似度来构建后缀网,使后缀网的节点数和分支数减小,并通过特征词的权重判断来选择基类。实验结果表明这两种算法都能实现文本的软聚类,时间复杂度小,且聚类的类簇标识可读性强。
  (4)网络用户兴趣模式及变迁模式发现。用户兴趣模式实际形式是用一组有显著类别的特征词集合组成。本文通过计算文本簇中的大部分文本中出现同一个词语或者出现一类词义相似的词语的词频来选择生成用户兴趣模式的。用户兴趣的迁移模式是用户兴趣模式随时间动态变化的一种描述。针对文本存在多主题性这一问题,提出了一种基于隐马尔可夫原理的用户兴趣序列获取方法,该方法以用户访问序列和用户兴趣为对象,建立基于用户兴趣序列的隐马尔可夫模型,采用其解码问题相关算法实现用户最优兴趣序列的获取。采用序列模式挖掘算法获得用户兴趣序列的频繁模式。这些频繁模式就是用户兴趣的迁移模式,其本质是一种具有顺序特征的用户兴趣关联规则。为了提高挖掘效率,采用基于频繁链表-存取树(FlaAT)结构的挖掘算法获取频繁模式,该算法的优点是处理速度快且能通过更新FlaAT结构实现序列的增量式挖掘。实验表明所提方法是可行的,挖掘出的用户兴趣迁移模式不仅能够表现出用户兴趣的变化,也能够反映出用户兴趣之间的关联和变化规律。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号