基于聚类分析的网络用户兴趣挖掘方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网络应用的深入发展使网络信息服务系统的服务模式从集中统一的被动型向分布式个性化的主动型演进。实现这种服务模式转换的一个前提条件是对网络用户需求规律的深入理解，进而依据这些规律指导信息服务系统的信息资源组织与调整，使用户的需求信息与系统提供的尽可能一致。网络用户兴趣作为网络用户信息需求规律的一种形态，是构造新一代信息服务系统中资源组织自适应机制的工作基础。
　　本文围绕用户兴趣模式提取这一目标，以用户访问的网页中文文本信息为对象，利用复杂网络理论、图论、随机过程理论、人工免疫网络原理及中文语义计算等方法与技术，较为深入的研究基于文本聚类的用户兴趣挖掘算法及相关问题，以期在降低聚类算法的计算复杂度，实现软聚类及探索新的处理方法等方面进行有益的尝试。主要研究内容包括下述四个方面：
　　（1）用户兴趣挖掘模型。网络用户兴趣模式是用户个体和用户群体使用网络行为规律的描述，网络兴趣挖掘模型则是获取用户兴趣模式的一组规范处理流程。针对Web用户访问Web站点的行为过程，本文依据全信息理论中的信息过程模型，提出了一种网络用户兴趣挖掘概念模型，其核心是从信息认知角度描述挖掘用户兴趣模式的处理过程，这种信息认知是由语法认识和语义认知二个层次来描述。该挖掘模型的重要特点是将多层次多角度的用户兴趣处理过程统一到一个框架
　　中。为了具体指导网络用户兴趣挖掘工作，文本给出基于聚类分析的用户兴趣模式及迁移模式的挖掘模型。应用实践表明所提出两个模型是合理的。
　　（2）文本聚类中的降维处理算法。针对文本特征集维数较大这一典型问题，利用小世界网络模型具有描述自然界和人造系统的动态属性和结构特征之间关系的特点，本文采用K-最近邻耦合方式构造文本词语网络图，该文本词语网络中的节点表示文本中的词语，边表示词语间的某种空间距离上的相邻关系。引入词语聚类系数变化量和平均最短路径变化量度量词语的重要性。通过计算词语的这两个变化量来确定词语是否存在小世界特征，进而实现特证词的选择。该方法的特点从基于空间距离的文本组织结构中选择特征词。实验结果表明该方法是有效的，为文本特征提取提供一条新的解决途径。
　　（3）文本聚类算法研究。虽然已有许多成熟聚类方法较好地实现文本聚类分析，但由于词语的多义性，文本特征的稀疏性以及文本类别分布的多样性，使得聚类结果很难保证生成文本类别与人们所期望的类保持高度一致。为此，仍需从多种技术途径研究聚类算法。
　　鉴于传统基于优化方法的聚类算法普遍存在需要事先知道聚类类别数，对类边界不清晰的数据处理不当及易陷入局部极大等问题，将人工免疫系统（ArtificalImmuneSystem，AIS）方法引入到文本聚类处理之中，提出自适应多克隆聚类算法，其主要处理环节是引入重组算子来增加抗体种群中个体的多样性，以扩大解的搜索范围，避免过早出现早熟现象；引入非一致变异算子增强局部求解的自适应性，优化局部求解性能，加快解的收敛速度；用亲和度函数调节聚类类别。另外，利用Markov链证明算法的收敛性。针对文本数据，对上述算法进行适当的裁剪，提出基于人工免疫网络的文本聚类算法，实验结果表明算法聚类的有效性高。
　　现实生活中许多事物都可以用一个复杂的网络来描述，在这些实际网络中都存在着一个共同的性质：社团结构。复杂网络中的社团结构发现本质上就是网络上节点的聚类处理，本文将复杂网络理论中的方法引入到文本聚类分析中，提出基于社团结构发现的文本聚类算法，利用知网（Hownet）语义相似度计算公式，定义文本相似性度量方法，依据文本相似性构造文本关联图，利用称为Newman聚类算法实现文本的聚类分析。这种方法的特点是可处理大规模问题。
　　针对目前的大多数文本聚类算法都将文本进行严格归为一类和计算复杂度高的问题，考虑后缀树模型能有效的表示特征词间的关系、具有增量式更新以及遍历时间短等特点，本文将后缀树模型引入文本聚类中，提出了基于语义计算的后缀树聚类算法，该算法通过对特征词语义相似度和权重的判断构建后缀树，选择基类节点构造基类连通图，求解树连通性以便实现聚类处理。为了降低算法的时间和空间复杂度，进一步提出基于语义后缀网的聚类算法，本算法的改进之处是：通过计算特征词间的语义相似度来构建后缀网，使后缀网的节点数和分支数减小，并通过特征词的权重判断来选择基类。实验结果表明这两种算法都能实现文本的软聚类，时间复杂度小，且聚类的类簇标识可读性强。
　　（4）网络用户兴趣模式及变迁模式发现。用户兴趣模式实际形式是用一组有显著类别的特征词集合组成。本文通过计算文本簇中的大部分文本中出现同一个词语或者出现一类词义相似的词语的词频来选择生成用户兴趣模式的。用户兴趣的迁移模式是用户兴趣模式随时间动态变化的一种描述。针对文本存在多主题性这一问题，提出了一种基于隐马尔可夫原理的用户兴趣序列获取方法，该方法以用户访问序列和用户兴趣为对象，建立基于用户兴趣序列的隐马尔可夫模型，采用其解码问题相关算法实现用户最优兴趣序列的获取。采用序列模式挖掘算法获得用户兴趣序列的频繁模式。这些频繁模式就是用户兴趣的迁移模式，其本质是一种具有顺序特征的用户兴趣关联规则。为了提高挖掘效率，采用基于频繁链表-存取树（FlaAT）结构的挖掘算法获取频繁模式，该算法的优点是处理速度快且能通过更新FlaAT结构实现序列的增量式挖掘。实验表明所提方法是可行的，挖掘出的用户兴趣迁移模式不仅能够表现出用户兴趣的变化，也能够反映出用户兴趣之间的关联和变化规律。

著录项

作者
马力;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科电路与系统
授予学位博士
导师姓名焦李成;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
聚类分析; 网络用户; 兴趣挖掘; 降维处理算法; 文本聚类;

相似文献

中文文献
外文文献
专利

1. 网络用户兴趣的智能挖掘方法研究 [J] . 李培 ,马力 . 计算机技术与发展 . 2014,第002期
2. 基于复杂网络及神经网络挖掘用户兴趣的方法 [J] . 张兴兰 ,刘炀 . 计算机技术与发展 . 2016,第012期
3. 基于发文内容的微博用户兴趣挖掘方法研究 [J] . 熊才伟 ,曹亚男 . 计算机应用研究 . 2018,第006期
4. 基于数据挖掘的网络购物用户兴趣分类研究 [J] . 韩景灵 . 计算机仿真 . 2018,第007期
5. 基于数据挖掘的网络用户兴趣分类研究 [J] . 张志强 . 电子设计工程 . 2017,第010期
6. 异构社交网络用户兴趣挖掘方法研究 [C] . TU Shou-Zhong ,屠守中 ,YAN Zhou . 第六届中国计算机学会大数据学术会议 . -1
7. 基于用户兴趣模型和社团挖掘的推荐方法研究 [A] . 李鹏 . 2019

基于聚类分析的网络用户兴趣挖掘方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅