首页> 中文学位 >基于文本分类与主题模型的用户偏好分析
【6h】

基于文本分类与主题模型的用户偏好分析

代理获取

目录

1 绪论

1.1 本文的研究背景和意义

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本文的组织结构

2 相关知识和理论

2.1 机器学习

2.2 文本分类

2.3 主题模型

2.4 本章小结

3 WLLDA算法及其在文本标签标注中的应用

3.1 LDA

3.2 Labeled-LDA

3.3 WLLDA

3.4 算法在用户偏好分析中的应用

3.5 实验分析

3.6 本章小结

4 基于word2vec的标签标注算法及其在文本标注中的应用

4.1 word2vec

4.2 基于word2vec的标签标注算法

4.3 算法在用户偏好分析中的应用

4.4实验分析

4.5本章小结

5 无向图层次聚类并行优化算法及其应用

5.1 有向图和无向图

5.2 层次聚类

5.3无向图层次聚类

5.4 算法在用户偏好分析中的应用

5.5 实验分析

5.6 本章小结

总结与展望

参考文献

致谢

攻读硕士期间发表的学术论文

声明

展开▼

摘要

用户偏好是指用户通过对商品或服务的考量后,所做出的理性的具有倾向性的选择。对用户偏好进行分析的主要目的是为了从海量的信息中,筛选出用户感兴趣的信息,从而为用户提供更个性化的服务。因此用户偏好分析是构建个性化服务的基础。然而,现有的用户偏好分析方法还存在着许多问题。一方面,现有的方法大多是对用户的固有属性进行分析,很难挖掘出用户更细粒度的偏好;另一方面,现有的方法在对用户细粒度偏好进行分析时,其算法准确率和算法效率上都有所不足。
  用户偏好可以通过挖掘用户的行为得到,通过对用户浏览的内容进行细粒度的分类、聚类,就可以得到用户的细粒度偏好。首先,标签是一种比类别更加细粒度的表示,并且一个内容可以对应有多个标签,在对内容进行不同层面的标签标注可以为用户偏好分析提供不同层面的偏好特征;其次,根据用户的主动意图进行聚类,从用户角度出发,根据用户的潜在认知,把同类内容聚合到一起,为用户偏好分析提供用户行为层面的偏好特征。基于上述分析,本文提出了两种对文本进行标签标注的算法和一种无向图层次聚类优化算法:
  首先,提出一种加权的有监督 LDA算法(WLLDA),该算法采用卡方校验的方法对文本特征进行降维。采用一种新的加权词袋模型,对原有词袋中对主题分类有意义的词进行提权,增大主题间的分歧,提高分类准确率。采用多模型集成的方法,针对不同频次的主题进行采样训练,解决单一模型因语料不均匀造成的互相干扰。提出一种新的主题贴近度计算方法,在原有主题概率的基础上,综合考虑了关键词命中频率、频次以及标签支持度这三个方面的因素来计算主题贴近度,从而提高主题预测的准确度。
  其次,提出一种基于word2vec的标签标注算法,该算法利用CRF对文本进行关键词提取,使用word2vec产生的词向量和LR对关键词进行关键词聚类并构建标签集合,避免了人工标签库归纳覆盖不全的问题。最后通过对文本进行去噪提取文本主干,通过比较文本主干词的词向量和标签词向量的相似度为文本进行标签标注。
  第三,提出一种无向图层次聚类并行化优化算法,该算法把用户主动搜索意图行为抽象为无向图。通过对多边节点进行分裂,减弱了衰减因子对多边节点带来的负面影响,同时使无向图图聚类可以以并行的方式进行计算,在准确率和计算效率上都有了大幅度提升。
  本文通过上述三种算法,把用户对内容的偏好程度转变为用户对标签的偏好,最终刻画出用户细粒度的偏好特征,从而达到对用户偏好进行分析的目的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号