基于文本分类与主题模型的用户偏好分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

用户偏好是指用户通过对商品或服务的考量后，所做出的理性的具有倾向性的选择。对用户偏好进行分析的主要目的是为了从海量的信息中，筛选出用户感兴趣的信息，从而为用户提供更个性化的服务。因此用户偏好分析是构建个性化服务的基础。然而，现有的用户偏好分析方法还存在着许多问题。一方面，现有的方法大多是对用户的固有属性进行分析，很难挖掘出用户更细粒度的偏好；另一方面，现有的方法在对用户细粒度偏好进行分析时，其算法准确率和算法效率上都有所不足。
　　用户偏好可以通过挖掘用户的行为得到，通过对用户浏览的内容进行细粒度的分类、聚类，就可以得到用户的细粒度偏好。首先，标签是一种比类别更加细粒度的表示，并且一个内容可以对应有多个标签，在对内容进行不同层面的标签标注可以为用户偏好分析提供不同层面的偏好特征；其次，根据用户的主动意图进行聚类，从用户角度出发，根据用户的潜在认知，把同类内容聚合到一起，为用户偏好分析提供用户行为层面的偏好特征。基于上述分析，本文提出了两种对文本进行标签标注的算法和一种无向图层次聚类优化算法：
　　首先，提出一种加权的有监督 LDA算法（WLLDA），该算法采用卡方校验的方法对文本特征进行降维。采用一种新的加权词袋模型，对原有词袋中对主题分类有意义的词进行提权，增大主题间的分歧，提高分类准确率。采用多模型集成的方法，针对不同频次的主题进行采样训练，解决单一模型因语料不均匀造成的互相干扰。提出一种新的主题贴近度计算方法，在原有主题概率的基础上，综合考虑了关键词命中频率、频次以及标签支持度这三个方面的因素来计算主题贴近度，从而提高主题预测的准确度。
　　其次，提出一种基于word2vec的标签标注算法，该算法利用CRF对文本进行关键词提取，使用word2vec产生的词向量和LR对关键词进行关键词聚类并构建标签集合，避免了人工标签库归纳覆盖不全的问题。最后通过对文本进行去噪提取文本主干，通过比较文本主干词的词向量和标签词向量的相似度为文本进行标签标注。
　　第三，提出一种无向图层次聚类并行化优化算法，该算法把用户主动搜索意图行为抽象为无向图。通过对多边节点进行分裂，减弱了衰减因子对多边节点带来的负面影响，同时使无向图图聚类可以以并行的方式进行计算，在准确率和计算效率上都有了大幅度提升。
　　本文通过上述三种算法，把用户对内容的偏好程度转变为用户对标签的偏好，最终刻画出用户细粒度的偏好特征，从而达到对用户偏好进行分析的目的。

著录项

作者
余东瑾;
展开▼
作者单位

青岛科技大学;

展开▼
授予单位青岛科技大学;
学科计算机技术
授予学位硕士
导师姓名江峰;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 主题模型; 用户偏好分析;

相似文献

中文文献
外文文献
专利

1. 一种基于主题模型与迁移学习的文本分类方法 [J] . 包翔 ,汪满容 ,刘桂锋 . 山东科技大学学报（自然科学版） . 2021,第003期
2. 基于Sentence-LDA主题模型的短文本分类 [J] . 张浩 ,钟敏 . 计算机与现代化 . 2019,第003期
3. 基于标签的半监督HDP文本分类主题模型 [J] . 李永忠 ,郑滔 . 模式识别与人工智能 . 2017,第012期
4. 基于主题模型的改进随机森林算法在文本分类中的应用 [J] . 姚立 ,张曦煌 . 计算机应用与软件 . 2017,第008期
5. 基于PLSA主题模型的多标记文本分类 [J] . 蒋铭初 ,潘志松 ,尤峻 . 数据采集与处理 . 2016,第003期
6. 一种基于聚类的主题模型短文本分类方法 [C] . 黄鑫 ,樊兴华 . 第十届中国Rough集与软计算、第四届中国Web智能、第四届中国粒计算联合会议 . 2010
7. 基于主题模型的短文本分类方法研究与实现 [A] . 汪涵潇 . 2020

基于文本分类与主题模型的用户偏好分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅