首页> 中文学位 >短文本流中主题模型及其应用研究
【6h】

短文本流中主题模型及其应用研究

代理获取

目录

声明

摘要

1.1 研究背景

1.2 相关研究及进展

1.2.1 狄利克雷主题模型

1.2.2 微博内容推荐

1.2.3 用户聚类和文本聚类

1.3 本文主要贡献

1.4 本文组织结构

第2章 本文涉及的基础知识

2.1 狄利克雷主题模型

2.2 近似计算

2.3 聚类

第3章 结合外部知识主题模型和个性化微博推荐

3.1 模型和任务简述

3.2 模型

3.2.1 用户主题分布和文档主题分布

3.2.2 微博发布者的影响力计算

3.3 实验

3.3.1 实验环境

3.3.2 模型用于微博推荐效果

3.3.3 模型参数分析

3.3.4 主题展示

第4章 动态用户主题模型和动态用户聚类

4.1 动态用户主题建模和聚类问题

4.2 模型

4.2.1 模型综述

4.2.2 用户词对集建设

4.2.3 动态用户聚类主题模型

4.2.4 用户聚类

4.3 实验设置

4.3.1 研究问题

4.3.2 数据集

4.3.3 对比方法

4.3.4 评估指标

4.4 实验结果与分析

4.4.1 模型有效性

4.4.2 时间段不同划分的影响

4.4.3 主题建模的质量

4.4.4 动态用户兴趣展示

5.1 总结

5.2 展望

参考文献

致谢

攻读学位期间发表的学术论文和参加科研情况

展开▼

摘要

快速获取文档主题对于文本内容挖掘和语义理解有非常重要的作用。随着计算机的快速发展和人工智能时代的来临,人类对于机器理解自然语言的语义有着更深层次的需求,文档主题建模或者称作主题挖掘在信息检索、人工智能、自然语言理解、数据挖掘领域占据比较重要的地位。经典的狄利克雷主题模型主要针对相对较长的文本,这些经典的模型能够方便的获得文档的主题和潜在的语义,但是在短文本流中并不能取得很好的效果。
  本文主要针对短文本流中的主题建模进行研究。随着社交媒体的快速发展,有数以亿计的用户活跃在发布短文本的社交平台上,包括脸书网,Twitter,新浪微博,微信等。这些平台上每天都产生亿级的短文本消息,我们通过分析挖掘这些短文本内容可以获得大众的兴趣,舆论导向和个性化的用户兴趣。这项研究对于个性化的服务包括个性化推荐、搜索、精准广告投放等有重要意义。本文的工作包括:
  结合外部知识的狄利克雷主题模型,该方法考虑改进经典的基于长文本内容的隐含语义模型,通过引入自媒体发布的内容,丰富短文本中词与词之间的共现,以提高性能。其中,引入的自媒体内容则是用户关注的一类高质量博主所发布的高质量内容,该方法的本质是给潜在语义模型提供了更多高质量的共现词对,从而提高主题建模的质量。本文将该主题模型应用于短文本环境中用户的兴趣建模,并结合微博平台的特征提出了个性化微博再排序框架。即通过分析用户在某个时间段发布的文本内容来推断用户兴趣,同时考虑用户和微博发布者之间的互动信息及微博发布者的特征,将用户一个时间段内接收到的微博根据用户兴趣进行再排序最终推送给用户。实验证明,结合外部知识的主题模型可以很好的挖掘用户的兴趣,推荐更多用户感兴趣的微博给用户。
  动态狄利克雷多项混合用户主题模型,考虑用户兴趣随时间变化的特性和短文本本身的内容特征,本文进行用户层面的动态主题建模。根据用户当前时间段发布的短文本内容和上一时间段用户的兴趣,来追踪用户动态变化的兴趣,其中用户的兴趣表示为混合主题多项分布。在短文本环境下为了更好的推断的主题分布,针对短文本词与词之间共现的稀疏特性,改进狄利克雷生成模型及其吉布斯采样过程。通过该模型,可以通过用户在不同时间段的兴趣分布(主题分布)。同时本文将该改进的主题模型应用于动态用户聚类,使得用户聚类的结果具有可解释性。实验结果表明,在短文本流中,我们的模型可以更好的推断用户随时间变化的兴趣,同时给出更合理动态变化的用户群组结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号