短文本挖掘中的主题模型扩展

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

我们当前正处于社交媒体逐渐取代传统媒体的信息革命时代，在线的社交媒体平台，如Facebook、Twitter，以及国内的新浪、腾讯等公司，它们创建了“普通用户，即是发布者也是传播者”的信息传播模式，使得信息的产生与传播都比以前更加即时、方便、快捷。随着移动智能终端的普及，越来越多的用户愿意随时随地发表自己的意见，分享自己的经历，甚至表达自己的政治观点等，社交媒体已经成为了一个关于公共事件、舆情研究，甚至个人情绪观点的有价值的数据源泉。　　互联网普通用户每天通过社交媒体产生海量(TB 级)的短文本数据，其中的信息含量也是传统媒体所无法比拟的。因此，研究如何从这些海量社交媒体短文本中发现有用的信息是当前一项重要的挑战，也已经成为国际学术界的一个研究热点。　　主题模型被用来进行文本挖掘已经被证明是一个非常有效的手段，随着即时通讯的发展，挖掘这些海量短文本的主题特征也变得越来越重要。但是，因为短文本的稀疏性，把传统的主题模型(如LDA)直接作用在短文本上，挖掘的主题特征效果及性能都不是很令人满意。　　本文在研究LDA主题模型和BTM(Biterm Topic Model)主题模型的基础上，提出一种针对于海量短文本的主题模型。在此主题模型中，通过对每篇短文本获取“词对(biterm)”共现的方式来对文本建模，代替传统主题模型中的“词”共现的方式，这种方式可以在一定程度上缓解数据稀疏的问题，提高了模型对主题挖掘的效果。同时，又保留了一些传统主题模型的优秀特性。　　本文的主要研究工作都体现在以下两个方面：　　1)沿着主题模型的时间脉络，梳理了主题模型的发展过程，深入研究了LDA主题模型和主题模型的整个模型生成过程、模型性能特性以及各自的形成原因，结合短文本自身的特点，提出了一种将BTM主题模型中的“词对（biterm）”引入到LDA主题模型中的扩展模型(Biterm Latent Dirichlet Allocation，简记为bLDA)。在bLDA主题模型的建模过程中，利用每篇文档中“词对（biterm）”共现的方式来对模型建模，缓解了导致LDA主题模型在短文本应用中，性能下降的数据稀疏性问题。同时，本文模型又没有像BTM主题模型那样，将“词对（biterm）”面向整个语料库直接建模，而导致BTM主题模型的主题维数以及时间复杂度增加。bLDA主题模型只是将“词对（biterm）”局限在各自的文档中，从而保留了传统主题模型的维数和时间性能的优势。　　2)本文实验收集到了BTM原始论文中的百度知道标题数据集、搜狗实验室开放的新闻标题数据集和Phan等论文中所使用的英文新闻标题数据集共三个数据集。使用收集到的这三个数据集，对本文提出的扩展主题模型进行实验验证，并将结果与LDA主题模型和BTM主题模型相对比，验证了本文改进的扩展主题模型处理海量短文本挖掘的有效性。

著录项

作者
代宁;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机软件与理论
授予学位硕士
导师姓名郑诚;
年度 2015
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
短文本挖掘,主题模型扩展,数据稀疏;

相似文献

中文文献
外文文献
专利

1. 基于主题模型及其扩展的短文本算法评述 [J] . 韩肖赟 ,侯再恩 ,孙绵 . 计算机应用与软件 . 2020,第001期
2. 基于语义增强的短文本主题模型 [J] . 高娟 ,张晓滨 . 计算机系统应用 . 2021,第006期
3. 主题模型在短文本上的应用研究 [J] . 韩肖赟 ,侯再恩 ,孙绵 . 计算机工程与科学 . 2020,第001期
4. 基于概率主题模型的短文本自动分类系统构建 [J] . 刘爱琴 ,马小宁 . 国家图书馆学刊 . 2020,第006期
5. 一种结合主题模型与段落向量的短文本聚类方法 [J] . 饶毓和 ,凌志浩 . 华东理工大学学报（自然科学版） . 2020,第003期
6. 一种基于聚类的主题模型短文本分类方法 [C] . 黄鑫 ,樊兴华 . 第十届中国Rough集与软计算、第四届中国Web智能、第四届中国粒计算联合会议 . 2010
7. 短文本挖掘中的主题模型扩展 [A] . 代宁 . 2015

短文本挖掘中的主题模型扩展

目录

摘要

著录项

相似文献

相关主题

期刊订阅