基于上下文的主题模型

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

主题模型是分析大规模文档集合最有效的工具，它能够有效的从大量的非结构化文本数据中提取出有用的语义信息。自从潜在狄利克雷分配(LDA)主题模型被提出来之后，就吸引了很多学者对它的研究，并提出来了很多不同的求解方法。这些模型通过不断改进已经应用在很多领域，并且有很好的实践效果。LDA是一个无监督模型，能够自动提取出文本中的语义信息，挖掘背后的语义关联。同时它也是一个基于“Bag-of-Word”假设的模型，这种方法假设文档是单词词频的组合，不考虑文档中单词之间的顺序关系，造成了单词之间的语义混淆，例如同一文档中前后相同的单词由于其上下文信息不同，可能具有不同的含义。这种方法虽然简化了模型的复杂度，但是造成了模型的预测能力较低，为模型的改进提供了契机。
　　本文针对原有主题模型基于“Bag-of-Word”的假设造成预测能力较低等问题，提出了两种新的主题模型，这两种模型都不再单单是把文档看作词频的向量组合，而是把文档中单词之间的顺序关系也考虑了进去。
　　(1)基于滑动窗口的主题模型(SWTM)：这种模型根据窗口和滑动位移，把文档切割为粒度更小的片段，并对每个窗口内的所有单词计算主题概率分布。其基本思想是文档中一个单词的主题与其附近若干单词的主题关系更为紧密，受附近单词主题的影响最大。文档中的每个单词由于所在的窗口不同，因此也就具有不同的上下文信息。实验结果表明，基于滑动窗口的主题模型在混淆度(Perplexity)上平均减少了25％~54%，并且收敛速度也有提高。
　　(2)基于中心词的上下文主题模型(CCTM)：基于滑动窗口的主题模型并没有完全排除“词袋”的假设，因此提出了基于中心词的上下文主题模型。这种模型在计算每个单词的主题概率分布时，以这个词为中心，前后扩展若干个词作为其上下文信息，通过其上下文信息来计算主题概率分布。文档中相同的单词由于其上下文信息不同，所以其主题概率分布也不同。实验结果表明，基于中心词的上下文主题模型在混淆度(Perplexity)上相对于SWTM平均减少了9%。
　　(3)上述两种模型都是针对离线数据的，特点是一次性把所有的数据都加载到内存中计算，当数据量大的时候，就会造成内存资源不足、训练时间长等情况。针对数据流，在基于滑动窗口主题模型和基于中心词的上下文主题模型的基础上提出了在线滑动窗口主题模型(OSWTM)和在线中心词上下文主题模型(OCCTM)。在四个数据集上的实验结果表明，OSWTM和OCCTM在混淆度(Perplexity)上相对其它在线主题模型平均减少24%~55%和37%~63%。

著录项

作者
常东亚;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科软件工程
授予学位硕士
导师姓名曾嘉;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
主题模型; 上下文信息; 滑动窗口; 混淆度; 中心词;

相似文献

中文文献
外文文献
专利

1. 基于上下文词向量和主题模型的实体消歧方法 [J] . 王瑞 ,李弼程 ,杜文倩 . 中文信息学报 . 2019,第011期
2. 基于中心词的上下文主题模型 [J] . 常东亚 ,严建峰 ,杨璐 . 计算机应用研究 . 2018,第004期
3. 基于主题模型的网络流通渠道服务质量分析与评价体系研究 [J] . 张浩 ,王婷 . 物流科技 . 2022,第1期
4. 疫情过后线上办公APP如何留住人心?――基于LDA主题模型的用户需求分析 [J] . 冯晨 ,周亲 ,李亚红 . 软件 . 2021,第003期
5. 基于语义增强的短文本主题模型 [J] . 高娟 ,张晓滨 . 计算机系统应用 . 2021,第006期
6. 考虑上下文质量的不确定上下文可信融合方法 [C] . Zheng Di ,郑笛 ,Wang Jun . 湖北省计算机学会2013年学术年会 . 2013
7. 基于主题模型的用户兴趣挖掘及上下文感知推荐系统算法研究 [A] . 刘朋 . 2017

基于上下文的主题模型

目录

摘要

著录项

相似文献

相关主题

期刊订阅