基于香农熵和互信息的主题优化方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大数据时代的到来使得信息过载的问题日趋严重，研究人员一直致力于研究如何从大量数据中提取有效的信息。主题模型旨在从数据量巨大的离散文本中提取潜在的低维度的主题，能够很好地解决信息过载的问题。然而随着待处理语料集逐渐增大，主题模型训练生成的主题数目也越来越多，其中包含语义不显著的噪声主题，如何有效剔除有干扰的噪声主题这一问题逐渐得到研究者的重视。
　　本文针对提高主题质量的问题，研究主题的优化方法以及一系列主题调优策略，将特征选择方法中的香农熵与互信息理论应用到文本语料的层面，用来衡量主题词的质量，剔除主题中不具备显著含义的背景词，同时对生成的主题进行分析研究，实现主题调优。文章主要从以下两个环节展开工作:
　　主题词层面的优化。主题中词的优劣直接影响主题的可解读性，剔除主题中的背景词可保证主题的质量进而利于下游训练。本文基于已有标签文本集，采用香农熵和互信息方法作用于语料库，通过统计词的信息特征来剔除背景词，并应用于分类任务。
　　主题层面的优化。剔除某些不含显著语义的噪声主题以提高主题的质量。在优化主题词的基础上，本文针对主题模型训练生成的主题，利用香农熵和互信息的思想，考查文档的主题特征以及主题和类别的关系，衡量主题优劣，以此甄别噪声主题，并将调优后的主题应用于文本分类任务。
　　本文应用香农熵和互信息分别对主题中噪声词汇和噪声主题进行剔除工作，在最大程度上保留主题的语义特征的同时完成对主题词空间和主题空间的双重优化，并通过文本分类实验，对优化之后的主题模型的质量进行了验证。

著录项

作者
李燕;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科计算机科学与技术
授予学位硕士
导师姓名王春立;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
香农熵; 互信息; 主题优化; 语义特征; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于模糊聚类法和互信息法的测温点优化方法 [J] . 张苗苗 ,钱炜 . 电子科技 . 2017,第003期
2. 基于互信息理论的MIMO天波超视距雷达波形优化方法 [J] . 罗杨 ,赵志钦 . 电子科技大学学报 . 2017,第001期
3. 基于互信息和博弈论的复杂机械产品装配质量控制阈在线优化方法及应用 [J] . 刘明周 ,王小巧 ,马靖 . 计算机集成制造系统 . 2014,第011期
4. 采用预编码的GSM网络最大互信息优化方法研究 [J] . 魏霖静 ,宁璐璐 ,练智超 . 计算机科学 . 2017,第005期
5. 基于香农熵的心音信号检测方法研究 [J] . 田文雪 . 无线互联科技 . 2017,第006期
6. 基于互信息和博弈论的复杂机械产品装配质量控制阈在线优化方法及应用 [C] . LIU Ming-zhou ,刘明周 ,WANG Xiao-qiao . 2014年第三届全国现代制造集成技术学术会议 . 2014
7. 基于点间互信息的主题优化方法 [A] . 赵斌 . 2012

基于香农熵和互信息的主题优化方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅