首页> 中文学位 >基于香农熵和互信息的主题优化方法的研究
【6h】

基于香农熵和互信息的主题优化方法的研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题背景及意义

1.2 国内外研究现状

1.3 本文主要工作和贡献

1.4 章节安排

第2章 相关理论概述

2.1 LDA主题模型

2.1.1 文本表示及建模

2.1.2 LDA文本建模

2.1.3 变分推断及参数估计

2.1.4 吉布斯采样参数估计

2.2 相关分类器

2.2.1 最大熵模型

2.2.2 决策树模型

2.3 本章小结

第3章 主题词优化方法的研究及应用

3.1 引言

3.2 基于香农熵的主题词优化

3.2.1 香农熵优化主题词

3.2.2 文本分类实验设计

3.2.3 香农熵的主题词优化实验结果

3.3 基于互信息的主题词优化

3.3.1 互信息优化主题词

3.3.2 互信息的主题词优化实验结果

3.4 香农熵和互信息的融合

3.5 本章小结

第4章 主题优化方法的研究及应用

4.1 引言

4.2 基于香农熵的主题优化

4.2.1 香农熵的主题优化

4.2.2 香农熵的主题优化实验结果

4.3 基于互信息的主题优化

4.3.1 互信息的主题优化

4.3.2 互信息的主题优化实验结果

4.4 香农熵和互信息的结合

4.5 本章小结

第5章 总结与展望

5.1 论文工作总结

5.2 下一步工作展望

参考文献

致谢

展开▼

摘要

大数据时代的到来使得信息过载的问题日趋严重,研究人员一直致力于研究如何从大量数据中提取有效的信息。主题模型旨在从数据量巨大的离散文本中提取潜在的低维度的主题,能够很好地解决信息过载的问题。然而随着待处理语料集逐渐增大,主题模型训练生成的主题数目也越来越多,其中包含语义不显著的噪声主题,如何有效剔除有干扰的噪声主题这一问题逐渐得到研究者的重视。
  本文针对提高主题质量的问题,研究主题的优化方法以及一系列主题调优策略,将特征选择方法中的香农熵与互信息理论应用到文本语料的层面,用来衡量主题词的质量,剔除主题中不具备显著含义的背景词,同时对生成的主题进行分析研究,实现主题调优。文章主要从以下两个环节展开工作:
  主题词层面的优化。主题中词的优劣直接影响主题的可解读性,剔除主题中的背景词可保证主题的质量进而利于下游训练。本文基于已有标签文本集,采用香农熵和互信息方法作用于语料库,通过统计词的信息特征来剔除背景词,并应用于分类任务。
  主题层面的优化。剔除某些不含显著语义的噪声主题以提高主题的质量。在优化主题词的基础上,本文针对主题模型训练生成的主题,利用香农熵和互信息的思想,考查文档的主题特征以及主题和类别的关系,衡量主题优劣,以此甄别噪声主题,并将调优后的主题应用于文本分类任务。
  本文应用香农熵和互信息分别对主题中噪声词汇和噪声主题进行剔除工作,在最大程度上保留主题的语义特征的同时完成对主题词空间和主题空间的双重优化,并通过文本分类实验,对优化之后的主题模型的质量进行了验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号