首页> 中文学位 >基于全覆盖粒计算的新闻文档子话题划分方法研究
【6h】

基于全覆盖粒计算的新闻文档子话题划分方法研究

代理获取

目录

声明

主要符号索引

第一章 绪论

1.1选题背景及意义

1.2研究现状

1.3本文的研究内容

1.4本文的组织结构

第二章 基本模型及理论

2.1LDA主题模型

2.2文本的全覆盖表示模型

2.3本章小结

第三章 传统的面向新闻文档的子话题划分方法

3.1增量聚类算法Single-Pass(SP)

3.2子话题相关定义及已有划分方法

3.3本章小结

第四章 基于全覆盖粒计算的新闻文档的子话题划分方法

4.1诱导划分算法

4.2基于LDA和DP的子话题划分方法

4.3本章小结

第五章 实验与结果分析

5.1实验准备

5.2实验设计与结果分析

5.3本章小结

第六章 总结与展望

6.1全文总结

6.2研究展望

参考文献

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

当今时代信息爆炸,信息量规模急剧膨胀,来自四面八方的信息如浪潮般涌入人类的生活。在如此庞大的数据面前,用户想要在海量信息中快速、准确地获得自己感兴趣的新闻话题,将面临着巨大的挑战。针对大量的新闻事件,如何按照话题进行组织和归类,以便能够自动地把相关话题的信息汇总,这已成为自然语言处理中一个重要的研究课题。话题识别与划分技术应运而生,其致力于研究对来自不同的文本集进行有效的组织、搜索与结构化。
  全覆盖粒计算是信息处理和数据挖掘的一种新的研究方法,为具有不确定、不完整信息的大规模海量数据的挖掘提供了一种新的思路。它包括全覆盖理论和粒度的粒化、粒的运算,为子话题划分提供了一种新的解决方法。
  本文的创新点主要有:
  1、本文采用LDA(Latent Dirichlet Allocation)主题模型对海量新闻语料进行语义分析并建立模型,提取新闻文档的隐含主题,得到“文档-主题”?矩阵;通过多次实验对?矩阵中的概率设置合适的阈值,进而将“文档-主题”矩阵转换为全覆盖模型;在全覆盖粒计算的基础上,利用粒约简的方法,删除冗余覆盖元,得到最简覆盖元。
  2、从集合论的角度提出了全覆盖粒计算的诱导划分算法DP(Derived Partition),探讨了该算法的理论依据,提出了算法的具体过程,分析了算法的时间复杂度;并对算法的结构及过程进行了优化,通过大量的实验验证,表明改进后确实提高了该算法的性能;最后以实例对该算法进行了进一步的解释。
  3、在LDA主题模型和诱导划分算法的基础上,设计基于全覆盖粒计算的面向新闻文档的子话题划分方法;通过在搜狗新闻语料库上与三种传统的Baseline方法、VSM方法以及经典的Single-Pass方法的对比实验,从不同角度验证了该方法的适用性、可行性和扩展性,说明本文算法能较好的实现子话题划分。

著录项

  • 作者

    苏婧琼;

  • 作者单位

    太原理工大学;

  • 授予单位 太原理工大学;
  • 学科 信息与通信工程
  • 授予学位 硕士
  • 导师姓名 刘建霞,谢珺;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    全覆盖粒计算; 子话题划分; 数据挖掘; 新闻文档;

  • 入库时间 2022-08-17 11:07:44

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号