基于全覆盖粒计算的新闻文档子话题划分方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当今时代信息爆炸，信息量规模急剧膨胀，来自四面八方的信息如浪潮般涌入人类的生活。在如此庞大的数据面前，用户想要在海量信息中快速、准确地获得自己感兴趣的新闻话题，将面临着巨大的挑战。针对大量的新闻事件，如何按照话题进行组织和归类，以便能够自动地把相关话题的信息汇总，这已成为自然语言处理中一个重要的研究课题。话题识别与划分技术应运而生，其致力于研究对来自不同的文本集进行有效的组织、搜索与结构化。
　　全覆盖粒计算是信息处理和数据挖掘的一种新的研究方法，为具有不确定、不完整信息的大规模海量数据的挖掘提供了一种新的思路。它包括全覆盖理论和粒度的粒化、粒的运算，为子话题划分提供了一种新的解决方法。
　　本文的创新点主要有：
　　1、本文采用LDA（Latent Dirichlet Allocation）主题模型对海量新闻语料进行语义分析并建立模型，提取新闻文档的隐含主题，得到“文档-主题”?矩阵；通过多次实验对?矩阵中的概率设置合适的阈值，进而将“文档-主题”矩阵转换为全覆盖模型；在全覆盖粒计算的基础上，利用粒约简的方法，删除冗余覆盖元，得到最简覆盖元。
　　2、从集合论的角度提出了全覆盖粒计算的诱导划分算法DP（Derived Partition），探讨了该算法的理论依据，提出了算法的具体过程，分析了算法的时间复杂度；并对算法的结构及过程进行了优化，通过大量的实验验证，表明改进后确实提高了该算法的性能；最后以实例对该算法进行了进一步的解释。
　　3、在LDA主题模型和诱导划分算法的基础上，设计基于全覆盖粒计算的面向新闻文档的子话题划分方法；通过在搜狗新闻语料库上与三种传统的Baseline方法、VSM方法以及经典的Single-Pass方法的对比实验，从不同角度验证了该方法的适用性、可行性和扩展性，说明本文算法能较好的实现子话题划分。

著录项

作者
苏婧琼;
展开▼
作者单位

太原理工大学;

展开▼
授予单位太原理工大学;
学科信息与通信工程
授予学位硕士
导师姓名刘建霞,谢珺;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
全覆盖粒计算; 子话题划分; 数据挖掘; 新闻文档;
入库时间 2022-08-17 11:07:44

相似文献

中文文献
外文文献
专利

1. 划分序乘积空间:基于划分的粒计算模型 [J] . 徐怡 ,姚一豫 . 计算机研究与发展 . 2019,第004期
2. 基于半监督学习的中文多文档子主题划分 [J] . 徐晓丹 . 浙江师范大学学报（自然科学版） . 2011,第003期
3. 一种基于划分的周期性话题挖掘方法研究 [J] . 邓定胜 . 微型电脑应用 . 2014,第008期
4. 基于全覆盖粒计算的K-medoids文本聚类算法 [J] . 邹雪君 ,谢珺 ,任密蜂 . 现代电子技术 . 2019,第007期
5. 全覆盖粒计算模型的公理化及其知识约简 [J] . 秦琴 ,谢珺 ,史培林 . 计算机应用研究 . 2016,第008期
6. 新闻专题内子话题划分 [C] . . 第四届全国信息检索与内容安全学术会议 . 2008
7. 基于全覆盖粒计算的文本特征选择和聚类研究 [A] . 邹雪君 . 2018

基于全覆盖粒计算的新闻文档子话题划分方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅