基于条件共现度的文本表示与特征抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本数据是信息的主要载体，是重要信息和知识的来源。面对海量的文本数据，如何快速有效地获取人们需要的信息和知识是当前亟待解决的问题。文本表示和特征抽取是整个文本挖掘流程中重要的基础性工作，能够为后续的文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持。然而随着数据科学的发展，对文本挖掘技术有了更高的要求，尤其在文本语义挖掘层面。通过分析现有方法的优缺点，本研究结合文本语义建模分别对文本表示方法和特征抽取方法进行了研究，并将其应用于政策文本数据挖掘领域，其中分别从特征词排序和主题发现两个不同方面研究特征抽取方法。本文的主要研究工作如下:
　　(1)为了得到直观、涵盖信息量全并且易于理解的文本表示结果，在词共现方法的基础上提出了基于条件共现度矩阵的文本表示方法。通过结合语言学中语义场理论，考虑文本语言组织时的语义结构大小，以及同一语义结构内两个词的语义相关和条件依赖关系，计算文本内任意两个词间的条件共现度，并基于形成的条件共现度矩阵进行文本表示。该表示方法不仅保留了单个词的统计信息，还对两个词的共现信息进行区分度量，用以突显文本重点表达的语义信息，对现有的词共现表示方法是一种有效地提升。最后通过在多个公共数据集上与多种文本表示方法的对比实验，验证了方法的有效性。
　　(2)为了结合文本统计信息和结构信息对特征词重要性排序，提出了基于条件共现度词网络的特征词排序方法。文本中的词语会按照一定的组织结构进行编排以传递特定的语义主题信息，所以一篇自然语言文本中的词语之间会形成一种潜在的流形结构。通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构，并以特征词的词频统计信息作为特征词初始权重，结合流形排序思想以及图学习理论进行特征词间的相似性学习，来对特征词的重要性进行排序。在公共语料和补充语料上的数值实验都验证了方法的有效性，该方法拓宽了图学习理论在文本挖掘领域的应用，也给单篇文本特征词排序提供了新的方法和策略。
　　(3)为了解决传统主题模型中存在的语义部分丢失、主题概念模糊及主题语义交叉和覆盖等问题，提出了基于条件共现度的文本主题发现方法。首先结合文档中的语义结构及其独立性判定规则把文档拆分成多个描述单一主题的子文档;其次，根据子文档内特征词间的条件共现度大小，提取子文档内语义关联性强的组合特征词，并基于组合特征词对子文档进行特征词扩充与内容重构，形成新子文档;然后，通过对新子文档集的主题建模，得到新子文档集的“主题-词”分布以及每个新子文档的“文档-主题”分布;最后，结合新子文档的“文档-主题”分布，合并得到原始文档的“文档-主题”分布。实验结果验证了该方法能够提升主题发现效率，生成的组合特征词能够有效避免一词多义问题，并且能辅助主题语义归纳和总结。
　　(4)将上述方法应用于政策文本内容特征抽取及社会变迁研究中。以1954年到2018年间的国务院政府工作报告作为政策文本语料，首先，根据不同的应用需求，提出相应的特征词选择方法，并对政策文本中的共性问题、关键内容、热点话题以及新涌现的内容进行了识别和抽取，从新涌现内容的角度研究了整体社会活力变化情况;其次，提出了一种时序文档聚类方法，并根据政策文本内容对政策所属的整个时间段划分，得到了与已有研究相同的划分结果;然后，结合复杂网络理论和时间段划分结果，挖掘出政策语料中特有的特征词序列模式;最后，对政策文本进行主题发现，并结合时间因素研究整个时间段内主题演化规律。
　　基于条件共现度的文本挖掘方法，通过融合文本的统计信息、语义信息以及结构信息，使得文本表示方法、特征词排序方法以及主题发现方法具备有效分析和处理复杂文本数据的能力，并有效提升文本挖掘质量，为文本挖掘的发展提供新的技术和工具。从政策文本中提取共性问题、关键内容、热点话题、新词内容，并依据文本内容探究并发现社会活力变化、时间阶段分割、特征词时间序列模式、主题演化等社会变迁规律，挖掘结果可以提高政策制定者、政策研究者的知识获取效率，为其提供相应的决策支持。

著录项

作者
魏伟;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科管理科学与工程
授予学位博士
导师姓名郭崇慧;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本表示; 特征抽取; 条件共现度; 主题发现;

相似文献

中文文献
外文文献
专利

1. 基于深度学习手写字符的特征抽取方法研究 [J] . 邹煜 ,刘兴旺 . 软件 . 2017,第001期
2. 深度学习视域下的文本表示方法研究 [J] . 聂维 ,刘小豫 . 科技资讯 . 2019,第018期
3. 基于组合神经网络的舆情短文本表示模型降维方法研究 [J] . 霍达 ,赵禹萌 ,张丽霞 . 内蒙古工业大学学报（自然科学版） . 2020,第002期
4. 基于图结构的文本表示方法研究 [J] . 任浩 ,罗森林 ,潘丽敏 . 信息网络安全 . 2017,第003期
5. 基于句义成分的短文本表示方法研究 [J] . 尚海 ,罗森林 ,韩磊 . 信息网络安全 . 2016,第005期
6. 基于现代谱估计理论的目标特征抽取方法研究 [C] . 李萍 . 中国声学学会1999年青年学术会议CYCA'99 . 1999
7. 基于共现分析的文本表示方法研究 [A] . 闫涛 . 2021

基于条件共现度的文本表示与特征抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅