首页> 中文学位 >基于条件共现度的文本表示与特征抽取方法研究
【6h】

基于条件共现度的文本表示与特征抽取方法研究

代理获取

目录

声明

摘要

图目录

表目录

主要符号表

1 绪论

1.1研究背景与意义

1.1.1研究背景

1.1.2研究意义

1.2国内外研究进展

1.2.1 文本表示方法研究现状

1.2.2文本特征词选择方法研究现状

1.2.3主题发现方法研究现状

1.2.4政策文本数据挖掘研究现状

1.2.5已有研究工作中的不足

1.3研究内容和结构

1.3.1研究内容

1.3.2论文结构

1.4本章小结

2基于条件共现度矩阵的文本表示方法

2.1 问题提出

2.2条件共现度矩阵文本表示方法

2.2.1共现矩阵与共现度

2.2.2条件共现度矩阵

2.2.3模型优势分析

2.3数值实验

2.3.1 实验设置和结果评估标准

2.3.2实验结果与分析

2.3.3 灵敏度分析

2.4本章小结

3基于条件共现度词网络的特征词排序方法

3.1 问题提出

3.2相关工作

3.2.1 Jensen-Shannon散度

3.2.2流形排序

3.3算法构建

3.3.1特征词初始重要性排序

3.3.2条件共现度词网络构建

3.3.3基于流形排序的特征词二次排序

3.3.4算法总结

3.4数值实验

3.4.1 实验数据

3.4.2评价标准和对比方法

3.4.3实验结果与分析

3.5本章小结

4基于条件共现度的文本主题发现方法

4.1 问题提出

4.2算法构建

4.2.1文档语义结构拆分

4.2.2子文档特征词扩充及重构

4.2.3 主题建模

4.2.4子文档合并

4.2.5 算法总结

4.3数值实验

4.3.1 实验设置与结果评估方法

4.3.2文本分类实验与结果分析

4.3.3主题发现实验与结果分析

4.4本章小结

5政策文本内容特征抽取及社会变迁研究

5.1 问题提出

5.2整体研究框架

5.3研究方法

5.3.1文本预处理方法

5.3.2频繁词、关键词、热词以及新词的抽取方法

5.3.3特征词时间序列聚类方法

5.3.4时序文档的聚类方法

5.3.5主题演化方法

5.4研究结果及分析

5.4.1频繁词、关键词、热词以及新词的发现结果及分析

5.4.2社会活力曲线

5.4.3 时序政策文本阶段划分结果及分析

5.4.4政策特征词时间序列聚类结果及分析

5.4.5政策文本主题演化结果与分析

5.5本章小结

6结论与展望

6.1 结论

6.2创新点

6.3展望

参考文献

攻读博士学位期间科研项目及科研成果

致谢

作者简介

展开▼

摘要

文本数据是信息的主要载体,是重要信息和知识的来源。面对海量的文本数据,如何快速有效地获取人们需要的信息和知识是当前亟待解决的问题。文本表示和特征抽取是整个文本挖掘流程中重要的基础性工作,能够为后续的文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持。然而随着数据科学的发展,对文本挖掘技术有了更高的要求,尤其在文本语义挖掘层面。通过分析现有方法的优缺点,本研究结合文本语义建模分别对文本表示方法和特征抽取方法进行了研究,并将其应用于政策文本数据挖掘领域,其中分别从特征词排序和主题发现两个不同方面研究特征抽取方法。本文的主要研究工作如下:
  (1)为了得到直观、涵盖信息量全并且易于理解的文本表示结果,在词共现方法的基础上提出了基于条件共现度矩阵的文本表示方法。通过结合语言学中语义场理论,考虑文本语言组织时的语义结构大小,以及同一语义结构内两个词的语义相关和条件依赖关系,计算文本内任意两个词间的条件共现度,并基于形成的条件共现度矩阵进行文本表示。该表示方法不仅保留了单个词的统计信息,还对两个词的共现信息进行区分度量,用以突显文本重点表达的语义信息,对现有的词共现表示方法是一种有效地提升。最后通过在多个公共数据集上与多种文本表示方法的对比实验,验证了方法的有效性。
  (2)为了结合文本统计信息和结构信息对特征词重要性排序,提出了基于条件共现度词网络的特征词排序方法。文本中的词语会按照一定的组织结构进行编排以传递特定的语义主题信息,所以一篇自然语言文本中的词语之间会形成一种潜在的流形结构。通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,来对特征词的重要性进行排序。在公共语料和补充语料上的数值实验都验证了方法的有效性,该方法拓宽了图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略。
  (3)为了解决传统主题模型中存在的语义部分丢失、主题概念模糊及主题语义交叉和覆盖等问题,提出了基于条件共现度的文本主题发现方法。首先结合文档中的语义结构及其独立性判定规则把文档拆分成多个描述单一主题的子文档;其次,根据子文档内特征词间的条件共现度大小,提取子文档内语义关联性强的组合特征词,并基于组合特征词对子文档进行特征词扩充与内容重构,形成新子文档;然后,通过对新子文档集的主题建模,得到新子文档集的“主题-词”分布以及每个新子文档的“文档-主题”分布;最后,结合新子文档的“文档-主题”分布,合并得到原始文档的“文档-主题”分布。实验结果验证了该方法能够提升主题发现效率,生成的组合特征词能够有效避免一词多义问题,并且能辅助主题语义归纳和总结。
  (4)将上述方法应用于政策文本内容特征抽取及社会变迁研究中。以1954年到2018年间的国务院政府工作报告作为政策文本语料,首先,根据不同的应用需求,提出相应的特征词选择方法,并对政策文本中的共性问题、关键内容、热点话题以及新涌现的内容进行了识别和抽取,从新涌现内容的角度研究了整体社会活力变化情况;其次,提出了一种时序文档聚类方法,并根据政策文本内容对政策所属的整个时间段划分,得到了与已有研究相同的划分结果;然后,结合复杂网络理论和时间段划分结果,挖掘出政策语料中特有的特征词序列模式;最后,对政策文本进行主题发现,并结合时间因素研究整个时间段内主题演化规律。
  基于条件共现度的文本挖掘方法,通过融合文本的统计信息、语义信息以及结构信息,使得文本表示方法、特征词排序方法以及主题发现方法具备有效分析和处理复杂文本数据的能力,并有效提升文本挖掘质量,为文本挖掘的发展提供新的技术和工具。从政策文本中提取共性问题、关键内容、热点话题、新词内容,并依据文本内容探究并发现社会活力变化、时间阶段分割、特征词时间序列模式、主题演化等社会变迁规律,挖掘结果可以提高政策制定者、政策研究者的知识获取效率,为其提供相应的决策支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号