首页> 中文学位 >跨文档共指消解的方案研究
【6h】

跨文档共指消解的方案研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 课题的研究背景

1.2 课题的选题意义

1.3 课题的研究基础

1.4 本文的工作

2 跨文档共指问题的定义以及常用相关技术

2.1 引言

2.2 跨文档共指消解问题的定义及假设

2.3 跨文档共指消解的基本流程

2.4 跨文档共指消解的相关技术

2.5 跨文档共指消解的常用语料库

2.6 跨文档共指消解的评价标准

2.7 本章小结

3 基于非参数贝叶斯模型的跨文档共指消解方案

3.1 引言

3.2 概率主题模型中常用的层次贝叶斯模型

3.3 消解方案

3.4 非参数贝叶斯模型的计算

3.5实验及结果分析

3.6 本章小结

4 基于图理论的跨文档共指消解方案

4.1 引言

4.2 图理论在自然语言处理中的相关应用

4.3 消解方案

4.4 实验及结果分析

4.5 本章小结

5 基于图理论扩展的跨文档共指消解方案

5.1 引言

5.2 图拓扑结构的度量方法

5.3信息图的信息扩展方法

5.4 消解方案

5.5 实验及结果分析

5.6 本章小结

6 总结与展望

6.1 论文工作的主要成果

6.2 后续研究工作的展望

致谢

参考文献

附录

展开▼

摘要

跨文档共指消解(CrossDocumentCoreference,CDC)是以分散在不同文本来源中的相同名词实体为对象,通过信息抽取、信息表示和聚类等技术最终判定这些名词实体与客观概念之间的共指关系的过程。CDC的研究涉及信息抽取、数据挖掘、自然语言处理等多个研究领域,其是文本信息融合的核心技术,是文本信息理解的研究基础。随着信息社会的不断发展,对于高效获取和组织信息的技术需求日益迫切,CDC研究的重要性也日益凸显。
  在目前CDC的相关研究中,传统的文本挖掘方法依然占据核心地位。然而随着对CDC技术研究的逐渐深入,传统的文本挖掘方法已经很难适应当前CDC应用的要求。例如,文本本身的复杂性、文本边界的束缚、相关信息的抽取以及领域和先验知识的匮乏都已经严重地影响到了CDC技术的发展与应用。
  CDC相关研究的难题其本质上都是由于自然语言文本中信息的复杂性和相关性所导致的。自然语言文本中信息的复杂性和相关性归根结底是源于人的思维的复杂性和相关性。这种复杂性和相关性是由于人对复杂的客观事物具备了更为深入的认知能力、推理能力和表述刻画能力。然而,这也是计算机在获取、组织和理解文本信息的过程存在着诸多难题的根源。因此,若能降低自然语言文本信息的复杂性,充分利用现有的数据挖掘、模式识别技术识别和处理其相关性,并且在此基础上大胆创新,探索出适用于CDC问题的计算机技术处理方案,将能够极大的推动CDC研究的发展。
  利用模式识别和数据挖掘技术的重要方法——贝叶斯理论和图理论对自然语言文本信息进行定量的转化与表示。作者将这些理论引入CDC问题的研究当中,用以抛砖引玉,为CDC技术的进一步发展提供更新的技术路线与解决方案。本文的主要研究内容如下:
  ①基于非参数贝叶斯模型的跨文档共指消解方案
  以往的跨文档共指消解方案都是采用文档内部共指链或者信息窗口的方法对待消解名词实体的相关信息域进行划分,并抽取信息特征进行信息表示。在本方案中,首先考虑到主题在文本中的分布情况,假设主题在待消解名词实体相关信息域中的分布是相同的,以文档中的句子为对象,通过分层Dirichlet过程(HierarchicalDirichletProcess,HDP)模型计算句子中各个主题所占的成分,再利用Dirichlet过程混合模型(DirichletProcessMixtureModel,DPMM)对句子进行聚类,将包含待消解名词实体的划分句子集作为待消解名词实体的相关信息域;随后,采用HDP模型重新计算各信息域内主题所占的成分从而对各个待消解名词实体的相关信息域进行信息表示;最后通过现有研究中常用的聚类算法对方案性能进行评估,评估结果表明该方案较现有的方法具有更好的消解效果。此外,本文还论证了非参数聚类方法在方案中使用的局限性。
  ②基于图理论的跨文档共指消解方案
  方案首先采用图理论的信息表示方法——信息图对待消解名词实体的信息域进行了表示。该信息表示方法可以很好的体现各名词实体之间的关系,同时又对文本中的信息进行了有效筛选;其次,方案通过将信息图进行相似性度量,获得各个待消解名词实体的信息图之间的相似关系,从而构建各个待消解名词实体的关系网络;最后通过采用有权的社交网络社团划分方法,对整个关系网络进行社团划分,得到社团结构即为各个待消解名词实体的共指关系划分。该方案通过在常用公共数据集上的性能评估,证明方案在不借助任何先验知识和领域知识的情况下,较以往的方法在性能上有一定的提升,且方案具有较好的普适性,具有很好的实用价值。
  ③扩充的基于图理论跨文档共指消解方案
  虽然基于图理论的跨文档的共指消解方案已经具有了较好的消解性能和很好的实用价值,但是图的信息表示方法还具有可以挖掘的潜力。基于上述考虑,提出了基于图理论扩展的跨文档共指消解方案。该方案主要从以下两点对同模型进行扩展:1)通过信息图的拓扑特性,对信息图进行有权化扩展,计算得到了信息图中的节点权重向量和边权重向量;2)对信息图进行了合理的向量转化,使其可以通过向量的相似性度量算法计算各信息图之间的相似度,从而构建了各个待消解名词实体的关系网络。扩展的效果通过社交网络的社团划分方法进行了性能评估,结果显示相较于基本的图理论信息表示方法,该方案在信息量较大的文本数据中可以有一定的性能提升,但是在信息量相对较少的文本数据中效果差别不大。经过分析,出现这种结果的主要原因在于文本信息量越大,其名词节点之间的关系越复杂,扩展后的有权信息图可以对其更好的刻画,然而信息量较少的文本生成的信息图结构相对简单,对其有权化的意义不大。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号