首页> 中文学位 >基于生成性概率模型的句法分析和多文档自动文摘研究
【6h】

基于生成性概率模型的句法分析和多文档自动文摘研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究背景及意义

1.1.1句法分析

1.1.2多文档自动文摘

1.2研究现状

1.2.1句法分析

1.2.2多文档自动文摘

1.3主要研究内容

1.4创新点

1.5本文的组织结构

第2章二元组合语法

2.1二元组合语法定义

2.2相关工作对比

2.3 小结

第3章基于局部优先的二元组合语法分析算法

3.1 CYK算法

3.2面向BCG的CYK算法

3.2.1二元关系的识别

3.2.2算法描述

3.3基于局部优先的CYK算法

3.3.1前关系的确定

3.3.2分析算法

3.3.3性能分析

3.4实验

3.4.1原型系统

3.4.2实验结果

3.5小结

第4章基于嵌套层次的概率二元组合语法分析模型

4.1嵌套层次

4.2基于嵌套层次的生成性分析模型

4.3概率二元组合语法

4.4融合嵌套层次的概率二元组合语法分析模型

4.4.1参数训练

4.5二元组合语法树库的构建

4.5.1依存语法到二元组合语法形式的转换

4.6二元组合语法知识的获取

4.6.1局部优先级的抽取

4.7句法分析模型的评价方法

4.8实验与结果分析

4.9小结

第5章基于主题模型LDA的多文档自动文摘

5.1相关工作

5.2文档集建模方法

5.2.1 LDA模型

5.3基于LDA的句子权重计算方法

5.3.1主题的重要度

5.3.2概率生成模型

5.3.3句子生成模型

5.4降低冗余的方法

5.5文摘算法

5.6实验与结果分析

5.6.1模型参数设置

5.6.2实验结果

5.6.3文摘的自动评价

5.7小结

第6章总结与展望

6.1主要工作总结

6.2未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

攻读学位期间参与科研项目情况

攻读学位期间获奖情况

发表外文论文一

发表外文论文二

展开▼

摘要

由于万维网上文本信息的快速增长,自然语言处理作为使计算机得以应用文本形式信息的关键,已成为目前的一个研究热点。本文的工作主要讨论自然语言处理理论研究中的句法分析和应用研究中的多文档自动文摘这两个方面的内容。其中,句法分析是自然语言处理中的关键技术,多文档自动文摘、机器翻译和信息检索等许多自然语言处理的应用研究需要依赖句法分析的结果作为支持;对句法分析的研究也有助于补充对人类语言的认知,因此句法分析的研究具有重要的理论意义和实用价值。多文档自动文摘可以给用户提供简明扼要的概述,帮助用户快速处理文本信息,随着网络上文档数量的飞速增长,多文档自动文摘越来越受到人们的重视。
   句法分析的关键问题是对单句对应的多个句法结构进行优选的问题,而自动文摘中的关键问题则是对文档中的多个句子进行优选的问题。本文针对句法结构和句子的优选问题,在国家自然基金和山东省自然基金的资助下,使用生成性的概率模型,分别为句法结构和句子建模,进行句法分析和多文档自动文摘问题的研究。主要包括句法分析中的语法体系、分析算法和分析模型三个方面的研究和多文档自动文摘中句子表示形式和排序方法的研究,并通过实验对研究结果进行了验证和分析。
   在句法分析的研究中,提出了一种新的语法体系,研究了该语法体系的分析算法和剪枝规则,并在概率分析模型中融合了新的结构信息。在自动文摘的研究中,提出了一种基于概率主题模型的句子建模方法来挖掘文档集潜在的主题结构,在该主题模型的基础上,进一步研究了句子权重的计算方法和文摘的冗余消除方法。
   本文的主要研究内容和创新点包括以下四个方面:
   1.提出了一种以词汇组合关系描述语法的二元组合语法体系
   由于依存语法可以方便地表达中心词与修饰词之间的依赖关系,比短语结构语法更适于信息检索领域的应用,是当前自然语言处理中语法体系的一个研究热点。但依存语法缺乏内部结构表示,不能显式地表达复杂的句法结构,对语法结构的识别造成一定的障碍。针对语法体系中缺乏短语搭配强度和依存语法研究中缺乏内部结构表示形式造成的复杂结构难以表达的问题,提出了一种通过相邻短语中心词的两两组合来表达句法结构的二元组合语法。在组合关系中引入局部优先级来描述结构之间相对的搭配强度,限制组合次序。二元组合语法中引入的内部节点有利于句法结构的表达和识别,局部优先级表示的短语搭配强度可以限制句法分析中非法结构的生成。
   2.提出了一种基于局部优先级的句法分析算法
   句法分析算法是句法分析的重要组成部分,它直接影响句法分析的准确性和效率。针对本文提出的二元组合语法,结合语法中定义的局部优先级的限制,提出了一种基于局部优先级的句法分析算法。局部优先级的限制信息融入到二元组合语法的分析算法中后,可以作为分析过程中剪枝的规则。本文对传统的CYK(Cocke,Younger,Kasami)图算法进行改进,提出了一种基于局部优先级的二元组合语法分析图算法,并在人工归纳的语法体系上进行了句法分析实验。结果表明,改进后的CYK图算法在产生树结构的数量和花费的时间上都明显低于传统的CYK算法。
   3.提出了一种基于嵌套层次限制的句法分析模型
   在概率模型的构建中,如何应用句法结构信息是句法分析建模中需考虑的主要问题。目前考察的信息主要有词汇支配度的信息、依存长度的信息等。修饰词的嵌套层数越多语言越难理解,本文将这种修饰词嵌套层次的信息引入到生成性的概率分析模型中,增强对句法结构的识别能力。在建立了基于局部优先的CYK图算法的基础上,提出了一种融合嵌套层次限制的二元组合语法分析模型。句法分析实验中,将依存格式的树库转换为二元组合语法的形式来构建二元组合语法树库,然后基于该树库自动获取句法关系和优先级信息,并估计嵌套层次模型的参数。在二元组合语法树库上进行汉语句法分析的实验,结果表明,与词汇支配度模型相比,利用嵌套层次限制构造的汉语句法分析模型可以获得更高的分析正确率。实验中也考察了局部优先级限制对分析正确率的影响,结果表明局部优先级和嵌套层次的限制可以有效的避免非法结构的生成。
   4.提出了一种基于生成性概率主题模型的多文档自动文摘方法
   使用潜狄利克雷分配(Latent Dirichlet Allocation,LDA)模型为句子建模,以捕捉深层次的主题信息。基于模型中主题在词汇上的概率分布p(w|z)和句子在主题上的概率分布p(z|s),提出了概率生成模型和句子生成模型两种句子权重的计算方法,文摘中选择权重较大、且与前面选择的句子主题不重复的句子作为文摘句。实验在DUC2002会议中提供的通用型多文档文摘测试集上进行,以ROUGE自动评测工具作为评测标准。结果表明,与基于词频的文摘模型和其它基于LDA模型的文摘模型相比,本文提出的模型可以获得更好的文摘效果,其中概率生成模型在所有评价标准上均优于其他模型。
   本文进一步的工作包括:将组合关系的标签作为上下文纳入到分析算法中,以便于更精确的描述分析算法;在句法分析模型中添加其他有用的结构信息和主题信息的约束,提高句法分析的正确率;在多文档自动文摘方面使用句法主题模型为句子建模,以便同时考虑句法和主题信息,改善文摘效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号