首页> 中文学位 >基于传统特征与概念数字特征的复述识别方法研究
【6h】

基于传统特征与概念数字特征的复述识别方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 复述识别

1.2.2 复述抽取

1.2.3 复述生成

1.2.4 复述应用

1.3 本文主要研究内容及贡献

1.4 本文的内容安排

第二章 相关理论与关键技术

2.1 复述识别

2.1.1 符号象征理论

2.1.2 语法句法相似理论

2.1.3 机器学习理论

2.1.4 规则解码理论

2.2 复述识别方法的评测

2.3 云模型简要介绍

2.3.1 自然语言不确定性问题

2.3.2 云模型的定义及性质

2.3.3 云模型数字特征

2.3.4 定性定量转换

2.4 相关词群扩展方法

2.4.1 基于信息熵的相似度量方法

2.4.2 基于语义空间间隔距离的相似度量方法

2.5 本章小结

第三章 基于多层传统句子特征的复述识别方法

3.1 问题引出

3.2 句子特征的获取

3.2.1 句子的词法特征获取

3.2.2 句子的词法相似性

3.2.3 句子的句法特征获取

3.2.4 句法相似度计算

3.3 基于多层句子特征的复述识别

3.4 实验结果及分析

3.4.1 实验语料及评价指标

3.4.2 参数估计

3.4.3 结果分析

3.5 本章小结

第四章 基于概念数字特征的复述句对识别方法

4.1 问题引出

4.2 基于传统语义扩展的复述识别方法

4.3 概念数字特征的生成

4.4 基于云模型数字特征的句子复述识别

4.5 语句数字特征的生成

4.6 基于概念跃升的句子复述识别

4.7 云模型方法有效性分析

4.8 云概念跃升方法有效性分析

4.8.1 云概念跃升与云模型一致性分析

4.8.2 云概念跃升方法有效性推理

4.9 实验与结果分析

4.9.1 实验语料及评价指标

4.9.2 参数估计

4.9.3 云模型方法与传统语义扩展方法结果对比

4.9.4 云概念跃升方法与云模型方法结果对比

4.9.5 云概念跃升方法与其他方法结果比较

4.9.6 案例分析

4.10 本章小结

第五章 总结与展望

5.1 总结

5.2 进一步工作

参考文献

攻读硕士学位期间公开发表的学术论文与参加的科研项目

致谢

展开▼

摘要

复述是自然语言表达中存在的一种普遍现象,即相同语义的不同表达方式。复述识别即判别两个给定语言表达式或者模板是否表达相同或相似的意思,其研究结果可广泛应用于自然语言处理各个领域,如信息检索、机器翻译、自动问答等。复述在自然语言中的普遍性及广泛应用让复述研究显得尤为重要。
  本文分析了国内外关于复述识别的研究技术和研究成果,发现现存方法主要集中在利用句子传统特征,如将句子看成字符串、语义符号或者抽取词法特征、句法特征等来进行复述识别,忽略了句子作为信息载体本身随着知识背景的积累不断发展变化的特性,即知识的不确定性。前人基于传统特征的复述识别方法试图将一种连续的变化的语言离散化确定化,忽略了自然语言不确定性问题。而复述本身是自然语言不确定性的一种反应,其具有的语义多样化,不确定性和发展变化性是复述识别研究中不可忽视的因素。为解决前人采用传统特征进行复述识别的方法中所忽略的两个问题:(1)概念作为整体具有的语义完整性和边界不确定性,(2)概念在具体语境中表现出语义差异性和多义性导致的歧义问题。本文从传统特征和概念特征两个方面进行语义特征抽取,采用对应特征进行复述识别。本文主要研究内容包括以下几个方面:
  1.基于多层传统句子特征的复述识别技术。通过研究现存方法,句子传统特征的某一方面被用于复述识别相当普遍,本文考虑到句子特征的多面性,本文提出基于多层次结合句子特征的复述识别技术。首先在标准语料库的训练语料上进行词法分析,得到句子主语、谓语、宾语成分;其次进行句法分析得到句法依存关系;然后结合两个层次句子特征,训练出句对相似度计算模型;最后将训练模型运用到标准语料库的测试语料上进行测试。与先前方法相比,本方法在识别准确率和F值上表现突出。
  2.基于云模型数字特征的复述识别技术。考虑到自然语言本身具有发展变化和不确定性,传统特征无法满足自然语言发展变化和整体刻画的要求。与此同时,定性特征定量化的研究还很不够。通过对复述识别问题本质的分析,为解决词汇作为概念整体在复述识别中的知识表示问题和词汇多义性问题,提出基于概念的词义关联模型,用云模型加以表示,提出基于概念数字特征的复述识别方法。首先对在标准语料库的训练语料中复述句对包含的词进行相关词群扩展,利用云模型理论知识将句对中词汇以及其相关词群转换成概念;然后基于概念的数字特征进行复述识别。这是首次将云模型运用到复述识别研究中,在词汇语义的表示中抽象出一个概念层次。通过在标准复述语料库上进行详尽对比实验,结果显示概念特征在复述识别中表现较好。
  3.基于云概念跃升的复述识别技术。为了解决句子作为一个整体对象的知识表示问题,以及句子内部成分的多义性和不确定性造成的歧义问题,提出基于云概念跃升的复述识别方法。在云模型概念数字特征的复述识别方法基础上,将句子作为一个概念整体对待,将构成句子的细粒度概念进一步跃升成粗粒度概念以表示整体句义。利用云模型所具有的无限纵深特点挖掘出句子本身的不确定性知识,以更客观描述句子语义。最后根据所获得数字特征对句对进行复述识别。通过解决概念多义性问题,云概念跃升方法较云模型方法有更好的表现,同时也较传统方法有一定的突破。
  本文提出的基于概念的复述识别方法优点表现在三个方面:(1)既考虑到句子词汇本体意思,也考虑到词汇外延信息,即概念不确定性和完整性;(2)通过概念跃升挖掘句子概念特征,解决词汇在具体语境中的歧义问题;(3)利用概念数字特征代替传统字符串表面特征、词法特征、句法特征等,更能体现句子作为自然语言具有的鲁棒性。
  复述识别研究在自然语言处理诸多领域有广泛应用,这些领域都涉及到知识表示、知识评价,研究还很不够。在我们所了解范围内,这是首次将概念数字特征运用到复述识别研究中,意在挖掘句子语义模糊性或不确定性。实验结果表明,本文提出的方法在标准语料库上的识别率有一定提高。同时也间接地证明本文从不确定性知识角度进行复述识别的有效性。更为重要的是,该方法可以无缝转移到大部分相关研究中,为其他领域的研究提供便利。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号