首页> 中文学位 >中文语义依存分析技术及其答案抽取应用的研究
【6h】

中文语义依存分析技术及其答案抽取应用的研究

代理获取

目录

文摘

英文文摘

华南理工大学学位论文原创性声明及学位论文版权使用授权书

第一章绪论

1.1课题的提出

1.2背景介绍

1.2.1答案抽取

1.2.2答案抽取的过程

1.2.3答案抽取技术分类

1.2.4答案抽取系统的发展

1.3语义分析的基础——依存技术

1.3.1依存概念的提出

1.3.2依存研究的关键技术

1.3.3为什么需要依存技术

1.4本课题来源

1.5主要研究内容和章节组织

1.5.1研究内容

1.5.2本文结构

第二章问答的语义关联分析

2.1概述

2.2背景及相关工作介绍

2.3研究思路

2.4基本定义

2.5文本推理网络

26实验

2.6.1数据来源

2.6.2实验1:抽取语义相关词汇

2.6.3实验2:基于语义相关词的信息检索

2.7问题与讨论

2.8本章小结

第三章语义依存句法分析模型

3.1引言

3.2研究背景

3.2.1语法驱动

3.2.2数据驱动

3.2.3确定性策略

3.2.4依存分析研究

3.3数据驱动的中文依存分析器

3.3.1依存语法基础

3.3.2数据驱动的依存语言模型

3.4基于SVM学习的产生式依存分析技术

3.4.1产生式概率依存模型

3.4.2 SVM与依存分析

3.4.3 SVM的基本原理

3.4.4 SVM与产生式模型结合的依存分析算法

3.4.5 SVM分类器的设置

3.4.6实验结果与分析

3.4.7进一步工作

3.5本章小结

第四章面向句法分析的短语界定

4.1引言

4.2 CPP的自动识别

4.3自动界定预测算法

4.3.1单界定输出算法:Viterbi算法

4.3.2基于HMM的CPP自动界定模型

4.4错误校正处理

4.4.1 ED校正

4.4.2基于DG的自动消歧

4.5实验和讨论

4.5.1测试数据的评价

4.5.2介词短语识别结果分析

4.5.3消歧处理讨论

4.6本章小结

第五章语义相似度评价

5.1引言

5.2问题描述和基本处理思路

5.3基本理论分析

5.4进一步讨论

5.5实验和分析

5.6相关研究

5.6.1树编辑距离法(TEdt)

5.6.2树核法(Kernel)

5.6.3关于kernel的讨论

5.7本章小结

第六章基于动态依存范围的信息检索

6.1引言

6.2依存范围对依存关系判断的影响分析

6.2.1静态依存上下文

6.2.2基于静态上下文的依存语言模型

6.3基于动态上下文的依存语言模型

6.3.1动态依存上下文

6.3.2依存上下文的动态划分算法

6.3.3基于动态上下文的依存语言模型

6.3.4数据平滑

6.4实验及讨论

6.4.1实验设计

6.4.2测试集和评价方法

6.4.3实验结果和分析

6.5本章小结

第七章自然语言逻辑表示、转换和谓词相关度计算

7.1逻辑符号

7.1.1平逻辑式FLF

7.1.2最小逻辑式

7.2基于依存分析的MLF转换

7.2.1依存分析对MLF转换的重要性

7.2.2问题描述

7.2.3 DAMT算法

7.3谓词对象的相关度计算

7.3.1面向MLF的相关度算法

7.4本章小结

第八章带逻辑语义检测的高精度、多适应性AE原型系统DPAES的实现及验证

8.1引言

8.2系统结构

8.2.1系统组件

8.2.2外部知识库和实现工具选择

8.3数据流程

8.4系统性能测试分析

8.4.1实验目的

8.4.2实验配置环境

8.4.3实验数据与结果

8.5本章小结

结语

参考文献

附录

攻读博士学位期间取得的研究成果

致谢

展开▼

摘要

随着可获取信息量的增加,人们对信息检索提出了更高要求,最直接的需求就是希望计算机能够理解用户问题,从而尽善尽美地挖掘出所期望的信息。在传统基于关键词字符匹配的信息检索中,参与匹配的只是外在的表现形式,而非它们所表达的语义概念,因此在检索方式上存在刻板、不符合语言思维习惯等缺点,很难满足用户关于精确查询、智能查询的需求。把信息检索从关键词匹配层面提高到语义层面,从概念的语义联系上来认知和处理检索用户的请求成为当前信息检索技术的研究热点。 提高检索质量的关键是建立一套描述自然语言的语义逻辑系统,它不仅能把语言中的语义信息转换成有利于机器处理的逻辑形式,而且根据此逻辑式还可以对搜索引擎的返回结果进行逻辑检测,从而取得用户满意度更高的查询结果。围绕着这个主题,本文对信息检索中的答案抽取技术进行了较深入的研究,提出了用依存句法分析技术解决检索结果的语义判断和检测问题的思路。在这个思路的引导下,本文通过研究提高中文依存分析的精度和效率、符合文本语义结构的句子相似度估计方法、更好地满足答案抽取应用的语言逻辑形式和逻辑转换、比较算法等内容,设计并实现了带语义检测的高精度、多适应性答案抽取系统——DPAES。 同义词、近义词扩展是一种传统的信息检索扩展方法,被用于减少检索过程中的查询失配现象。由于同义词、近义词扩展无法从语义层次延伸更丰富的查询信息,其扩展能力仍然是十分有限的。语义查询扩展通过在检索中结合与查询词具有语义关联的词语,有效延伸关键信息的查询范围,是传统扩展方法的有益和必要的补充。语义查询扩展尚存的问题主要有抽取关联词汇的难度较大和难以寻找合适的检索模型。概率潜在语义分析模型(PLSA)是一种自然语言统计模型,PLSA与其他基于概念词典或概念网络的检索模型相比,具有可计算强、人工参与少等优点。通过PLSA计算常问问题集(FAQs)中问题词和答案词之间对应的语义关联特征,获得一组语义关联度由大到小排列的关联词队列。在检索过程中,关联词队列通过文本推理网络(BIN)引入检索过程,成为查询扩展有益而必要的组成部分。 依存句法分析是答案抽取应用中的文本语料的重要处理步骤,旨在建立词与词之间的依存关系,为自然语言逻辑表示和转换创造条件。传统的依存句法分析方法主要基于规则和数据驱动的产生式概率模型,概率模型以依存结构的独立性假设为基础,与大多数语言事实相违背,因此采用传统方法进行依存句法分析的精度较低。提出基于SVM的产生式依存分析模型,有效结合影响依存句法分析的重要因素,如词性、标点、“的”结构等。与传统模型只进行一次分析计算相比,新模型将产生式模型与SVM方法结合起来,在训练阶段,用产生式概率模型进行依存分析,在测试阶段,采用改进的动态规划算法估计最优依存分析结果。由于训练样本的数量与产生式模型的错误分析有关,而与句子长度无关,因此该方法在有效降低特征向量的规模的同时,能够加快SVM分类器的训练速度并改善分析精度。 依存句法分析建立了词与词之间的依存关联,为自然语言的逻辑表示和转换奠定了基础。自然语言的逻辑形式代表着文本结构的语义联系,由于人类语言的语法成分十分丰富,如果在逻辑转换过程中事无巨细地全盘接受,对返回结果的逻辑检测应用将受到限制。在充分研究自然语义表示基础(逻辑符号、存在性公理、平逻辑式FLF)之上,提出一种面向答案抽取应用的宽约束逻辑描述形式——最小逻辑式(MLF),进而提出基于依存分析的MLF转换算法——DAMT算法。MLF是以FLF为基础,将自然语言的语义对象抽象为事件(Evt)、对象(Obj)、属性(Prop)、存在(At)。在实际应用中,要求为待处理的文本进行MLF转换。为此,提出了基于依存分析的MLF转换算法——DAMT算法,DAMT算法以依存句法分析结果为输入对象,能够自动实现对自然语言的MLF转换。在此基础上,提出了基于MLF的相关度算法。对于每一对MLF谓词对象来说,相关度计算包含两个层次:第一层次为谓词对象本身的相似度计算;第二层次是谓词关联的相似度计算。MLF相关度算法兼顾了自然语言语义表示的上述两个方面内容。 在上述研究的基础上,本文设计并实现了带语义检测的高精度、多适应性答案抽取系统——DPAES,并将上述研究的内容都在DPAES中作了验证。DPAES是一种基于依存语法逻辑转换的中文答案抽取系统,其实现结合了外部知识库以及词语的语义关联特征。DPAES采用简洁有效的基于应用服务器的系统架构,不仅具有平台无关性,而且能在应用程序执行时动态地改变系统的查询策略,这使得DPAES很容易地将新的查询策略扩充到系统中,有利于研究不同查询算法对查询性能的影响。与传统AE系统比较,DPAES的另一个优点是采用较深入的语义分析和逻辑检测技术,有利于减少返回结果中的不相关答案。实验结果表明,带语义检测的DPAES系统的查询性能指标特别是返回答案的质量优于传统的全文检索系统。 在答案抽取系统的研究过程中,本文还对“依存树的相似度”对句子间语义关系的影响作了深入研究。以树的公共结构为基础,遵循越完整的结构、连通性越好的结构,其相似度也越大的评价策略,提出了一种新颖的树结构相似度比较方法-基于连通-整体性约束的相关度评价方法(Connectivity-IntergrityConstraintbasedm+6easure,CI)。该方法解决了传统核值方法出现的高复杂度问题,具有复杂度低的特点,为树结构比较提供了新的思路,同时,也为下一步的研究工作建立了一个基础。 综上,本文在研究过程中,不仅对信息检索领域现有的先进研究成果进行学习和深入研究,并且能在研究过程中不断提出新的想法并通过实验进行验证,同时,又注重理论研究与实际应用的结合。本文的部分论证结论,为中文依存分析技术和答案抽取研究提供了理论和实践上的指导意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号