首页> 中文学位 >基于短语的中文模糊限制信息范围检测研究
【6h】

基于短语的中文模糊限制信息范围检测研究

代理获取

目录

声明

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 中文模糊限制信息检测语料库及评价指标

1.4 本文研究内容

1.5 本文组织结构

2 相关理论知识

2.1 支持向量机(SVM)

2.2 神经网络模型

2.3 极端梯度提升(XGBoost)

2.4 本章小结

3 基于复合核模型的中文模糊限制信息范围检测

3.1 基于复合核模型的中文模糊限制信息范围检测系统框架

3.2 基于复合核模型的中文模糊限制信息范围检测实验

3.3 本章小结

4 基于神经网络模型的中文模糊限制信息范围检测

4.1 基于神经网络模型的中文模糊限制信息范围检测系统

4.2 基于神经网络模型的中文模糊限制信息范围检测实验

4.3 本章小结

5 基于复合核和神经网络模型融合的中文模糊限制信息范围检测

5.1 基于复合核和神经网络模型融合的范围检测系统框架

5.2 基于复合核和神经网络模型融合的范围检测实验

5.3 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

模糊限制语是指“让事情变得模糊的词语”,其引导的信息被称为模糊限制信息。模糊限制信息检测旨在区分出事实信息和不确定信息,提高信息抽取的真实性和可靠性。进行模糊限制信息检测研究,对于信息抽取具有重要意义。模糊限制信息检测包括两个子任务:模糊限制语识别及模糊限制信息范围检测。基于词的范围检测方法是以词为候选分类单元,由于句子太长会产生大量的候选负例。同时由于句子内相邻正、负样例结构信息和上下文语义信息的相似性,导致分类器难以准确识别范围的边界。因此,本文以短语为候选分类单元,提出基于短语的中文模糊限制信息范围检测方法。模糊限制信息范围在结构上是模糊限制语所支配的一个短语或从句,在语义上是指模糊限制语所支配的完整语义作用范围,可见结构、语义信息对于范围检测都是有用的。本文从范围的结构信息、语义信息表示,及结构信息和语义信息融合三个方面进行探究,在中文生物医学模糊限制信息语料上研究中文模糊限制信息范围检测任务。研究内容如下:
  研究基于复合核模型的中文模糊限制信息范围检测。本文以短语为候选分类单元,基于多项式核函数和树核函数分别捕捉范围浅层的平面信息和句法结构信息,探究了范围的结构信息表示方法。采用复合核函数融合多项式核函数和树核函数,构建基于复合核模型的范围检测系统,句子级别F1值(F1_sen)达到70.19%。分别比单独基于平面、句法结构信息的系统最好F1_s e n值高4.06%、20.27%,说明基于复合核模型的范围检测方法是有效的,能捕捉到范围浅层的平面信息和句法结构信息。
  研究基于神经网络模型的中文模糊限制信息范围检测。本文利用神经网络模型,挖掘范围的深层语义信息,探索了中文模糊限制信息范围的语义信息表示方法。结果表明,基于神经网络模型的范围检测F1_s e n值最高达到67.84%,说明基于神经网络模型的范围检测方法能够有效捕捉到中文模糊限制信息范围的深层语义信息,提高范围检测性能。
  研究基于复合核和神经网络模型融合的中文模糊限制信息范围检测。基于复合核模型、神经网络模型分别能够捕捉到范围的平面信息和句法结构信息、语义信息。为综合利用三种信息,本文提出基于权重调整的结果融合、基于 XGBoost的结果融合两种方法,构建基于复合核和神经网络模型融合的范围检测系统,F1_s e n值最高达到71.68%,比单独基于复合核、神经网络模型的最好F1_s e n值高1.49%、3.84%。说明本文提出的融合方法能够有效捕捉到范围的平面信息、句法结构信息和语义信息,同时三种信息的融合能够进一步提高范围检测性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号