首页> 中文学位 >基于核函数的命名实体关系抽取技术研究
【6h】

基于核函数的命名实体关系抽取技术研究

代理获取

摘要

随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。 信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。实体关系抽取的基本任务是寻找并判定实体对之间存在的特定关系。当前主要的抽取技术可分为基于知识库的抽取算法、基于特征向量的机器学习算法、基于核函数的机器学习算法、基于模式的Bootstrapping算法。 本文的工作在命名实体识别的基础上重点研究了实体关系抽取技术并实现了一个完整的实体关系抽取系统。通过深入分析关系抽取技术的重点和难点以及现有技术的特点和不足,设计实现了基于改进的语义核函数的关系抽取系统。 本文的成果和贡献主要体现在以下几个方面: 1) 命名实体识别算法:作为关系抽取的前续工作,命名实体识别是本文工作的一个重要组成部分。本文的命名实体识别算法采用字典结合训练规则的方式,具有很高的准确率和召回率。 2) 基于核函数的关系抽取算法的研究和改进。这部分是本文的主要工作,包括几个部分: A) 首先是对现有的核函数进行归类,研究它们的优点和不足并加以总结。 B) 选择具有多种优良性质的序列核函数作为主要研究对象,对其进行了较大的改进,得到一种语义序列核函数。这里的语义核函数指的是将语义知识嵌入到核函数的计算过程中,在不增加计算复杂度的情况下显著提升了学习算法的分类以及泛化能力。 C) 语义知识的获取也是比较重要的一部分工作,本文的语义知识获取充分利用了著名的中文语义本体Hownet。 D) 实现了基于语义核函数的KNN学习算法并应用于关系抽取系统,与其他关系抽取系统相比,本文的方法具有较高的准确率以及良好的泛化能力。 E) 扩展现有的二元实体关系为三元关系,使关系抽取结果包含更为丰富的信息。 3) 命名实体关系抽取系统实现:本文介绍的关系抽取系统采用模块化设计,总共包括8个主要的功能模块。这些模块都具备两种不同的实现方式,一种是Gate自然语言处理平台下插件形式的实现,一种是独立的Java应用实现。因此本文的整个系统既可以作为Java独立应用运行,也可以作为Gate环境下的插件自由组合以满足各种不同应用的需要。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号