首页> 中文学位 >基于词汇语义信息的中文命名实体关系抽取研究
【6h】

基于词汇语义信息的中文命名实体关系抽取研究

代理获取

目录

目录

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 主要研究内容

1.4 本文的组织结构

第二章 相关理论及工具概述

2.1 语料库

2.2 预处理方法

2.3 树核函数

2.4 分类器及SVM的多分类支持

2.5 本章小结

第三章 基于《同义词词林》的关系抽取特征

3.1 《同义词词林》

3.2 《词林》编码的获取

3.3 基于《词林》的词汇语义相似度

3.4 基于《词林》的实体词词汇语义相似度树

3.5 《词林》编码树

3.6 各个级别《词林》编码树

3.7 本章小结

第四章 基于《知网》的关系抽取特征

4.1 《知网》

4.2 《知网》语义树

4.3 简化的《知网》语义树

4.4 本章小结

第五章 中文命名实体关系抽取性能评测

5.1 实验设置与基准特征

5.2 实验结果与分析

5.3 本章小结

第六章 总结与展望

6.1 工作总结

6.2 下一步研究展望

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

自互联网诞生以来,接入的用户越来越多,直接导致了当今互联网上的信息量呈爆炸式增长,信息量的巨大也带来了巨大的使用价值。然而互联网上的信息大多为无结构或半结构化的文本,要想有效利用其中的信息,就涉及到自然语言处理领域的一个热门课题——信息抽取。命名实体关系抽取是信息抽取的重要任务,其内容为使计算机自动的通过实体所在的文本抽取出实体之间的关系。关系抽取对领域本体和知识图谱的构建、问答系统、信息检索等领域具有重要意义。
  在四种中文关系抽取的方法中,本文选择基于树核函数的机器学习方法作为研究方向,其关键是构建有效的关系抽取特征。在已有的特征中,很少涉及《同义词词林》、《知网》等语义词典,而这些词典包含的语义信息对关系的识别和抽取非常有研究价值。
  本文首先提出了一种简易的根据《同义词词林》计算词汇语义相似度的方法,并根据该方法提出了词汇语义相似度树特征。《同义词词林》编码分为5层,从左到右相同的层数越多,词汇在语义上越相近;而树核函数计算相似度的原理为相同的子树越多,相似度越高。针对以上两点,提出了《同义词词林》编码树特征,将5层编码分别放入树形结构的5层节点中。为了探究哪一层编码所代表的语义信息更适合关系抽取,又提出了各个级别的《同义词词林》编码树特征。
  《知网》中词条的语义信息都包含在常识性知识库中的DEF项里,由此本文提出了一种由DEF项转化而来的《知网》语义树特征。为了缩减特征中节点数量提出了两种简化的《知网》语义树:三层语义树和无动态角色语义树。
  经过实验得到了以下结论:在基于《同义词词林》的特征中,完整的《同义词词林》编码树取得了最好的效果;在基于《知网》的特征中,同样是完整的《知网》语义树抽取效果最好;《同义词词林》编码树和《知网》语义树的组合特征取得了非常好的抽取效果,关系大类和关系小类的抽取的TF分别达到了86.6和93.3,而且该组合特征可以不依赖标注语料得到,在未来的开放域关系抽取中很有应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号