基于词汇语义信息的中文命名实体关系抽取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自互联网诞生以来，接入的用户越来越多，直接导致了当今互联网上的信息量呈爆炸式增长，信息量的巨大也带来了巨大的使用价值。然而互联网上的信息大多为无结构或半结构化的文本，要想有效利用其中的信息，就涉及到自然语言处理领域的一个热门课题——信息抽取。命名实体关系抽取是信息抽取的重要任务，其内容为使计算机自动的通过实体所在的文本抽取出实体之间的关系。关系抽取对领域本体和知识图谱的构建、问答系统、信息检索等领域具有重要意义。
　　在四种中文关系抽取的方法中，本文选择基于树核函数的机器学习方法作为研究方向，其关键是构建有效的关系抽取特征。在已有的特征中，很少涉及《同义词词林》、《知网》等语义词典，而这些词典包含的语义信息对关系的识别和抽取非常有研究价值。
　　本文首先提出了一种简易的根据《同义词词林》计算词汇语义相似度的方法，并根据该方法提出了词汇语义相似度树特征。《同义词词林》编码分为5层，从左到右相同的层数越多，词汇在语义上越相近；而树核函数计算相似度的原理为相同的子树越多，相似度越高。针对以上两点，提出了《同义词词林》编码树特征，将5层编码分别放入树形结构的5层节点中。为了探究哪一层编码所代表的语义信息更适合关系抽取，又提出了各个级别的《同义词词林》编码树特征。
　　《知网》中词条的语义信息都包含在常识性知识库中的DEF项里，由此本文提出了一种由DEF项转化而来的《知网》语义树特征。为了缩减特征中节点数量提出了两种简化的《知网》语义树：三层语义树和无动态角色语义树。
　　经过实验得到了以下结论：在基于《同义词词林》的特征中，完整的《同义词词林》编码树取得了最好的效果；在基于《知网》的特征中，同样是完整的《知网》语义树抽取效果最好；《同义词词林》编码树和《知网》语义树的组合特征取得了非常好的抽取效果，关系大类和关系小类的抽取的TF分别达到了86.6和93.3，而且该组合特征可以不依赖标注语料得到，在未来的开放域关系抽取中很有应用价值。

著录项

作者
徐庆;
展开▼
作者单位

太原理工大学;

展开▼
授予单位太原理工大学;
学科计算机技术
授予学位硕士
导师姓名段利国;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类形式语言理论;
关键词
关系抽取; 树核函数; 机器学习; 中文命名实体; 词汇语义相似度; 《同义词词林》;

相似文献

中文文献
外文文献
专利

1. 词汇语义信息对中文实体关系抽取影响的比较 [J] . 刘丹丹 ,彭成 ,钱龙华 . 计算机应用 . 2012,第008期
2. 实体词语义信息对中文实体关系抽取的作用研究 [J] . 段利国 ,徐庆 ,李爱萍 . 计算机应用研究 . 2017,第001期
3. 中文嵌套命名实体关系抽取研究 [J] . 许浩亮 ,李雁群 ,何云琪 . 北京大学学报：自然科学版 . 2019,第1期
4. 基于指针标注的中文医学文本实体关系抽取研究 [J] . 罗文龙 ,王勇 . 计算机科学与应用 . 2022,第1期
5. 基于组合核的中文实体关系抽取研究 [J] . 李丽双 ,党延忠 ,张婧 . 情报学报 . 2012,第7期
6. 基于自由文本的中文实体关系抽取研究 [C] . 张素香 ,华北电力大学电子与通信工程系 ,李蕾 . 第十一届中国人工智能学术年会 . 2005
7. 基于位置和语义特征的中文命名实体关系抽取研究 [A] . 李海光 . 2011

基于词汇语义信息的中文命名实体关系抽取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅