基于混合核方法的上下位语义抽取

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

利用海量的非结构化数据如Web文本构建知识库，已经成为近年来自然语言处理与机器学习领域的热门研究课题。自动知识库构建需要概念抽取和语义关系抽取两方面工作，概念提取旨在文本中发现名词概念，语义抽取旨在提取名词概念之间的语义关系，上下位关系是名词概念之间的一种重要关系。发掘名词概念之间的上下位语义对于构建语义字典、信息检索等具有重要作用。
　　文本语义抽取一般采用分类模型，对于给定名词对判断其在特定上下文中是否存在语义关系，根据特征空间的不同，又分为基于传统文本特征和基于文本核的分类算法。前者使用例如N-Gram、词频词性等文本特征来描述词对周围的上下文，特征空间较为简单，并且难以刻画文本中较长的语法依赖。文本核能将原始特征映射到扩展后更高维度的希尔伯特特征空间，比以上基于特征的方法更能发掘句子的词法和语法特征。
　　现有的文本核主要分为基于解析树和基于文本子串的核。实验显示，基于文本子串核的语义抽取准确率较高召回率较低，而解析树核则正好相反。随着目标词对之间距离的增大，这两种核的性能均会下降，但前者性能下降得更快。这主要因为当词对间距离增大时，文本子串核可以用作比较的子句变长，因而增大了不同子句之间出现相似词语序列的概率，导致相似度增大，降低了不同词对的区分度。另一方面，解析树核更强调语法解析树结构的相似度，因而对句子长度的增加相对不敏感。但对于解析树结构相似而词语完全不同的两个子句，单独从子树结构出发判断语义相似度显然不尽合理。
　　为解决这些问题，提出一种自适应词对之间距离的混合核来进行上下位语义关系抽取的混合核。首先我们从句子的语法解析树出发，定义一种新的基于子路径的核。与其他解析树核过于依赖语法结构相比，该核加强了对原始词语参与句子成分构成上下位关系的考察。同时考虑到连续单词序列能更好的描述语义信息，我们基于词对的上下文序列定义了一种新的连续子序列核。最后我们使用加权平均方法来对这两种核进行融合。实验结果表明，混合之后的核不但显著提高了上下位语义关系抽取的准确率和召回率，还降低了子句长度对核函数性能的影响。
　　对于概念网络构建，一方面我们需要自动化算法来尽量代替概念网络构建中的人工劳动，使构建的概念网络容易维护且易于更新，另一方面我们需要人工的知识来弥补自动构建中无法达到的部分效果，人工检验抽取出来的概念以及联系是否正确，为抽取出来的概念提供标签，这些标签是无法从文本中直接获取的抽象概念，因此自动构建算法需要与人工知识相结合才能保持准确率且适应大规模数据处理。
　　本文利用已有的概念抽取以及关系抽取算法扩展人工构建的语义概念网络WordNet，在上下位语义抽取算法的基础上，本文设计了新的发掘文本中名词概念和语义关系的系统。该系统旨在结合现有的文本抽取工具和本文提出的新的上下位语义抽取算法，扩充已有的语义词典WordNet。通过该系统可以为语义应用如信息检索、社区问答、智能语音等提供更丰富的语义信息。

著录项

作者
江泳;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机软件与理论
授予学位硕士
导师姓名周向东;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
混合核方法; 上下位语义抽取; 文本特征; 人工检验;

相似文献

中文文献
外文文献
专利

1. 基于混合核方法的上下位语义抽取 [J] . 江泳 ,产文 ,王金华 . 计算机应用与软件 . 2014,第004期
2. 一种基于语义的上下位关系抽取方法 [J] . 陈金栋 ,肖仰华 . 计算机应用与软件 . 2019,第002期
3. 基于模板的中文上下位关系抽取方法 [J] . 章岳 ,黄赛豪 ,陆凯华 . 计算机应用与软件 . 2022,第1期
4. 基于症状构成成分的上下位关系自动抽取方法 [J] . 王婷 ,王祺 ,黄越圻 . 计算机应用 . 2017,第010期
5. 基于语义核的中文实体关系抽取 [J] . 刘建舟 ,邵雄凯 . 信息系统工程 . 2011,第003期
6. 一种基于语义角色分析的事件抽取方法 [C] . 章顺瑞 ,徐玉清 ,周新建 . 2015年中国兵工学会学术年会暨第三届全国武器装备研制与保障学术研讨会 . 2015
7. 基于树核的无指导中文语义关系抽取研究 [A] . 黄晨 . 2009

基于混合核方法的上下位语义抽取

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅