自动抽取维基百科文本中的语义关系

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

语义Web的构建不仅需要由本体来定义基本知识骨架，同时也需要由遵循本体而定义的实例层知识库来构建内容。虽然语义Web数据逐渐增长，但是实例层的数据却依然较为稀少。语义关系是构建语义知识库的重要组成部分。因此，抽取语义关系实例对语义Web的实现极其重要。维基百科是一个免费的在线百科全书。它也是目前最大的在线知识库之一。在拥有较高覆盖面的同时，其内容也具有很高的准确度。抽取维基百科中的语义关系对知识库的构建具有很大意义。维基百科中，大量信息以文本形式呈现，尽管其中大量结构化信息可以直接作为关系抽取的有效数据来源，但大部分的语义关系仍然需要从自然语言文本中获取。抽取维基百科自然语言文本中的语义关系有两大难点：如何有效的识别维基百科中细粒度的实体；如何基于少量的关系样例获取较高的关系抽取性能。在本文中，首先，我们提出利用维基百科结构化信息来辅助语义关系的抽取。我们借鉴了计算语言学领域的选择约束，创新性的利用维基百科的结构化信息来生成表达语义关系选择约束的特征，并提出了具体的特征选择方法。我们利用这种选择约束特征来识别和验证实体，从而有效辅助基于模式匹配的关系抽取。实验表明选择约束特征极大的提升了关系抽取的性能。此外，考虑到在维基百科文本关系抽取中，我们只能从结构化的信息表格中获取少量关系样例而缺乏相应的关系反例，同时还缺乏一个关系分类层次，因此我们引入了文本分类领域中基于正例的学习算法，创新性的将其应用到关系抽取中（据我们所知，之前尚无研究工作将基于正例的学习算法应用到关系抽取领域）。我们将原有的基于正例的学习算法转换为转导学习并基于此构建一个自训练的学习算法。在实验中，我们发现，传统的多类分类不适合我们的关系抽取任务。实验表明，在关系样例较少的情况下，基于正例的学习算法优于传统的二分类算法（我们随机提供了反例）。在正例训练数据较为稀疏的情况下，自训练算法通过牺牲少量精度来获取召回率提升，从而极大的改进了整体的抽取性能。

著录项

作者
王刚;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机应用技术
授予学位硕士
导师姓名俞勇;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
语义知识库; 维基百科; 在线知识库; 语义关系; 抽取性能; 模式匹配;

相似文献

中文文献
外文文献
专利

1. 基于维基百科的短文本语义扩展方法研究 [J] . 韩冬雷 ,金花 ,朱亚涛 . 计算机应用与软件 . 2014,第010期
2. 基于随机游走模型的维基百科语义关系研究 [J] . 李志萍 . 电脑编程技巧与维护 . 2014,第004期
3. 利用MeSH组配规则自动抽取表达特定语义关系句子的探索 [J] . 尹延洁 ,崔雷 . 中华医学图书情报杂志 . 2019,第010期
4. 汉外术语及语义层次关系自动抽取技术研究 [J] . 曾文 ,桂婕 . 情报学报 . 2012,第012期
5. 学术文本词汇功能识别——在关键词自动抽取中的应用 [J] . 姜艺 ,黄永 ,夏义堃 . 情报学报 . 2021,第002期
6. 基于文本语义相似度的文本语义关系标注 [C] . 秦春秀 ,赵捧未 . 第二十届全国计算机信息管理学术研讨会 . 2006
7. 基于维基百科的微博文本语义概念扩展研究 [A] . 赵文静 . 2013

自动抽取维基百科文本中的语义关系

摘要

著录项

相似文献

相关主题

期刊订阅