定义抽取与定义扩展研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着大数据与互联网的快速发展，信息抽取（Information Extraction,IE）成为自然语言处理的热点。本文基于Wikipedia中的语义链网络，针对概念的定义抽取和定义扩展展开研究。具体的内容如下：
　　（1）基于Wikipedia，提出TRAA算法用于研究定义句内术语间层次关系。首先，利用爬虫技术获取Wikipedia的网页信息，并手动筛选出定义句作为定义抽取实验的训练数据。其次，通过术语识别将定义句转化为术语集合存储。最后，分析Wikipedia语义链网络的结构并根据该网络计算出术语集合的定义紧密度。
　　（2）提出一种基于规则和统计的定义抽取模型。首先，选定计算机领域的科技文献作为本文抽取对象，同时根据科技文献中定义句的语句特点制定相应的匹配模式。然后，根据TRAA算法计算的定义紧密度和定义句中含有的术语个数作为特征，训练出基于统计分析的定义抽取模型，对通过匹配模式的定义候选句进行二次筛选。最后，设计实验并根据评价参数对实验结果进行分析。
　　（3）提出基于窗口的定义扩展模型。定义扩展采用文本分割的思想来分析定义句与上下文之间相似度关系。定义抽取的结果是单句，定义扩展的结果为单句或多句。实现定义扩展的步骤主要分为三步，首先，获取定义段落，即定义句所在科技文献中的段落。其次，基于wikipedia语义链网络计算句子间的语义距离。最后，根据阈值选择上下文中语义相似度高的句子作为定义的扩展。
　　（4）定义词典系统的设计与实现。定义词典的主要功能是根据用户输入的关键词进行术语定义或定义扩展的查询。在进行术语定义的查询时，首先确定关键词是否存在于Wikipedia的语义链网络中，其次查找定义语料库中是否存在该关键词的定义，最后选择一条与最接近关键词定义的句子作为定义查询的结果。在进行定义扩展的查询时，首先需要获取该定义句对应文献中的段落，其次计算出定义句在段落中与上下文的相似度，最后通过阈值筛选出符合定义扩展的句子作为结果输出。

著录项

作者
吴佳云;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科计算机技术
授予学位硕士
导师姓名诸葛海;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息抽取; 定义扩展; TRAA算法; 术语间层次; 文本分割;

相似文献

中文文献
外文文献
专利

1. 医学专家对高血压进行了重新定义写作小组扩展了高血压的定义——为寻找疾病处理和研究的新方法铺平道路 [J] . . 世界核心医学期刊文摘：心脏病学分册 . 2005,第007期
2. 基于Spark和DN-gram模型的定义抽取研究 [J] . 于洁 . 北京信息科技大学学报（自然科学版） . 2017,第004期
3. 汉语定义句句群的自动抽取软件研究 [J] . 魏莉 . 电子技术与软件工程 . 2015,第017期
4. 未定义类型的关系抽取的半监督学习框架研究 [J] . 程显毅 ,朱倩 . 南京大学学报：自然科学版 . 2012,第4期
5. 学术定义抽取研究综述 [J] . 刘一宁 . 情报探索 . 2011,第008期
6. 学术定义抽取系统研究及实验分析 [C] . 刘一宁 ,郑彦宁 ,化柏林 . 2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIBOSS2011)学术研讨会 . 2011
7. 航空领域术语定义抽取关键技术及其应用研究 [A] . 潘湑 . 2011

定义抽取与定义扩展研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅