首页> 中文学位 >定义抽取与定义扩展研究
【6h】

定义抽取与定义扩展研究

代理获取

目录

声明

专用术语注释表

第一章 绪论

1.1课题背景与意义

1.2国内外研究现状

1.3本文主要工作

1.4论文的组织结构

第二章 相关背景知识介绍

2.1术语和术语定义

2.2文本处理过程

2.3文本计算形式

第三章 术语定义抽取研究

3.1相关工作

3.2定义抽取方法

3.3 TRAA算法介绍

3.4术语定义抽取模型

3.5定义抽取实验

3.6本章小结

第四章 定义扩展研究

4.1相关工作

4.2基于窗口的定义扩展模型

4.3定义扩展实验

4.4本章小结

第五章 定义词典系统设计与实现

5.1系统需求与分析

5.2系统设计与实现

5.3软件测试

第六章 总结与展望

参考文献

附录1 定义抽取研究实验数据

附录2 定义扩展实验数据

附录3 攻读硕士学位期间撰写的论文

附录4 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

近年来,随着大数据与互联网的快速发展,信息抽取(Information Extraction,IE)成为自然语言处理的热点。本文基于Wikipedia中的语义链网络,针对概念的定义抽取和定义扩展展开研究。具体的内容如下:
  (1)基于Wikipedia,提出TRAA算法用于研究定义句内术语间层次关系。首先,利用爬虫技术获取Wikipedia的网页信息,并手动筛选出定义句作为定义抽取实验的训练数据。其次,通过术语识别将定义句转化为术语集合存储。最后,分析Wikipedia语义链网络的结构并根据该网络计算出术语集合的定义紧密度。
  (2)提出一种基于规则和统计的定义抽取模型。首先,选定计算机领域的科技文献作为本文抽取对象,同时根据科技文献中定义句的语句特点制定相应的匹配模式。然后,根据TRAA算法计算的定义紧密度和定义句中含有的术语个数作为特征,训练出基于统计分析的定义抽取模型,对通过匹配模式的定义候选句进行二次筛选。最后,设计实验并根据评价参数对实验结果进行分析。
  (3)提出基于窗口的定义扩展模型。定义扩展采用文本分割的思想来分析定义句与上下文之间相似度关系。定义抽取的结果是单句,定义扩展的结果为单句或多句。实现定义扩展的步骤主要分为三步,首先,获取定义段落,即定义句所在科技文献中的段落。其次,基于wikipedia语义链网络计算句子间的语义距离。最后,根据阈值选择上下文中语义相似度高的句子作为定义的扩展。
  (4)定义词典系统的设计与实现。定义词典的主要功能是根据用户输入的关键词进行术语定义或定义扩展的查询。在进行术语定义的查询时,首先确定关键词是否存在于Wikipedia的语义链网络中,其次查找定义语料库中是否存在该关键词的定义,最后选择一条与最接近关键词定义的句子作为定义查询的结果。在进行定义扩展的查询时,首先需要获取该定义句对应文献中的段落,其次计算出定义句在段落中与上下文的相似度,最后通过阈值筛选出符合定义扩展的句子作为结果输出。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号