首页> 中文学位 >基于条件随机场的科研论文信息分层抽取研究
【6h】

基于条件随机场的科研论文信息分层抽取研究

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1研究背景及意义

1.2国内外研究现状综述

1.3论文的组织安排

2文本信息抽取

2.1文本信息抽取的含义

2.2文本信息抽取的发展

2.3文本信息抽取的对象

2.4文本信息抽取系统设计常用方法

2.5文本信息抽取的主要模型

2.6本章小结

3.1条件随机场的概念

3.1.1条件随机场的定义

3.1.2条件随机场的数学表示

3.1.3特征函数选择

3.1.4矩阵描述和计算

3.2条件随机场的参数估计

3.2.1极大似然估计

3.2.2 L-BFGS算法

3.2.3动态规划

3.3条件随机场的标注

3.4本章小结

4基于条件随机场模型的科研论文信息分层抽取

4.1基于条件随机场的信息抽取方法

4.2传统抽取方法的特点与不足

4.2.1基于词抽取方法的特点

4.2.2基于块抽取方法的特点

4.2.3传统抽取方法的不足

4.3改进后的基于条件随机场的信息分层抽取方法

4.4本章小结

5实验与分析

5.1特征集合

5.1.1文本特征

5.1.2格式特征

5.1.3外部词典特征

5.1.4状态转移特征

5.2数据集和评测标准

5.2.1数据集

5.2.2评测标准

5.3系统结构

5.3.1 CRFs工具

5.3.2系统框架

5.3.3模块说明

5.4实验结果及分析

5.5本章小结

6结论与展望

6.1总结

6.2进一步工作

致 谢

参考文献

附录

展开▼

摘要

面对信息爆炸而产生的海量文本信息,如何更快速、准确地从中获取需要的信息,是人们普遍关注的问题。文本信息抽取的研究工作,便是在这种需求背景下产生的,旨在提供从海量联机文本信息中快速、准确获取有用信息的工具和方法。
   通过抽取科研论文信息,不仅可以有效地组织和管理这些论文,提高用户检索论文的效率,而且还能够进行大量的统计工作。如论文主题分析及相关论文统计,对期刊、科研单位、某篇论文或某个学者进行引用分析以及发现研究热点和研究趋势等,所以从科研论文中自动抽取信息有着重要的研究价值。
   当前,基于统计学习的文本信息抽取方法,是一种相对比较新的文本信息抽取模型,取得了很好的效果,被认为有着很好的应用价值,其中,基于条件随机场模型的科研论文信息抽取方法,更是受到了相当的关注。
   在全面分析各种文本信息抽取方法的基础上,重点研究了利用条件随机场对科研论文信息进行抽取,发现其中传统的单纯基于词或基于块的抽取方法存在着以下不足:①把抽取的文本对象固定为单词,或者固定为文本块,无法根据抽取对象的不同情况,在恰当粒度上灵活地进行切分和抽取;②在抽取的过程中,不能够充分地利用文本所包含的完整的特征信息,以及文本中丰富的上下文信息。这种不足,在处理复合抽取域文本和大信息量的抽取域文本时,表现得尤为明显。
   因此,在研究国内外相关学者的研究成果的基础上,提出了一种基于条件随机场的科研论文信息分层抽取方法。首先,根据版面格式信息,把开头不为空格的行,与其前面的一个文本行,合并成一个大的文本行,以文本行为基本的抽取单位,从而尽量获得最完整的特征信息;然后,根据科研论文信息分层抽取任务的需要,为条件随机场模型制定合适的特征函数;其次,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的部分判定性特征函数,将输入的文本切分成文本行、块或单个的词等恰当的层次;最后,通过训练获得模型的参数,并对科研论文进行特定文本域的抽取。实验结果表明,该方法的抽取性能,优于基于词或者块的条件随机场模型的信息抽取方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号