首页> 中文学位 >基于CRFs模型的引文标注技术研究与实现
【6h】

基于CRFs模型的引文标注技术研究与实现

代理获取

目录

声明

摘要

第1章 引言

1.1 课题的研究背景

1.2 国内外发展现状

1.3 课题的研究意义

1.4 本文的工作和组织结构

第2章 相关工作概述

2.1 研究背景

2.2 包装器技术

2.3 基于规则的序列抽取技术

2.4 基于统计学习模型的序列标注技术

2.4.1 隐马尔可夫模型

2.4.2 最大熵马尔可夫模型

2.4.3 条件随机场模型

2.5 本章小结

第3章 基于CRFs模型的引文标注框架

3.1 基于CRFs模型的引文标注总体结构

3.2 模型学习

3.2.1 人工标注

3.2.2 结构学习

3.2.3 特征选取

3.2.4 参数估计

3.3 引文标注

3.4 本章小结

第4章 基于词组粒度的CRFs模型的处理策略

4.1 基于单词粒度的CRFs模型的弊端

4.1.1 基于单词粒度的CRFs的训练集

4.1.2 基于单词粒度的错误情况和分析

4.2 基于词组粒度的CRFs模型

4.2.1 基于词组粒度的结构学习

4.2.2 模型其他步骤的相应改变

4.3 本章小结

第5章 系统的特征选取方法

5.1 特征与特征函数

5.1.1 特征函数的分类

5.1.2 特征与特征函数的实现

5.2系统的特征选取方法

5.2.1 特征选取的要求

5.2.2 特征选取的分类

5.2.3 特征的获取方法

5.3 本章小结

第6章 系统实现与实验分析

6.1 系统介绍

6.2 算法描述

6.2.1 参数估计

6.2.2 引文标注

6.3 系统运行过程

6.4 实验分析

6.4.1 实验环境

6.4.2 实验设置

6.4.3 粒度改变对标注性能的影响实验

6.4.4 特征选取对标注的性能的影响实验

6.5 本章小结

第7章 总结与展望

7.1 本文工作总结

7.2 进一步研究的工作

参考文献

致谢

攻硕期间发表的论文及参加的项目

展开▼

摘要

在研究论文的相互关联或者在对不同数据源的论文进行实体识别的过程中,论文的引文都扮演着极其重要的角色。为了对论文引文进行实体识别或进行其他应用,引文序列标注或者叫引文信息抽取是必不可少的过程。对此,学者们提出了多种方法和模型。有一种方法是基于规则的方法,通过研究人员人工观察,总结出较为全面的并且互不矛盾的规则。这些规则通常是用正则表达式书写的。但是,由于引文数据的不规则和多变性,基于统计学习模型的方法相比于其他方法花费人工少而且精度高。在各种统计学习模型中,条件随机场模型(CRFs)整合了隐马尔可夫模型(HMM)等“产生式”模型和最大熵马尔可夫模型(MEMM)等“判别式”模型的优势,并且避免了它们固有的不足和缺陷,是被广泛研究和使用的一种统计学习模型。
  本文旨在以CRFs模型为核心,研究基于CRFs的引文标注在模型粒度选择和特征选取技术上的处理方案及其实现等问题。本文讨论了在引文序列标注过程中对文本特征的应用,尤其是对符号特征进行了重点运用。由于认知到两个符号之间的词都应该属于同一语义,从而得到符号之间词的标注都应是相同的这一结论。针对基于单词粒度的CRFs在引文标注过程中出现的一些错误,提出了基于词组粒度的CRFs引文标注模型。本文在基于词组粒度的CRFs模型基础上,通过对特征选取形式的归纳,提出了一种系统的特征选取方法。本文将特征选取分为三类,并且分别给出了它们的定义和选取方法。本文实现了基于CRFs的引文标注系统,并详细介绍了在实现过程中诸多算法的实现,例如向前向后算法、Viterbi算法、分隔符判断算法、状态维护算法、模型训练集生成算法、特征判断算法等。
  本文采用来自ACM的真实引文数据集,通过实验证明了在对引文序列标注这一应用中,基于词组粒度CRFs模型比基于单词粒度的CRFs模型性能更好,并且证明了更加全面多元化的特征将大大提升模型的标注性能,也验证了本文提出的特征选取技术的实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号