首页> 中文学位 >基于条件随机场的元数据自动提取技术研究
【6h】

基于条件随机场的元数据自动提取技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题背景及意义

1.2 国内外的研究状况综述

1.3 本文的主要研究内容

1.4 本文的组织结构

第2章 条件随机场模型理论概述

2.1 统计语言模型概述

2.2 条件随机场理论

2.3 条件随机场和其他模型的比较

2.4 条件随机场的优点与不足

2.5 条件随机场的参数估计

2.6 本章小结

第3章 基于启发式搜索的论文头部元数据提取

3.1 元数据概述

3.2 论文头部的特征选择

3.3 论文头部的相关工作和技术

3.4 数据稀疏问题的解决

3.5 特征提取和启发式搜索算法的结合

3.6 论文头部元数据提取

3.7 本章小结

第4章 融合重排序的引文元数据提取

4.1 引文元数据概述

4.2 重排序

4.3 特征选择和预抽取支持向量

4.4 排序支持向量机

4.5 引文元数据的提取

4.6 本章小结

第5章 实验验证与分析

5.1 数据集和实验环境

5.2 论文头部的元数据提取实验

5.3 引文元数据的实验结果与分析

5.4 本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

展开▼

摘要

伴随着数字图书馆技术的发展,电子文档成为人们获取信息的主要来源。为了使用户更方便快捷地发现所需要的文献资源,元数据信息提取技术的研究得到越来越多的关注。元数据信息的自动提取解决了早期主要靠人工阅读文档找出相应的元数据这项费时费力的工作,并为电子资源的有序组织、适度控制和高效检索提供更为便利的条件。随着机器学习理论的逐渐成熟,元数据的自动提取成为了当今的研究热点。本文主要对基于条件随机场的元数据自动提取的相关技术进行了研究。
  首先,针对以单词为单位组成的论文头部文本序列来进行元数据提取时存在任务量大,抽取精度低等问题,提出一种文本分块策略来对其进行分块,详细阐述了分块的过程,使得每一个抽取域和一个具体的文本分块相对应。在分块的基础上利用文本中含有特征词等信息,通过定义特征提取规则来确定其状态。在路径搜索过程中,采用启发式搜索算法来确定剩余块的状态。
  其次,为了实现引文元数据的精确抽取,根据引文信息格式的多样性和提取域的密集性,在条件随机场模型的基础上融合重排序来提取引文元数据,将条件随机场和重排序形成串行处理流程,通过对条件随机模型生成的多个候选标注进行等级排序实现引文元数据的提取。
  最后,对上述研究方法进行了实验验证及分析,和原有的方法进行了对比,并对今后的研究工作进行了展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号