首页> 中文学位 >基于条件随机场的中文期刊论文信息识别与抽取
【6h】

基于条件随机场的中文期刊论文信息识别与抽取

代理获取

摘要

期刊论文作为知识信息的载体和研究人员获取专业知识的一个重要渠道,对促进专业技术的推广、研究成果的传播有极其重要的作用。基于期刊论文全文信息的相关研究有利于提升期刊资源的使用价值以及用户获取信息的效率。目前,已经存在很多论文信息抽取的相关工具,但其在中文期刊论文信息的抽取中效率并不高。所以在此基础上,本文对现有的论文信息抽取工具做了适用性改进,使其更好地应用在中文领域。 通过对期刊论文信息抽取方法及工具的对比分析,本文选取条件随机场算法和GROBID工具进行中文期刊论文信息的识别与抽取。主要研究内容与取得成果包括: (1)深入对比分析了期刊论文信息识别与抽取的相关方法和工具,发现条件随机场算法和GROBID工具在论文信息抽取中准确率更高,因此本文采用条件随机场算法和GROBID工具进行中文期刊论文信息的识别与抽取。同时,详细介绍了基于条件随机场的中文期刊论文信息识别与抽取的关键技术。 (2)基于条件随机场算法和GROBID工具构建了中文期刊论文信息识别与抽取级联模型,包括segmentation模型、header模型、reference-segmentation模型、citation模型以及fulltext模型。针对中文期刊论文信息的特点,通过文本预处理、特征选择、序列标注和特征模板制定一系列流程完成了对模型的设计与实现。 (3)选取12种农业领域中文期刊论文数据对模型进行训练,利用准确率、精准率、召回率以及F1值四个指标对各个模型的效果展开评估,并与GROBID工具的抽取效果进行对比。实验结果显示,中文期刊论文信息抽取模型中segmentation模型、header模型、reference-segmentation模型、citation模型的效果相对GROBID工具显著提升,该模型能够准确、高效的识别和抽取出中文期刊论文头信息和引文信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号