首页> 中文期刊> 《农业图书情报学报》 >基于PDF版式特征的文献篇章结构细粒度抽取方法研究

基于PDF版式特征的文献篇章结构细粒度抽取方法研究

         

摘要

[目的/意义]为实现文献资源的细粒度组织,满足用户日趋精准的信息服务需求,研究提出一种基于PDF版式特征的文献篇章结构细粒度自动抽取方法。[方法/过程]方法充分利用机器学习在信息分类方面的优势,针对非结构化的PDF文档,基于其版式特征对章节标题进行自动分析、识别与抽取。根据章节标题的坐标定位,将正文内容以段落为最小颗粒度自动匹配至所属标题的下级位置,最终实现文档全文结构的细粒度抽取和重组。[结果/结论]经实测,机器自动抽取平均正确率达80%,针对非结构化PDF文档的细粒度抽取工作具有较好的现实意义和应用前景,基于底层方法设计构建的数据处理系统现已投入实际应用,大幅解放人工进行篇章结构细粒度抽取的工作。

著录项

  • 来源
    《农业图书情报学报》 |2021年第9期|P.93-103|共11页
  • 作者单位

    中国农业科学院农业信息研究所 北京100081农业农村部农业大数据重点实验室 北京100081;

    中国农业科学院农业信息研究所 北京100081农业农村部农业大数据重点实验室 北京100081;

    中国农业科学院农业信息研究所 北京100081农业农村部农业大数据重点实验室 北京100081;

    中国农业科学院农业信息研究所 北京100081农业农村部农业大数据重点实验室 北京100081;

    同方知网数字出版技术股份有限公司 北京100192;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 图书馆学;
  • 关键词

    版式特征; 篇章结构; 章节标题; 细粒度抽取; 机器学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号