首页> 中文期刊>中国矿业 >面向海量地质文档的表格信息快速抽取方法研究

面向海量地质文档的表格信息快速抽取方法研究

     

摘要

Based on the most core HDFS and MapReduce in Hadoop distributed system architecture,a rapid extraction method of table information for massive geological documents is proposed.In order to improve the extraction speed of geological information document form,first of all,using the key WORDs to find documents stored in the HDFS root directory,then,using the Hadoop distributed cluster Map function and a Reduce function reduction cell information extraction and information,according to the mineral resources potential evaluation result data in Chongqing in WORD document form rapid extraction experiments.It is proved that the method of rapid extraction of geological document table information in this paper can greatly reduce the time needed to extract the information of the traditional single-machine serial geological document form.%以Hadoop分布式系统架构中最核心的HDFS和MapReduce为基础,提出了一种面向海量地质文档的表格信息快速抽取的方法.为了提高地质文档表格信息抽取速度,首先利用关键词查找文档在HDFS中存储的根目录,其次利用Hadoop分布式集群中Map函数和Reduce函数实现单元格信息的抽取和信息还原显示,最后对重庆市矿产资源潜力评价成果数据中WORD文档进行表格快速抽取实验.实验证明,本文提出的地质文档表格信息快速抽取方法可以大幅缩减传统单机串行地质文档表格信息抽取所需的时间.

著录项

  • 来源
    《中国矿业》|2017年第9期|98-103|共6页
  • 作者单位

    湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南 湘潭 411201;

    国土资源部地质信息技术重点实验室,北京 100037;

    中国地质调查局发展研究中心,北京 100037;

    湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南 湘潭 411201;

    中国地质科学院矿产资源研究所,北京 100037;

    中国地质科学院矿产资源研究所,北京 100037;

    西北大学城市与环境学院,陕西 西安 710127;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 测绘数据库与信息系统;
  • 关键词

    地质文档; 表格信息; 快速抽取;

  • 入库时间 2022-08-17 17:41:24

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号