首页> 中文学位 >非结构化文档数据抽取与分析系统的设计与实现
【6h】

非结构化文档数据抽取与分析系统的设计与实现

代理获取

摘要

网络与信息时代的到来,数据与信息充斥着我们的生活,渗透于各个领域。同时,随着我国办公自动化进程不断推进,产生的数据越来越多,数据库存储技术给这些数据提供了规范化、结构化的管理方式,但是能否将日常产生的数据全部规范为数据库格式,能否从看似有用却又无法处理的海量数据中挖掘与分析出有用的信息,传统的数据库导入技术与查询方式显然已无法满足需要,尤其对于文档类的非结构化数据进行采集、分析更是成为目前研究的热点问题。
   本课题从实际业务需求出发,针对目前计算机软件产生的各类文档进行采集、存储、实体信息提取与分析。结合实际工作需要,研发了“基于非结构化数据的抽取与分析系统”软件。根据其业务应用,制定了开发方案,对技术难点进行了攻坚,将日常使用的各类文档以非二进制数据形式存入数据库中,完成数据的入库规整。使用Windows IFilter API来解决对各类不同格式文档的采集兼容性问题,利用CDO组件解决Email文件的操作难题,效果明显、方法简练,将非结构化文档成功转换为半结构化文档转换。在此基础上,利用TQP.SplitAI.dll组件从采集的文档内容中抽取出姓名、地址、电话号码、汽车牌照、身份证号、银行卡号、Email地址、URL等有用和关心的实体信息,全面实现数据结构化。
   为了适应真实数据与工作环境,针对海量数据的特性,根据“私有云”中“基础设施即服务”的理念设计了分布式处理系统,解决了海量文档采集与实体信息提取的难题,实现了网络负载均衡。并且最终根据业务需求模型对结构化数据进行分析,以图形的方式展示了分析结果,系统中模拟HuSpring力引导动态布点算法对分析结果进行可视化展示,依照引用力学原理,有效区分图形社团,有利于海量信息的展示,增强了最终分析结果图形展示可读性。
   在系统设计与研发中,应用了文档采集、实体抽取、分布式计算、可视化展示等多项技术,并进行了区分功能模块的设计思路,符合现代软件开发标准。研发成果得到了使用单位的肯定并得到使用单位系统全国装备,显著提升了相关业务工作能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号