您现在的位置: 首页> 研究主题> 数据抽取

数据抽取

数据抽取的相关文献在1991年到2023年内共计760篇,主要集中在自动化技术、计算机技术、经济计划与管理、无线电电子学、电信技术 等领域,其中期刊论文389篇、会议论文36篇、专利文献554597篇;相关期刊247种,包括中国金融电脑、科技创新导报、电脑知识与技术等; 相关会议34种,包括第33届中国数据库学术会议(NDBC2016 )、辽宁省通信学会2016年通信网络与信息技术年会、2014年石油石化企业信息技术交流会等;数据抽取的相关文献由1757位作者贡献,包括于戈、聂铁铮、寇月等。

数据抽取—发文量

期刊论文>

论文:389 占比:0.07%

会议论文>

论文:36 占比:0.01%

专利文献>

论文:554597 占比:99.92%

总计:555022篇

数据抽取—发文趋势图

数据抽取

-研究学者

  • 于戈
  • 聂铁铮
  • 寇月
  • 申德荣
  • 孟小峰
  • 刘伟
  • 刘强
  • 张宁
  • 熊政
  • 王磊
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 摘要: 基于云平台的大数据分析能力,对海量数据进行分析和变现,构建煤矿大数据主数据管理系统及数据仓库,为平台运行管理和智能决策提供数据支持。煤矿大数据框架包括数据抽取加工、数据共享和交换、数据分析与预测等方面,最终构建主体数据模型库,从而形成数据集市,为综合管控平台各种应用提供数据支持。
    • 彭晓珊; 朱绍威
    • 摘要: MIT-BIH为常用的国际3大心电图ECG信号数据库,由麻省理工学院开源提供,对于人体ECG信号的分析、数据挖掘有着非常大的作用。鉴于广大心内心外学科科研人员需要对MIT-BIH提供的ECG信号进行各类特定的研究,对该ECG信号的二次分析已成为重要手段,设计基于MATLAB平台M文件的转换程序,将MIT-BIH的数据格式转换成MATLAB的数据格式,并对关键代码进行分析。该转换程序将为后续进行ECG的PQRST波的各类智能化数据分析创造条件。
    • 张志强; 王伟钧; 张修军; 施达
    • 摘要: 为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效自动读取文件内容,清洗无用数据,并抽取有用信息数据构建数据库.
    • 毛瑞
    • 摘要: 针对工业监控领域数据开发中遇到的业务沟通不畅、模型研发门槛高、维护困难等问题,提出了一种数据抽取框架的设计思路,结合对数据抽取、任务编排、自定义数据源接入的分析和设计,为项目数据抽取工作的实际落地提供借鉴参考。
    • 李永生; 张金标; 张敏; 陈冰怀
    • 摘要: 以海量半结构化的气象数值预报数据产品为研究对象,针对传统数据抽取方法效率不高的问题,基于多进程处理技术,设计了一种基于精准位置寻址的快速数据块定位算法,实现了数据块的精准定位;设计了可按需在空间范围内进行裁剪的截取算法,可按需根据数据的属性维度、经纬度范围等信息实现数据按需抽取;基于上述算法实现了全流程统一控制的多进程数据读取的业务流程.并以单平面耗时为主要考核指标,分别采用1进程, 4进程、8进程以及16进程进行数据处理,实际测试结果表明,采用16进程处理比单个进程处理的速度由257 ms提高到37 ms.该方法有效的提升非结构气象数值预报产品数据的抽取效率,已在面向城市治理等气象决策分析业务中业务化应用.
    • 陈自民; 卢艺文; 郭燕
    • 摘要: 分析和研究以太坊上的区块、交易、账户和智能合约数据具有巨大价值,但是以太坊数据量大、数据种类多、存储结构各异,当前数据获取方法的获取速度慢而且获取的数据不全,因此充分利用这些数据非常困难.文中提出了基于区块并行的以太坊数据快速导出工具Geth-query,通过分析以太坊内部机制,利用区块世界状态快照消除区块之间的依赖关系,优化本机资源利用效率并行重放区块,实现了快速而全面地提取以太坊链上数据.实验证明,Geth-query提取的数据种类丰富,数据导出速度相比传统方法提升了10倍左右.为了使用方便,文中同时对导出的数据进行存储优化,并在前端页面进行数据展示,从而为分析和研究以太坊提供了数据基础.
    • 顾星海; 鲍劲松; 吕超凡
    • 摘要: 针对总成产品的装配数据通常分散于CAD模型与装配工艺文档中,因而不同类型的装配语义信息由于异构性无法相互关联的问题,基于知识图谱提出一种面向装配语义信息的建模方法,结合传统的数据映射与人工智能中的自然语言处理技术,实现了CAD模型的几何信息与装配工艺文档中工艺过程信息的智能集成.首先阐述了不同层次的语义特征在基于知识图谱的装配语义模型(KG–ASM)中所代表的概念、实体类及关系类;其次根据CAD模型文件与装配工艺文档,基于数据抽取、语义映射及自然语言处理技术自动构建KG–ASM中的实例节点;最后以航空航天产品中速度调节机构的试装过程为例验证KG–ASM及其构建方法的可行性.
    • 徐娟; 魏子重; 高妍方; 包国峰
    • 摘要: 在当前新冠肺炎疫情下,为做好疫情防控工作、合理安排医疗资源,需以医院全视图数据为视角,完成多源异构医疗数据如患者全视角病历信息、疫情管控信息、卫生统计报表等的汇聚。以山东第一医科大学附属省立医院信息化建设为例,对后关系型数据、文档型数据、非结构化数据,提出基于时间戳、CDC、WebService结合ETL技术的增量汇聚方法,对汇聚的数据进行标准化清洗,实现数据抽取。基于多种增量汇聚方法形成独立的临床信息数据库,存储以病人为中心的全程临床数据,诸如医嘱、电子病历、PACS等临床数据,用于病人的全视图信息共享及用于医院的临床业务监管、BI分析、科研教学支持等。多源异构医疗数据的汇聚方法对建设临床数据中心有重要意义,能满足医院日常运营决策、医疗服务质量、区域医疗单位数据共通,为公共卫生部门决策、疫情管控等场景提供数据辅助决策支撑。
    • 刘爽; 杨辉; 李佳宜; 谭楠楠
    • 摘要: 少数民族文化是少数民族在生产创造过程中形成的文化,对其进行挖掘保护和利用不仅能够促进民族团结、提升民族自信,更是坚定文化自信建设的重要途径.该文利用少数民族文化资源数据,以少数民族作为切入点构建少数民族文化知识图谱,为弘扬和保护民族文化提供新的技术实现手段和研究方向.提出了少数民族文化知识图谱构建模型.首先,利用本体构建工具对少数民族文化概念、关系以及属性进行本体库构建;然后,利用网络爬虫获取与少数民族文化有关的半结构化、非结构化数据,针对获取的不同类型数据进行实体、关系和属性的抽取;最后,利用Neo4j图数据库存储构建好的少数民族文化知识图谱.并在该知识图谱的基础上开发了少数民族文化可视化查询平台,用于自助查询和动态展示查询结果中实体和关系等信息.本研究为弘扬和保护少数民族文化提供了新的方法,搭建的可视化查询平台为广大用户提供了较为直观、易用的查询工具,极大的提升了用户体验.
    • 岳婧文; 李晓霞; 秦少林
    • 摘要: 当今社会,互联网技术迅猛发展,各种信息发布方式和渠道都在不断地变化,同时,社会关注的焦点也在实时发生变化,互联网信息监督管理的范围在不断增加,对于互联网信息的采集、维护和管理提出新要求.文章主要研究互联网信息多源异构数据的融合,将数据标准化,建立统一整合的大数据平台,深入分析各类数据,以多渠道数据源作为支撑,遵循大数据的建设理念和架构思想进行建设,实现对各类推送数据的融合、存储和处理.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号