数据抽取
数据抽取的相关文献在1991年到2023年内共计760篇,主要集中在自动化技术、计算机技术、经济计划与管理、无线电电子学、电信技术
等领域,其中期刊论文389篇、会议论文36篇、专利文献554597篇;相关期刊247种,包括中国金融电脑、科技创新导报、电脑知识与技术等;
相关会议34种,包括第33届中国数据库学术会议(NDBC2016 )、辽宁省通信学会2016年通信网络与信息技术年会、2014年石油石化企业信息技术交流会等;数据抽取的相关文献由1757位作者贡献,包括于戈、聂铁铮、寇月等。
数据抽取—发文量
专利文献>
论文:554597篇
占比:99.92%
总计:555022篇
数据抽取
-研究学者
- 于戈
- 聂铁铮
- 寇月
- 申德荣
- 孟小峰
- 刘伟
- 刘强
- 张宁
- 熊政
- 王磊
- 褚占峰
- 丁志勇
- 丁毅
- 于春燕
- 仲春林
- 何静
- 刘德光
- 刘新宇
- 刘桐
- 吴军
- 吴飞
- 周威
- 岳昆
- 崔志明
- 张丹
- 张元鸣
- 张卓
- 张涛
- 徐俊
- 徐金玲
- 方超
- 李军
- 李庆忠
- 李昆明
- 汤同伟
- 王亮
- 王军涛
- 王笑一
- 王龙
- 皮开元
- 肖刚
- 臧勇真
- 邓绪斌
- 邢桂芬
- 邢玉萍
- 郭建斌
- 金璐
- 闫中敏
- 陆佳炜
- 陈俊
-
-
-
-
摘要:
基于云平台的大数据分析能力,对海量数据进行分析和变现,构建煤矿大数据主数据管理系统及数据仓库,为平台运行管理和智能决策提供数据支持。煤矿大数据框架包括数据抽取加工、数据共享和交换、数据分析与预测等方面,最终构建主体数据模型库,从而形成数据集市,为综合管控平台各种应用提供数据支持。
-
-
彭晓珊;
朱绍威
-
-
摘要:
MIT-BIH为常用的国际3大心电图ECG信号数据库,由麻省理工学院开源提供,对于人体ECG信号的分析、数据挖掘有着非常大的作用。鉴于广大心内心外学科科研人员需要对MIT-BIH提供的ECG信号进行各类特定的研究,对该ECG信号的二次分析已成为重要手段,设计基于MATLAB平台M文件的转换程序,将MIT-BIH的数据格式转换成MATLAB的数据格式,并对关键代码进行分析。该转换程序将为后续进行ECG的PQRST波的各类智能化数据分析创造条件。
-
-
张志强;
王伟钧;
张修军;
施达
-
-
摘要:
为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效自动读取文件内容,清洗无用数据,并抽取有用信息数据构建数据库.
-
-
毛瑞
-
-
摘要:
针对工业监控领域数据开发中遇到的业务沟通不畅、模型研发门槛高、维护困难等问题,提出了一种数据抽取框架的设计思路,结合对数据抽取、任务编排、自定义数据源接入的分析和设计,为项目数据抽取工作的实际落地提供借鉴参考。
-
-
李永生;
张金标;
张敏;
陈冰怀
-
-
摘要:
以海量半结构化的气象数值预报数据产品为研究对象,针对传统数据抽取方法效率不高的问题,基于多进程处理技术,设计了一种基于精准位置寻址的快速数据块定位算法,实现了数据块的精准定位;设计了可按需在空间范围内进行裁剪的截取算法,可按需根据数据的属性维度、经纬度范围等信息实现数据按需抽取;基于上述算法实现了全流程统一控制的多进程数据读取的业务流程.并以单平面耗时为主要考核指标,分别采用1进程, 4进程、8进程以及16进程进行数据处理,实际测试结果表明,采用16进程处理比单个进程处理的速度由257 ms提高到37 ms.该方法有效的提升非结构气象数值预报产品数据的抽取效率,已在面向城市治理等气象决策分析业务中业务化应用.
-
-
陈自民;
卢艺文;
郭燕
-
-
摘要:
分析和研究以太坊上的区块、交易、账户和智能合约数据具有巨大价值,但是以太坊数据量大、数据种类多、存储结构各异,当前数据获取方法的获取速度慢而且获取的数据不全,因此充分利用这些数据非常困难.文中提出了基于区块并行的以太坊数据快速导出工具Geth-query,通过分析以太坊内部机制,利用区块世界状态快照消除区块之间的依赖关系,优化本机资源利用效率并行重放区块,实现了快速而全面地提取以太坊链上数据.实验证明,Geth-query提取的数据种类丰富,数据导出速度相比传统方法提升了10倍左右.为了使用方便,文中同时对导出的数据进行存储优化,并在前端页面进行数据展示,从而为分析和研究以太坊提供了数据基础.
-
-
顾星海;
鲍劲松;
吕超凡
-
-
摘要:
针对总成产品的装配数据通常分散于CAD模型与装配工艺文档中,因而不同类型的装配语义信息由于异构性无法相互关联的问题,基于知识图谱提出一种面向装配语义信息的建模方法,结合传统的数据映射与人工智能中的自然语言处理技术,实现了CAD模型的几何信息与装配工艺文档中工艺过程信息的智能集成.首先阐述了不同层次的语义特征在基于知识图谱的装配语义模型(KG–ASM)中所代表的概念、实体类及关系类;其次根据CAD模型文件与装配工艺文档,基于数据抽取、语义映射及自然语言处理技术自动构建KG–ASM中的实例节点;最后以航空航天产品中速度调节机构的试装过程为例验证KG–ASM及其构建方法的可行性.
-
-
徐娟;
魏子重;
高妍方;
包国峰
-
-
摘要:
在当前新冠肺炎疫情下,为做好疫情防控工作、合理安排医疗资源,需以医院全视图数据为视角,完成多源异构医疗数据如患者全视角病历信息、疫情管控信息、卫生统计报表等的汇聚。以山东第一医科大学附属省立医院信息化建设为例,对后关系型数据、文档型数据、非结构化数据,提出基于时间戳、CDC、WebService结合ETL技术的增量汇聚方法,对汇聚的数据进行标准化清洗,实现数据抽取。基于多种增量汇聚方法形成独立的临床信息数据库,存储以病人为中心的全程临床数据,诸如医嘱、电子病历、PACS等临床数据,用于病人的全视图信息共享及用于医院的临床业务监管、BI分析、科研教学支持等。多源异构医疗数据的汇聚方法对建设临床数据中心有重要意义,能满足医院日常运营决策、医疗服务质量、区域医疗单位数据共通,为公共卫生部门决策、疫情管控等场景提供数据辅助决策支撑。
-
-
刘爽;
杨辉;
李佳宜;
谭楠楠
-
-
摘要:
少数民族文化是少数民族在生产创造过程中形成的文化,对其进行挖掘保护和利用不仅能够促进民族团结、提升民族自信,更是坚定文化自信建设的重要途径.该文利用少数民族文化资源数据,以少数民族作为切入点构建少数民族文化知识图谱,为弘扬和保护民族文化提供新的技术实现手段和研究方向.提出了少数民族文化知识图谱构建模型.首先,利用本体构建工具对少数民族文化概念、关系以及属性进行本体库构建;然后,利用网络爬虫获取与少数民族文化有关的半结构化、非结构化数据,针对获取的不同类型数据进行实体、关系和属性的抽取;最后,利用Neo4j图数据库存储构建好的少数民族文化知识图谱.并在该知识图谱的基础上开发了少数民族文化可视化查询平台,用于自助查询和动态展示查询结果中实体和关系等信息.本研究为弘扬和保护少数民族文化提供了新的方法,搭建的可视化查询平台为广大用户提供了较为直观、易用的查询工具,极大的提升了用户体验.
-
-
岳婧文;
李晓霞;
秦少林
-
-
摘要:
当今社会,互联网技术迅猛发展,各种信息发布方式和渠道都在不断地变化,同时,社会关注的焦点也在实时发生变化,互联网信息监督管理的范围在不断增加,对于互联网信息的采集、维护和管理提出新要求.文章主要研究互联网信息多源异构数据的融合,将数据标准化,建立统一整合的大数据平台,深入分析各类数据,以多渠道数据源作为支撑,遵循大数据的建设理念和架构思想进行建设,实现对各类推送数据的融合、存储和处理.
-
-
Ding Yi;
丁毅;
Xu Gang;
徐刚;
Han Lu;
韩露
- 《中国地球物理学会地球物理技术委员会第九届学术会议——全域地球物理探测与智能感知学术研讨会》
| 2018年
-
摘要:
数据对于地球科学研究非常重要,很多高质量的数据来自于公开出版的学术论文,利用这些数据需要将文献中的文本抽取为结构化的数据,并融入新的科研过程中.然而人工抽取文献中的数据工作量较大,且效率低,为了更有效地实现数据的重用,本文对基于地学文献的数据抽取技术开展了研究,并结合数据库转换映射方法有效地实现了数据的自动化抽取和建库.文献格式及数据抽取需求:常见的公开出版学术文献的格式为caj和pdf两类,其中caj又包含kdh等格式.在大多数文献中,数据通常以表格的形式在文献中提供,如样品测试结果数据.这些数据包含了其数值信息和其他相关的属性信息,比如样品点对应的空间位置信息等,这些信息维度多数通过表格属性或隐含属性体现.数据抽取需要将文本中的表格转化为具有属性和数值信息的结构化数据.
-
-
肖锐君;
杨瑞启
- 《辽宁省通信学会2016年通信网络与信息技术年会》
| 2016年
-
摘要:
随着大数据时代来临,数据已经成为企业发展的要素之一.通过构建数据仓库,能够为企业决策的制定提供所有类型数据支持.在搭建邮政企业数据仓库的过程中,选择合适的数据抽取工具以确保实效和加强数据访问管控是着重需要考虑的两个方面,本篇论文将从这两个维度出发,结合工作实践和思考进行论述.在构建邮政企业数据仓库时,针对不同数据源运用了多种数据抽取相结合方案,提升了数据抽取效率。特别是运用了开源的ETL工具KETTLE后,更加便捷和高效地实现了跨网络的系统数据抽取,使用效果显著。
-
-
张红州;
刘明达;
张巨鹏
- 《2014军工制造业数字化技术交流会》
| 2014年
-
摘要:
本文提出了一种数据抽取的方法,通过需求分析、目标表设计、数据源形成、数据处理、数据展示等过程,将许多手工或半手工的单调而繁重数据集成任务转化为计算机的自动处理,为以数据说话的管理需求提供了支持,为DSS(DSS,Decision Support System)奠定了技术基础.
-
-
韩子扬;
李贵;
李征宇;
王凤英
- 《第九届沈阳科学学术年会》
| 2012年
-
摘要:
Deep Web网站提供了大量的专业领域数据,单机系统抽取Deep Web数据效率低,抽取周期长,不能保证数据的时效性;本文提出了一种基于分布式结构的Deep Web结构化数据抽取系统,采用服务器/客户端架构搭建系统,设计作业调度算法,平衡客户端之间任务量,保证各个客户端之间的任务平衡;设定任务库及任务状态,通过任务状态实现对任务的进度监控;使用客户端分担服务器的分析工作,减轻服务器的计算压力;选用Java工具实现系统,完成系统设计.通过对单机和分布式抽取实验分析,分布式Deep Web数据抽取系统综合利用了多计算机并行处理能力和分散的网络资源,提高了Deep Web数据抽取效率,保证了数据抽取的时效性.
-
-
-
倪源;
刘枭
- 《2014年石油石化企业信息技术交流会》
| 2014年
-
摘要:
文章首先介绍了数据仓库及ETL概念,分析了行业背景和研究意义,指出ETL在数据仓库中具有十分重要的地位和作用.针对SAP数据仓库的ETL工具,文章分析了其局限性.接着主要从数据抽取、数据转换、数据校验3个角度阐述了如何使用例程扩展SAP ETL工具的功能.最后,文章介绍了APD的基本概念和基础架构,并分析了APD和ETL之间的关系,通过具体实例,介绍了APD在扩展ETL中的应用.文章结合SAP数据仓库项目的具体实施过程,总结和分析了例程和APD在数据仓库ETL流程中的增强和扩展应用,为扩展ETL工具提出了新的解决方案,在结论中也指出,例程和APD也有一定的缺点,必须结合实际应用场景,避免滥用.
-
-
-
丁建伟;
孙恩博;
郭宇斌
- 《第十五届保密通信与信息安全技术学术年会》
| 2017年
-
摘要:
暗网社交网站,作为依托于暗网的社交网站,利用暗网的隐匿特性,存在大量的色情交易、药品军火非法交易、散播反动言论等信息,如何有效获取该类社交网站的信息成为暗网社交网站的一个核心问题,本文借鉴传统的暗网社交网络分析技术,从暗网社交网络的数据采集技术、暗网社交网络用户行为分析两个方面进行总结评价和趋势分析.
-
-
丁建伟;
孙恩博;
郭宇斌
- 《第十五届保密通信与信息安全技术学术年会》
| 2017年
-
摘要:
暗网社交网站,作为依托于暗网的社交网站,利用暗网的隐匿特性,存在大量的色情交易、药品军火非法交易、散播反动言论等信息,如何有效获取该类社交网站的信息成为暗网社交网站的一个核心问题,本文借鉴传统的暗网社交网络分析技术,从暗网社交网络的数据采集技术、暗网社交网络用户行为分析两个方面进行总结评价和趋势分析.
-
-
丁建伟;
孙恩博;
郭宇斌
- 《第十五届保密通信与信息安全技术学术年会》
| 2017年
-
摘要:
暗网社交网站,作为依托于暗网的社交网站,利用暗网的隐匿特性,存在大量的色情交易、药品军火非法交易、散播反动言论等信息,如何有效获取该类社交网站的信息成为暗网社交网站的一个核心问题,本文借鉴传统的暗网社交网络分析技术,从暗网社交网络的数据采集技术、暗网社交网络用户行为分析两个方面进行总结评价和趋势分析.