公开/公告号CN112861508A
专利类型发明专利
公开/公告日2021-05-28
原文格式PDF
申请/专利权人 中国石油天然气集团有限公司;中国石油集团测井有限公司;
申请/专利号CN202110039023.3
申请日2021-01-12
分类号G06F40/205(20200101);G06F40/186(20200101);
代理机构61200 西安通大专利代理有限责任公司;
代理人房鑫
地址 100007 北京市东城区东直门北大街9号中国石油大厦
入库时间 2023-06-19 11:08:20
技术领域
本发明属于石油勘探测井解释技术领域,具体属于一种针对测井离散数据的规范方法及系统,使用该系统可以方便的实现对各类离散数据的规范化,为测井解释工作提供优质的数据源领域。
背景技术
合格的数据来源是进行测井解释工作的必备条件,在测井解释工作中会用到各类数据,而离散数据的特殊性会给解释工作带来不便。不同于其他有着固定格式的数据,离散数据的组织较为自由,不同单位在同类数据的组织方式之间会存在一定的差异,而不同的解释平台对离散数据的定义也存在差异,因此在使用该类数据前,首先需要进行数据规范化。在传统的数据规范工作中,需要对每个数据文件进行大量的手动整理工作,最终形成所需的数据源,无形中会增加许多工作量。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种针对测井离散数据的规范方法及系统,用户可以为每类数据定制规范模板,在进行数据规范时,可直接使用相应模板而无需做大量的重复性工作,从而将解释人员从繁琐的数据准备工作解放出来。
为实现上述目的,本发明提供如下技术方案:一种针对测井离散数据的规范方法,具体包括:获取待解析原始文件以及所需成果数据的数据格式;
将所述待解析原始文件解析为所需成果数据,确定得到的所需成果数据的数据格式是否正确,若得到的所需成果数据的数据格式不正确,则重新解析待解析原始文件得到最终成果数据;
将最终成果数据写入所需系统或文件中。
本发明还提供一种实现测井离散数据规范方法的系统,其特征在于,具体包括:
获取模块,用于获取待解析原始文件以及所需成果数据的数据格式,所述待解析原始文件类型为Excel文件或文本文件;
解析模块,包括解析模板,所述解析模板用于接收待解析原始文件,并将待解析原始文件解析为所需成果数据,判断得到的所需成果数据的数据格式是否正确,若得到的所需成果数据的数据格式不正确则重新解析待解析原始文件,得到最终成果数据;
写入模块,用于接收最终成果数据并将最终成果数据写入目标平台。
进一步的,所述解析模板根据所需成果数据的数据格式制作,若待解析原始文件无对应的解析模板则先制作解析模板;若得到的所需成果数据的数据格式不正确则调整解析模板的参数,重新解析原始文件得到最终成果数据,并保存调整后的解析模板。
进一步的,所述解析模板用于解析Excel文件,所述解析模板包括表单索引、表头行、开始行、空白行数、关键列、读取方式、目标列索引。
进一步的,所述表单索引用于指定需要读取的Excel文件所在索引;
所述表头行用于指定Excel文件中数据表头所在的行;
所述开始行用于指定读取Excel文件中数据的起始行位置;
所述空白行数用于判断是否结束Excel文件中数据的读取,当原始文件中的空白行数超过所述空白行数时,解析模板结束Excel文件中数据的读取;
所述关键列用于判断Excel文件中行数据的有效性,如果行数据中关键列为空值,则该行数据无效;
所述自动切分用于确定Excel文件中需要切分的列及切分的分隔符;
所述读取方式用于确定读取Excel文件中单元格的格式;
所述目标列索引用于存储Excel文件中列索引与目标文件中列索引之间的对应关系,从而将Excel文件中的数据转为所需成果数据。
进一步的,所述解析模板用于解析文本文件,所述解析模板包括以下内容:表头行、数据行、分隔符和目标列索引。
进一步的,所述表头行用于指定文本文件中表头所在行;
所述数据行用于指定文本文件中数据的起始行位置;
所述分隔符用于将文本文件中的每一行数据切分成多个列,文本文件中行分隔符为“\n”,列分隔符由用户指定;
所述目标列索引用于存储文本文件中列索引与目标文件中列索引的对应关系,从而将原始数据转为所需成果数据。
进一步的,解析模板命名并保存至一个XML文件,在进行原始文件解析时可以直接通过该解析模板的名称调用相应解析模板。
进一步的,所述解析模板通过模板管理器解析,所述模板管理器提取解析模板的解析规则,并根据所述解析规则读取所述原始文件中的数据形成二维数据表,然后根据所述解析规则中的列对应关系形成所需成果数据。
进一步的,所述解析模板的制作及调整均可在软件界面中交互进行。
与现有技术相比,本发明至少具有以下有益效果:
本发明提供的一种针对测井离散数据的规范方法,对离散的测井数据即原始文件进行了解析得到所需成果数据,提高了规范离散数据得到所需成果数据的效率,减轻处理解释人员的数据准备工作,避免了离散数据的不规范性导致的处理解释人员必须经过大量繁琐的规范整理后才能使用这些数据。
本发明提供的实现测井离散数据规范方法的系统,包括通过定义解析模块中规范数据的解析模板,制作并调整解析模板,并将最终的解析模板保存在配置文件,实现解析模板的重复调用,同时发明提供的系统中解析模板的制作和调整采用软件界面交互的方式进行,极大的方便了数据规范工作。
附图说明
图1是系统流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
本发明提供一种针对测井离散数据的规范方法,包括获取待解析原始文件以及所需成果数据的数据格式,其中所述待解析原始文件类型为Excel文件或文本文件;
将所述待解析原始文件解析为所需成果数据,确定得到的所需成果数据的数据格式是否正确,若得到的所需成果数据的数据格式不正确,则重新解析待解析原始文件得到最终成果数据;
将最终成果数据写入所需系统或文件中。
规范方法的具体步骤如下:
步骤1,获得原始文件及所需成果数据的数据格式,并确定原始文件对应所需使用的解析模板,若相应的解析模板已经存在,则可直接跳至步骤3,否则执行步骤2。
步骤2,根据原始文件及所需成果数据的数据格式制作解析模板,并保存解析模板,制作模板的过程在软件界面中交互式完成,其中原始文件类型包括Excel文件或文本文件;
步骤3,载入原始文件,程序根据所使用的解析模板解析原始文件,并得到成果数据;若形成的成果数据的数据格式无误,可跳至步骤5,否则需执行步骤4。
步骤4,调整解析模板的参数,校正成果数据的数据格式,并保存最终的解析模板。
步骤5,调用平台接口,将最终形成的成果数据导入目标软件平台中。
优选的,步骤3中,将解析模板命名并保存至一个XML文件,在进行原始文件解析时可以直接通过该解析模板的名称调用相应解析模板。
优选的,步骤3中,通过模板管理器解析XML文件中的解析模板,模板管理器提取解析模板的解析规则,并根据解析规则读取原始文件中的数据形成二维数据表,然后根据解析规则中的列对应关系形成所需成果数据。
优选的,解析模板中可以存储多个规则,用户自己选择合适的规则来解析原始文件,解析规则里面定义了如何将原始文件重新组织成所需格式的数据。
优选的,步骤4中,解析模板的参数基于软件界面进行交互调整。
优选的,步骤5中,本实施例中最终采用的目标软件平台为测井处理解释平台,不同用户采用的平台不同,具体视情况而定。
本发明提供的一种实现测井离散数据规范方法的系统,具体包括:
获取模块,用于获取待解析原始文件以及所需成果数据的数据格式,所述待解析原始文件类型为Excel文件或文本文件;
解析模块,包括解析模板,所述解析模板用于接收待解析原始文件,并将待解析原始文件解析为所需成果数据,判断得到的所需成果数据的数据格式是否正确,若得到的所需成果数据的数据格式不正确则重新解析待解析原始文件,得到最终成果数据;
写入模块,用于接收最终成果数据并将最终成果数据写入所需系统或文件中。
优选的,用于解析Excle文件的解析模板包括以下内容:
a)表单索引:指定需要读取的Excel文件所在索引;
b)表头行:指定Excel文件表头所在的行;
c)开始行:指定读取Excel文件中数据的起始行位置;
d)空白行数:判断是否结束Excel文件中数据的读取,当原始文件中的空白行数超过所述空白行数时,解析模板结束Excel文件中数据的读取;
e)关键列:判断Excel文件中行数据的有效性,如果该行中的关键列存在空值,则该行数据无效;
f)自动切分:确定Excel文件需要切分的列及切分的分隔符;
g)读取方式:确定读取Excel文件中单元格的格式,如文本、数字、日期等;
h)目标列索引:存储读取的Excel文件中原始列与目标列之间的对应关系,从而将原始数据转为所需成果数据。
优选的,解析文本文件的解析模板包括以下内容:
a)表头行:指定文本文件中表头所在的行;
b)数据行:指定文本文件中数据的起始行位置;
c)分隔符:所述分隔符用于将文本文件中的每一行数据切分成多个列,文本文件中行分隔符为“\n”,列分隔符由用户指定,如“,”、“;”、“:”、“|”、“\t”、“\b”等。
e)目标列索引:存储读取的文本文件中原始列与目标列之间的对应关系,从而将原始数据转为所需的成果数据。
优选的,交互整理数据的操作可以保存为模板,在对同格式的数据进行规范整理时,只需选择相应的模板即可一键式完成整理工作。
以测井处理解释平台为例对表1的数据进行数据规范处理,本发明的规范方法的填充列功能自动将井名、层位等数据填充至相应的单元格,切分列功能将深度列自动切分为两列数据,通过交互调整表头,将原始文件的数据列与目标格式一一对应,得到规范化处理后的结果如表2所示:
表1原始的离散数据
表2规范化处理后的成果
综上可以看出,表1中是原始的离散数据文件,表2是规范化后的最终成果,通过对比发现,表1中多行数据的井名、层位等信息相同,采用了合并单元格,开始深度和结束深度利用连接符存储在同一列,并且原始文件中表头的名称与目标格式存在一定的差异,数据列的顺序与目标格式也不是完全对应。
生产单位提供的原始数据一般都是Excel或者文本格式,并且不同的单位提供的数据格式存在差异,而且为了美观或者方便查看,对原始数据会进行加工(比如合并单元格、多个数据存储在同一个单元格等),从而造成原始数据格式多样。
在不同软件平台中使用这类离散数据时,需要将原始的Excel文件转换为平台能够识别的格式,同样的一份数据,在不同的软件平台上的存储格式是不一样的,比如某一列数据在第一个平台中存储在第一列,但是在第二个平台上可能存储在了第二列,而平台在读取数据时,只能按照指定的列读取相应的数据,因此将原始数据载入软件平台时,需要严格的将每一列数据一一对应。
传统的方式是将原始数据中的每一列数据手动拷贝至软件平台指定的列,或者手动将原始文件整理为制定格式后再导入,比较繁琐,基于模板解析的方式,对于同类数据,只需要做好相应的解析模板,载入数据后软件自动调用对应模板即可快速实现数据的规范化。
本发明的主要目的是提供一种可以快速将原始数据导入软件平台的方法,而不是把数据本身变得更好用,因为不同的软件平台已经对数据的存储方式做了定义,不管用哪种方式载入数据,最终存入软件平台的格式肯定都是一样的,否则数据会无法使用。
机译: 针对几种威胁的安全保护系统及其规范方法
机译: 用于监测井中枪支系统的井下检测和测井系统,用于监测井检测中的枪管系统的触发的井下数据记录方法和用于自下而上检测中监测大炮系统的触发的测井井以及用于监视井中的加农炮系统的触发的测井方法,用于确认火车在大炮柱内移动的弹道列车从大炮柱扩散到下部大炮的方法以及用于确认在大炮内移动的弹道列车的方法炮塔从炮塔传播到下炮
机译: 一种在泥浆测井分析过程中收集数据的方法,相关计算系统和相关泥浆测井安装