首页> 中国专利> 一种改进的SEG-Y文件中地震数据无损压缩算法

一种改进的SEG-Y文件中地震数据无损压缩算法

摘要

本发明公开了一种改进的SEG‑Y文件中地震数据无损压缩算法,解决SEG‑Y文件中地震数据压缩比率过高的问题,本发明将SEG‑Y文件中的地震数据值根据表示该数据值的四个字节依次分解成四个分组数据,所有地震数据值分解后得到四个分组数据组,运用基尼系数计算方法分别计算出SEG‑Y文件中所有地震数据值以及其分解成每个数据组的基尼系数,根据该基尼系数能分析出对不同分组数据组采取不同算法进行压缩,通过对比不同压缩算法对各个分组的压缩比率,采用Lzma算法对SEG‑Y文件中所有地震数据中A和B分组数据组进行压缩,同时,将SEG‑Y文件中所有地震数据中C和D分组数据组采用Deflate算法进行压缩。

著录项

  • 公开/公告号CN106019369A

    专利类型发明专利

  • 公开/公告日2016-10-12

    原文格式PDF

  • 申请/专利权人 西南科技大学;四川理工学院;

    申请/专利号CN201610486968.9

  • 申请日2016-06-28

  • 分类号G01V1/28(20060101);H03M7/30(20060101);

  • 代理机构成都众恒智合专利代理事务所(普通合伙);

  • 代理人刘华平

  • 地址 621010 四川省绵阳市涪城区青龙大道中段59号

  • 入库时间 2023-06-19 00:38:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-13

    著录事项变更 IPC(主分类):G01V1/28 变更前: 变更后: 申请日:20160628

    著录事项变更

  • 2019-08-13

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G01V1/28 变更前: 变更后: 变更前: 变更后: 申请日:20160628

    专利权人的姓名或者名称、地址的变更

  • 2017-12-22

    授权

    授权

  • 2016-11-09

    实质审查的生效 IPC(主分类):G01V1/28 申请日:20160628

    实质审查的生效

  • 2016-10-12

    公开

    公开

说明书

技术领域

本发明涉及一种压缩算法,具体涉及一种改进的SEG-Y文件中地震数据无损压缩算法。

背景技术

随着油气勘探开发的不断深入以及勘探目标复杂度的提高,三维地震采集以及高精度三维地震采集在实际生产中也越来越多地使用,伴随而来的是炮点和检波点布置越来越多,采集的数据量也越来越大。例如:2013年大庆和平牧场三维勘探任务,单炮所产生的数据为140MB,每天采集的数据量约为100~140GB;二维勘探任务中每天采集的数据量差不多在5~10GB之间,这无疑将产生大量的地震数据。目前地震数据普遍采用SEG-Y文件进行记录,如此庞大的SEG-Y文件地震数据不仅给存储和传输速度方面造成相当大的压力,而且对于传输成本和生产监测等方面也造成了相当大的负担。因此为了减少各方面的压力和负担,对SEG-Y文件中的地震数据先进行压缩成为将其存储或者传输之前必不可少的准备工作之一。

数据压缩技术发展至今主要包括了无损压缩算法和有损压缩算法,无损压缩算法也称为无失真编码、熵编码、信息保持编码等,被压缩的数据能够通过解压缩恢复到之前的原状态,其涉及到的算法及软件有很多,目前应用最广的算法主要有Lzma算法、Deflate算法、Bzip2算法和WinRAR算法,然而在运用这四种算法对SEG-Y文件中地震数据进行无损压缩时,普遍存在压缩比率过高的问题。于是在对SEG-Y文件中地震数据进行压缩时,发明一种压缩比率较低的算法成为该技术领域技术人员亟待解决的难题。

发明内容

本发明主要针对地震数据文件中最常用的SEG-Y文件进行研究,从无损数据压缩算法着手,设计出一种对于SEG-Y文件进行压缩时压缩比率更低的无损压缩算法。本发明要解决的技术问题是:解决现有技术中对SEG-Y文件中地震数据进行压缩时压缩比率过高的问题。

为实现上述目的,本发明采用的技术方案如下:

一种改进的SEG-Y文件中地震数据无损压缩算法,具有如下步骤:

步骤1:将SEG-Y文件中单个地震数据值分解成四个分组数据,分别为第一分组数据、第二分组数据、第三分组数据和第四分组数据;

步骤2:将SEG-Y文件中所有地震数据值根据步骤1的方法进行分解,将所有第一分组数据列为A分组数据组,将所有第二分组数据列为B分组数据组、将所有第三分组数据列为C分组数据组,将所有第四分组数据列为D分组数据组;

步骤3:运用基尼系数计算方法分别计算出SEG-Y文件中所有地震数据值的基尼系数,以及所有地震数据值分解成的每个数据组的基尼系数,根据该基尼系数分析出对不同的分组数据组采取不同的算法进行压缩,然后采用Lzma算法对SEG-Y文件中所有地震数据中的A分组数据组和B分组数据组进行压缩,同时,将SEG-Y文件中所有地震数据中的C分组数据组和D分组数据组采用Deflate算法进行压缩。

进一步地,所述步骤3中基尼系数根据公式进行计算,其中,G值表示基尼系数,i∈[0,255],n=256,Wi表示第0个数值到第i个数值的频次累计占所有频次和的百分比,所述数值按频次从小到大排列;式中,G值越趋近于1,表示该文件中数据在[0,255]区间内的分布越不均衡,越趋近于0,表示该文件中数据在[0,255]区间内的分布越均衡。

现将本发明的发明原理做一个简要说明:

1.数据频率分布

通过频次统计可以直观的得到单个文件中数据的分布情况,不过对于多个文件的分析,这种方法则较为繁琐,且不便于定量比较不同文件的数据分布差异,因此,本发明引入基尼系数描述SEG-Y文件的大致分布情况,其计算公式如下所示:式中i∈[0,255],n=256,Wi表示第1个数值到第i个数值的频次(将数值按频次由小到大排列)累计占所有频次和的百分比。在本发明中,若G值越趋近于1,则表示该文件中数据在[0,255]区间内的分布越不均衡,越趋近于0,则表示该文件中数据在[0,255]区间内的分布越均衡。

如图1所示,本发明选取了10个不同大小的SEG-Y文件,对每一个SEG-Y文件计算其整体数据和各分组数据的基尼系数,从图1中可以看出,不同SEG-Y文件的各分组数据计算得到的G值相近,说明各文件中的数据在[0,255]区间内的分布情况大体相近;且各分组数据的G值与整体数据的G值不相同,可知A、B、C、D分组数据与整体数据在[0,255]区间内的分布情况不同,其中,A组数据的G值最大,且趋近于1,表明其数据在[0,255]区间内的分布极不均衡,B组数据次之,C组和D组G值较小,分布较为均衡;而整体数据的G值在各分组数据的G值之间,这也意味着是分布均衡数据组与分布不均衡组的一个中和结果。

2.分组压缩方法

通过上述的分析可知不同分组数据组中数据的频率分布与整体数据的频率分布不同,而无损数据压缩算法的效果又与数据的频率分布息息相关,因此,有必要对不同频率分布的分组数据组采用不同的数据压缩算法。下面分别采用了Lzma算法、Deflate算法、Bzip2算法和WinRAR算法对各分组数据组进行压缩,分别得到结果如图2、3、4、5所示。

从图2可以看出,四种压缩算法对A组数据的压缩效果较为显著,基本压缩到原数据大小的30%以下,其中Deflate算法压缩效果最差,WinRAR算法压缩次之,Lzma算法与bzip2算法的压缩效果最好且相近,达到18%左右。

从图3可以看出,四种算法的压缩效果相近,为原数据大小的90%左右,Deflate算法与Lzma算法对于B组数据的压缩效果相比于WinRAR算法较好,其中,Lzma算法相比于Defalte算法,压缩率相差1个百分点左右,Lzma算法表现较优。

从图4可以看出,四种算法对于C组数据不能取得很好的压缩效果,Lzma算法的压缩效果最差,甚至压缩后的数据大小比原数据大小还大,而Deflate算法在四种算法中表现最好,能够取得99%的压缩效果。

从图5可以看出,四种算法对于D组数据同样不能取得很好的压缩效果,与C组的对比结果相似,Deflate算法在四种算法中表现最好,能够取得99%的压缩效果。

根据所做的实验结果,可以得出A、B两组的压缩效果以Lzma算法较优,BZip2算法次之,而C、D两组的压缩情况以Deflate算法和WinRAR算法表现较好,因此本发明对A、B两组数据采用Lzma算法压缩,同时对C、D两组数据则采用Deflate算法压缩。

与现有技术相比,本发明具有以下有益效果:

按照本发明对SEG-Y文件中各地震数据进行压缩时,其压缩比率在75%~80%之间,与目前行业压缩算法相比,压缩比率最低,不仅极大地减少了此类文件存储和传输速度方面的压力,而且使传输成本和生产监测等方面的负担得到了很大的改善。

附图说明

图1为不同SEG-Y文件中地震整体数据和各分组数据组G值对比图。

图2为不同算法对A组数据组的压缩效果对比图。

图3为不同算法对B组数据组的压缩效果对比图。

图4为不同算法对C组数据组的压缩效果对比图。

图5为不同算法对D组数据组的压缩效果对比图。

图6本发明与Lzma算法、Deflate算法、Bzip2算法和WinRAR算法压缩结果对比图。

图7本发明与Lzma算法、Deflate算法、Bzip2算法和WinRAR算法解压缩效率对比图。

图8为本发明的流程示意图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。

如图1、2、3、4、5、8所示,一种改进的SEG-Y文件中地震数据无损压缩算法,具有如下步骤:

步骤1:将SEG-Y文件中单个地震数据值分解成四个分组数据,分别为第一分组数据、第二分组数据、第三分组数据和第四分组数据;

步骤2:将SEG-Y文件中所有地震数据值根据步骤1的方法进行分解,将所有第一分组数据列为A分组数据组,将所有第二分组数据列为B分组数据组、将所有第三分组数据列为C分组数据组,将所有第四分组数据列为D分组数据组;

步骤3:运用基尼系数计算方法分别计算出SEG-Y文件中所有地震数据值的基尼系数,以及所有地震数据值分解成的每个数据组的基尼系数,根据该基尼系数分析出对不同的分组数据组采取不同的算法进行压缩,通过对比不同压缩算法对各个分组的压缩比率,采用Lzma算法对SEG-Y文件中所有地震数据中的A分组数据组和B分组数据组进行压缩,同时,将SEG-Y文件中所有地震数据中的C分组数据组和D分组数据组采用Deflate算法进行压缩。

进一步地,所述步骤3中基尼系数根据公式进行计算,其中,G值表示基尼系数,i∈[0,255],n=256,Wi表示第0个数值到第i个数值的频次累计占所有频次和的百分比,所述数值按频次从小到大排列;式中,G值越趋近于1,表示该文件中数据在[0,255]区间内的分布越不均衡,越趋近于0,表示该文件中数据在[0,255]区间内的分布越均衡。

为了测试本发明提出的分组压缩算法的有效性,对本发明的压缩结果和解压缩效率与目前流行的压缩算法及软件进行了对比实验,实验方法和结果如下:

本实验包括了E、F两台计算机,其硬件环境如下:CPU为Interl(R)Core(TM)i5-3470CPU@3.20GHz,内存为4.00G,网络适配器为Realtek PCIe GBE Family Controller。实验数据选取了1902Kb至188728Kb不同大小的25个SEG-Y文件。

利用本发明提出的分组压缩算法与Lzma算法、Deflate算法、Bzip2算法和WinRAR算法对1902Kb至188728Kb不同大小的25个SEG-Y文件进行了压缩,将压缩后的文件大小除以原始文件的大小得到算法的压缩率,统计结果如图6所示,若值为100%,则表示压缩后的文件大小与原始文件大小相同,值越小表示压缩效果越好。

从图6中不难看出,对于不同大小的SEG-Y文件,各算法的压缩率基本保持一致,而不同算法的压缩差异也可以直观地看到,本发明算法压缩率最低,在75%到80%之间,Lzma算法次之,在85%左右,而Deflate算法、Bzip2算法与WinRAR算法之间虽有差异,不过略小,基本保持在90%左右。

各算法在对原始SEG-Y文件进行压缩后,调用计时函数得到各算法对压缩文件的解压缩耗时,并且各算法对每个文件重复10次实验,计算得到10次实验的平均值,最终统计得到结果如图7所示。

从图7中可以看出,当文件大小较小时,各算法的解压缩耗时差异不是很明显,而随着SEG-Y文件大小的增加,各算法的差异也就显现出来,可以看出各算法的解压缩耗时与文件大小近似于线性关系,其中,以Bzip2算法耗时最长且增长速度最快,Lzma算法次之,Deflate算法和WinRAR算法解压缩耗时较为相近,在几种算法中耗时最少且增长速度最慢,而本发明算法则处于四者之间。

本发明对SEG-Y文件地震数据提供了一种无损压缩算法,将SEG-Y文件地震数据按照表示该数据值的四个字节依次分解成四个分组数据;整个SEG-Y文件中的地震数据经过分解后就会得出四个分组数据组,即分别为A分组数据组、B分组数据组、C分组数据组和D分组数据组,然后引用基尼系数实验对比SEG-Y文件整体数据和各分组数据组的分布情况,确定利用Lzma算法压缩前两个分组数据组(即A分组数据组和B分组数据组),同时将后两个分组数据组(即C分组数据组和D分组数据组)采用Deflate算法进行压缩。本发明最后和目前流行的压缩算法及软件对SEG-Y文件的压缩率和解压缩时间进行了对比,实验结果表明本发明提出的方法可以实现75%-80%范围的压缩率,达到了目前行业应用软件中压缩率最低,并且解压缩的时间也介于目前流行软件之间。本发明具备突出的实质性特点和显著进步。

上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号