首页> 中国专利> 未残缺JPEG文件碎片重组的方法

未残缺JPEG文件碎片重组的方法

摘要

本发明公开了一种未残缺JPEG文件碎片重组方法,首先,在存储介质上提取并确定出JPEG文件碎片数据;然后获得JPEG文件头信息,并根据所述JPEG文件头信息对所述JPEG文件碎片数据按照JPEG的文件类型进行解码,得到多个待分析的JPEG文件碎片数据块;之后,利用相似度模型得到两个数据块的相似度,根据相似度将相邻的数据块连接起来形成JPEG文件;最后利用每个数据块的MCU差异度diff

著录项

  • 公开/公告号CN102682024A

    专利类型发明专利

  • 公开/公告日2012-09-19

    原文格式PDF

  • 申请/专利权人 中国科学院高能物理研究所;

    申请/专利号CN201110062119.8

  • 发明设计人 肖腾;杨泽明;刘宝旭;

    申请日2011-03-11

  • 分类号G06F17/30;

  • 代理机构北京信慧永光知识产权代理有限责任公司;

  • 代理人王月玲

  • 地址 100049 北京市玉泉路19号(乙)

  • 入库时间 2023-12-18 08:00:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-02-05

    授权

    授权

  • 2012-11-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110311

    实质审查的生效

  • 2012-09-19

    公开

    公开

说明书

技术领域

本发明涉及一种计算机硬盘或其他可移动存储介质的磁盘碎片数 据的重组方法,特别是涉及一种未残缺JPEG文件碎片重组的方法。

背景技术

随着信息技术的不断发展,计算机越来越多的参与到人们日常的 工作和生活中,伴随而来的是与计算机相关的法庭案件也不断发生。 因此,这种新的存在于计算机、数码产品及网络设备等的电子数据成 为了诉讼中合法的证据形式之一。这些证据包括网络日志、文本、视 频、图像等,然而这些电子证据却非常容易形成碎片文件(当前文件 被分割成为多个数据不连续的部分,即不是以连续存放形式的或数据 残缺的文件,这样的文件称为碎片文件),在没有文件系统信息的情况 下很难恢复这些文件。

文件系统在存储数据到磁盘时以簇或块为单位,分散保存到整个 磁盘的不同地方,在现有技术中,将这些分散保存到磁盘的不同地方 一个文件的不同部分称为文件碎片,也即一个文件被分割成为多个数 据不连续的部分,每个部分成为一个文件碎片。这些文件碎片会导致 系统性能降低,使得运行速度下降,因而,通过传统的磁盘碎片整理 程序来处理碎片,磁盘碎片整理程序可以分析硬盘中的磁盘碎片,移 动并合并文件碎片,使每个文件都可以占用硬盘上单独而连续的储存 空间,从而提高磁盘使用空间的使用率,提高磁盘读取文件的速度。

虽然磁盘中的碎片数据通常是不完整、易被覆盖和易被忽略的, 但往往是司法取证中须提取的关键数据,在一些案件的处理过程中具 有至关重要的作用。特别是,当磁盘的文件索引丢失或未分配使用的 扇区中有隐藏的数据时,如何依据法律的要求提取碎片数据,并进行 分析与重构,为起诉提供证据,为法庭重现犯罪行为是当前亟须解决 的问题。

因此,需要一种针对磁盘碎片数据的重组的方法,为司法裁决过 程提供非常重要的信息。

发明内容

本发明所要解决的技术问题在于,针对现有技术的不足提供一种 用以重组JPEG文件碎片数据的方法,即一种未残缺JPEG文件碎片重 组的方法。

本发明所要解决的技术问题是通过如下技术方案实现的:

一种未残缺JPEG文件碎片重组方法,包括以下步骤:

步骤1:在存储介质上提取并确定出JPEG文件碎片数据;

步骤2:获得JPEG文件头信息,并根据所述JPEG文件头信息对 所述JPEG文件碎片数据按照JPEG的文件类型进行解码,得到多个待 分析的JPEG文件碎片数据块;

步骤3:利用相似度模型的公式(1)得到两个数据块的相似度, 根据相似度将相邻的数据块连接起来形成JPEG文件;

diffpix=Rd2+Gd2+Bd2公式(1)

其中,Rd、Gd、Bd分别为两个相邻数据块边缘的像素R、G、B 之间的差值,其中,diffpix为边缘像素的相似度;

步骤4:利用每个数据块的MCU差异度diffmcu判断该数据块是否 属于当前的JPEG文件,如果不属于,删除,如果属于,则保留,保留 下来的连接在一起的多个数据块组成了一个完整的JPEG文件。

本发明在磁盘的文件索引丢失或未分配使用的扇区中有隐藏的数 据时,可应用本发明提供的未残缺JPEG文件碎片重组的方法得到完整 的JPEG文件,使其成为起诉所需要的证据。

下面结合附图和具体实施例对本发明的技术方案进行详细地说 明。

附图说明

图1为本发明JPEG文件碎片重组的方法总体流程图;

图2为图1中步骤S107的详细流程图。

具体实施方式

数据块指文件系统中存放数据的最小单元,如扇区或扇区的整数 倍,具体是多少,与文件系统有关,一般为文件系统分配数据的最小 单元,如NTFS的数据块即为簇,本发明中提到的分析数据都是以数据 块的形式存放。

图1为本发明JPEG文件碎片重组的方法总体流程图,如图1所 示,步骤S101,数据预处理:在开始重组JPEG文件碎片之前要进行 准备工作,在将要调查分析的存储设备上,对其进行镜像处理。针对 所获得的镜像文件,将所述镜像文件中的数据所在的扇区中的每个扇 区号存入分析数据库,建立扇区分析列表。

步骤S102,碎片选择:首先,针对所获得的镜像文件,采用传统 数据恢复的方法(例如,利用文件系统信息进行恢复),获得能够成功 恢复的数据。然后选择每个成功恢复的数据所在扇区号,将其从所述 扇区分析列表中剔除;其次,利用文件自身格式信息,采用头尾信息 截取、文件内部信息验证的方法进一步抽取在存储介质上连续存放的 数据,获得这些数据所在扇区编号,将其从所述扇区分析列表中剔除; 而后,再采用相对稳定的数据类型分类方法,剔除相关无用扇区编号, 所述相关无用扇区包括由可打印字符组成的扇区、空数据扇区(全0、 或全1)等。

在本发明所采用的方法中,运用了排除法,将可成功恢复的数据 所在扇区的编号和连续存放的数据所在扇区的编号及一些无用的扇区 的编号在扇区列表中剔除,则剩下扇区中的数据将包括待重组的JPEG 文件的碎片数据。

步骤S103,获取JPEG文件头信息:从扇区分析列表中搜索JPEG 的文件头信息所在的扇区编号,从而获取JPEG文件头信息。具体地, 由于特征码FFD8为JPEG文件开始标记,因此,搜索到以特征码FFD8 开始的扇区,即可以得到所有的JPEG文件头所在扇区编号。得到JPEG 文件头所在扇区编号后,解码放在FFD8开始的文件头部分的数据,即 可以得到JPEG文件头信息,所述文件头信息包括哈弗曼编码表、抽样 率等。

步骤S104,根据获得的JPEG文件头信息,获得JPEG文件的量 化表、哈弗曼编码表等解码JPEG文件数据所需的信息。

步骤S105,根据JPEG文件头信息的量化表、哈弗曼编码表,将 步骤S102得到的数据按照JPEG文件类型进行解码,获得多个待分析 JPEG文件碎片数据块。

步骤S106,对步骤4中得到的待分析JPEG文件碎片的数据块进 行相似度比较和连接:利用相似度模型得到两个数据块的相似度,并 且根据相似度将相邻的数据块连接。

由于一个JPEG文件碎片数据块由多个像素组成,在分析待分析 JPEG文件碎片数据块的相似度时,只需要匹配两个相邻待分析JPEG 文件碎片数据块的边缘像素的相似程度即可,具体地,通过相似度模 型公式(1)来进行匹配。其中,Rd、Gd、 Bd分别为两个相邻待分析JPEG文件碎片数据块边缘的两个像素R、G、 B之间的差值,diffpix为边缘像素的相似度。当计算出每两个待分析 JPEG文件碎片数据块的相似度值在一定范围内时,则判定这两个待分 析JPEG文件碎片的数据块为相邻数据块,将这两个相邻的待分析JPEG 文件碎片的数据块连接起来。依该方法,将步骤4中得到的所有待分 析JPEG文件碎片的数据块连接起来,形成一JPEG文件。

步骤S107,逐个判断步骤S106中形成的JPEG文件中的每个数据 块是否属于该文件,若不属于则将该数据块从该文件中剔除,将所有 不属于该文件的数据块剔除后得到则是完整的重组JPEG文件。

为了取证的需要,还包括步骤S108:将完整的重组JPEG文件的 扇区编号存入数据库,并对其进行hash计算,将计算后的hash值提交 给法庭或取证机关。

关于如何判断步骤S107中形成的JPEG文件中的每个数据块是否 属于该文件,如图2所示。图2为图1中步骤S107的详细流程图。

步骤S201,计算每个待分析JPEG文件碎片数据块的所有MCU 差异度diffmcu,通过公式(2)可以计算得到MCU的差异度。

diffmcu=Σi=1ndiff2pixi公式(2)

其中,diffpix为边缘像素的相似度,其计算方法如前述公式(1)

步骤S202,按照公式I=I+1取一个数据块,I为数据块的序号。为 了取数据块方便,对所有的数据块做了编号,I可以为1,2,……N。

步骤S203,按照公式J=J+1在一个数据块中取一个MCU,所述的 J为MCU的序号,同样是为了取MCU方便,J=1,2,……M。

步骤S204,判断一个数据块中的第一个MCU差异度dfffmcu是否小 于一个阀值δ-,如果是则进入步骤S211,如果MCU差异度diffmcu不小 于阀值δ-,进入步骤S205。

步骤S205,判断MCU差异度diffmcu是否大于阀值δ+,如果是,则 进入步骤S212,如果该MCU差异度diffmcu不大于阀值δ+,进入步骤 S206。

步骤S206,当MCU差异度dfffmcu既不小于阀值δ-,也不大于阀值 δ+,则计算出待分析JPEG文件碎片数据块所有MCU的差异度正确的 平均值

步骤S207,判断MCU的差异度的平均值是否小于阀值δ-,如 果是则进入步骤S211,若不小于阀值δ-,则进入步骤S208。

步骤S208,判断MCU的差异度的平均值是否大于阀值δ+,如 果是进入步骤S212,如果MCU的差异值的平均值不大于阀值δ+, 进入步骤S209。

步骤S209,当MCU的差异度的平均值既不小于阀值δ-,也不 大于阀值δ+时,将该当前MCU差异度标为不确定。

步骤S210,判断当前MCU是否是该数据块中的最后一个MCU, 如果是最后一个MCU,说明该数据块中的所有MCU的差异度都不确 定,则返回步骤S212判定该数据块不属于该JPEG文件,如果不是最 后一个MCU,则返回步骤S203,取下一个MCU,继续判断。

在步骤S211,判定所述待分析JPEG文件碎片数据块属于所述 JPEG文件,然后执行步骤S213。

步骤S212,判定所述待分析JPEG文件碎片数据块不属于该JPEG 文件,然后执行步骤S213。

步骤S213,判断当前数据块是否是该JPEG文件的最后一个数据 块,如果是的话,判断完毕,此时得到的为一完整的JPEG文件,JPEG 文件的重组完成;如果不是最后一个数据块,返回步骤S202,继续判 断下一个数据块,直到所有的数据块都判断完毕。

需要说明的是,在本发明中,δ-和δ+为一个参照标准,是可以通 过大量实验得出的,当得到该参照标准后,其即为一个已知量。

在上述判断JPEG文件中的每个数据块是否属于该文件的步骤中, 上述实施例是先计算出所有数据块的MCU差异度,当然也可以只计算 第一个数据块的第一个MCU的差异度,在以后需要用到后续的MCU 的差异度时,再计算。

通过本发明所述的未残缺JPEG文件碎片重组的方法,可以从存 储介质中的碎片中得到完整的JPEG文件,由于在重组过程中没有对数 据进行任何修改,从而保证了重组后的文件与原文件的一致性,达到 做为电子证据的可靠性,可以为司法裁决过程提供非常重要的信息。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号