首页> 中国专利> 一种基于编码方式的文档数据恢复系统及其快速恢复方法

一种基于编码方式的文档数据恢复系统及其快速恢复方法

摘要

本发明公开了一种基于编码方式的文档数据恢复系统及其快速恢复方法,该系统包括输入单元、编码规则存储单元、编码组合规则存储单元、数据检索单元、有效编码判断单元、有效编码提取单元、有效编码存储单元、编码重组单元和输出单元,该基于编码方式的文档数据恢复系统是以文档数据的有效编码为特征,通过提取存储介质中属于有效编码的代码来恢复各种文档,可以对已丢失文件签名、文件结束字符等特征的文档数据文件进行恢复,可恢复出未被其他文件覆盖的各种文字信息。本发明的文档恢复系统及其快速恢复方法,具有文档识别率高,搜索速度快的特点,并且能够发现已损坏文档的碎片,并将之从存储介质中提取出来,可以极大提高现有的文档恢复成功率。

著录项

  • 公开/公告号CN102073682A

    专利类型发明专利

  • 公开/公告日2011-05-25

    原文格式PDF

  • 申请/专利权人 厦门市美亚柏科信息股份有限公司;

    申请/专利号CN201010599551.6

  • 发明设计人 黄志炜;张雪峰;

    申请日2010-12-21

  • 分类号G06F17/30;

  • 代理机构厦门市首创君合专利事务所有限公司;

  • 代理人连耀忠

  • 地址 361000 福建省厦门市软件园二期观日路12号美亚柏科大厦

  • 入库时间 2023-12-18 02:39:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-11-21

    授权

    授权

  • 2011-07-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20101221

    实质审查的生效

  • 2011-05-25

    公开

    公开

说明书

技术领域

本发明涉及一种对文档数据恢复的计算机处理,特别是涉及一种基于编码方式的文档数据恢复系统及其快速恢复方法。

背景技术

文档恢复指的是存储系统,或操作系统,或文件系统层次上的数据丢失,这种丢失是多方面的,如系统软硬件故障、死机、病毒破坏、黑客攻击、木马破坏、误操作、阵列数据丢失等等;对于一般文件系统来说,这方面的研究工作起步较早,国内外研究的都比较深。这方面的主要难点是:文件碎片的恢复处理、文档修复和密码恢复。

早期的文档恢复技术仅对文件分配表进行搜索,从中找出被标记为删除的文档进行恢复,无法恢复那些在文件分配表中已被覆盖的文档。现有的文档恢复技术已经发展到利用文档文件签名、文件结束字符等特征在存储介质中进行搜索来找出文档位置,再进行文档恢复。

现有文档恢复技术利用文件签名、文件结束字符等特征来进行文档恢复,这种技术无法恢复丢失了文件签名、文件结束字符等特征的文档文件碎片。

发明内容

本发明的目的在于克服现有技术之不足,提供一种基于编码方式的文档数据恢复系统及其快速恢复方法,是以文档数据的有效编码为特征,通过提取存储介质中属于有效编码的代码来恢复各种文档,可以对已丢失文件签名、文件结束字符等特征的文档数据文件进行恢复,可恢复出未被其他文件覆盖的各种文字信息。

本发明解决其技术问题所采用的技术方案是:一种基于编码方式的文档数据恢复系统,包括:

一输入单元,其用来读取存储介质的文档数据以及输入预先设置的文档编码规则和文档编码组合规则;

一编码规则存储单元,与输入单元的输出相连接,其用来存储由输入单元输给的且为预先设置的各种文档编码规则的数据;

一编码组合规则存储单元,与输入单元的输出相连接,其用来存储由输入单元输给的且为预先设置的各种文档编码组合规则的数据;

一数据检索单元,与输入单元的输出相连接,其用来从输入单元接收文档数据,每次接收一个文档数据块,且将接收到的文档数据块分成一个或多个子段,并从子段的预先指定位置中提取预先指定长度的文档数据发送给有效编码判断单元进行验证,根据验证结果确定下一步操作是进行下个子段检索或是进入有效编码提取单元;

一有效编码判断单元,分别与数据检索单元、编码规则存储单元和编码组合规则存储单元相连接,其用来接收由数据检索单元发送的所述预先指定长度的文档数据,并从编码规则存储单元和编码组合规则存储单元中调出规则数据,利用该规则数据对所述预先指定长度的文档数据进行比较分析,对文档数据是否有有效编码作出判断,并将验证结果反馈给数据检索单元;

一有效编码提取单元,分别与数据检索单元、编码规则存储单元和编码组合规则存储单元相连接,其用来接收由数据检索单元发送的文档数据块,并从编码规则存储单元和编码组合规则存储单元中调出规则数据,从被确定为含有有效编码的当前子段开始,对整个数据块进行遍历,提取出符合规则数据要求的编码并将该编码写入有效编码存储单元;

一有效编码存储单元,与有效编码提取单元相连接,其用来储存以编码方式、对应规则及编码在存储介质中的存放位置等多种组合来表示的有效编码数据;

一编码重组单元,分别与数据检索单元、编码规则存储单元、编码组合规则存储单元和有效编码存储单元相连接,根据数据检索单元的指令,从有效编码存储单元中调出存放位置相近的编码,并根据编码组合规则存储单元和有效编码存储单元所提供的有效编码编码规则及编码组合规则,将相应的编码通过组合,解码,得到的文档数据并输出给输出单元;以及

一输出单元,与编码重组单元相连接,其用于接收编码重组单元输出的文档数据,并按照文档在存储介质中的存放位置,显示出经过编码重组和转换后的文档明文。

一种基于编码方式的文档数据快速恢复方法,包括如下步骤:

a.用输入单元从存储介质中读取一个预先设置好大小的文档数据块到内存;

b.用数据检索单元将所述文档数据块分成多个文档数据子块;

c.数据检索单元在当前文档数据子块中,从一个预先指定好的位置处提取一个预先指定好长度的文档数据发送给有效编码判断单元;

d.有效编码判断单元对所述预先指定好长度的文档数据是否存在有效编码格式进行判断,并将判断结果返回给数据检索单元;判断后,若存在有效编码格式,则进入有效编码提取过程,提取完成后,转至步骤g,若不存在有效编码格式,继续下一步骤;

e.由数据检索单元移动到下一文档数据子块;

f.数据检索单元判断是否到文档数据块的末尾,如果是,继续下一步骤,否则返回步骤c;

g.输入单元判断存储介质的所有文档数据是否读取完,若已读取完则结束,若未读取完则返回步骤a。

所述的有效编码提取过程,是由当前子块的位置开始,回溯特定长度的文档数据,并根据有效编码规则和编码组合规则对数据块的接下去的数据进行搜索,查找出属于文档的字符,并输出到指定位置。

所述的特定长度的文档数据,是在当前子块的位置开始,每次回溯一个预先指定长度的文档数据,并根据有效编码规则和编码组合规则对该预先指定长度的文档数据集进行判断,如果为有效编码格式,则继续回溯一个预先指定长度的文档数据,直至没有有效编码格式为止。

本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法,是以文档有效编码为搜索特征,文档有效编码指的是文档中文字的编码范围。

本发明的一种基于编码方式的文档数据快速恢复方法,实际上是采用了索引搜索过程和内容搜索过程,来实现快速的目的。

索引搜索过程是对输入装置所输入的数据块进行进一步的分段,并对各个分段的特定位置进行编码规则匹配,任一特定位置匹配成功,从该位置开始进入内容搜索过程,所有特定位置匹配失败,进入下一个索引搜索过程。

内容搜索过程是从传入的位置开始,回溯特定数据长度,再根据有效编码规则和编码组合规则对接下去的数据进行检索,查找出属于文档的字符,并输出到指定位置。

本发明的有益效果是,由于本发明采用了一输入单元、一编码规则存储单元、一编码组合规则存储单元、一数据检索单元、一有效编码判断单元、一有效编码提取单元、一有效编码存储单元、一编码重组单元和一输出单元来构成基于编码方式的文档数据恢复系统,该基于编码方式的文档数据恢复系统是以文档数据的有效编码为特征,通过提取存储介质中属于有效编码的代码来恢复各种文档,可以对已丢失文件签名、文件结束字符等特征的文档数据文件进行恢复,可恢复出未被其他文件覆盖的各种文字信息。

与其他文档恢复方法相比,本发明的文档恢复系统文档识别率高,搜索速度快,并且能够发现已损坏文档的碎片,并将之从存储介质中提取出来,可以极大提高现有的文档恢复成功率。

与其他文件相比,文档文件最关键的内容在于其内部的文字内容,而现有的文档恢复系统基本无法恢复出文字碎片,利用本发明的文档恢复系统,可将存储介质中有意义的文字碎片提取出来,再进行整理,对文档恢复具有极重大的意义。

以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法不局限于实施例。

附图说明

图1是本发明的系统的框图;

图2是本发明的方法的流程图;

图3是一个被覆盖的文档碎片的示意图;

图4是一个文档数据块的示意图。

具体实施方式

实施例,参见图1所示,本发明的一种基于编码方式的文档数据恢复系统,包括:

一输入单元1,其用来读取存储介质的文档数据以及输入预先设置的文档编码规则和文档编码组合规则;输入单元1是存储介质的导入、及各种文档编码规则、编码组合规则的输入中所使用的输入装置,用来读取存储介质内容并输送给内容提取单元及将各种文档编码规则、编码组合规则存入对应的存储单元中;

一编码规则存储单元2,与输入单元1的输出相连接,其用来存储由输入单元1输给的且为预先设置的各种文档编码规则的数据;

一编码组合规则存储单元3,与输入单元1的输出相连接,其用来存储由输入单元1输给的且为预先设置的各种文档编码组合规则的数据;

一数据检索单元4,与输入单元1的输出相连接,其用来从输入单元1接收文档数据,每次接收一个文档数据块,且将接收到的文档数据块分成一个或多个子段,并从子段的预先指定位置中提取预先指定长度的文档数据发送给有效编码判断单元5进行验证,根据验证结果确定下一步操作是进行下个子段检索或是进入有效编码提取单元6;

一有效编码判断单元5,分别与数据检索单元4、编码规则存储单元2和编码组合规则存储单元3相连接,其用来接收由数据检索单元4发送的所述预先指定长度的文档数据,并从编码规则存储单元2和编码组合规则存储单元3中调出规则数据(可以是一个规则,也可以是多个规则),利用该规则数据对所述预先指定长度的文档数据进行比较分析,对文档数据是否有有效编码作出判断,并将验证结果反馈给数据检索单元4;

一有效编码提取单元6,分别与数据检索单元4、编码规则存储单元2和编码组合规则存储单元3相连接,其用来接收由数据检索单元4发送的文档数据块,并从编码规则存储单元2和编码组合规则存储单元3中调出规则数据,从被确定为含有有效编码的当前子段开始,对整个数据块进行遍历,提取出符合规则数据要求的编码并将该编码写入有效编码存储单元7;

一有效编码存储单元7,与有效编码提取单元6相连接,其用来储存以编码方式、对应规则及编码在存储介质中的存放位置等多种组合来表示的有效编码数据;

一编码重组单元8,分别与数据检索单元4、编码规则存储单元2、编码组合规则存储单元3和有效编码存储单元7相连接,根据数据检索单元4的指令,从有效编码存储单元7中调出存放位置相近的编码,并根据编码组合规则存储单元2和有效编码存储单元3所提供的有效编码编码规则及编码组合规则,将相应的编码通过组合,解码,得到文档数据并输出给输出单元9;以及

一输出单元9,与编码重组单元8相连接,其用于接收编码重组单元8输出的文档数据,并按照文档在存储介质中的存放位置,显示出经过编码重组和转换后的文档明文。

参见图2所示,本发明的一种基于编码方式的文档数据快速恢复方法,包括如下步骤:

a.用输入单元从存储介质中读取一个预先设置好大小的文档数据块到内存;即图2中的读取部分数据到内存;

b.用数据检索单元将所述文档数据块分成多个文档数据子块;

c.数据检索单元在当前文档数据子块中,从一个预先指定好的位置处提取一个预先指定好长度的文档数据发送给有效编码判断单元;即图2中的从数据当前位置开始分析是否存在有效编码格式;

d.有效编码判断单元对所述预先指定好长度的文档数据是否存在有效编码格式进行判断,并将判断结果返回给数据检索单元;判断后,若存在有效编码格式,则进入有效编码提取过程(即图2中的在当前位置进一步搜索有效编码,并恢复文档内容),提取完成后,转至步骤g,若不存在有效编码格式,继续下一步骤;

e.由数据检索单元移动到下一文档数据子块;即图2中的移动到下一个位置;

f.数据检索单元判断是否到文档数据块的末尾,如果是,继续下一步骤,否则返回步骤c;

g.输入单元判断存储介质的所有文档数据是否读取完,若已读取完则结束,若未读取完则返回步骤a。

所述的有效编码提取过程,是由当前子块的位置开始,回溯特定长度的文档数据,并根据有效编码规则和编码组合规则对数据块的接下去的数据进行搜索,查找出属于文档的字符,并输出到指定位置。

所述的特定长度的文档数据,是在当前子块的位置开始,每次回溯一个预先指定长度的文档数据,并根据有效编码规则和编码组合规则对该预先指定长度的文档数据集进行判断,如果为有效编码格式,则继续回溯一个预先指定长度的文档数据,直至没有有效编码格式为止。

本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法,是以文档有效编码为搜索特征,文档有效编码指的是文档中文字的编码范围。

参见图3所示,文档为Unicode编码,在该编码中,汉字的有效编码范围为\u4E00-\u9FA5+\uF900-\uFA2D。半角标点和英文字母的有效编码范围为\u0021-\u007E,全角标点有效编码范围为\u3001-\u3017+\uFF01-\uFF5E,通过判断指定位置是否属于以上这些范围的组合,来确定指定位置是否属于有效编码。由于文档恢复通常关注的是有意义的内容,因此还可以通过各种编码组合方式,如连续三个以上汉字或标点等来判断多个连续的有效编码是否存在组合可能,来形成有意义的句子。

下面是几种可能的组合方式:

连续的汉字编码组合:

00004450|6E 63 B5 6B 19 52 FB 4E  0F 61 84 76 7F 4F 28 75|据段则任意的使用连续汉字+单个标点:

00004480|84 76 D0 8F 97 7B 0C FF  76 5E 8F 96 0F 61 39 65|的运算,并随意改连续汉字+单个或多个字母:

00004D60|1F 77 63 6B 43 00 50 00 55 00 00 4E 37 68 D6 53|真正CPU一样取

本发明的一种基于编码方式的文档数据快速恢复方法,实际上是采用了索引搜索过程和内容搜索过程,来实现快速的目的。

索引搜索过程是对输入装置所输入的数据块进行进一步的分段,并对各个分段的特定位置进行编码规则匹配,任一特定位置匹配成功,从该位置开始进入内容搜索过程,所有特定位置匹配失败,进入下一个索引搜索过程。

内容搜索过程是从传入的位置开始,回溯特定数据长度,再根据有效编码规则和编码组合规则对接下去的数据进行检索,查找出属于文档的字符,并输出到指定位置。

以下结合图4来进一步说明本发明的一种基于编码方式的文档数据快速恢复方法。

首先,从待检索的存储介质中读入部分数据到内存中,如读取1个扇区512个字节,如图4所示:

开始索引检索过程,将数据块分成4段(即4个数据子块)进行检索,首先检索第一段:

从数据当前位置:0x00009200处开始分析,分析16个字节,分析结果:不存在有效编码,跳到下一个位置:0x00009280;

从数据当前位置:0x00009280处开始分析,分析16个字节,分析结果:不存在有效编码,跳到下一个位置:0x00009300;

从数据当前位置:0x00009300处开始分析,分析16个字节,分析结果:在0x00009300处存在连续的有效编码,进入内容检索过程;

从数据当前位置:0x00009300处往前回溯,每次回溯16个字节,直到未发现有效编码,最终得到检索开始位置:0x000092C0;

从0x000092C0处开始检索,直到数据块结尾:0x000093FF,得到多个有效编码;

读取下一个数据块:0x00009400,开始新的检索过程。

快速检索经常需要在文档恢复准确度与文档检索速度间进行平衡,要让文档恢复准确度高,就需要将每次读入的数据块减小,文档检索速度也就变慢,反之,则可以加快文档检索速度,例如,从文字意义上考虑,一般要让恢复出来的文档存在可读性,一般需要20个字以上,因此可以设定每次读入的数据块为512字节,检索时只需对数据块的首部、中间、尾部进行判断,如果符合有效编码,则进行详细搜索,反之,可认为该数据块不存在可读性文档碎片,可以读入下一个数据块进行搜索。

上述实施例仅用来进一步说明本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号