首页> 中国专利> 一种Web浏览器缓存数据的取证方法

一种Web浏览器缓存数据的取证方法

摘要

本发明涉及一种Web浏览器缓存数据的取证方法。现有方法很难获取网页的点击操作以及其他需要用户参与才能获取的信息。本发明方法是:输入Web浏览器数据文件和搜索的敏感关键词;对证据文件进行解析和预处理;以Web浏览记录为主线,将每条记录与其他关联的Web证据整合成一个Web对象;选择特殊的Web对象为树根结点,根据页面之间链接引用和页面访问时间来构建Web树,组建Web证据森林;利用输入的关键词对森林进行智能搜索,得到相关的web对象;对相关的Web对象、Web树进行内容分析;生成Web取证报告供用户浏览。本发明方法效率高、可理解性强、对调查人员的熟练度的要求较低。

著录项

  • 公开/公告号CN101369276A

    专利类型发明专利

  • 公开/公告日2009-02-18

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN200810121139.6

  • 发明设计人 徐明;杨弘曧;郑宁;

    申请日2008-09-28

  • 分类号G06F17/30(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人杜军

  • 地址 310018 浙江省杭州市江干区下沙高教园区2号大街

  • 入库时间 2023-12-17 21:32:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-11-11

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20110921 终止日期:20140928 申请日:20080928

    专利权的终止

  • 2011-09-21

    授权

    授权

  • 2009-04-15

    实质审查的生效

    实质审查的生效

  • 2009-02-18

    公开

    公开

说明书

技术领域

本发明属于信息安全与计算机应用技术领域,涉及一种Web浏览器数据的取证方法,特别是一种对个人计算机中Web浏览器相关数据的证据分析和提取方法。本发明能面向计算机勘查、取证工作的需要,对个人计算机中Web浏览器数据进行分析、搜索,寻找犯罪证据。

背景技术

计算机犯罪与计算机技术密切相关。随着计算机技术的飞速发展,计算机在社会中应用领域的急剧扩大,计算机犯罪的类型和领域不断地增加和扩展,从而使“计算机犯罪”这一术语随着时间的推移而不断获得新的涵义。一般来说计算机犯罪的概念可以有广义和狭义之分:广义的计算机犯罪是指行为人故意直接对计算机实施侵入或破坏,或者利用计算机实施有关金融诈骗、盗窃、贪污、挪用公款、窃取国家秘密或其它犯罪行为的总称;狭义的计算机犯罪仅指行为人违反国家规定,故意侵入国家事务、国防建设、尖端科学技术等计算机信息系统,或者利用各种技术手段对计算机信息系统的功能及有关数据、应用程序等进行破坏、制作、传播计算机病毒,影响计算机系统正常运行且造成严重后果的行为。计算机犯罪活动给国家安全和社会稳定造成了极大的威胁。面对日益严峻的计算机安全形势,计算机取证与分析手段显得尤为重要。

随着网络的普及,人们的网络行为日趋频繁。据第22次中国互联网络发展状况统计报告显示,截至2008年6月底,我国网民数量达到了2.53亿,首次大幅度超过美国,跃居世界第一位。中国网站数量也持续增长,共有191.9万个。正当网络化大潮推进全球信息化的同时,接踵而来的计算机与网络犯罪,如传播邪教、淫秽物品、非法经营、诈骗、破坏计算机信息系统等,对社会安定和人民生活构成了严重的威胁。近年来,在计算机取证勘察过程中,与web浏览器(网页浏览器)相关的IE历史记录、IE收藏夹、Web缓存文件等能反映用户兴趣特征的证据信息越来越引起取证专家的关注。因此,找到一种可以从这些浏览器相关数据中发现重要的证据线索的技术手段就十分有意义。

目前针对计算机证据的提取技术主要有以下几种:

(1)对计算机系统和文件的安全获取技术,避免对原始介质进行任何破坏和干扰;比如专利“一种分析和提取数字证据的取证分析系统和方法”(专利号:10011634.8),该发明的重点在于它可以在不对证据造成任何破坏的情况识别、搜集和分析数字证据,并通过哈希签名等手段保证所搜集和分析的数字证据的可靠性和可信性。它对于提取具体的证据信息(如Email数据、浏览器数据),则未明显涉及。

(2)对磁盘或其它存储介质的安全备份技术;比如专利“一种利用无线终端和服务器获取证据的方法”(专利号:10024479.2),该发明所述方法的特征在于,设有专用服务器,无线终端与之通讯;无线终端获取电子数据和其他相关信息并集成在一起,并即时发往服务器,由服务器记录并保存终端发送来的电子数据和其他信息。专利侧重介绍的是如何从现场收集到的大量证据信息中提取所需的具体证据。

(3)计算机在某一特定时间段内的实时数据搜集技术;比如专利“基于计算机取证的数字证据完整性保存方法”(专利号:10013610.0),该发明所述的方法是在主机系统运行期间,实时记录主机产生的可能与入侵相关的每一条关键信息即取证信息,并采取一致性算法对这些信息记录进行保护。而本专利主要针对的取证对象是静态的Web浏览器数据。

其他计算机证据的获取技术还包括对已删除文件的恢复、重建技术;对磁盘空间、未分配空间和自由空间中包含的信息的发掘技术;对交换文件、缓存文件、临时文件中包含的信息的复原技术等。

计算机取证过程还涉及到证据分析技术。在已经获取的数据流或信息流中寻找、匹配关键词或关键短语是目前主要的证据分析技术,专利CN1445665A介绍的是一种常用应用软件默认数据及缓冲数据勘查取证方法。该发明是在分析了多种应用软件的默认数据及缓冲数据、临时文件的定位基础上作出的。它所述的方法着重介绍了对Word文件、ASCII编码文件和Unicode编码文件的勘察、搜索过程,检索这些文件中是否存在敏感信息串、敏感信息模式等,并把勘察结果全部保存入数据库。该发明的主要不足在于,由于应用程序数据及缓冲数据较多,如果搜索结果未经筛选或排序就提供用户浏览,会迫使用户需要花费大量的时间来分析搜索结果。

目前,在文本搜索领域有不少关于文件相似性搜索的技术发明。专利CN1963807A提出了一种相似文件的自动侦测方法。该方法用以自多个测试文件中侦测出一待对比文件具有相似内容或相似主题的多个相似文件。本专利所述方法主要涉及基于敏感关键词的相关性排序。

由于本专利主要关注针对Web浏览器数据的分析技术,下面对相关的专利进行介绍。专利1996316A介绍了一种基于网页相关性的搜索引擎搜索方法。该方法能够在一次查询过程中提供两次结果给用户。利用用户第一次点击提供的信息有效的解决一意多词和一词多意的问题,该发明不需要长期跟踪特定用户的行为,及可为该用户提供统计意义上的优化服务。但是该方法需要用户的参与,这与计算机取证技术的一般假设相冲突。专利CN101192234A公开了一种基于网页抽取的搜索系统,包括用户下载网页的网页下载单元以及存储搜索结果的结果存储单元,该发明通过将下载的网页与预设的网页特征进行匹配,从而获得更加准确的搜索结果。在本专利中,搜索的对象并不全是网页文件,且搜索的关键词是由取证人员按照需要指定的。专利CN101218582A提出的是一种搜索和浏览URL和URL历史的方法。该发明描述了呈现网络浏览器应用程序的隐式和显式用户关联网页的标志的系统或方法(“工具”)。该工具可响应与用户对单个统一访问点的选择,或响应于对浏览器的用户关联网页的搜索在单个图形用户界面上呈现这些标志。该发明旨在让计算机用户通过人性化的图形界面更容易查找到浏览过的网页。而本专利的目的则是为了让取证人员通过浏览器历史记录寻找犯罪的证据,并了解用户的上网行为。专利CN101079064提供了一种网页排序方法及装置。该发明是通过对用户访问的IP日志的学习对网页进行评分,有效解决了现有的Web搜索引擎技术中直接靠用户的点击次数对网页加分而导致用户恶意点击,加分推荐非常盲目的问题。本专利的背景是计算机取证环境下,所以考虑的主要是单用户的网页排序技术。专利CN101079062公开了一种网页重要性评价方法,它通过统计终端浏览网页时点击网页中正向链接的概率,将父节点的一般重要性值分配到各子节点的一般重要性中,从而使网页的一般重要性值更趋合理。该发明中通过显式的记录终端的点击操作计算各节点的一般重要性,而在计算机调查中,一般是事后分析,所以很难获取网页的点击操作以及其他需要用户参与才能获取的信息。

发明内容

本发明的目的在于克服与弥补现有技术中的不足和缺憾,针对Web浏览器数据的特点,提供一种对个人计算机中Web浏览器相关数据的证据分析和提取方法,能面向计算机勘查、取证工作的需要,对个人计算机中Web浏览器数据进行分析、搜索,寻找犯罪证据。具体来说,要实现以下几个目标:

(1)能够从原始证据文件中提取Web浏览器相关数据,并对特殊格式的文件进行解析,对网页进行预处理。

(2)能够把数量巨大且分布零散的Web浏览器数据按照一定的方式整合起来,方便用户查看。

(3)能够从Web浏览器数据中提炼出可能的用户浏览路径。

(4)能够根据调查员输入的敏感关键词搜索相关的数据,并对结果进行多角度的相关性排序。

(5)能够在取证分析结束后生成Web取证报告,详细介绍取证的过程和结果。

本发明方法包括以下步骤:

步骤(1):输入Web浏览器数据文件和搜索的敏感关键词。

输入Web浏览器数据文件和搜索的敏感关键词。本专利中涉及的Web浏览器数据为常用的IE浏览器的相关数据,具体包括IE历史记录、Cookies、IE表单、Web缓存文件以及其他相关数据,以下对这些数据以及它们的存放位置进行介绍:

(a)IE历史记录指的是IE缓存索引文件(index.dat)。该文件的存放位置因操作系统类型而异。例如在Windows XP环境下,index.dat存放于“Documents and Settings\<username>\Local Settings\Temporary InternetFiles\Content.IE5\”、“\Documents and Settings\<username>\Cookies\”和“\Document and Settings\<username>\LocalSettings\History\History.IE5\”这三个位置。

(b)Cookies是用户浏览某网站时Web服务器置于硬盘上的一个非常小的文本文件,它用于记录你的用户ID、密码、浏览过的网页、停留的时间等信息。Cookies的存放位置也是因操作系统类型而不同的。例如在WindowsXP环境下,Cookies存放于“\Documents and Settings\<username>\Cookies\”中。

(c)IE表单是IE浏览器中的“自动完成”表单资料,它可以根据您以前在地址栏、表单、密码框和其他文本框中输入的信息,自动完成文字输入。这些信息被保存在注册表的一个特殊位置中。基础注册表键是:“HKEY_CURRENT_USER\Software\Microsoft\Protected Storage System Provider”。IE表单的具体存放位置因操作系统类型而不同。例如在Windows XP环境下,IE表单存放于“HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\IntelliForms\Storage”。

(d)Web缓存文件是用户曾经访问的网页内容(包括图片以及其他类型文件)。存放位置因操作系统类型而异。在Window XP环境下,Web缓存的位置在“\Documents and Settings\<username>\Local Settings\Temporary InternetFiles”。

(e)其他相关的浏览器数据包括IE收藏夹的信息、IE主页信息和IE地址栏的最近访问列表的信息。在Window XP环境下,IE收藏夹的信息位于“Documents and Settings\<username>\Favorites”。IE主页信息和IE地址栏的最近访问列表的信息则分别位于注册表的“HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\main”和“HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\TypedURLs”。

输入Web浏览器数据文件和搜索的敏感关键词的具体步骤是:

(1-1)首先分析硬盘上的注册表文件,根据不同操作系统类型获取存放于注册表中的IE主页信息和IE地址栏的最近访问列表的信息,并根据注册表中相关的键值中获取IE历史记录、Cookies、Web缓存文件和IE收藏夹的存放位置。例如在Windows XP环境下,这些浏览器数据的位置信息存放于“HKEY_CURRENT_USER\Software\Microsoft\Windows\Current Version\Explorer\User Shell Folders”中;

(1-2)然后取证机构操作人员根据取证调查的具体需要,有选择地获取指定的浏览器数据文件(例如只获取Web缓存文件和IE历史记录),即把这些数据分别从原始文件夹中拷贝到特定的目录下,用于进一步分析;

(1-3)取证机构操作人员输入待搜索的敏感关键词。

步骤(2):对证据文件进行解析和预处理,并将结果存入数据库中。具体步骤是:

(2-1)首先根据文件内部格式分别对IE历史记录、Cookies和IE表单这三类浏览器数据进行解析,然后将解析的结果存入数据库中;

(2-2)首先根据文件类型筛选出Web缓存文件中的网页文件,然后通过分析每个网页的html标签,得到网页的标题、正文、锚文本和对应网址以及其他信息,并把这些分析结果存入数据库;

(2-3)将其他浏览器数据的信息存入数据库,即提取IE收藏夹、IE主页信息和IE地址栏的最近访问列表信息这三类数据的属性信息,并分别存入数据库。

步骤(3):以Web浏览记录为主线,将每条记录与其他关联的Web证据整合成一个Web对象。具体步骤是:

(3-1)针对数据库中的每条Web浏览记录,查询与它具有相同网址信息的Web缓存文件和IE表单信息,以及具有相同域名的Cookies文件,将这些文件的索引编号和关键属性提取出来,并标注它的网址是否出现在最近访问的网址或收藏夹中,然后将这些信息合并成一条新的记录,并存入数据库;

(3-2)针对数据库中的每条本地文件浏览记录,将它也作为一条记录存入Web对象对应的数据表中。

步骤(4):选择特殊的Web对象为树根结点,根据页面之间链接引用和页面访问时间来构建Web树,组建Web证据森林。具体步骤是:

(4-1)首先选取网址出现在IE主页或IE地址栏下拉列表中的Web对象作为一棵Web树的根结点,即Web树的第一个父结点,并标注Web对象已选中;如果网址出现在IE地址栏下拉列表中的Web对象都已选取过,则转到步骤(4-6);否则转到步骤(4-2);

(4-2)在所有未被选中的Web对象中,找出一组网址为父节点网页中锚文本对应网址的Web对象;如果找到则转到(4-3),如果未找到则标记该结点为叶子结点,转到步骤(4-5);

(4-3)在找到的一组Web对象中选取一个和父结点构成一对Web对象,转到步骤(4-4),如果都已选取过,则转到步骤(4-5);

(4-4)根据浏览记录中的页面访问时间先后次序确定这对Web对象中的父子关系,如果两个Web对象的先后访问时间差在设定的时间间隔之内,那么可以确定它们之间的父子关系,即先访问的为父结点,后访问的为子结点,并标注子结点Web对象已被选中;如果先后访问时间差在设定的时间间隔之外,则无法确定父子关系,转到步骤(4-3);设定的时间间隔为小于30秒;

(4-5)从新生成的子结点中选取一个作为父结点,转到步骤(4-2),如果全部都已选取过,则返回上一层中再执行步骤(4-5),如果上一层为0层则转到步骤(4-6);

(4-6)Web树构建完毕,如果仍存在Web对象未被选中和处理,则根据当前选取的根节点的类型,分别转到步骤(4-1)、(4-7)、(4-8);如果所有的Web对象都已被处理,则转到步骤(4-9);

(4-7)选取网址出现在收藏夹中的Web对象作为一棵Web树的根结点,即Web树的第一个父结点;如果网址出现在收藏夹中的Web对象都已选取过,则转到步骤(4-8);如果收藏夹中仍有未处理过的Web对象,则转到步骤(4-2);

(4-8)选取网址为站点主页的Web对象作为一棵Web树的根结点,即Web树的第一个父结点;如果网址为站点主页的Web对象都已选取过,则转到步骤(4-9);如果网址为站点主页仍有未处理过的Web对象,则转到步骤(4-2);

(4-9)Web森林构建完毕。

步骤(5):利用输入的关键词对森林进行智能搜索,得到相关的web对象。具体步骤是:

(5-1)首先输入待搜索的关键词或者基于关键词的正则表达式;

(5-2)根据关键词匹配规则对Web对象进行匹配查找,如果是含有网页或IE表单信息的Web对象,则根据网页的文本信息和IE表单信息进行匹配;如果是不含有网页的Web对象,则根据文件名对进行匹配;

(5-3)对每个匹配成功的Web对象,记录关键词的出现位置和出现次数(点击次数)。

步骤(6):对相关的Web对象、Web树进行内容分析。具体步骤是:

(6-1)根据步骤(5)中记录的关键词出现位置和出现次数,计算每个Web对象与敏感关键词相关程度,计算公式为co=∑(wi·ni·mi)/∑(ni·mi),其中mi是用户对该web对象的访问次数、ni是关键词在位置区域i处匹配的次数、wi是位置区域i处出现匹配的权重系数;

(6-2)在Web森林中找出包含至少与关键词匹配一次的Web对象节点的Web树,并计算这些Web树的分数,计算公式为ct=(∑ki·coi)/∑ki,其中ki为该web树t中节点i与关键词的匹配次数,coi为web对象节点i与敏感关键词的相关程度;

(6-3)将Web对象和Web树按照分数高低降序排列。

步骤(7):生成Web取证报告供用户浏览,就是将按相关程度排序的web对象和web树整理成规范化的文档。

本发明可以满足在如下场合应用需求:(1)公安人员已经缴获了嫌疑人使用的计算机,并获取了硬盘上的所有数据,此时可以利用本发明描述的方法对浏览器证据(包括Web缓存和浏览历史等)进行获取和分析;(2)公安人员怀疑嫌疑人通过网络进行商业犯罪或其他非法行为,那么只需要在目标计算机上安装本系统就可以快速的查找到相关的浏览器数据,以便确认嫌疑人的犯罪事实。

本发明采用的技术方案解决了背景技术中的不足,具有明显的优点和积极效果,:(1)主要关注浏览器的相关证据。传统的取证分析技术主要是针对硬盘上的全部数据,较少关注特定的证据,比如浏览器数据、Email数据等。本发明通过对多种类型的浏览器数据进行分析,整合Web对象并构建Web森林以反映用户可能的浏览路径,该发明可以有效的帮助取证人员在较短的时间内了解用户的上网行为。(2)效率高。在以往的计算机取证分析过程中,每次关键词搜索返回的结果经常是成千上万条记录,以致于调查人员需要花费大量时间来分析搜索结果。本发明中对搜索结果进行相关性排序,这使得调查人员更容易发现所需的证据信息,提高了搜索的效率,节省了取证调查的时间。(3)对调查人员的熟练度的要求较低。在本发明所述的方法中,除了待搜索的敏感关键词需要手动输入外,其他均为自动完成,不需要过多的人工参与,极大的方便了调查人员。(4)可理解性强。当前,一般的取证分析过程只显示即时的分析结果,较少考虑在分析结束形成汇总报告。本发明则考虑到在分析过程结束后,生成取证分析报告供调查人员查看,方便更多的人了解取证分析的结果。

附图说明

图1本发明中的Web浏览器文件输入流程图;

图2本发明中的Web证据解析及处理流程图;

图3本发明中的IE历史记录文件解析流程图;

图4本发明中的Cookies文件解析流程图;

图5本发明中的IE表单信息解析流程图。

图6本发明中的Web对象整合流程图;

图7本发明中的Web树构建流程图;

图8本发明中的Web森林构建流程图;

图9本发明中的关键词搜索流程图;

图10本发明中的内容相关度排序流程图;

具体实施方式

下面结合附图,对本发明进一步详细描述:

在步骤1对应的图1中,首先,操作员在现场取证中从目标计算机中通过DOS命令获取注册表文件和操作系统类型。在下一步中,根据不同操作系统(98/2000/XP)对应的注册表中不同位置,提取IE主页、IE地址栏下拉列表的网址以及重要文件夹的路径。这些重要的文件夹包括IE临时文件夹、IE Cookies的文件夹和IE收藏夹。然后,用户根据案件情况选择需要分析的浏览器数据后,系统将分别拷贝文件到对应的特定文件夹中,例如将Web缓存文件拷贝到名为“Web缓存”的文件夹中。

在步骤2对应的图2中,首先检测步骤1提取的证据中包含哪些浏览器数据,然后根据不同的文件内部格式对这些数据进行解析和预处理,最后把分析结果存入数据库。需要注意的是,本方法中涉及的IE历史文件指的是全时间段的缓存索引文件,而不是分时间段的索引文件。并且,在将分析结果存入数据库之前,必须对结果文件按照数据表的形式进行格式化,以方便导入。具体解析过程在图3,4,5中描述。

图3描述的是IE历史文件的解析过程。首先确认文件是否可读,然后读取它的版本号和文件大小信息,接下来依次取出记录,并根据不同的记录类型(REDR、URL或LEAK、未知类型)进行分析,直到读取至文件尾,则解析完毕。

图4描述的是Cookies文件的解析过程。同样,首先确认文件的可读性,然后依次读取其中的每条记录,并分析得出记录的属性,包括变量名,变量的值、网站名、标志、过期时间和创建时间,如此反复直至读取至文件结束,则解析完毕。

图5描述的是IE表单信息的解析过程。首先输入注册表文件,然后创建PstoreCreateInstance函数接收Pstore接口的指针。接下来便依次读取Pstore中的记录,包括提取标志为“5e7e8100”的项为IE自动完成密码的内容,以及提取标志为“e1612554”的项为IE自动完成表单的内容。循环提取记录直至读取完毕,则解析操作结束。

在步骤3对应的图6中,首先从数据库中逐条选出Web浏览记录,根据它的网址和域名查询其他数据表中的相关记录,如具有相同网址的IE表单信息和Web缓存文件等,并把这些关联记录中的关键属性提取,如缓存文件编号、IE表单信息编号等。然后,新增三个字段来表示该网址是否IE主页、IE地址栏或IE收藏夹中出现,若出现则在对应的字段中进行标注。最后将原来的Web浏览记录、从关联记录中提取出的属性以及新增的三个字段合并成一条新的记录,即Web对象。在这里需要注意的是,如果选出的Web浏览记录中的“protocol”字段为“file”,即表浏览的是本地文件,则无需添加任何字段,直接作为Web对象添加到对应的数据表。

在步骤4对应的图7表示的是构建Web森林的步骤,即依次选取3种类型的Web对象作为Web树的根节点,直至Web对象都已选取过。图8表示的是根据根结点Web对象来构建一棵Web树的具体步骤,Web树构建完毕后,对组成树的Web对象进行标注,即用唯一编号表示该Web对象在树中的位置,然后存入数据库。假设某Web对象的编号(A,B,C),A为Web树的编号,B为该对象所在的层数,C为该对象的父结点Web对象的编号。

在步骤5对应的图9中,首先判断待搜索对象是否包含网页或IE表单,如果是,就将网页文本或IE表单文本作为搜索对象,否则就把文件名作为搜索对象。当Web对象中的搜索对象与关键词匹配成功后,必须记录关键词所在的位置(如正文或标题),并计数(自增1)。例如,某关键词在网页的标题中出现1次,正文中出现3次,这些信息必须保存入数据库。

在步骤6对应的图10描述的是对Web对象和Web计算相关系数并按降序排列的过程。首先输入数据库中的搜索结果,依次计算出每个web对象与敏感关键词的相关程度(计算公式为co=∑(wi·ni·mi)/∑(ni·mi),其中mi是用户对该web对象的访问次数、ni是关键词在位置区域i处匹配的次数、wi是位置区域i处出现匹配的权重系数);然后依次按计算公式对每个web树与敏感关键词的相关程度(计算公式为ct=(∑ki·coi)/∑ki,其中ki为该web树t中节点i与关键词的匹配次数,coi为web对象节点i与敏感关键词的相关程度);最后按相关程度的高低对web对象和web树进行降序排序。

在步骤7中,最后在生成取证报告时,首先生成以树状框架为基础的XML页面,然后根据每个节点的信息从数据库中提取相应的内容填入页面中。这些内容浏览器数据的类型和对应的条数,以及每次搜索过程的关键词和搜索结果,然后计算并显示每次搜索结果记录的条数以及所有搜索结果的总条数。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号