首页> 中国专利> 基于分级分类的非结构化数据资产防泄露方法

基于分级分类的非结构化数据资产防泄露方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于分级分类的非结构化数据资产防泄露方法，包括以下步骤：a.受控终端对非结构化的数据资产进行分类分级，并进行数字签名；b.当受控终端请求向Internet或者Extranet发送非结构化数据时，网络防护服务器通过镜像的流量和敏感关键词对该数据进行过滤处理；c.若所述的非结构化数据中包含敏感关键词，则采用相应敏感级的公钥对该非结构化数据的签名进行验证；d.若通过验证，则阻断该受控终端向Internet或者Extranet发送数据的请求。本发明通过采用关键词过滤和数据标签相结合的方法对企业分级分类数据资产中的非结构化数据进行防护，从而可以有效防止数据泄露并降低信息防护的误报现象。

著录项

公开/公告号CN104866780A

专利类型发明专利
公开/公告日2015-08-26

原文格式PDF
申请/专利权人广东电网有限责任公司信息中心;
展开▼

申请/专利号CN201510202687.1
发明设计人李皓;黄巨涛;林泽鑫;阮文锋;唐亮亮;邹洪;陈锐忠;赵延帅;彭泽武;冯歆尧;
展开▼

申请日2015-04-24
分类号G06F21/62(20130101);
代理机构11362 北京联创佳为专利事务所(普通合伙);
代理人郭防;刘美莲
地址 510000 广东省广州市越秀区东风东路水均岗6号8号十八楼
入库时间 2023-12-18 10:36:06

法律信息

法律状态公告日

法律状态信息

法律状态
2018-01-05

授权

授权
2015-09-23

实质审查的生效 IPC(主分类):G06F21/62 申请日:20150424

实质审查的生效
2015-08-26

公开

公开

说明书

技术领域

本发明涉及一种基于分级分类的非结构化数据资产防泄露方法，属于数据安全技术领域。

背景技术

企业网络架构一般分为三部分：内部网络(Intranet)、生产外联网(Extranet)与互联网(Internet)。企业信息网络中的非结构化数据(如各种文档、图片等)，主要通过各种终端传输软件(如QQ、百度云、邮件系统等)从企业的内部网络发送至互联网或生产外联网，然而这些非结构化数据中往往存在着大量的敏感信息，如果不对这些敏感信息加以控制，则含有敏感级的数据从内网流向外网，很容易导致企业信息资产泄露，对企业造成严重损失。

发明内容

本发明的目的在于，提供一种基于分级分类的非结构化数据资产防泄露方法，它可以有效解决现有技术中的问题，防止企业信息资产中的敏感非结构化数据发生泄漏。

为解决上述技术问题，本发明采用如下的技术方案：基于分级分类的非结构化数据资产防泄露方法，包括以下步骤：

a.受控终端对非结构化的数据资产进行分类分级，并根据敏感等级对相应种类的非结构化数据进行数字签名；

b.当受控终端请求向Internet或者Extranet发送非结构化数据时，网络防护服务器通过镜像的流量和敏感关键词对该数据进行过滤处理；

c.若所述的非结构化数据中包含敏感关键词，则采用相应敏感级的公钥对该非结构化数据的签名进行验证；

d.若通过验证，则阻断该受控终端向Internet或者Extranet发送数据的请求。

优选的，步骤a中，采用ElGamal或DSA签名算法对相应种类的非结构化数据进行数字签名。

进一步的，步骤a具体包括以下步骤：受控终端对非结构化的数据资产进行分类分级，将数据分为高敏感级数据、敏感级数据、内部数据和公开数据；对高敏感级数据、敏感级数据和内部数据分别预分配公私密钥对，并利用各个私钥对相应的数据进行ElGamal 或DSA签名。

前述的基于分级分类的非结构化数据资产防泄露方法中，采用ElGamal签名算法对非结构化数据进行数字签名以及对该签名进行验证具体包括以下步骤：

(1)初始化

受控终端选择一个大素数p和Z_p中的一个生成元g，并公布p和g；

再选择一个随机数sk∈Z_p-1，并计算出pk＝g^sk(mod p)，将pk作为公钥公开，sk作为密钥；

(2)对文档m进行签名

选择一个随机数，计算r＝g^k(mod p)；

求解方程：m≡skr+ks(mod p-1)，得到s，其中，m即需要加密的文档；加密后产生的(r，s)即文档m的签名，附在文档m的后面；

(3)验证：

检测等式：g^m≡pk^r r^s(mod p)是否成立，若成立则通过验证。

上述方法中的参数由群生成器生成。

本发明中步骤b具体包括：当受控终端发出HTTP、HTTPS、FTP或SMTP请求向 Internet或者Extranet发送非结构化数据时，网络防护服务器进行判断——若源IP为企业内网IP，目的IP为企业外网IP，则通过镜像的流量和敏感关键词对该非结构化数据的封面、主题、正文和附件进行过滤处理，判断其是否包含敏感关键词。

与现有技术相比，本发明通过采用关键词过滤和数据标签相结合的方法对企业分级分类数据资产中的非结构化数据进行防护，从而不但可以有效防止数据泄露，而且还可以大大降低信息防护过程中的误报现象(如将非敏感信息识别为敏感信息)，提高非结构化数据防护的准确率。此外，本发明人经过大量试验研究发现：若采用现有技术中的Hash算法来产生数字标签，那么只要知道使用的Hash算法，任何人都能产生和验证Hash值，且对于一个相同的文档，产生的Hash值是相同的，那么就不能保证具有敏感级的文档只能由与之密级相适应的人员产生，而且任何人都可以修改文档重新产生Hash值，不利于保证系统的安全性。而如果采用本发明中的ElGamal或DSA签名算法来产生数字标签，那么就可以保证只有拥有敏感级密钥的人员(即涉密人员)才能产生具有敏感级文档的标签，且其他人不能替换数字标签，同时网络防护服务器只需要使用相应的公钥验证签名即可，而不需要知道私钥，从而有效保证了系统的安全性。

附图说明

图1是本发明的实施例1的工作流程示意图；

图2是本发明的信息泄漏防护系统中硬件连接结构和工作原理示意图。

下面结合附图和具体实施方式对本发明作进一步的说明。

具体实施方式

本发明的实施例：基于分级分类的非结构化数据资产防泄露方法，如图1、图2所示，包括以下步骤：

a.受控终端对非结构化的数据资产进行分类分级，并根据敏感等级对相应种类的非结构化数据进行数字签名，具体包括以下步骤：受控终端对非结构化的数据资产进行分类分级，将数据分为高敏感级数据、敏感级数据、内部数据和公开数据；对高敏感级数据、敏感级数据和内部数据分别预分配公私密钥对，并利用各个私钥对相应的数据进行ElGamal 或DSA签名；其中，采用ElGamal签名算法对非结构化的高敏感级数据、敏感级数据和内部数据进行数字签名以及对该签名进行验证具体包括以下步骤：

(1)初始化

受控终端选择一个大素数p和Z_p中的一个生成元g，并公布p和g；

再选择一个随机数sk∈Z_p-1，并计算出pk＝g^sk(mod p)，将pk作为公钥公开，sk作为密钥；

(2)对文档m进行签名

选择一个随机数，计算r＝g^k(mod p)；

求解方程：m≡skr+ks(mod p-1)，得到s，其中，m即需要加密的文档；加密后产生的(r，s)即文档m的签名，附在文档m的后面；

(3)验证：

检测等式：g^m≡pk^r r^s(mod p)是否成立，若成立则通过验证。

b.当受控终端请求向Internet或者Extranet发送非结构化数据时，网络防护服务器通过镜像的流量和敏感关键词对该数据进行过滤处理，具体包括：当受控终端发出HTTP、 HTTPS、FTP或SMTP请求向Internet或者Extranet发送非结构化数据时，网络防护服务器进行判断——若源IP为企业内网IP，目的IP为企业外网IP，则通过镜像的流量和敏感关键词对该非结构化数据的封面、主题、正文和附件进行过滤处理，判断其是否包含敏感关键词；

c.若所述的非结构化数据中包含敏感关键词，则采用相应敏感级的公钥对该非结构化数据的签名进行验证；

d.若通过验证，则阻断该受控终端向Internet或者Extranet发送数据的请求。

实验例：

企业部署网络信息泄露防护系统对生产外联网与互联网出口的网络流量进行检查，以便及时发现生产服务器、上网客户端等设备产生的重要数据外泄事件。由于企业网络出口有限，每个分支机构一般仅有一个网络出口，所以网络信息泄露防护系统可以采用两层架构，包括网络管理服务器与网络防护服务器。

如图2所示，其中，网络管理服务器作为网络信息泄漏防护系统的中央管理平台，负责集中管理所有的软件模块，主要提供策略管理、事件管理、日志汇总和报表分析等功能；网络防护服务器需要以旁路的工作模式部署在Internet或Extranet出口，负责监听所有通过Internet或Extranet的流量。

网络防护服务器首先使用关键词过滤筛选出含有敏感关键词的文档，然后根据过滤的出的关键词，使用相应的公钥对文档进行验证，如果通过验证，则说明该文档的确是敏感信息，则根据策略加以阻断。对公开数据不加数字标签，也不验证签名。

按关键字过滤文档内容时，不区分大小写匹配关键字“★★★★高敏感”、“★★★敏感” 或“★★内部”，检查范围包括：文档封面、主题、正文、附件，匹配成功至少一次，且通过验证，则阻断HTTP/HTTPS/FTP/SMTP请求。以下进行具体详述：

一、基于关键词过滤的防泄露方法

1、数据资产分类分级

人力资源管理系统(简称人资系统)数据资产介绍：

广东电网公司的人资系统中存储的主要是公司有关人事管理的信息，具体包括公司员工信息、岗位信息、人力资源工作、员工评价体系、招聘信息、薪酬信息、员工绩效体系、保险与福利信息、劳保信息、培训信息、干部信息等。以上每一类信息中又包含若干子类信息，子类信息又分为若干具体的数据项，如员工信息中分为员工信息、员工岗位变迁信息和员工考勤信息三类，员工信息中包含的具体数据项有员工代码、姓名、年龄、性别、简历信息、工作经历信息、社会关系信息等。

广东电网公司的人资系统所包含的信息复杂且量大，信息种类繁多，每一类信息的敏感度不一，因而需要的安全等级也各异。如员工信息中会包含员工的个人身份信息，涉及员工的个人隐私，因此需要较高级别的保护措施；此类数据应标定为敏感或高敏感数据。而员工的考勤信息只在公司内部流通，不需要对外公开，但安全级别相对较低，可以标定为内部数据。

2、人资系统分级标记处理

广东电网公司的人资系统部分数据分级情况如表1所示。人资系统中每一类信息的敏感度差异较大，但各子类信息中所含的数据项之间相关度较高，数据的敏感度也相致，因此可以人资系统中每类信息的子类信息为粒度，按照数据资产分级标准，对人资系统的数据进行分级并对相应的非结构化数据进行标记。

表1人资系统中的数据分级列表

二、基于数据标签(指纹)的自动验证方法

由于本发明中敏感信息的产生者必须是与之密级相匹配或密级更高的人员，因此从敏感信息的产生时就由生成它的涉密人员为该文档加上一个含有密级信息的数字标签，即由它的产生者使用预先分配的与密级相适应的私钥对该文档进行签名。当该文档到达内网与外网出口处时，网络防护服务器除了使用关键词过滤的方法检测文档的敏感级外，同时还需要使用密级公钥验证签名，如果通过验证，则说明该文档是敏感信息，立即阻断请求。

具体的说，系统首先为高敏感级、敏感级和内部数据预分配三个公私密钥对 (sk₁,pk₁),(sk₂,pk₂),(sk₃,pk₃)。比如当一个高敏感文档产生时，产生者需要使用高敏感私钥 sk₁对文档进行ElGamal或DSA签名，并将生成的签名添加在文档最后；当文档到达内网出口处时，网络防护服务器首先利用关键词过滤确定文档的敏感级，然后利用相应的高敏感公钥pk₁对签名进行验证，如果通过验证，则阻断该网络请求。

其中，采用ElGamal签名算法对非结构化数据进行数字签名以及对该签名进行验证具体包括以下步骤：

(1)初始化

受控终端选择一个大素数p和Z_p中的一个生成元g，并公布p和g；

再选择一个随机数sk∈Z_p-1，并计算出pk＝g^sk(mod p)，将pk作为公钥公开，sk作为密钥；

(2)对文档m进行签名

选择一个随机数，计算r＝g^k(mod p)；

求解方程：m≡skr+ks(mod p-1)，得到s，其中，m即需要加密的文档；加密后产生的(r，s)即文档m的签名，附在文档m的后面；

(3)验证：

检测等式：g^m≡pk^r r^s(mod p)是否成立，若成立则通过验证。

三、网络防护服务器的防护策略

策略表示：

策略＝<数据类型><数据敏感级><匹配类型><过滤范围><请求类型><源IP><目的 IP><是否通过签名验证><响应动作><严重等级>

<数据类型>＝{.doc,.docx,.txt,.xls,.xlsx,.rar,.wps,.ppt,.pptx,.vsd}

<数据敏感级>＝{★★★★高敏感，★★★敏感，★★内部，★公开}

<匹配类型>＝{区分大小写，不区分大小写}

<过滤范围>＝{封面、主题、正文、附件}

<请求类型>＝{HTTP，HTTPS，FTP，SMTP}

<源IP>表示发出该信息的设备IP

<目的IP>表示接收该信息的设备IP

<是否通过签名验证>＝{是，否}

<响应动作>＝{阻断，记录}

<严重等级>＝{高，中，低，无}

(1)对高敏感数据的防泄露策略

策略1＝<数据类型＝all><数据敏感级＝★★★★高敏感><匹配类型＝不区分大小写><过滤范围＝all><请求类型＝any><源IP＝内网IP段><目的IP＝外网IP段><是否通过签名验证＝是><响应动作＝阻断><严重等级＝高>

策略1表示对数据类型中的所有类型进行不区分大小写的关键词过滤，检查它们的封面、主题、正文和附件，一旦发现有“★★★★高敏感”的关键词，源IP是企业内网IP，目的IP是企业外网IP，且使用高敏感公钥对文档进行签名验证并通过验证，则立即阻断 HTTP/HTTPS/FTP/SMTP中任意一种形式的请求。事件严重等级为高。

(2)对敏感数据的防泄露策略

策略2＝<数据类型＝all><数据敏感级＝★★★敏感><匹配类型＝不区分大小写><过滤范围＝all><请求类型＝any><源IP＝内网IP段><目的IP＝外网IP段><是否通过签名验证＝是><响应动作＝阻断><严重等级＝高>

策略2表示对数据类型中的所有类型进行不区分大小写的关键词过滤，检查它们的封面、主题、正文和附件，一旦发现有“★★★敏感”的关键词，源IP是企业内网IP，目的 IP是企业外网IP，且使用敏感公钥对文档进行签名验证并通过验证，则立即阻断 HTTP/HTTPS/FTP/SMTP中任意一种形式的请求。事件严重等级为中。

(3)对内部数据的防泄露策略

策略3＝<数据类型＝all><数据敏感级＝★★内部><匹配类型＝不区分大小写><过滤范围＝all><请求类型＝any><源IP＝内网IP段><目的IP＝外网IP段><是否通过签名验证＝是> <响应动作＝阻断><严重等级＝低>

策略3表示对数据类型中的所有类型进行不区分大小写的关键词过滤，检查它们的封面、主题、正文和附件，一旦发现有“★★内部”的关键词，源IP是企业内网IP，目的IP 是企业外网IP，且使用内部公钥对文档进行签名验证并通过验证，则立即阻断 HTTP/HTTPS/FTP/SMTP中任意一种形式的请求。事件严重等级为低。

(4)对公开数据的防泄露策略

策略4＝<数据类型＝all><数据敏感级＝★公开><匹配类型＝不区分大小写><过滤范围＝all><请求类型＝any><源IP＝内网IP段><目的IP＝外网IP段><响应动作＝记录><严重等级＝无>

策略4表示对数据类型中的所有类型进行不区分大小写的关键词过滤，检查它们的封面、主题、正文和附件，一旦发现有“★公开”的关键词，且源IP是企业内网IP，目的IP 是企业外网IP则记录HTTP/HTTPS/FTP/SMTP中任意一种形式的请求。

本发明的难点在于采用关键词过滤和数据标签相结合的方法对企业分级分类数据资产中的非结构化数据进行防护的构思。在实施过程中，需要对防泄露系统进行修改，首先在涉密人员的终端安装签名客户端，系统产生各密级密钥后，由客户端软件对具有敏感级的文档进行签名；此外，还需要对防护服务器进行修改，使之不仅支持关键词过滤还要具备对签名进行验证的功能；另外，网络管理服务器中的防泄露策略也需要进行相应的修改，以支持关键词过滤和数据标签相结合的防泄露方法。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于分级分类的非结构化数据资产防泄露方法 [P] . 中国专利： CN104866780B . 2018.01.05
2. 基于分级分类的结构化数据资产防泄露方法 [P] . 中国专利： CN104809405B . 2018.06.01
3. System and method for local data IP based network security for preventing data breach attempts in a multi-tenant protection storage deployment [P] . 美国专利： US10454930B2 . 2019-10-22

机译：用于基于本地数据IP的网络安全性的系统和方法，用于防止多租户保护存储部署中的数据泄露尝试
4. Computer-implemented and computer-implemented methods for managing equipment-based risks for energy data usage levels per asset using sensor-driven, dynamic-adjustable feedback loops [P] . 韩国专利： KR20200037310A . 2020-04-08

机译：计算机实现的方法和计算机实现的方法，用于使用传感器驱动的动态可调反馈回路来管理基于资产的资产（每种资产的能源数据使用水平）的风险
5. UNSTRUCTURED DATA-BASED MOBILE IMAGE COMMUNICATION METHOD USING LOCAL COMPUTER [P] . 世界知识产权组织专利： WO2016072568A1 . 2016-05-12

机译：基于本地计算机的非结构化基于数据的移动图像通信方法