首页> 中国专利> 网络内容安全管理中一种敏感信息模板构建方法

网络内容安全管理中一种敏感信息模板构建方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了网络内容安全管理中一种敏感信息模板构建方法，能够增强模板生成速度的同时，提高敏感信息模板在该类文本信息语义表达方面的准确性。该方法采用遗传算法进行模板构建，按照设定的分块长度K，对当前种群中每个染色体个体编码串按照编码位从左至右进行分块，并以分块为单位进行染色体的交叉和变异操作。

著录项

公开/公告号CN103793747A

专利类型发明专利
公开/公告日2014-05-14

原文格式PDF
申请/专利权人中国人民解放军61660部队;
展开▼

申请/专利号CN201410043993.0
发明设计人高岩;王文彬;李敏业;王小康;王秋实;陈江宁;李杰;杜光祖;
展开▼

申请日2014-01-29
分类号G06N3/12(20060101);H04L29/06(20060101);
代理机构11120 北京理工大学专利中心;
代理人温子云;仇蕾安
地址 100089 北京市海淀区半壁街南路2号
入库时间 2024-02-20 00:11:30

法律信息

法律状态公告日

法律状态信息

法律状态
2016-09-14

授权

授权
2016-08-31

著录事项变更 IPC(主分类):G06N3/12 变更前: 变更后: 申请日:20140129

著录事项变更
2014-06-11

实质审查的生效 IPC(主分类):G06N3/12 申请日:20140129

实质审查的生效
2014-05-14

公开

公开

说明书

技术领域

本发明属于网络内容安全领域，尤其涉及网络内容安全管理中一种敏感信息模板构建方法。

背景技术

随着网络规模的不断扩大，网络在社会生活中扮演着越来越重要的角色，不仅成为人们聊天交友和娱乐媒介，更已经成为人们获取信息的主要渠道，特别是微博、微信等新型沟通形式的发展成熟，网络正日益成为人们自由交流和表达意愿的重要平台。然而，网络信息传播的便捷性和随意性问题日益突出，网络上既有大量进步、健康、有益的信息，也有不少庸俗、灰色、暴力、虚假的言论，给网络内容安全带来了巨大的挑战。对此，世界各国政府、研究机构纷纷投入大量资源研究对策。

在战略层面，由美国国家安全局建设的“Echelon”通信监视网络，利用卫星接收站和间谍卫星，拦截大量电子邮件等个人信息以发现网络上犯罪行为；英国政府出台了一项“网络信息调查授权法案”，授权情报机构对通过因特网进出英国的所有电子邮件以及网络信息进行检查和监控，以及时发现网络犯罪的蛛丝马迹，除此之外，俄罗斯、以色列、韩国、日本以及其它欧美国家都针对网络上传输信息内容进行实时监控与分析。而国内对于网络内容安全的研究方兴未艾，北京图形研究所的孙春来等针对网络信息的保密要求，提出了基于内容过滤的网络内容监控系统-DFNMS；由北大青鸟环宇公司开发的JB-searchX 网络监控系统是一套互联网信息监控系统，能够设置和监控敏感词并进行报警；中软信息安全实验室推出的网络信息监控分析与取证系统，可以根据用户定义的监控和分析策略对网络信息文字内容进行分析并将信息还原、归类。

在技术层面，基于内容的信息过滤是网络内容安全监控的重要手段， Stanford大学的Takl.Yen和Hector Garcia-Mina开发了基于内容的过滤系统 SIFT(Stanford Information Filtering Tool)，该系统利用向量空间模型来完成用户信息需求与新闻资料之间的匹配，从而实现对因特网上新闻组内容的过滤。该类技术利用关键词将信息流与敏感信息模板进行匹配计算，当相似性高于一定阈值时，则过滤目标信息流，因此敏感信息模板的准确性直接关系到信息过滤的精度。

在敏感信息模板的构建中，相关研究人员提出了很多方法，比较具有代表性的有：用于文本分类的支持向量机和用于垃圾邮件过滤的贝叶斯算法。然而，支持向量机的方法在训练过程中要求同时使用正样本和负样本，但是敏感信息识别应更多关注正样本，因此无法满足对于敏感信息过滤的需求；J.S.Su等人在对分类算法进行研究的基础上，指出贝叶斯方法虽然简单高效，但存在过分依赖先验值的缺点，同时由于敏感信息在发现以前很难建立相应的概率模型，因此，贝叶斯方法不能适应敏感信息过滤的动态性要求。Cohen提出了利用基于 RIPPER规则学习算法和关键词学习规则进行邮件分类模板生成；M.Taesup提出了一种基于隐马尔可夫模型的通用过滤算法，将语义元素加入到过滤类别模板中；在国内，清华大学的曾春等提出利用领域分类模型上的概率分布表达过滤模板，给出相似性计算和模板更新方法；洪宇等人提出了一种建立信息流二元近似关系模型，辅助信息过滤系统识别和屏蔽反馈中的噪声，从而使生成的过滤类别信息模板更加准确。

然而，将遗传算法引入到敏感信息模板生成的研究很少，且主要集中在进行特征选择以及将遗传算法应用于生成模板的实际应用，哈尔滨工程大学吕志龙提出了根据用户需求描述和少量正例文档构建初始用户模板，并基于遗传算法进行用户模板的自适应学习，但是存在的问题是系统过滤初期，效果并不能令人满意；此外，山东大学刘玉国等人提出了一种基于遗传算法的敏感信息过滤方法，综合利用过滤模板和文档特性计算方法在一定程度上提高了敏感信息过滤的准确度，但是存在过滤模板生成速度慢、容易陷入局部最优的问题。

发明内容

有鉴于此，本发明基于遗传算法，提供了网络内容安全管理中一种敏感信息模板构建方法，有效提高敏感信息模板中关键词表述的准确性，可以增强模板生成的速度。

为了解决上述技术问题，本发明是这样实现的：

步骤1、选择一类敏感信息的训练文本集，该训练文本集中包括信息文本向量和多个训练文本；将每个训练文本转换为二进制编码串并且作为一个染色体个体，构成遗传算法初始种群；

步骤2、计算初始种群中每个染色体个体的适应度值，并保存适应度值最高的染色体及其适应度值为最优染色体B1和最优适应度值f(B1)；

步骤3、按照设定的分块长度K，对当前种群中每个染色体个体的编码串按照编码位从左至右进行分块，得到n个分块；K的取值范围为3～5；

步骤4、以分块为单位，依据交叉概率，对当前种群中的染色体个体进行交叉操作；

步骤5、以分块为单位，依据变异概率，对交叉操作后新生成的染色体个体进行变异操作；

步骤6、重复执行步骤4和步骤5，直至当前种群中最后一个染色体完成交叉操作和变异操作，得到新种群；

步骤7：计算所述染新种群中每个染色体个体的适应度值；

步骤8：根据本轮适应度值最高和最低的染色体，执行遗传算法中的精英保持策略，对所述最优染色体B1及其最优适应度值f(B1)进行替换；

步骤9：判断算法迭代停止条件，如果停止，进入步骤10；否则，以新种群作为当前种群，返回步骤4；

步骤10：从所述信息文本向量中提取最优染色体B1中的编码位1对应的关键词，构成敏感信息模板输出。

进一步地，在所述步骤5中，对于每个染色体个体执行如下步骤51～步骤 54的变异操作：

步骤51、令j=1；

步骤52、取整数block=min{randi（1:K），L-j}，其中，randi（1:K）表示在 1至K中随机产生一个整数；L表示每个染色体个体编码长度；j为整数，表示染色体个体的第j个编码位；min{}表示取{}中的最小值；

步骤53、随机产生一个(0,1)之间的小数rand，如果rand小于或等于变异概率，则对染色体个体的第j位到第j+block%K位执行按位取反操作，然后将j更新为j+K；其中，block%K表示block除以K取余数；

步骤54、循环执行步骤52和步骤53，直至j>L，则循环停止，完成一个染色体个体变异操作。

有益效果：

（1）本发明按照语义划分编码块，以编码块为单位进行交叉和变异操作，降低交叉和变异所带来的语义变异过大的问题，在增强模板生成速度的同时，可以有效提高敏感信息模板在该类文本信息语义表达方面的准确性。

（2）有针对性地根据种群相似性设计交叉和变异概率，可以利用种群多样性引导遗传过程，可以增强模板生成的速度。

（3）采用精英保持策略，可以保证遗传过程不退化，具有提高敏感信息模板构建的准确性和生成速度的效果。

具体实施方式

本发明提供了网络内容安全管理中的敏感信息模板构建方法，该方法采用遗传算法，并按照语义划分编码块，以编码块为单位进行交叉和变异操作，降低交叉和变异所带来的语义变异过大的问题，可以有效提高敏感信息模板中关键词表述的准确性。

下面对本发明敏感信息模板构建方法进行详细描述。

步骤1：选择一类敏感信息的训练文本集，该训练文本集中包括信息文本向量和多个训练文本；将每个训练文本转换为二进制编码串并且作为一个染色体个体，构成遗传算法初始种群S₀。

敏感信息分类包括政治、经济、军事等。每一次针对一类敏感信息进行模板构建。因此本步骤中，选择一类敏感信息的训练文本集。

对于一类文本信息T，通过文本分词方法可以将该类文本信息T转化成一个由若干关键词组成的信息文本向量W1，该信息文本向量W1包含该类文本信息T的全部关键字。例如，某类文本信息的信息文本向量为[我，不，是，中国，美国，人]。

文本信息T是训练文本的集合。每个敏感信息模板训练文本在经过文本分词和特征提取之后也可以转换为一个由若干关键词组成的向量W2，根据文本信息T的上下文采用关键词权重计算方法获得向量W2中每个关键词的权重；然后依据出现的关键字与信息文本向量W1对比，可得到训练文本的权重特征向量W3，该权重特征向量W3的长度与信息文本向量W1的长度相同，且其元素的值就是相应位关键词的权重。为了进行遗传计算，将权重特征向量转换为二进制编码串，该二进制编码串的长度与权重特征向量长度相同，转换时，权重特征向量中为0的元素转换为二进制0，非零的元素转换为二进制1。

例如：一个训练文本为[我是中国人]，根据文本信息的上下文采用关键词权重计算方法获得训练文本中关键词的权重分别为[0.2，0.3，0.1，0.5]，则对应到信息文本向量[我，不，是，中国，美国，人]中，得到相应权重特征向量为[0.2， 0，0.3,0.1，0，0.5]。将权重特征向量转换为且其二进制编码串可表示为[1，0， 1，1，0，1]。

对应到遗传算法中，每个训练文本的二进制编码串称为一个染色体，训练文本的个数称为染色体的群体规模，用N表示；二进制编码串的长度表示该类文本向量中关键字的个数，用L表示；另外，Pc为染色体遗传过程中的交叉概率，Pm为染色体遗传过程中的变异概率。

将训练文本集中的每个训练文本转化为二进制编码串，并且作为一个染色体个体，从而构成遗传算法初始种群S₀={X₁,X₂,…X_N}，其中X_i表示第i个染色体个体。

步骤2、计算初始种群S₀中每个染色体个体的适应度值，并保存适应度值最高的染色体及其适应度值为最优染色体B1和最优适应度值f(B1)。

本步骤中，按照如下方法计算每个染色体的适应度值。

假设两个两维的特征向量为a=(x₁,y₁)、b=(x₂,y₂)，则其夹角余弦计算为：

$\cos < a, b > = \frac{ab}{| a | | b |} = \frac{x_{1} x_{2} + y_{1} y_{2}}{\sqrt{x_{1}^{2} + y_{1}^{2}} \cdot \sqrt{x_{2}^{2} + y_{2}^{2}}}$

由此可得两个染色体X_i和X_j的相似度计算公式如下：

cos<X_i，X_j>=cos＜weight[i],weight[j]＞，其中weight[i]和weight[j]分别表示两个染色体X_i和X_j对应的权值向量，由此，染色体X_i的适应度函数为：

$f (X_{i}) = \frac{Σ_{j = 1}^{N} \cos < weight [i], weight [j] >}{N - 1}, j \neq i$

根据上述染色体适应度函数计算种群中每个染色体个体适应度值，选出适应度值最高的染色体及其适应度值，记为最优染色体B1和最优适应度值f(B1)。

以初始种群S₀作为当前种群，进入步骤3。

步骤3、按照设定的分块长度K，对当前种群中每个染色体个体编码串Xi 按照编码位从左至右进行分块，得到个分块。表示向下取整，其中，最后一个分块的长度可能小于或等于K。

其中，K的取值是依据语义相关性获得的。具体来说，K的值根据实验确定，采用不同K值以本发明方法创建敏感信息模板，依据所创建模板中的关键词是否能够反映敏感信息来筛选较佳的K，从而获得K的较佳取值范围为3～5。本实施例中，选择最优值K=3。

步骤4、以分块为单位，依据交叉概率，对当前种群中的染色体个体进行交叉操作。

本发明考虑到交叉操作的对象具有语义，因此以分块为单位进行交叉，块内部的码位保持原有顺序，从而交叉过程中，尽量保持语义不发生过大的改变，可以有效提高敏感信息模板中关键词表述的准确性。

本步骤中，对相邻两个染色体个体进行交叉操作，且交叉操作过的染色体不重复交叉，即染色体1、2交叉，染色体3、4交叉，则染色体2、3之间不再交叉。具体交叉操作可以采用现有的各种方式实现。例如：

随机产生一个长度为n的二进制串binary，binary[k]表示二进制串binary的第k位；两个待交叉操作的染色体个体表示为X_i和X_i+1，则依据如下方式进行交叉操作产生新的染色体个体XX_i和XX_i+1：

令k遍历1～n的整数；

如果binary[k]为1，则XX_i的第k个分块选取X_i中的第k个分块，XX_i+1的第k个分块选取X_i+1中的第k个分块；

如果binary[k]为0，则XX_i的第k个分块选取X_i+1中的第k个分块，XX_i+1的第k个分块选取X_i中的第k个分块。

上述交叉方式是否实施还需要配合交叉概率执行。

进一步地，本步骤中所使用的交叉概率根据种群相似性设计，可以利用种群多样性引导遗传过程，增强模板生成的速度。种群相似性的计算方式为：

种群相似性是染色体群体的分类度量值。若种群中染色体个体第l位为0的码位个数为M_l,0，为1的码位个数为M_l,1，定义染色体个体第l位的相似性为： φ_l=max(M_l,0,M_l,1)/N，max()表示取()中的最大值，则种群的相似度其中， φ值范围应该为[0.5，1]，当种群完全随机时φ＝0.5；当种群完全收敛时φ＝1。

按照如下公式计算所述交叉概率：

步骤5、以分块为单位，依据变异概率，对交叉操作后新生成的染色体个体进行变异操作。

对于每个染色体个体执行如下变异操作：

从j=1开始，令整数block=min{randi（1:K），L-j}，本实施例中，K=3，则 block=min{randi(1:3),L-j}，其中，randi(1:3)表示在1至3中随机产生一个整数； L如前表示每个染色体个体编码长度；j为整数，表示染色体个体的第j个编码位。block的值确定了每次变异编码块中的几个码位。

随机产生一个(0,1)之间的小数rand。如果rand小于或等于变异概率，则对染色体个体XX的第j位到第j+block%3位执行按位取反操作，即1变0，0变1，然后将j更新为j+3，循环执行本步骤6，直至j>L，则循环停止，完成一个染色体个体变异操作。block%3表示block除以K后取余数。

从以上变异过程可以看出，每次针对一个编码块实施变异，且每次变异编码块中的1～3个码位，其中码位数量的选取是随机的，从而充分体现了变异的随机性。

进一步地，本步骤中所使用的变异概率也根据种群相似性设计，从而可以利用种群多样性引导遗传过程，增强模板生成的速度。

变异概率：，通过试验确定M=10时更有利于种群的收敛，种群进化速度比较快。

步骤6、重复执行步骤4和步骤5，直至当前种群中最后一个染色体完成交叉操作和变异操作，得到新种群。

步骤7：计算新种群中每个染色体个体的适应度值。

对于完成交叉操作、变异操作形成的新的种群{XX₁,XX₂,…XX_N}，求解每个染色体个体的适应度值{f(XX₁),f(XX₂),…,f(XX_N)}。

步骤8：根据本轮适应度值最高和最低的染色体，执行遗传算法中的精英保持策略，对所述最优染色体B1及其最优适应度值f(B1)进行替换。

本步骤中，在新种群{XX₁,XX₂,…,XX_N}中选取适应度值最高的染色体个体 BB1及其适应度值BB1，选取适应度值最低的染色体个体WW1及其适应度值 f(WW1)。如果f(BB1)≥f(B1),则令B1＝BB1，f(B1)＝f(BB1)。

步骤9：判断算法迭代停止条件，如果停止，进入步骤10；否则，以新种群作为当前种群，返回步骤4。

其中，迭代停止条件可以采用设定的迭代次数或其他条件。

步骤10：从所述信息文本向量中提取最优染色体B1中的编码位1对应的关键词，构成敏感信息模板输出。

自此，就完成了对敏感信息模板的构建。

敏感信息模板中集合了最能代表一类敏感信息的关键词，在进行网络内容安全管理时，采用敏感信息模板在网络内容中进行匹配，即可实现敏感信息管理。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 网络内容安全管理中一种敏感信息模板构建方法 [P] . 中国专利： CN103793747B . 2016.09.14
2. 网络内容安全管理中一种敏感信息模板构建方法 [P] . 中国专利： CN103793747A . 2014-05-14
3. A method for managing the of a central network component via a line to a decentralized network component transmitted energy and network termination apparatus and a communication system [P] . 德国专利： DE19938123C2 . 2002-03-14

机译：一种用于通过中心线向分散的网络组件传输能量来管理中央网络组件的方法和网络终端设备以及通信系统
4. A method for managing the of a central network - component via a line to a decentralized network - component transmitted energy and network termination apparatus [P] . 德国专利： DE19938124C1 . 2001-07-19

机译：一种用于管理中央网络的组件的方法，该组件经由到分散式网络的线路通过组件来传输能量和网络终端设备
5. TEMPORAL FORMWORK SYSTEM FOR SLABS AND AMETHOD FOR BUILDING THE TEMPORAL FORMWORK. [P] . MX368290B . 2019-09-13

机译：板的临时模板系统和一种临时模板的构建方法。