首页> 中国专利> 网络内容安全管理中一种敏感信息模板构建方法

网络内容安全管理中一种敏感信息模板构建方法

摘要

本发明公开了网络内容安全管理中一种敏感信息模板构建方法,能够增强模板生成速度的同时,提高敏感信息模板在该类文本信息语义表达方面的准确性。该方法采用遗传算法进行模板构建,按照设定的分块长度K,对当前种群中每个染色体个体编码串按照编码位从左至右进行分块,并以分块为单位进行染色体的交叉和变异操作。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-14

    授权

    授权

  • 2016-08-31

    著录事项变更 IPC(主分类):G06N3/12 变更前: 变更后: 申请日:20140129

    著录事项变更

  • 2014-06-11

    实质审查的生效 IPC(主分类):G06N3/12 申请日:20140129

    实质审查的生效

  • 2014-05-14

    公开

    公开

说明书

技术领域

本发明属于网络内容安全领域,尤其涉及网络内容安全管理中一种敏感信 息模板构建方法。

背景技术

随着网络规模的不断扩大,网络在社会生活中扮演着越来越重要的角色, 不仅成为人们聊天交友和娱乐媒介,更已经成为人们获取信息的主要渠道,特 别是微博、微信等新型沟通形式的发展成熟,网络正日益成为人们自由交流和 表达意愿的重要平台。然而,网络信息传播的便捷性和随意性问题日益突出, 网络上既有大量进步、健康、有益的信息,也有不少庸俗、灰色、暴力、虚假 的言论,给网络内容安全带来了巨大的挑战。对此,世界各国政府、研究机构 纷纷投入大量资源研究对策。

在战略层面,由美国国家安全局建设的“Echelon”通信监视网络,利用卫 星接收站和间谍卫星,拦截大量电子邮件等个人信息以发现网络上犯罪行为; 英国政府出台了一项“网络信息调查授权法案”,授权情报机构对通过因特网进 出英国的所有电子邮件以及网络信息进行检查和监控,以及时发现网络犯罪的 蛛丝马迹,除此之外,俄罗斯、以色列、韩国、日本以及其它欧美国家都针对 网络上传输信息内容进行实时监控与分析。而国内对于网络内容安全的研究方 兴未艾,北京图形研究所的孙春来等针对网络信息的保密要求,提出了基于内 容过滤的网络内容监控系统-DFNMS;由北大青鸟环宇公司开发的JB-searchX 网络监控系统是一套互联网信息监控系统,能够设置和监控敏感词并进行报警; 中软信息安全实验室推出的网络信息监控分析与取证系统,可以根据用户定义 的监控和分析策略对网络信息文字内容进行分析并将信息还原、归类。

在技术层面,基于内容的信息过滤是网络内容安全监控的重要手段, Stanford大学的Takl.Yen和Hector Garcia-Mina开发了基于内容的过滤系统 SIFT(Stanford Information Filtering Tool),该系统利用向量空间模型来完成用户 信息需求与新闻资料之间的匹配,从而实现对因特网上新闻组内容的过滤。该 类技术利用关键词将信息流与敏感信息模板进行匹配计算,当相似性高于一定 阈值时,则过滤目标信息流,因此敏感信息模板的准确性直接关系到信息过滤 的精度。

在敏感信息模板的构建中,相关研究人员提出了很多方法,比较具有代表 性的有:用于文本分类的支持向量机和用于垃圾邮件过滤的贝叶斯算法。然而, 支持向量机的方法在训练过程中要求同时使用正样本和负样本,但是敏感信息 识别应更多关注正样本,因此无法满足对于敏感信息过滤的需求;J.S.Su等人 在对分类算法进行研究的基础上,指出贝叶斯方法虽然简单高效,但存在过分 依赖先验值的缺点,同时由于敏感信息在发现以前很难建立相应的概率模型, 因此,贝叶斯方法不能适应敏感信息过滤的动态性要求。Cohen提出了利用基于 RIPPER规则学习算法和关键词学习规则进行邮件分类模板生成;M.Taesup提 出了一种基于隐马尔可夫模型的通用过滤算法,将语义元素加入到过滤类别模 板中;在国内,清华大学的曾春等提出利用领域分类模型上的概率分布表达过 滤模板,给出相似性计算和模板更新方法;洪宇等人提出了一种建立信息流二 元近似关系模型,辅助信息过滤系统识别和屏蔽反馈中的噪声,从而使生成的 过滤类别信息模板更加准确。

然而,将遗传算法引入到敏感信息模板生成的研究很少,且主要集中在进 行特征选择以及将遗传算法应用于生成模板的实际应用,哈尔滨工程大学吕志 龙提出了根据用户需求描述和少量正例文档构建初始用户模板,并基于遗传算 法进行用户模板的自适应学习,但是存在的问题是系统过滤初期,效果并不能 令人满意;此外,山东大学刘玉国等人提出了一种基于遗传算法的敏感信息过 滤方法,综合利用过滤模板和文档特性计算方法在一定程度上提高了敏感信息 过滤的准确度,但是存在过滤模板生成速度慢、容易陷入局部最优的问题。

发明内容

有鉴于此,本发明基于遗传算法,提供了网络内容安全管理中一种敏感信 息模板构建方法,有效提高敏感信息模板中关键词表述的准确性,可以增强模 板生成的速度。

为了解决上述技术问题,本发明是这样实现的:

步骤1、选择一类敏感信息的训练文本集,该训练文本集中包括信息文本向 量和多个训练文本;将每个训练文本转换为二进制编码串并且作为一个染色体 个体,构成遗传算法初始种群;

步骤2、计算初始种群中每个染色体个体的适应度值,并保存适应度值最高 的染色体及其适应度值为最优染色体B1和最优适应度值f(B1);

步骤3、按照设定的分块长度K,对当前种群中每个染色体个体的编码串按 照编码位从左至右进行分块,得到n个分块;K的取值范围为3~5;

步骤4、以分块为单位,依据交叉概率,对当前种群中的染色体个体进行交 叉操作;

步骤5、以分块为单位,依据变异概率,对交叉操作后新生成的染色体个体 进行变异操作;

步骤6、重复执行步骤4和步骤5,直至当前种群中最后一个染色体完成交 叉操作和变异操作,得到新种群;

步骤7:计算所述染新种群中每个染色体个体的适应度值;

步骤8:根据本轮适应度值最高和最低的染色体,执行遗传算法中的精英保 持策略,对所述最优染色体B1及其最优适应度值f(B1)进行替换;

步骤9:判断算法迭代停止条件,如果停止,进入步骤10;否则,以新种 群作为当前种群,返回步骤4;

步骤10:从所述信息文本向量中提取最优染色体B1中的编码位1对应的关 键词,构成敏感信息模板输出。

进一步地,在所述步骤5中,对于每个染色体个体执行如下步骤51~步骤 54的变异操作:

步骤51、令j=1;

步骤52、取整数block=min{randi(1:K),L-j},其中,randi(1:K)表示在 1至K中随机产生一个整数;L表示每个染色体个体编码长度;j为整数,表示 染色体个体的第j个编码位;min{}表示取{}中的最小值;

步骤53、随机产生一个(0,1)之间的小数rand,如果rand小于或等于变异概 率,则对染色体个体的第j位到第j+block%K位执行按位取反操作,然后将j更 新为j+K;其中,block%K表示block除以K取余数;

步骤54、循环执行步骤52和步骤53,直至j>L,则循环停止,完成一个染 色体个体变异操作。

有益效果:

(1)本发明按照语义划分编码块,以编码块为单位进行交叉和变异操作, 降低交叉和变异所带来的语义变异过大的问题,在增强模板生成速度的同时, 可以有效提高敏感信息模板在该类文本信息语义表达方面的准确性。

(2)有针对性地根据种群相似性设计交叉和变异概率,可以利用种群多样 性引导遗传过程,可以增强模板生成的速度。

(3)采用精英保持策略,可以保证遗传过程不退化,具有提高敏感信息模 板构建的准确性和生成速度的效果。

具体实施方式

本发明提供了网络内容安全管理中的敏感信息模板构建方法,该方法采用 遗传算法,并按照语义划分编码块,以编码块为单位进行交叉和变异操作,降 低交叉和变异所带来的语义变异过大的问题,可以有效提高敏感信息模板中关 键词表述的准确性。

下面对本发明敏感信息模板构建方法进行详细描述。

步骤1:选择一类敏感信息的训练文本集,该训练文本集中包括信息文本向 量和多个训练文本;将每个训练文本转换为二进制编码串并且作为一个染色体 个体,构成遗传算法初始种群S0

敏感信息分类包括政治、经济、军事等。每一次针对一类敏感信息进行模 板构建。因此本步骤中,选择一类敏感信息的训练文本集。

对于一类文本信息T,通过文本分词方法可以将该类文本信息T转化成一 个由若干关键词组成的信息文本向量W1,该信息文本向量W1包含该类文本信 息T的全部关键字。例如,某类文本信息的信息文本向量为[我,不,是,中国, 美国,人]。

文本信息T是训练文本的集合。每个敏感信息模板训练文本在经过文本分 词和特征提取之后也可以转换为一个由若干关键词组成的向量W2,根据文本信 息T的上下文采用关键词权重计算方法获得向量W2中每个关键词的权重;然 后依据出现的关键字与信息文本向量W1对比,可得到训练文本的权重特征向 量W3,该权重特征向量W3的长度与信息文本向量W1的长度相同,且其元素 的值就是相应位关键词的权重。为了进行遗传计算,将权重特征向量转换为二 进制编码串,该二进制编码串的长度与权重特征向量长度相同,转换时,权重 特征向量中为0的元素转换为二进制0,非零的元素转换为二进制1。

例如:一个训练文本为[我是中国人],根据文本信息的上下文采用关键词权 重计算方法获得训练文本中关键词的权重分别为[0.2,0.3,0.1,0.5],则对应到 信息文本向量[我,不,是,中国,美国,人]中,得到相应权重特征向量为[0.2, 0,0.3,0.1,0,0.5]。将权重特征向量转换为且其二进制编码串可表示为[1,0, 1,1,0,1]。

对应到遗传算法中,每个训练文本的二进制编码串称为一个染色体,训练 文本的个数称为染色体的群体规模,用N表示;二进制编码串的长度表示该类 文本向量中关键字的个数,用L表示;另外,Pc为染色体遗传过程中的交叉概 率,Pm为染色体遗传过程中的变异概率。

将训练文本集中的每个训练文本转化为二进制编码串,并且作为一个染色 体个体,从而构成遗传算法初始种群S0={X1,X2,…XN},其中Xi表示第i个染色 体个体。

步骤2、计算初始种群S0中每个染色体个体的适应度值,并保存适应度值 最高的染色体及其适应度值为最优染色体B1和最优适应度值f(B1)。

本步骤中,按照如下方法计算每个染色体的适应度值。

假设两个两维的特征向量为a=(x1,y1)、b=(x2,y2),则其夹角余弦计算为:

cos<a,b>=ab|a||b|=x1x2+y1y2x12+y12·x22+y22

由此可得两个染色体Xi和Xj的相似度计算公式如下:

cos<Xi,Xj>=cos<weight[i],weight[j]>,其中weight[i]和weight[j]分别表示两个 染色体Xi和Xj对应的权值向量,由此,染色体Xi的适应度函数为:

f(Xi)=Σj=1Ncos<weight[i],weight[j]>N-1,ji

根据上述染色体适应度函数计算种群中每个染色体个体适应度值,选出适 应度值最高的染色体及其适应度值,记为最优染色体B1和最优适应度值f(B1)。

以初始种群S0作为当前种群,进入步骤3。

步骤3、按照设定的分块长度K,对当前种群中每个染色体个体编码串Xi 按照编码位从左至右进行分块,得到个分块。表示向下取整,其 中,最后一个分块的长度可能小于或等于K。

其中,K的取值是依据语义相关性获得的。具体来说,K的值根据实验确 定,采用不同K值以本发明方法创建敏感信息模板,依据所创建模板中的关键 词是否能够反映敏感信息来筛选较佳的K,从而获得K的较佳取值范围为3~5。 本实施例中,选择最优值K=3。

步骤4、以分块为单位,依据交叉概率,对当前种群中的染色体个体进行交 叉操作。

本发明考虑到交叉操作的对象具有语义,因此以分块为单位进行交叉,块 内部的码位保持原有顺序,从而交叉过程中,尽量保持语义不发生过大的改变, 可以有效提高敏感信息模板中关键词表述的准确性。

本步骤中,对相邻两个染色体个体进行交叉操作,且交叉操作过的染色体 不重复交叉,即染色体1、2交叉,染色体3、4交叉,则染色体2、3之间不再 交叉。具体交叉操作可以采用现有的各种方式实现。例如:

随机产生一个长度为n的二进制串binary,binary[k]表示二进制串binary的 第k位;两个待交叉操作的染色体个体表示为Xi和Xi+1,则依据如下方式进行 交叉操作产生新的染色体个体XXi和XXi+1

令k遍历1~n的整数;

如果binary[k]为1,则XXi的第k个分块选取Xi中的第k个分块,XXi+1的 第k个分块选取Xi+1中的第k个分块;

如果binary[k]为0,则XXi的第k个分块选取Xi+1中的第k个分块,XXi+1的第k个分块选取Xi中的第k个分块。

上述交叉方式是否实施还需要配合交叉概率执行。

进一步地,本步骤中所使用的交叉概率根据种群相似性设计,可以利用种 群多样性引导遗传过程,增强模板生成的速度。种群相似性的计算方式为:

种群相似性是染色体群体的分类度量值。若种群中染色体个体第l位为0的 码位个数为Ml,0,为1的码位个数为Ml,1,定义染色体个体第l位的相似性为: φl=max(Ml,0,Ml,1)/N,max()表示取()中的最大值,则种群的相似度其中, φ值范围应该为[0.5,1],当种群完全随机时φ=0.5;当种群完全收敛时φ=1。

按照如下公式计算所述交叉概率:

步骤5、以分块为单位,依据变异概率,对交叉操作后新生成的染色体个体 进行变异操作。

对于每个染色体个体执行如下变异操作:

从j=1开始,令整数block=min{randi(1:K),L-j},本实施例中,K=3,则 block=min{randi(1:3),L-j},其中,randi(1:3)表示在1至3中随机产生一个整数; L如前表示每个染色体个体编码长度;j为整数,表示染色体个体的第j个编码 位。block的值确定了每次变异编码块中的几个码位。

随机产生一个(0,1)之间的小数rand。如果rand小于或等于变异概率,则对 染色体个体XX的第j位到第j+block%3位执行按位取反操作,即1变0,0变1, 然后将j更新为j+3,循环执行本步骤6,直至j>L,则循环停止,完成一个染色 体个体变异操作。block%3表示block除以K后取余数。

从以上变异过程可以看出,每次针对一个编码块实施变异,且每次变异编 码块中的1~3个码位,其中码位数量的选取是随机的,从而充分体现了变异的 随机性。

进一步地,本步骤中所使用的变异概率也根据种群相似性设计,从而可以 利用种群多样性引导遗传过程,增强模板生成的速度。

变异概率:,通过试验确定M=10时更有利于种群的收敛,种群进 化速度比较快。

步骤6、重复执行步骤4和步骤5,直至当前种群中最后一个染色体完成交 叉操作和变异操作,得到新种群。

步骤7:计算新种群中每个染色体个体的适应度值。

对于完成交叉操作、变异操作形成的新的种群{XX1,XX2,…XXN},求解每个 染色体个体的适应度值{f(XX1),f(XX2),…,f(XXN)}。

步骤8:根据本轮适应度值最高和最低的染色体,执行遗传算法中的精英保 持策略,对所述最优染色体B1及其最优适应度值f(B1)进行替换。

本步骤中,在新种群{XX1,XX2,…,XXN}中选取适应度值最高的染色体个体 BB1及其适应度值BB1,选取适应度值最低的染色体个体WW1及其适应度值 f(WW1)。如果f(BB1)≥f(B1),则令B1=BB1,f(B1)=f(BB1)。

步骤9:判断算法迭代停止条件,如果停止,进入步骤10;否则,以新种 群作为当前种群,返回步骤4。

其中,迭代停止条件可以采用设定的迭代次数或其他条件。

步骤10:从所述信息文本向量中提取最优染色体B1中的编码位1对应的 关键词,构成敏感信息模板输出。

自此,就完成了对敏感信息模板的构建。

敏感信息模板中集合了最能代表一类敏感信息的关键词,在进行网络内容 安全管理时,采用敏感信息模板在网络内容中进行匹配,即可实现敏感信息管 理。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保 护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等, 均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号