首页> 中国专利> 利用模糊理论对欺诈网页识别的方法

利用模糊理论对欺诈网页识别的方法

摘要

本发明公开一种利用模糊理论对欺诈网页进行识别的方法,涉及一种不依赖网页特征的欺诈网页识别技术,利用分工协作的思维和模糊理论来解决欺诈网页识别问题,由不同的用户来决定网页的质量,由计算机来分析用户作出标记后的数据集,以解决现有欺诈网页识别方法对网页的依赖性大的技术问题。这种技术方案简单有效,在未来搜索引擎中具有重要实用价值。

著录项

  • 公开/公告号CN106355095A

    专利类型发明专利

  • 公开/公告日2017-01-25

    原文格式PDF

  • 申请/专利权人 吉林大学;

    申请/专利号CN201611046454.8

  • 发明设计人 尚靖博;左祥麟;左万利;王英;

    申请日2016-11-23

  • 分类号G06F21/56;G06F17/30;

  • 代理机构吉林长春新纪元专利代理有限责任公司;

  • 代理人陈宏伟

  • 地址 130011 吉林省长春市前进大街2699号

  • 入库时间 2023-06-19 01:24:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-19

    授权

    授权

  • 2017-03-01

    实质审查的生效 IPC(主分类):G06F21/56 申请日:20161123

    实质审查的生效

  • 2017-01-25

    公开

    公开

说明书

技术领域

本发明公开一种利用模糊理论对欺诈网页进行识别的方法,涉及一种不依赖网页特征的欺诈网页识别技术,属于互联网安全与服务技术领域。

背景技术

搜索引擎已经成为互联网用户不可或缺的工具,但由于利益的驱动,欺诈网页大量混杂于互联网中。欺骗者采取非正常手段,针对搜索引擎排序策略对网页排序进行人工干预,以获得与其地位不相称的高排名,干扰用户对信息的获取,甚至损害用户利益,这些网页被称为欺诈网页,欺骗者采取的方式可以分为四种:基于内容的方式、基于链接的方式、基于掩盖技术的方式和基于重定向的方式,以往反欺诈研究均针对四种欺骗方式进行识别,过度依赖网页本身,识别结果短暂有效,寻找不依赖网页特征的欺诈网页识别方法是当前亟待解决的一个重要问题。

发明内容

本发明所述的一种利用模糊理论对欺诈网页识别方法,不依赖网页特征的欺诈网页识别方法,解决了以往识别欺诈网页方法的过度依赖网页本身、识别结果短暂有效的问题。

本发明所述的一种利用模糊理论对欺诈网页识别方法,其技术方案包括以下步骤:

步骤一:

用户浏览完网页,对网页进行评价做出用户标记:分别为“非欺诈网页F”、“欺诈网页S”、“模棱两可B”或“不知道U”;

步骤二:

每个月末通过搜索引擎将当月全部用户标记的数据集下载;

步骤三:

对数据集按每个网页不同用户标记的数量分成若干的矩阵Mi,其中,i=1,2,...,n;

步骤四:

对每个矩阵Mi:记作N,转成模糊相似矩阵R,R的每个元素Rij,其中i,j=1,2,...,n,n∈R,计算公式包括:

Rij=1,i=j1-0.1*d(Ni,Nj),ij

其中,i,j=1,2,...,n;n为N的行数;

d(Ni,Nj)=Σk=1m|Nik-Njk|

其中,i,j=1,2,...,n;n为N的行数,m为N的列数;

步骤五:

模糊相似矩阵转成模糊等价矩阵,公式如下:

n为自热数;p为R的行数;

直到满足Rb*Rb!=Rb条件,矩阵达到收敛;

步骤六:

将收敛的矩阵选取所有的置信水平值[0,1],计算截矩阵;

步骤七:

对于每个截矩阵,聚类产生多个集合,依次从每个集合中选取出第一个站点人工判断是欺诈网页还是非欺诈网页,若是欺诈网页则认为该集合属于欺诈网页;若是非欺诈网页则认为该集合属于非欺诈网页。

本发明的积极效果在于:利用分工协作的思维和模糊理论来解决欺诈网页识别问题,由不同的用户来决定网页的质量,由计算机来分析用户作出标记后的数据集,以解决现有欺诈网页识别方法对网页的依赖性大的技术问题。这种技术方案简单有效,在未来搜索引擎中具有重要实用价值。

具体实施方式

为了更清楚地说明本发明技术方案,下面将根据技术描述中所介绍的技术方案给出三个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以将该技术方案运用到实际工程中。

实施例1

步骤一:用户浏览完网页后,按照对网页的评价,从网页预先设置好的四种标记(F,S,B,U)中给出自己的选择,例如:362F U表示的是id为362的站点有两个用户的标记分别为F和U。

步骤二:为了满足实施例的要求,我们使用数据集webspam-uk2007(“WebSpam Collections”,http://chato.cl/webspam/datasets/,Crawled by the Laboratory of Web Algo rithmics,University of Milan,http://law.di.unimi.it/)来验证聚类的实验的识别率。

步骤三:从数据集中选取用户数为2的50条数据,产生50*2的矩阵M。

步骤四:对该矩阵根据公式计算模糊相似矩阵得到50*50的矩阵R。

计算公式包括:

Rij=1,i=j1-0.1*d(Ni,Nj),ij

其中,i,j=1,2,...,n。n为N的行数;

d(Ni,Nj)=Σk=1m|Nik-Njk|

其中,i,j=1,2,...,n。n为N的行数,m为N的列数;

步骤五:对步骤四所产生的矩阵R,利用公式计算模糊等价矩阵,计算结果是m=8,即R8·R8=R8,这时R依然为50*50的矩阵。

公式如下:

n为自热数;p为R的行数;

直到满足Rb*Rb!=Rb条件,矩阵达到收敛;

步骤六:把矩阵中所包含的元素从大到小的顺序编排如下:记为λ:1>0.9>0.8。依次取λ=1,0.9,0.8分别计算其截集矩阵,当λ=1时,矩阵中所有小于1的值都替换成0,产生第一个截矩阵;当λ=0.9时,矩阵中所有大于等于0.9的值都替换成1,矩阵中所有小于0.9的值都替换成0,产生第二个截矩阵;当λ=0.8时,矩阵中所有大于等于0.8的值都替换成1,产生第三个截矩阵。

步骤七:

当λ=1时,

聚类产生5个集合,依次从每个集合中选取第一个站点人工判断是欺诈网页还是非欺诈网页,若是欺诈网页则认为该集合属于欺诈网页,若是非欺诈网页则认为该集合属于非欺诈网页,实施例结果如下表:(对于每个集合中每个站点我们根据数据集给出的判定进行验证其对应的识别率)

当λ=0.9时,聚类产生4个集合,依次从每个集合中选取第一个站点人工判断是欺诈网页还是非欺诈网页,若是欺诈网页则认为该集合属于欺诈网页,若是非欺诈网页则认为该集合属于非欺诈网页,实施例结果如下表:(对于每个集合中每个站点我们根据数据集给出的判定进行验证其对应的识别率)

当λ=0.8时,聚类产生1个集合,实施例1以此为标志完成实施例1。

实施例2

步骤一:用户浏览完网页后,按照对网页的评价,从网页预先设置好的四种标记(F,S,B,U)中给出自己的选择,例如:362F U表示的是id为362的站点有两个用户的标记分别为F和U。

步骤二:为了满足实施例的要求,我们使用数据集webspam-uk2007(“WebSpam Collections”,http://chato.cl/webspam/datasets/,Crawled by the Laboratory of Web Algorithmics,University of Milan,http://law.di.unimi.it/)来验证聚类的实验的识别率。

步骤三:从数据集中选取用户数为2的100条数据,产生100*2的矩阵M。

步骤四:对该矩阵根据公式计算模糊相似矩阵得到100*100的矩阵R。

计算公式包括:

Rij=1,i=j1-0.1*d(Ni,Nj),ij

其中,i,j=1,2,...,n。n为N的行数;

d(Ni,Nj)=Σk=1m|Nik-Njk|

其中,i,j=1,2,...,n。n为N的行数,m为N的列数;

步骤五:对步骤四所产生的矩阵R,利用公式计算模糊等价矩阵,计算结果是m=16,即R16·R16=R16,这时R依然为100*100的矩阵。

公式如下:

n为自热数;p为R的行数;

直到满足Rb*Rb!=Rb条件,矩阵达到收敛;

步骤六:把矩阵中所包含的元素从大到小的顺序编排如下:记为λ:1>0.9>0.8。依次取λ=1,0.9,0.8分别计算其截集矩阵,当λ=1时,矩阵中所有小于1的值都替换成0,产生第一个截矩阵;当λ=0.9时,矩阵中所有大于等于0.9的值都替换成1,矩阵中所有小于0.9的值都替换成0,产生第二个截矩阵;当λ=0.8时,矩阵中所有大于等于0.8的值都替换成1,产生第三个截矩阵。

步骤七:

当λ=1时,

聚类产生8个集合,依次从每个集合中选取第一个站点人工判断是欺诈网页还是非欺诈网页,若是欺诈网页则认为该集合属于欺诈网页,若是非欺诈网页则认为该集合属于非欺诈网页,实施例结果如下表:(对于每个集合中每个站点我们根据数据集给出的判定进行验证其对应的识别率)

当λ=0.9时,

聚类产生2个集合,依次从每个集合中选取第一个站点人工判断是欺诈网页还是非欺诈网页,若是欺诈网页则认为该集合属于欺诈网页,若是非欺诈网页则认为该集合属于非欺诈网页,实施例结果如下表:(对于每个集合中每个站点我们根据数据集给出的判定进行验证其对应的识别率)

当λ=0.8时,聚类产生1个集合,实施例2以此为标志完成实施例2。

实施例3

步骤一:用户浏览完网页后,按照对网页的评价,从网页预先设置好的四种标记(F,S,B,U)中给出自己的选择,例如:362F U表示的是id为362的站点有两个用户的标记分别为F和U。

步骤二:为了满足实施例的要求,我们使用数据集webspam-uk2007(“WebSpam Collections”,http://chato.cl/webspam/datasets/,Crawled by the Laboratory of Web Algo rithmics,University of Milan,http://law.di.unimi.it/)来验证聚类的实验的识别率。

步骤三:从数据集中选取用户数为2的200条数据,产生200*2的矩阵M。

步骤四:对该矩阵根据公式计算模糊相似矩阵得到200*200的矩阵R。

计算公式包括:

Rij=1,i=j1-0.1*d(Ni,Nj),ij

其中,i,j=1,2,...,n。n为N的行数;

d(Ni,Nj)=Σk=1m|Nik-Njk|

其中,i,j=1,2,...,n。n为N的行数,m为N的列数;

步骤五:对步骤四所产生的矩阵R,利用公式计算模糊等价矩阵,计算结果是m=8,即R8·R8=R8,这时R依然为200*200的矩阵。

公式如下:

n为自热数;p为R的行数;

直到满足Rb*Rb!=Rb条件,矩阵达到收敛;

步骤六:把矩阵中所包含的元素从大到小的顺序编排如下:记为λ:1>0.9>0.8。依次取λ=1,0.9,0.8分别计算其截集矩阵,当λ=1时,矩阵中所有小于1的值都替换成0,产生第一个截矩阵;当λ=0.9时,矩阵中所有大于等于0.9的值都替换成1,矩阵中所有小于0.9的值都替换成0,产生第二个截矩阵;当λ=0.8时,矩阵中所有大于等于0.8的值都替换成1,产生第三个截矩阵。

步骤七:

当λ=1时,

聚类产生9个集合,依次从每个集合中选取第一个站点人工判断是欺诈网页还是非欺诈网页,若是欺诈网页则认为该集合属于欺诈网页,若是非欺诈网页则认为该集合属于非欺诈网页,实施例结果如下表:(对于每个集合中每个站点我们根据数据集给出的判定进行验证其对应的识别率)

当λ=0.9时,

聚类产生3个集合,依次从每个集合中选取第一个站点人工判断是欺诈网页还是非欺诈网页,若是欺诈网页则认为该集合属于欺诈网页,若是非欺诈网页则认为该集合属于非欺诈网页,实施例结果如下表:(对于每个集合中每个站点我们根据数据集给出的判定进行验证其对应的识别率)

当λ=0.8时,聚类产生1个集合,实施例3以此为标志完成实施例3。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号