首页> 中国专利> 通过网页多视图数据关联组合识别垃圾网页的方法

通过网页多视图数据关联组合识别垃圾网页的方法

摘要

本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法。它首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内容视图及链接视图的最大相关投影矩阵;提取未标记网页的内容矩阵及链接矩阵;利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵;采用不同的组合方式,生成网页单视图数据;用已标记网页单视图数据训练分类器,将未标记网页识别为正常网页或垃圾网页。本发明解决了如何处理垃圾网页特征的问题,可有效提高垃圾网页的识别精度;同时由于对数据实现了降维,从而提高了识别效率。

著录项

  • 公开/公告号CN102750345A

    专利类型发明专利

  • 公开/公告日2012-10-24

    原文格式PDF

  • 申请/专利权人 山东师范大学;

    申请/专利号CN201210187098.7

  • 发明设计人 张化祥;高爽;

    申请日2012-06-07

  • 分类号G06F17/30(20060101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人张勇

  • 地址 250014 山东省济南市历下区文化东路88号

  • 入库时间 2023-12-18 07:07:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-04-16

    授权

    授权

  • 2012-12-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120607

    实质审查的生效

  • 2012-10-24

    公开

    公开

说明书

技术领域

本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法,属于 internet信息检索领域。

背景技术

网络已经成为最主要的信息来源,人们通过信息检索(IR)查找相关信息。 用户在使用搜索引擎检索信息时,往往只选取排名靠前的几条结果,某些网站 为了达到商业目的利用一些专门为其他网站提供提高排名服务的盈利组织(如 SEO)[Luca Becchetti,Carlos Castillo,Debora Donato,et al.Web spam  detection:link-based and content-based techniques[R].Yahoo!Research  Barcelona,2008.]误导和欺骗用户,严重影响了用户获取有用信息。由此可见, 对垃圾网页进行有效检测是一个亟待解决的问题。

目前垃圾网页主要分为三种类型:基于内容的垃圾网页,基于链接的垃圾 网页和网页隐藏[Carlos Castillo,Debora Donato,AristidesGionis,et al. Know your neighbors:web spam detection using the web topology  [C]//Proceedings of the 30th Annual International ACM SIGIR Conference  on Research and Development in Information Retrieval.New York,USA:ACM, 2007:423-430]。基于内容的垃圾网页通过恶意制作网页内容(如插入与流行的 查询条件相关的关键字)提高搜索排名,通常使用基于语言模型[István Bíró,D ávid Siklósi,Jácint Szabó,András A.Benczúr.Linked latent dirichlet  allocation in web spam filtering[C]//Proceedings of the 5th  International Workshop on Adversarial Information Retrieval on the Web. New York,USA:ACM,2009:37-40,Lourdes Araujo,Juan Martinez-romo.Web  spam detection:new classification features based on qualified link  analysis and language models[J].IEEE Transactions on Information  Forensics and Security,2010,5(3):581-590]的方法检测该类垃圾网页。基 于链接的垃圾网页通过创建一个联系紧密的链接结构影响排名算法,常用基于 信任传播的方法进行检测[Jacob Abernethy,Olivier Chapelle,Carlos  Castillo.Graph regularization methods for web spam detection[J]. Machine Learning,2010,81(2):207-225]。网页隐藏通过向搜索引擎和用户 发送内容不同的网页来实现,可以利用比较索引版本和用户实际看到的网页的 方法进行检测。

上述垃圾网页检测方法都是利用网页的内容特征或链接特征进行分类,也 有一些研究提出方法将两部分特征同时用于分类:将两部分特征进行了串行合 并,但简单合两类特征,网页识别效果不好。因为在基于内容的垃圾网页检测 方法中加入链接信息进行分类[István Bíró,Dávid Siklósi,Jácint Szabó, András A.Benczúr.Linked latent dirichlet allocation in web spam  filtering[C]//Proceedings of the 5th International Workshop on  Adversarial Information Retrieval on the Web.New York,USA:ACM, 2009:37-40],实际用于网页识别的仍然是所链接网页的内容特征。基于内容和 基于链接的两类网页特征不同,所以将网页检测作为一个多视图问题考虑更加 恰当。目前还没有通过分析网页内容与链接数据间的最大关联,实现垃圾网页 识别的相关研究。本发明提出通过网页多视图数据关联组合识别垃圾网页,目 的是利用典型相关分析方法[David R.Hardoon,Sandor R.Szedmak,John R. Shawe-taylor.Canonical correlation analysis:an overview with  application to learning method[J].Neural Computation,2004,16(12): 2639-2664,Tingkai Sun,Songcan Chen.Locality preserving CCA with  applications to data visualization and pose estimation[J].Image and  Vision Computing,2007,25(5):531-543.,Tingkai Sun,Songcan Chen.A  novel method of combined feature extraction for recognition  [C]//Proceedings of the 2008Eighth IEEE International Conference on Data  Mining.Washington,USA:IEEE Computer Society,2008:1043-1048,孙廷 凯.增强型典型相关分析研究与应用[D].南京航空航天大学,2006]对基于内 容和基于链接的特征进行特征提取,提高垃圾网页的识别精度。

发明内容

本发明就是针对现有垃圾网页检测方法通常利用网页的内容特征或者链接 特征进行分类,或将两部分特征简单串行合并后进行分类,上述方法无法解决 如何处理垃圾网页内容和链接特征问题,而这两部分特征又有着本质不同。为 此本发明提出通过网页多视图数据关联组合识别垃圾网页的方法,将垃圾网页 特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利 用典型相关分析及其相关改进方法进行特征提取,生成两组新特征。对新生成 的两视图特征采用不同组合方式产生网页单视图数据,并利用这组数据作为训 练数据构建分类算法,提高垃圾网页的识别准确率。

为了实现上述目的,本发明采用如下技术方案:

一种通过网页多视图数据关联组合识别垃圾网页的方法,首先提取已标记 网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表 示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法, 获取内容视图及链接视图的最大相关投影矩阵;提取未标记网页的内容矩阵及 链接矩阵;利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵;采用不 同的组合方式,生成网页单视图数据;用已标记网页单视图数据训练分类器, 将未标记网页识别为正常网页或垃圾网页。

具体包括以下步骤:

步骤1.对已经标记为正常及垃圾的网页,提取网页的内容特征数据及超链 接特征数据,分别称为内容视图及链接视图,并表示为以行为网页以列为属性 的已标记网页内容矩阵X1和已标记网页链接矩阵Y1

步骤2.将步骤1得到的标记网页的两视图矩阵X1,Y1,利用典型相关分析及 其相关改进方法,分析其最大相关性,并获取内容视图及链接视图的最大相关 投影矩阵,即内容投影矩阵wx和链接投影矩阵wy,下标x表示内容视图,下标 y表示链接视图;

步骤3.对未标记网页,提取网页的内容视图及链接视图,以行为网页以列 为属性分别表示为未标记网页内容矩阵X2和未标记网页链接矩阵Y2

步骤4.利用步骤2生成的两视图最大相关投影矩阵wx,wy,分别对步骤1 中的已标记网页的两视图矩阵X1,Y1和步骤3中的未标记网页的两视图矩阵X2,Y2进行投影,得到已标记网页新的内容矩阵及链接矩阵和未标记网页新 的内容矩阵及链接矩阵其中为内容投影矩阵wx的转置,为内 容投影矩阵wy的转置;

步骤5.将步骤4生成的新的已标记网页两视图矩阵采用并行及 串行组合方式,生成已标记网页单视图数据;

步骤6.利用步骤5产生的已标记网页的单视图数据,训练分类器,用于未 标记网页的识别;

步骤7.将步骤4生成的新的未标记网页两视图矩阵采用并行及 串行组合方式,生成未标记网页单视图数据;

步骤8.利用步骤6得到的分类器,对步骤7中生成的未标记网页单视图数 据分类,根据分类结果,将未标记网页识别为正常网页或垃圾网页。

所述步骤2中,典型相关分析及其相关改进方法包括:

典型相关分析(Canonical Correlation Analysis,CCA)通过最大化两组特 征间的相关性,找出两个线性变换的投影矩阵,使变换后的两组数据相关性最 大化。针对垃圾网页检测,考虑到其非线性、局部信息及判别信息,除使用CCA, 还可使用核典型相关分析(Kernel Canonical Correlation Analysis,KCCA), 局部保持典型相关分析(Locality Preserving Canonical Correlation  Analysis,LPCCA)和判别典型相关分析(Discriminative Canonical  Correlation Analysis,DCCA),学习最大相关投影矩阵。

(1)典型相关分析CCA

给定n个样本的两组特征,一组特征记为X,另一组特征记为Y,将这两组特 征表示为以行为样本,以列为特征的矩阵,即X=[x1,x2,...,xn]∈Rp×n和 Y=[y1,y2,...,yn]∈Rq×n,其中R加上标的形式表示的是维数如上标所示的实数矩阵, n为样本个数,p和q分别是特征X和Y中样本的特征个数。CCA方法用来寻找 两组投影矩阵wx∈Rp×d和wy∈Rq×d,使得投影后的矩阵和之间的相关性 最大,其中d表示将特征X和Y降至的维数。相应目标函数如下:

maxwxT,wyTcov(wxTX,wyTY)var(wxTX)var(wyTY)---(1)

其中cov是求两个矩阵之间的协方差,var是求某一矩阵的方差,(1)可以表示 为:

maxwxT,wyTwxTXYTwywxTXXTwxwyTYYTwy---(2)

这个函数可以表示成如下一个等式约束的线性规划问题:

maxwxT,wyTwxTXYTwy

s.t.wxTXXTwx=1,wyTYYTwy=1---(3)

利用拉格朗日乘子法可以将(1)转换成求解广义特征值问题,将特征值按从大到 小的顺序排序,取前d(d=min(p,q))个非负的特征值对应的特征向量作为投影矩 阵wx和wy,p和q分别是特征X和Y中样本的特征个数。下面的典型相关分析 的改进方法求解步骤同CCA相似,最后都转化为求解广义特征值的问题,所以 只对其中不同的部分详细说明。

(2)核典型相关分析KCCA

为解决非线性问题,采用加入核函数的KCCA方法学习投影矩阵。首先将两 组特征用核函数进行投影,由非线性问题转换为线性问题。两组特征集X和Y隐 式非线性映射为φ:xa φ(x)和ψ:ya ψ(y),其中φ和ψ表示将两组特征集X和Y映 射到某一无限的空间,利用映射后的样本进行典型相关分析。由对偶定理可知, KCCA的解向量可表示为两组投影后样本的线性组合,于是KCCA的解向量为 和其中wφ和wψ是映射后的两组特征进 行典型相关分析得到的投影矩阵,其下标φ和ψ同上所述表示将两组特征集X和 Y映射到某一无限的空间,αi和βi是分别对应每个映射后的样本φ(xi)和ψ(yi)的 线性组合系数,以αi和βi为元素分别组成两个系数向量,记为α和β,i为1到n 之间任意整数,n为样本个数,则KCCA的目标函数为:

maxwφ,wψwφTφ(X)ψ(Y)Twψ=maxα,βαTKXKYβ---(4)

其中可以看出KX和KY是两个 n×n维的实数矩阵(即Rn×n表示的意思),这两个矩阵中的每个元素是kX和kY这两 个高斯核函数分别对特征X和Y中每两个样本求得的值,其中i,j是1到n之间 任意的数,n为样本个数。相应优化函数表示为:

maxα,βαTKXKYβ

s.t.αTKXKXα=1,βTKYKYβ=1    (5)

利用拉格朗日乘子法,可以将(3)中对偶向量的求解表示为求广义特征值问题, 于是分别得到内容投影矩阵wx=φ(X)α和链接投影矩阵wy=ψ(Y)β,即为上述的 解向量。

(3)局部保持典型相关分析LPCCA

在非线性问题中同时考虑数据局部信息,采用LPCCA方法学习最大关联矩 阵。首先找出每个视图特征集中某样本的k个近邻。根据样本的近邻,对两视图 特征分别定义相似度矩阵SX和SY,上标X和Y分别是指两个视图特征,其中的 每个元素按下述公式求出,下标ij指矩阵中第i行,第j列的那个元素,i和 j为1到n之间任意整数,n为样本个数:

SijX=exp(-||xi-xj||2/σx2)xine(xj)orxjne(xi)0otherwise---(6)

SijY=exp(-||yi-yj||2/σy2)yine(yj)oryjne(yi)0otherwise---(7)

其中参数取值为特征X的样本均方距离,参数取值为特征Y的样本均方距 离,xi∈ne(xj)表示xi为xj的近邻,ne(xj)表示一个集合,集合中的元素是样本xj的 k个近邻,otherwise表示除了互为近邻以外的其他情况。在典型相关分析中加 入上述的相似度矩阵后,可以用如下优化问题描述,其中wx,wy仍然表示要求的 投影矩阵,xi,yi仍然表示两视图中的每个样本,i和j为1到n之间任意整数, n为样本个数:

maxwx,wywxT·Σi=1nΣj=1nSijX(xi-xj)SijY(yi-yj)T·wy

s.t.wxT·Σi=1nΣj=1nSijX(xi-xj)SijX(xi-xj)T·wx=1

wyT·Σi=1nΣj=1nSijY(yi-yj)SijY(yi-yj)T·wy=1---(8)

通过拉格朗日乘子法,求得特征值及特征向量,同样取前d(d=min(p,q))个非负 特征值对应的特征向量作为投影矩阵wx和wy,其中p和q分别是特征X和Y中 样本的特征个数。

(4)判别典型相关分析DCCA

结合网页数据类信息,使用加入判别信息的典型相关分析方法DCCA,学习 关联矩阵wx和wy

对于n个样本的两组特征X和Y,DCCA方法旨在寻找两个投影矩阵wx和wy, 使两个映射后的特征具有最大的类内相关性和最小的类间相关性。其优化问题 描述如下:

maxwx,wywxT(Cw-ηCb)wy

s.t.wxTXXTwx=1,wyTYYTwy=1---(9)

其中Cw为类内相关性矩阵,下标w表示类内,Cb为类间相关性矩阵,下标b表示 类间,η是一个平衡因子。求得上述问题的特征值后,取前d个最大特征值对 应的特征向量,d除了满足小于等于min(p,q)还要满足小于等于类别数c把这些 特征向量作为两视图投影矩阵wx和wy,其中p和q分别是特征X和Y中样本的 特征个数。

所属步骤5和步骤7中的串行及并行组合定义如下:

对于新生成的两视图特征进行特征组合,并行组合是将两组新特 征相加,即串行组合是将两组新特征按列串行合并起来,即wxTXwyTY.

本发明的有益效果:本发明将网页数据分成两视图数据,并应用多视图典 型相关分析技术及其推广方法,分析两视图间的最大相关性,一方面可有效提 高垃圾网页的识别精度,同时由于对数据实现了降维,从而提高了识别效率。 不同于以往利用网页内容特征或者链接特征进行分类或将两部分特征简单串行 合并后进行分类的方法,本发明解决了如何处理垃圾网页特征的问题。

附图说明

图1为已标记网页视图特征的提取;

图2为利用典型相关分析及其相关改进方法获取投影矩阵;

图3为未标记网页视图特征的提取;

图4a为生成已标记网页新的内容矩阵;

图4b为生成已标记网页新的链接矩阵;

图5a为生成未标记网页新的内容矩阵;

图5b为生成未标记网页新的链接矩阵;

图6为识别未标记网页的过程。

具体实施方式

下面结合附图与实施实例对本发明作进一步说明。

它将垃圾网页检测问题作为一个多视图分类问题考虑,从已标记的网页中 提取基于内容的特征和基于链接的特征,把这两部分特征分别看作已标记网页 的两个视图,即内容视图和链接视图。如图1所示,将已标记网页的两视图数 据分别表示为以行表示网页,以列表示属性的已标记网页内容矩阵X1和已标记 网页链接矩阵Y1。如图2所示,用典型相关分析及其推广方法对垃圾网页特征 进行特征提取,分别使用CCA、KCCA、LPCCA和DCCA对已标记网页内容矩阵和 已标记网页链接矩阵进行最大相关分析,分别求出使用每种方法得到的内容投 影矩阵和链接投影矩阵。如图3所示,从未标记网页中提取基于内容的特征和 基于链接的特征作为内容视图和链接视图,同样以行为网页以列为属性分别表 示为未标记网页内容矩阵X2和未标记网页链接矩阵Y2。如图4a和图4b所示, 利用两视图最大相关投影矩阵wx,wy,分别对已标记网页的两视图矩阵X1,Y1进行 投影,得到已标记网页新的内容矩阵及链接矩阵如图5a和图5b所 示,利用两视图最大相关投影矩阵wx,wy,分别对未标记网页的两视图矩阵X2,Y2进行投影,得到未标记网页新的内容矩阵及链接矩阵如图6所示, 对新生成的已标记网页两视图数据采用不同组合方式产生已标记网页单视图数 据,并用这组数据作为训练数据训练分类器,再对新生成的未标记网页两视图 数据采用不同组合方式产生未标记网页单视图数据,并使用训练得到的分类器 对其进行类,根据分类结果,将未标记网页识别为正常网页或垃圾网页。

以下对本发明中典型相关分析及其推广方法及组合方式作进一步说明。具 体包括:

1.典型相关分析CCA

给定n个样本的两组特征,一组特征记为X,另一组特征记为Y,将这两组特 征表示为以行为样本,以列为特征的矩阵,即X=[x1,x2,...,xn]∈Rp×n和 Y=[y1,y2,...,yn]∈Rq×n,其中R加上标的形式表示的是维数如上标所示的实数矩阵, n为样本个数,p和q分别是特征X和Y中样本的特征个数。CCA方法用来寻找 两组投影矩阵wx∈Rp×d和wy∈Rq×d,使得投影后的矩阵和之间的相关性 最大,其中d表示将特征X和Y降至的维数。相应目标函数如下:

maxwxT,wyTcov(wxTX,wyTY)var(wxTX)var(wyTY)---(1)

其中cov是求两个矩阵之间的协方差,var是求某一矩阵的方差,(1)可以表示 为:

maxwxT,wyTwxTXYTwywxTXXTwxwyTYYTwy---(2)

这个函数可以表示成如下一个等式约束的线性规划问题:

maxwxT,wyTwxTXYTwy

s.t.wxTXXTwx=1,wyTYYTwy=1---(3)

利用拉格朗日乘子法可以将(1)转换成求解广义特征值问题,将特征值按从大到 小的顺序排序,取前d(d=min(p,q))个非负的特征值对应的特征向量作为投影矩 阵wx和wy,p和q分别是特征X和Y中样本的特征个数。下面的典型相关分析 的改进方法求解步骤同CCA相似,最后都转化为求解广义特征值的问题,所以 只对其中不同的部分详细说明。

2.核典型相关分析KCCA

为解决非线性问题,采用加入核函数的KCCA方法学习投影矩阵。首先将两 组特征用核函数进行投影,由非线性问题转换为线性问题。两组特征集X和Y隐 式非线性映射为φ:xa φ(x)和ψ:ya ψ(y),其中φ和ψ表示将两组特征集X和Y映 射到某一无限的空间,利用映射后的样本进行典型相关分析。由对偶定理可知, KCCA的解向量可表示为两组投影后样本的线性组合,于是KCCA的解向量为 和其中wφ和wψ是映射后的两组特征进 行典型相关分析得到的投影矩阵,其下标φ和ψ同上所述表示将两组特征集X和 Y映射到某一无限的空间,αi和βi是分别对应每个映射后的样本φ(xi)和ψ(yi)的 线性组合系数,以αi和βi为元素分别组成两个系数向量,记为α和β,i为1到n 之间任意整数,n为样本个数,则KCCA的目标函数为:

maxwφ,wψwφTφ(X)ψ(Y)Twψ=maxα,βαTKXKYβ---(4)

其中可以看出KX和KY是两个 n×n维的实数矩阵(即Rn×n表示的意思),这两个矩阵中的每个元素是kX和kY这两 个高斯核函数分别对特征X和Y中每两个样本求得的值,其中i,j是1到n之间 任意的数,n为样本个数。相应优化函数表示为:

maxα,βαTKXKYβ

s.t.αTKXKXα=1,βTKYKYβ=1    (5)

利用拉格朗日乘子法,可以将(3)中对偶向量的求解表示为求广义特征值问题, 于是分别得到内容投影矩阵wx=φ(X)α和链接投影矩阵wy=ψ(Y)β,即为上述的 解向量。

3.局部保持典型相关分析LPCCA

在非线性问题中同时考虑数据局部信息,采用LPCCA方法学习最大关联矩 阵。首先找出每个视图特征集中某样本的k个近邻。根据样本的近邻,对两视图 特征分别定义相似度矩阵SX和SY,上标X和Y分别是指两个视图特征,其中的 每个元素按下述公式求出,下标i j指矩阵中第i行,第j列的那个元素,i和 j为1到n之间任意整数,n为样本个数:

SijX=exp(-||xi-xj||2/σx2)xine(xj)orxjne(xi)0otherwise---(6)

SijY=exp(-||yi-yj||2/σy2)yine(yj)oryjne(yi)0otherwise---(7)

其中参数取值为特征X的样本均方距离,参数取值为特征Y的样本均方距 离,xi∈ne(xj)表示xi为xj的近邻,ne(xj)表示一个集合,集合中的元素是样本xj的 k个近邻,otherwise表示除了互为近邻以外的其他情况。在典型相关分析中加 入上述的相似度矩阵后,可以用如下优化问题描述,其中wx,wy仍然表示要求的 投影矩阵,xi,yi仍然表示两视图中的每个样本,i和j为1到n之间任意整数, n为样本个数:

maxwx,wywxT·Σi=1nΣj=1nSijX(xi-xj)SijY(yi-yj)T·wy

s.t.wxT·Σi=1nΣj=1nSijX(xi-xj)SijX(xi-xj)T·wx=1

wyT·Σi=1nΣj=1nSijY(yi-yj)SijY(yi-yj)T·wy=1---(8)

通过拉格朗日乘子法,求得特征值及特征向量,同样取前d(d=min(p,q))个非负 特征值对应的特征向量作为投影矩阵wx和wy,其中p和q分别是特征X和Y中 样本的特征个数。

4.判别典型相关分析DCCA

结合网页数据类信息,使用加入判别信息的典型相关分析方法DCCA,学习 关联矩阵wx和wy

对于n个样本的两组特征X和Y,DCCA方法旨在寻找两个投影矩阵wx和wy, 使两个映射后的特征具有最大的类内相关性和最小的类间相关性。其优化问题 描述如下:

maxwx,wywxT(Cw-ηCb)wy

s.t.wxTXXTwx=1,wyTYYTwy=1---(9)

其中Cw为类内相关性矩阵,下标w表示类内,Cb为类间相关性矩阵,下标b表示 类间,η是一个平衡因子。求得上述问题的特征值后,取前d个最大特征值对 应的特征向量,d除了满足小于等于min(p,q)还要满足小于等于类别数c把这些 特征向量作为两视图投影矩阵wx和wy,其中p和q分别是特征X和Y中样本的 特征个数。

5.串行及并行组合

对于新生成的两视图特征进行特征组合,并行组合是将两组新特 征相加,即串行组合是将两组新特征按列串行合并起来,即wxTXwyTY.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号