首页> 中国专利> 通过网页多视图数据关联组合识别垃圾网页的方法

通过网页多视图数据关联组合识别垃圾网页的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法。它首先提取已标记网页的内容特征数据及超链接特征数据，分别称为内容视图及链接视图，并表示为已标记网页的内容矩阵和链接矩阵；利用典型相关分析及其相关改进方法，获取内容视图及链接视图的最大相关投影矩阵；提取未标记网页的内容矩阵及链接矩阵；利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵；采用不同的组合方式，生成网页单视图数据；用已标记网页单视图数据训练分类器，将未标记网页识别为正常网页或垃圾网页。本发明解决了如何处理垃圾网页特征的问题，可有效提高垃圾网页的识别精度；同时由于对数据实现了降维，从而提高了识别效率。

著录项

公开/公告号CN102750345A

专利类型发明专利
公开/公告日2012-10-24

原文格式PDF
申请/专利权人山东师范大学;
展开▼

申请/专利号CN201210187098.7
发明设计人张化祥;高爽;
展开▼

申请日2012-06-07
分类号G06F17/30(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人张勇
地址 250014 山东省济南市历下区文化东路88号
入库时间 2023-12-18 07:07:03

法律信息

法律状态公告日

法律状态信息

法律状态
2014-04-16

授权

授权
2012-12-12

实质审查的生效 IPC(主分类):G06F17/30 申请日:20120607

实质审查的生效
2012-10-24

公开

公开

说明书

技术领域

本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法，属于 internet信息检索领域。

背景技术

网络已经成为最主要的信息来源，人们通过信息检索(IR)查找相关信息。用户在使用搜索引擎检索信息时，往往只选取排名靠前的几条结果，某些网站为了达到商业目的利用一些专门为其他网站提供提高排名服务的盈利组织(如 SEO)[Luca Becchetti,Carlos Castillo,Debora Donato,et al.Web spam detection:link-based and content-based techniques[R].Yahoo!Research Barcelona,2008.]误导和欺骗用户，严重影响了用户获取有用信息。由此可见，对垃圾网页进行有效检测是一个亟待解决的问题。

目前垃圾网页主要分为三种类型：基于内容的垃圾网页，基于链接的垃圾网页和网页隐藏[Carlos Castillo,Debora Donato,AristidesGionis,et al. Know your neighbors:web spam detection using the web topology [C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM, 2007:423-430]。基于内容的垃圾网页通过恶意制作网页内容(如插入与流行的查询条件相关的关键字)提高搜索排名，通常使用基于语言模型[István Bíró,D ávid Siklósi,Jácint Szabó,András A.Benczúr.Linked latent dirichlet allocation in web spam filtering[C]//Proceedings of the 5th International Workshop on Adversarial Information Retrieval on the Web. New York,USA:ACM,2009:37-40,Lourdes Araujo,Juan Martinez-romo.Web spam detection:new classification features based on qualified link analysis and language models[J].IEEE Transactions on Information Forensics and Security,2010,5(3):581-590]的方法检测该类垃圾网页。基于链接的垃圾网页通过创建一个联系紧密的链接结构影响排名算法，常用基于信任传播的方法进行检测[Jacob Abernethy,Olivier Chapelle,Carlos Castillo.Graph regularization methods for web spam detection[J]. Machine Learning,2010,81(2):207-225]。网页隐藏通过向搜索引擎和用户发送内容不同的网页来实现，可以利用比较索引版本和用户实际看到的网页的方法进行检测。

上述垃圾网页检测方法都是利用网页的内容特征或链接特征进行分类，也有一些研究提出方法将两部分特征同时用于分类：将两部分特征进行了串行合并，但简单合两类特征，网页识别效果不好。因为在基于内容的垃圾网页检测方法中加入链接信息进行分类[István Bíró,Dávid Siklósi,Jácint Szabó, András A.Benczúr.Linked latent dirichlet allocation in web spam filtering[C]//Proceedings of the 5th International Workshop on Adversarial Information Retrieval on the Web.New York,USA:ACM, 2009:37-40]，实际用于网页识别的仍然是所链接网页的内容特征。基于内容和基于链接的两类网页特征不同，所以将网页检测作为一个多视图问题考虑更加恰当。目前还没有通过分析网页内容与链接数据间的最大关联，实现垃圾网页识别的相关研究。本发明提出通过网页多视图数据关联组合识别垃圾网页，目的是利用典型相关分析方法[David R.Hardoon,Sandor R.Szedmak,John R. Shawe-taylor.Canonical correlation analysis:an overview with application to learning method[J].Neural Computation,2004,16(12): 2639-2664,Tingkai Sun,Songcan Chen.Locality preserving CCA with applications to data visualization and pose estimation[J].Image and Vision Computing,2007,25(5):531-543.,Tingkai Sun,Songcan Chen.A novel method of combined feature extraction for recognition [C]//Proceedings of the 2008Eighth IEEE International Conference on Data Mining.Washington,USA:IEEE Computer Society,2008:1043-1048,孙廷凯.增强型典型相关分析研究与应用[D].南京航空航天大学,2006]对基于内容和基于链接的特征进行特征提取，提高垃圾网页的识别精度。

发明内容

本发明就是针对现有垃圾网页检测方法通常利用网页的内容特征或者链接特征进行分类，或将两部分特征简单串行合并后进行分类，上述方法无法解决如何处理垃圾网页内容和链接特征问题，而这两部分特征又有着本质不同。为此本发明提出通过网页多视图数据关联组合识别垃圾网页的方法，将垃圾网页特征分为两个不同的视图，即基于内容特征的视图和基于链接特征的视图，利用典型相关分析及其相关改进方法进行特征提取，生成两组新特征。对新生成的两视图特征采用不同组合方式产生网页单视图数据，并利用这组数据作为训练数据构建分类算法，提高垃圾网页的识别准确率。

为了实现上述目的，本发明采用如下技术方案:

一种通过网页多视图数据关联组合识别垃圾网页的方法，首先提取已标记网页的内容特征数据及超链接特征数据，分别称为内容视图及链接视图，并表示为已标记网页的内容矩阵和链接矩阵；利用典型相关分析及其相关改进方法，获取内容视图及链接视图的最大相关投影矩阵；提取未标记网页的内容矩阵及链接矩阵；利用最大相关投影矩阵生成网页新的内容矩阵及链接矩阵；采用不同的组合方式，生成网页单视图数据；用已标记网页单视图数据训练分类器，将未标记网页识别为正常网页或垃圾网页。

具体包括以下步骤：

步骤1.对已经标记为正常及垃圾的网页，提取网页的内容特征数据及超链接特征数据，分别称为内容视图及链接视图，并表示为以行为网页以列为属性的已标记网页内容矩阵X₁和已标记网页链接矩阵Y₁；

步骤2.将步骤1得到的标记网页的两视图矩阵X₁,Y₁，利用典型相关分析及其相关改进方法，分析其最大相关性，并获取内容视图及链接视图的最大相关投影矩阵，即内容投影矩阵w_x和链接投影矩阵w_y，下标x表示内容视图，下标 y表示链接视图；

步骤3.对未标记网页，提取网页的内容视图及链接视图，以行为网页以列为属性分别表示为未标记网页内容矩阵X₂和未标记网页链接矩阵Y₂；

步骤4.利用步骤2生成的两视图最大相关投影矩阵w_x,w_y，分别对步骤1 中的已标记网页的两视图矩阵X₁,Y₁和步骤3中的未标记网页的两视图矩阵X₂,Y₂进行投影，得到已标记网页新的内容矩阵及链接矩阵和未标记网页新的内容矩阵及链接矩阵其中为内容投影矩阵w_x的转置，为内容投影矩阵w_y的转置；

步骤5.将步骤4生成的新的已标记网页两视图矩阵采用并行及串行组合方式，生成已标记网页单视图数据；

步骤6.利用步骤5产生的已标记网页的单视图数据，训练分类器，用于未标记网页的识别；

步骤7.将步骤4生成的新的未标记网页两视图矩阵采用并行及串行组合方式，生成未标记网页单视图数据；

步骤8.利用步骤6得到的分类器，对步骤7中生成的未标记网页单视图数据分类，根据分类结果，将未标记网页识别为正常网页或垃圾网页。

所述步骤2中，典型相关分析及其相关改进方法包括：

典型相关分析(Canonical Correlation Analysis,CCA)通过最大化两组特征间的相关性，找出两个线性变换的投影矩阵，使变换后的两组数据相关性最大化。针对垃圾网页检测，考虑到其非线性、局部信息及判别信息，除使用CCA，还可使用核典型相关分析(Kernel Canonical Correlation Analysis,KCCA)，局部保持典型相关分析(Locality Preserving Canonical Correlation Analysis,LPCCA)和判别典型相关分析(Discriminative Canonical Correlation Analysis,DCCA)，学习最大相关投影矩阵。

(1)典型相关分析CCA

给定n个样本的两组特征，一组特征记为X,另一组特征记为Y,将这两组特征表示为以行为样本，以列为特征的矩阵，即X＝[x₁,x₂,...,x_n]∈R^p×n和 Y＝[y₁,y₂,...,y_n]∈R^q×n，其中R加上标的形式表示的是维数如上标所示的实数矩阵， n为样本个数，p和q分别是特征X和Y中样本的特征个数。CCA方法用来寻找两组投影矩阵w_x∈R^p×d和w_y∈R^q×d，使得投影后的矩阵和之间的相关性最大，其中d表示将特征X和Y降至的维数。相应目标函数如下：

$\max_{w_{x}^{T}, w_{y}^{T}} \frac{cov (w_{x}^{T} X, w_{y}^{T} Y)}{\sqrt{var (w_{x}^{T} X)} \sqrt{var (w_{y}^{T} Y)}} - - - (1)$

其中cov是求两个矩阵之间的协方差，var是求某一矩阵的方差，(1)可以表示为：

$\max_{w_{x}^{T}, w_{y}^{T}} \frac{w_{x}^{T} {XY}^{T} w_{y}}{\sqrt{w_{x}^{T} {XX}^{T} w_{x}} \sqrt{w_{y}^{T} {YY}^{T} w_{y}}} - - - (2)$

这个函数可以表示成如下一个等式约束的线性规划问题：

$\max_{w_{x}^{T}, w_{y}^{T}} w_{x}^{T} {XY}^{T} w_{y}$

$s . t . w_{x}^{T} {XX}^{T} w_{x} = 1, w_{y}^{T} {YY}^{T} w_{y} = 1 - - - (3)$

利用拉格朗日乘子法可以将(1)转换成求解广义特征值问题，将特征值按从大到小的顺序排序，取前d(d＝min(p，q))个非负的特征值对应的特征向量作为投影矩阵w_x和w_y，p和q分别是特征X和Y中样本的特征个数。下面的典型相关分析的改进方法求解步骤同CCA相似，最后都转化为求解广义特征值的问题，所以只对其中不同的部分详细说明。

(2)核典型相关分析KCCA

为解决非线性问题，采用加入核函数的KCCA方法学习投影矩阵。首先将两组特征用核函数进行投影，由非线性问题转换为线性问题。两组特征集X和Y隐式非线性映射为φ：xa φ(x)和ψ：ya ψ(y)，其中φ和ψ表示将两组特征集X和Y映射到某一无限的空间，利用映射后的样本进行典型相关分析。由对偶定理可知， KCCA的解向量可表示为两组投影后样本的线性组合，于是KCCA的解向量为和其中w_φ和w_ψ是映射后的两组特征进行典型相关分析得到的投影矩阵，其下标φ和ψ同上所述表示将两组特征集X和 Y映射到某一无限的空间，α_i和β_i是分别对应每个映射后的样本φ(x_i)和ψ(y_i)的线性组合系数，以α_i和β_i为元素分别组成两个系数向量，记为α和β，i为1到n 之间任意整数，n为样本个数，则KCCA的目标函数为：

$\max_{w_{φ}, w_{ψ}} w_{φ}^{T} φ (X) ψ {(Y)}^{T} w_{ψ} = \max_{α, β} α^{T} K_{X} K_{Y} β - - - (4)$

其中可以看出K_X和K_Y是两个 n×n维的实数矩阵(即R^n×n表示的意思)，这两个矩阵中的每个元素是k_X和k_Y这两个高斯核函数分别对特征X和Y中每两个样本求得的值，其中i,j是1到n之间任意的数，n为样本个数。相应优化函数表示为：

$\max_{α, β} α^{T} K_{X} K_{Y} β$

s.t.α^TK_XK_Xα＝1,β^TK_YK_Yβ＝1 (5)

利用拉格朗日乘子法，可以将(3)中对偶向量的求解表示为求广义特征值问题，于是分别得到内容投影矩阵w_x＝φ(X)α和链接投影矩阵w_y＝ψ(Y)β，即为上述的解向量。

(3)局部保持典型相关分析LPCCA

在非线性问题中同时考虑数据局部信息，采用LPCCA方法学习最大关联矩阵。首先找出每个视图特征集中某样本的k个近邻。根据样本的近邻，对两视图特征分别定义相似度矩阵S^X和S^Y，上标X和Y分别是指两个视图特征，其中的每个元素按下述公式求出，下标ij指矩阵中第i行，第j列的那个元素，i和 j为1到n之间任意整数，n为样本个数：

$S_{ij}^{X} = (\begin{matrix} \exp (- {| | x_{i} - x_{j} | |}^{2} / σ_{x}^{2}) & x_{i} \in ne (x_{j}) or x_{j} \in ne (x_{i}) \\ 0 & otherwise \end{matrix}) - - - (6)$

$S_{ij}^{Y} = (\begin{matrix} \exp (- {| | y_{i} - y_{j} | |}^{2} / σ_{y}^{2}) & y_{i} \in ne (y_{j}) or y_{j} \in ne (y_{i}) \\ 0 & otherwise \end{matrix}) - - - (7)$

其中参数取值为特征X的样本均方距离，参数取值为特征Y的样本均方距离，x_i∈ne(x_j)表示x_i为x_j的近邻,ne(x_j)表示一个集合，集合中的元素是样本x_j的 k个近邻，otherwise表示除了互为近邻以外的其他情况。在典型相关分析中加入上述的相似度矩阵后，可以用如下优化问题描述，其中w_x,w_y仍然表示要求的投影矩阵，x_i,y_i仍然表示两视图中的每个样本，i和j为1到n之间任意整数， n为样本个数：

$\max_{w_{x}, w_{y}} w_{x}^{T} \cdot Σ_{i = 1}^{n} Σ_{j = 1}^{n} S_{ij}^{X} (x_{i} - x_{j}) S_{ij}^{Y} {(y_{i} - y_{j})}^{T} \cdot w_{y}$

$s . t . w_{x}^{T} \cdot Σ_{i = 1}^{n} Σ_{j = 1}^{n} S_{ij}^{X} (x_{i} - x_{j}) S_{ij}^{X} {(x_{i} - x_{j})}^{T} \cdot w_{x} = 1$

$w_{y}^{T} \cdot Σ_{i = 1}^{n} Σ_{j = 1}^{n} S_{ij}^{Y} (y_{i} - y_{j}) S_{ij}^{Y} {(y_{i} - y_{j})}^{T} \cdot w_{y} = 1 - - - (8)$

通过拉格朗日乘子法，求得特征值及特征向量，同样取前d(d＝min(p,q))个非负特征值对应的特征向量作为投影矩阵w_x和w_y，其中p和q分别是特征X和Y中样本的特征个数。

(4)判别典型相关分析DCCA

结合网页数据类信息，使用加入判别信息的典型相关分析方法DCCA，学习关联矩阵w_x和w_y。

对于n个样本的两组特征X和Y，DCCA方法旨在寻找两个投影矩阵w_x和w_y，使两个映射后的特征具有最大的类内相关性和最小的类间相关性。其优化问题描述如下：

$\max_{w_{x}, w_{y}} w_{x}^{T} (C_{w} - {ηC}_{b}) w_{y}$

$s . t . w_{x}^{T} {XX}^{T} w_{x} = 1, w_{y}^{T} {YY}^{T} w_{y} = 1 - - - (9)$

其中C_w为类内相关性矩阵，下标w表示类内，C_b为类间相关性矩阵,下标b表示类间，η是一个平衡因子。求得上述问题的特征值后，取前d个最大特征值对应的特征向量，d除了满足小于等于min(p,q)还要满足小于等于类别数c把这些特征向量作为两视图投影矩阵w_x和w_y，其中p和q分别是特征X和Y中样本的特征个数。

所属步骤5和步骤7中的串行及并行组合定义如下：

对于新生成的两视图特征进行特征组合，并行组合是将两组新特征相加，即串行组合是将两组新特征按列串行合并起来，即 $(\begin{matrix} w_{x}^{T} X \\ w_{y}^{T} Y \end{matrix}) .$

本发明的有益效果：本发明将网页数据分成两视图数据，并应用多视图典型相关分析技术及其推广方法，分析两视图间的最大相关性，一方面可有效提高垃圾网页的识别精度，同时由于对数据实现了降维，从而提高了识别效率。不同于以往利用网页内容特征或者链接特征进行分类或将两部分特征简单串行合并后进行分类的方法，本发明解决了如何处理垃圾网页特征的问题。

附图说明

图1为已标记网页视图特征的提取；

图2为利用典型相关分析及其相关改进方法获取投影矩阵；

图3为未标记网页视图特征的提取；

图4a为生成已标记网页新的内容矩阵；

图4b为生成已标记网页新的链接矩阵；

图5a为生成未标记网页新的内容矩阵；

图5b为生成未标记网页新的链接矩阵；

图6为识别未标记网页的过程。

具体实施方式

下面结合附图与实施实例对本发明作进一步说明。

它将垃圾网页检测问题作为一个多视图分类问题考虑，从已标记的网页中提取基于内容的特征和基于链接的特征，把这两部分特征分别看作已标记网页的两个视图，即内容视图和链接视图。如图1所示，将已标记网页的两视图数据分别表示为以行表示网页，以列表示属性的已标记网页内容矩阵X₁和已标记网页链接矩阵Y₁。如图2所示，用典型相关分析及其推广方法对垃圾网页特征进行特征提取，分别使用CCA、KCCA、LPCCA和DCCA对已标记网页内容矩阵和已标记网页链接矩阵进行最大相关分析，分别求出使用每种方法得到的内容投影矩阵和链接投影矩阵。如图3所示，从未标记网页中提取基于内容的特征和基于链接的特征作为内容视图和链接视图，同样以行为网页以列为属性分别表示为未标记网页内容矩阵X₂和未标记网页链接矩阵Y₂。如图4a和图4b所示，利用两视图最大相关投影矩阵w_x，w_y，分别对已标记网页的两视图矩阵X₁,Y₁进行投影，得到已标记网页新的内容矩阵及链接矩阵如图5a和图5b所示，利用两视图最大相关投影矩阵w_x,w_y，分别对未标记网页的两视图矩阵X₂,Y₂进行投影，得到未标记网页新的内容矩阵及链接矩阵如图6所示，对新生成的已标记网页两视图数据采用不同组合方式产生已标记网页单视图数据，并用这组数据作为训练数据训练分类器，再对新生成的未标记网页两视图数据采用不同组合方式产生未标记网页单视图数据，并使用训练得到的分类器对其进行类，根据分类结果，将未标记网页识别为正常网页或垃圾网页。

以下对本发明中典型相关分析及其推广方法及组合方式作进一步说明。具体包括：

1.典型相关分析CCA

$\max_{w_{x}^{T}, w_{y}^{T}} \frac{cov (w_{x}^{T} X, w_{y}^{T} Y)}{\sqrt{var (w_{x}^{T} X)} \sqrt{var (w_{y}^{T} Y)}} - - - (1)$

其中cov是求两个矩阵之间的协方差，var是求某一矩阵的方差，(1)可以表示为：

$\max_{w_{x}^{T}, w_{y}^{T}} \frac{w_{x}^{T} {XY}^{T} w_{y}}{\sqrt{w_{x}^{T} {XX}^{T} w_{x}} \sqrt{w_{y}^{T} {YY}^{T} w_{y}}} - - - (2)$

这个函数可以表示成如下一个等式约束的线性规划问题：

$\max_{w_{x}^{T}, w_{y}^{T}} w_{x}^{T} {XY}^{T} w_{y}$

$s . t . w_{x}^{T} {XX}^{T} w_{x} = 1, w_{y}^{T} {YY}^{T} w_{y} = 1 - - - (3)$

利用拉格朗日乘子法可以将(1)转换成求解广义特征值问题，将特征值按从大到小的顺序排序，取前d(d＝min(p,q))个非负的特征值对应的特征向量作为投影矩阵w_x和w_y，p和q分别是特征X和Y中样本的特征个数。下面的典型相关分析的改进方法求解步骤同CCA相似，最后都转化为求解广义特征值的问题，所以只对其中不同的部分详细说明。

2.核典型相关分析KCCA

为解决非线性问题，采用加入核函数的KCCA方法学习投影矩阵。首先将两组特征用核函数进行投影，由非线性问题转换为线性问题。两组特征集X和Y隐式非线性映射为φ:xa φ(x)和ψ:ya ψ(y)，其中φ和ψ表示将两组特征集X和Y映射到某一无限的空间，利用映射后的样本进行典型相关分析。由对偶定理可知， KCCA的解向量可表示为两组投影后样本的线性组合，于是KCCA的解向量为和其中w_φ和w_ψ是映射后的两组特征进行典型相关分析得到的投影矩阵，其下标φ和ψ同上所述表示将两组特征集X和 Y映射到某一无限的空间，α_i和β_i是分别对应每个映射后的样本φ(x_i)和ψ(y_i)的线性组合系数，以α_i和β_i为元素分别组成两个系数向量，记为α和β，i为1到n 之间任意整数，n为样本个数，则KCCA的目标函数为：

$\max_{w_{φ}, w_{ψ}} w_{φ}^{T} φ (X) ψ {(Y)}^{T} w_{ψ} = \max_{α, β} α^{T} K_{X} K_{Y} β - - - (4)$

$\max_{α, β} α^{T} K_{X} K_{Y} β$

s.t.α^TK_XK_Xα＝1,β^TK_YK_Yβ＝1 (5)

3.局部保持典型相关分析LPCCA

在非线性问题中同时考虑数据局部信息，采用LPCCA方法学习最大关联矩阵。首先找出每个视图特征集中某样本的k个近邻。根据样本的近邻，对两视图特征分别定义相似度矩阵S^X和S^Y，上标X和Y分别是指两个视图特征，其中的每个元素按下述公式求出，下标i j指矩阵中第i行，第j列的那个元素，i和 j为1到n之间任意整数，n为样本个数：

$S_{ij}^{X} = (\begin{matrix} \exp (- {| | x_{i} - x_{j} | |}^{2} / σ_{x}^{2}) & x_{i} \in ne (x_{j}) or x_{j} \in ne (x_{i}) \\ 0 & otherwise \end{matrix}) - - - (6)$

$S_{ij}^{Y} = (\begin{matrix} \exp (- {| | y_{i} - y_{j} | |}^{2} / σ_{y}^{2}) & y_{i} \in ne (y_{j}) or y_{j} \in ne (y_{i}) \\ 0 & otherwise \end{matrix}) - - - (7)$

$\max_{w_{x}, w_{y}} w_{x}^{T} \cdot Σ_{i = 1}^{n} Σ_{j = 1}^{n} S_{ij}^{X} (x_{i} - x_{j}) S_{ij}^{Y} {(y_{i} - y_{j})}^{T} \cdot w_{y}$

$s . t . w_{x}^{T} \cdot Σ_{i = 1}^{n} Σ_{j = 1}^{n} S_{ij}^{X} (x_{i} - x_{j}) S_{ij}^{X} {(x_{i} - x_{j})}^{T} \cdot w_{x} = 1$

$w_{y}^{T} \cdot Σ_{i = 1}^{n} Σ_{j = 1}^{n} S_{ij}^{Y} (y_{i} - y_{j}) S_{ij}^{Y} {(y_{i} - y_{j})}^{T} \cdot w_{y} = 1 - - - (8)$

4.判别典型相关分析DCCA

结合网页数据类信息，使用加入判别信息的典型相关分析方法DCCA，学习关联矩阵w_x和w_y。

$\max_{w_{x}, w_{y}} w_{x}^{T} (C_{w} - {ηC}_{b}) w_{y}$

$s . t . w_{x}^{T} {XX}^{T} w_{x} = 1, w_{y}^{T} {YY}^{T} w_{y} = 1 - - - (9)$

5．串行及并行组合

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 通过网页多视图数据关联组合识别垃圾网页的方法 [P] . 中国专利： CN102750345B . 2014.04.16
2. 通过网页多视图数据关联组合识别垃圾网页的方法 [P] . 中国专利： CN102750345A . 2012-10-24
3. Systems and methods for determining whether to publish an advertisement on a web page associated with a web page article or to exclude advertisements from publication on the web page associated with the web page article based on the comparison of a first numeric likelihood to a first set of threshold values [P] . 美国专利： US8862521B2 . 2014-10-14

机译：用于基于第一数值可能性与第一组数字的比较来确定是在与该网页文章相关联的网页上发布广告还是从与该网页文章相关联的网页上发布广告中排除广告的系统和方法。阈值
4. method for updating information content of a web page; method for providing a network server with web page refresh information from the terminal; network server that maintains a web page; terminal to maintain a connection to the network server that maintains the network page; computer program product stored on a physically readable medium by the computer and executable on a data processing device to maintain the web page; and computer program product, stored on a computer-readable physical medium and executable on a data processing device, to provide a network server with information about updates made on the web page. [P] . BRPI0614202A2 . 2011-03-15

机译：一种更新网页信息内容的方法;向网络服务器提供来自终端的网页刷新信息的方法;维护网页的网络服务器;终端保持与维护网络页面的网络服务器的连接;计算机程序产品，该计算机程序产品由计算机存储在物理可读介质上，并且可以在数据处理设备上执行以维护网页;以及存储在计算机可读物理介质上并且可以在数据处理设备上执行的计算机程序产品，以向网络服务器提供关于在网页上进行的更新的信息。
5. METHOD AND SYSTEM OF A USER ASSOCIATING A FIRST WEBPAGE WEB LINK AND SECOND WEBPAGE LINK AND VIEWING OF THE CONTENTS OF THE WEBPAGE LINKS BY THE SELECTION OF THE FIRST WEBPAGE LINK [P] . 美国专利： US2020057797A1 . 2020-02-20

机译：用户关联第一网页Web链接和第二网页链接并通过选择第一网页链接查看网页链接内容的方法和系统