首页> 中国专利> 网站内容更新检测评价方法及系统

网站内容更新检测评价方法及系统

摘要

一种网站内容更新检测及评价方法,通过抓取原始页面和目标页面的源代码,解析原始页面和目标页面的DOM树模型,并对DOM树的相似度进行比较,得出原始页面与目标页面的相似度值,当相似度值大于设定的相似度值时,认为页面没有更新,反之则认为页面有更新。一种鉴别网站更新的系统,包括解析模块、简单比较模块、标签比较模块和文本比较模块,该系统可以快速、准确的完成对网站内容更新的检测。

著录项

  • 公开/公告号CN103544213A

    专利类型发明专利

  • 公开/公告日2014-01-29

    原文格式PDF

  • 申请/专利权人 青岛英网资讯股份有限公司;

    申请/专利号CN201310422723.6

  • 发明设计人 初殿松;

    申请日2013-09-16

  • 分类号G06F17/30(20060101);

  • 代理机构37227 青岛联信知识产权代理事务所;

  • 代理人王中云;王月玲

  • 地址 266000 山东省青岛市市南区香港中路100号中商大厦2111室

  • 入库时间 2024-02-19 21:57:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-25

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190605 变更前: 变更后: 申请日:20130916

    专利申请权、专利权的转移

  • 2016-10-12

    授权

    授权

  • 2014-03-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130916

    实质审查的生效

  • 2014-01-29

    公开

    公开

说明书

技术领域

本发明属于互联网技术领域,具体的说涉及一种对互联网网站内容的更新进行检测评价 的方法及评价系统。

背景技术

随着互联网技术的发展,网络信息技术逐渐深入人们的生活。互联网作为大量信息的载 体,已成为人们工作、生活、学习的重要工具。如何及时方便的获取网站的更新信息及有效 的更新内容成为人们的需求。

目前,检查网站内容是否更新主要依赖人工进行,这种方法效率不高、准确率受限、还 会耗用较高的人力成本,随着互联网技术的飞速增长,网站信息的信息量和更新速度都有了 较大的提高,依赖人工检查网站内容更新的方式已经无法满足人们工作、生活的需求。

发明内容

本发明的目的在于提供可以及时、有效、准确的完成对互联网内容的更新进行检测及评 价的方法,同时提供一种检测网站内容更新的检测评价系统。

本发明的技术方案是:一种网站内容更新检测及评价方法,包括以下步骤:

(1)抓取原始页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树;

(2)抓取目标页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树;

(3)将目标页面的DOM树与原始页面的DOM树进行比较,计算原始页面的DOM树与目标 页面的DOM树的相似度,将此相似度值与用户设置的相似度值进行比较,若大于用户设定的 相似度值,则认为页面内容没有更新;若小于用户设定的相似度值,则认为页面内容有更新。

优选的是:原始页面的DOM树与目标页面的DOM树的相似度的方法为:

(1)对原始页面的页面源代码进行md5数字签名;

(2)对目标页面的页面源代码进行md5数字签名;

(3)若原始页面源代码的md5数字签名与目标页面源代码的md5数字签名相同,则认为 原始页面的DOM树与目标页面的DOM树相似度为100%,目标页面没有更新,结束比较;否则 进行步骤(4);

(4)计算目标页面DOM树所有直属子元素与原始页面DOM树所有直属子元素之间的相似 度;

(5)计算目标页面DOM树每个直属子元素占这个给DOM树文档模型长度的百分比,即元 素长度百分比;取步骤(4)中计算得到的目标页面DOM树的每个直属子元素与原始页面DOM 树每个直属子元素之间的相似度值,即元素相似度值;将每个直属子元素的元素长度百分比 与该直属子元素对应的元素相似度值相乘,得到每个元素的DOM树相似度值;

(6)将目标页面DOM树的每个直属子元素的DOM树相似度值相加,得到原始页面的DOM 树与目标页面的DOM树的相似度值,若相似度大于设定值,则认为页面没有更新,若相似度 小于设定的相似度值,则认为页面有更新。

(7)将步骤(6)中对相似度的计算结果存保存到存储模块,同时将最新的页面URL快 照及页面对应的DOM树保存到存储模块中,用最新的页面DOM树替换原始页面DOM树,作为 之后比较的基础。

优选的是:目标页面DOM树所有直属子元素与原始页面DOM树所有直属子元素之间的相 似度的方法为:

(1)比较目标页面DOM树的每个直属子元素与原始页面的DOM树的每个直属子元素的标 签,若标签不同,则认为相似度为0%,页面有更新;若标签相同,则进行步骤(2);

(2)比较标签属性的相似度,即标签相同的属性占所有属性的百分比。

优选的是:目标页面DOM树的每个直属子元素与原始页面的DOM树的每个直属子元素的 标签属性相似度的比较方法为:

将目标页面DOM树的第一个节点与原始页面DOM树父节点和所有子节点依次进行比较, 直到找到与目标页面DOM树的第一个节点相同的节点,若能够找到相同的标签,则将此标签 作为基准标签,其余兄弟标签的比较以此节点标签为基准进行比较;若不能找到相同的标签, 则将目标页面DOM树的下一个节点进行相同过程的比较。

优选的是:判断标签是否相同的标准为:对于容器类标签,比较标签名是否相同;对于 非容器类标签,判断标签名是否相同,并判断标签内容是否相同。

优选的是:对非容器类标签内容进行比较的方式为纯文本比较,即对标签内的文本内容 进行比较。

一种鉴别网站更新的系统,该系统包括:

抓取模块:抓取原始页面和目标页面的URL地址所对应的基础页面源代码,并对原始页 面和目标页面代码分别进行md5数字签名;

解析模块:解析原始页面和目标代码所对应的DOM树;

简单比较模块:对原始页面和目标页面代码的md5数字签名进行比较;

标签比较模块:对原始页面和目标页面DOM树的标签进行比较,对容器标签的标签名进 行比较;

纯文本比较模块:对原始页面和目标页面DOM树的非容器标签的文本内容进行比较;

存储模块:存储比较结果,同时存储最新的页面URL页面代码及其多对应的DOM树,作 为下次比较的基础;在下次比较时,从存储页面中调用存储的结果,作为原始页面,作为与 目标页面比较的基础。

本发明的有益效果是:本发明提供了一种对网站内容更新进行检测评价的方法,首先解 析原始页面和目标页面的DOM树,通过简单比较、标签比较和纯文本比较的多种比较方式, 可快速、准确的反应页面的更新情况,以便用户及时作出反应。

附图说明

附图1为本发明鉴别网站更新方法流程示意图。

附图2为本发明鉴别网站更新系统结构示意图。

附图3为实施例3原始页面DOM树结构示意图。

附图4为实施例3目标页面DOM树结构示意图。

具体实施方式

以下结合附图对本发明的实施例进行具体说明。

实施例1

本实施例提供了一种对网站内容进行更新检测评价的方法,如图1所示,该方法的流程 为:

(1)抓取原始页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树,并对页面进行md5数字签名;

(2)抓取目标页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树,并对页面进行md5数字签名;

(3)若原始页面源代码的md5数字签名与目标页面源代码的md5数字签名相同,则认为 原始页面的DOM树与目标页面的DOM树相似度为100%,目标页面没有更新,结束比较;否则 进行步骤(4)。

(4)计算目标页面DOM树所有直属子元素与原始页面DOM树所有直属子元素之间的相似 度。

A、比较目标页面DOM树的每个直属子元素与原始页面的DOM树的每个直属子元素的标 签,若标签不同,则认为相似度为0%,页面有更新;若标签相同,则进行步骤(2);

a、将目标页面DOM树的第一个节点与原始页面DOM树父节点和所有子节点依次进行比 较,直到找到与目标页面DOM树的第一个节点相同的节点,若能够找到相同的标签,则将此 标签作为基准标签,其余兄弟标签的比较以此节点标签为基准进行比较;若不能找到相同的 标签,则将目标页面DOM树的下一个节点进行相同过程的比较;

b、判断标签是否相同的标准为:对于容器类标签,比较标签名是否相同;对于非容器类 标签,判断标签名是否相同,并判断标签内容是否相同。对非容器类标签内容进行比较的方 式为纯文本比较,即对标签内的文本内容进行比较。

B、比较标签属性的相似度,即标签相同的属性占所有属性的百分比。

(5)计算目标页面DOM树每个直属子元素占这个给DOM树文档模型长度的百分比,即元 素长度百分比;取步骤(4)中计算得到的目标页面DOM树的每个直属子元素与原始页面DOM 树每个直属子元素之间的相似度值,即元素相似度值;将每个直属子元素的元素长度百分比 与该直属子元素对应的元素相似度值相乘,得到每个元素的DOM树相似度值。

(6)将目标页面DOM树的每个直属子元素的DOM树相似度值相加,得到原始页面的DOM 树与目标页面的DOM树的相似度值,若相似度大于设定值,则认为页面没有更新,若相似度 小于设定的相似度值,则认为页面有更新。

(7)将步骤(6)中对相似度的计算结果存保存到存储模块,同时将最新的页面URL快 照及页面对应的DOM树保存到存储模块中,用最新的页面DOM树替换原始页面DOM树,作为 之后比较的基础。

实施例2

本实施例将提供一种鉴别网站更新的系统,如图2所示,该系统包括:

解析模块:解析原始页面和目标代码所对应的DOM树;

简单比较模块:对原始页面和目标页面代码的md5数字签名进行比较;

标签比较模块:对原始页面和目标页面DOM树的标签进行比较,对容器标签的标签名进 行比较;

纯文本比较模块:对原始页面和目标页面DOM树的非容器标签的文本内容进行比较;

存储模块:存储比较结果,同时存储最新的页面URL页面代码及其多对应的DOM树,作 为下次比较的基础;在下次比较时,从存储页面中调用存储的结果,作为原始页面,作为与 目标页面比较的基础。

实施例3

本实施例提供了一种对网站内容进行更新检测评价的方法,图3和图4给出了该实施例 的DOM树结构模型。

通常,网站的标题发生变化则网站的内容将会发生变化。在对网站内容进行更新检测时, 将目标页面DOM树的标签与原始页面DOM树标签依次进行比较,找到相同的标签B,则以B 作为基准标签,对其余的兄弟标签依次进行比较。B之前的原始页面标签内容为A,目标页面 标签内容为E,B之后的原始页面标签内容为C和D,目标页面标签内容为F和G,B之前和B 之后目标页面的标签与原始页面标签的相似度为0,目标页面的B所在的标签与原始页面的 标签的相似度为100%。B占整个DOM树文档长度的百分比为25%,则认为目标页面与原始页 面的DOM树的相似度为25%,若设定的目标相似度为50%,则认为目标页面较原始页面有变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号