公开/公告号CN103544213A
专利类型发明专利
公开/公告日2014-01-29
原文格式PDF
申请/专利权人 青岛英网资讯股份有限公司;
申请/专利号CN201310422723.6
发明设计人 初殿松;
申请日2013-09-16
分类号G06F17/30(20060101);
代理机构37227 青岛联信知识产权代理事务所;
代理人王中云;王月玲
地址 266000 山东省青岛市市南区香港中路100号中商大厦2111室
入库时间 2024-02-19 21:57:24
法律状态公告日
法律状态信息
法律状态
2019-06-25
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190605 变更前: 变更后: 申请日:20130916
专利申请权、专利权的转移
2016-10-12
授权
授权
2014-03-12
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130916
实质审查的生效
2014-01-29
公开
公开
技术领域
本发明属于互联网技术领域,具体的说涉及一种对互联网网站内容的更新进行检测评价 的方法及评价系统。
背景技术
随着互联网技术的发展,网络信息技术逐渐深入人们的生活。互联网作为大量信息的载 体,已成为人们工作、生活、学习的重要工具。如何及时方便的获取网站的更新信息及有效 的更新内容成为人们的需求。
目前,检查网站内容是否更新主要依赖人工进行,这种方法效率不高、准确率受限、还 会耗用较高的人力成本,随着互联网技术的飞速增长,网站信息的信息量和更新速度都有了 较大的提高,依赖人工检查网站内容更新的方式已经无法满足人们工作、生活的需求。
发明内容
本发明的目的在于提供可以及时、有效、准确的完成对互联网内容的更新进行检测及评 价的方法,同时提供一种检测网站内容更新的检测评价系统。
本发明的技术方案是:一种网站内容更新检测及评价方法,包括以下步骤:
(1)抓取原始页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树;
(2)抓取目标页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树;
(3)将目标页面的DOM树与原始页面的DOM树进行比较,计算原始页面的DOM树与目标 页面的DOM树的相似度,将此相似度值与用户设置的相似度值进行比较,若大于用户设定的 相似度值,则认为页面内容没有更新;若小于用户设定的相似度值,则认为页面内容有更新。
优选的是:原始页面的DOM树与目标页面的DOM树的相似度的方法为:
(1)对原始页面的页面源代码进行md5数字签名;
(2)对目标页面的页面源代码进行md5数字签名;
(3)若原始页面源代码的md5数字签名与目标页面源代码的md5数字签名相同,则认为 原始页面的DOM树与目标页面的DOM树相似度为100%,目标页面没有更新,结束比较;否则 进行步骤(4);
(4)计算目标页面DOM树所有直属子元素与原始页面DOM树所有直属子元素之间的相似 度;
(5)计算目标页面DOM树每个直属子元素占这个给DOM树文档模型长度的百分比,即元 素长度百分比;取步骤(4)中计算得到的目标页面DOM树的每个直属子元素与原始页面DOM 树每个直属子元素之间的相似度值,即元素相似度值;将每个直属子元素的元素长度百分比 与该直属子元素对应的元素相似度值相乘,得到每个元素的DOM树相似度值;
(6)将目标页面DOM树的每个直属子元素的DOM树相似度值相加,得到原始页面的DOM 树与目标页面的DOM树的相似度值,若相似度大于设定值,则认为页面没有更新,若相似度 小于设定的相似度值,则认为页面有更新。
(7)将步骤(6)中对相似度的计算结果存保存到存储模块,同时将最新的页面URL快 照及页面对应的DOM树保存到存储模块中,用最新的页面DOM树替换原始页面DOM树,作为 之后比较的基础。
优选的是:目标页面DOM树所有直属子元素与原始页面DOM树所有直属子元素之间的相 似度的方法为:
(1)比较目标页面DOM树的每个直属子元素与原始页面的DOM树的每个直属子元素的标 签,若标签不同,则认为相似度为0%,页面有更新;若标签相同,则进行步骤(2);
(2)比较标签属性的相似度,即标签相同的属性占所有属性的百分比。
优选的是:目标页面DOM树的每个直属子元素与原始页面的DOM树的每个直属子元素的 标签属性相似度的比较方法为:
将目标页面DOM树的第一个节点与原始页面DOM树父节点和所有子节点依次进行比较, 直到找到与目标页面DOM树的第一个节点相同的节点,若能够找到相同的标签,则将此标签 作为基准标签,其余兄弟标签的比较以此节点标签为基准进行比较;若不能找到相同的标签, 则将目标页面DOM树的下一个节点进行相同过程的比较。
优选的是:判断标签是否相同的标准为:对于容器类标签,比较标签名是否相同;对于 非容器类标签,判断标签名是否相同,并判断标签内容是否相同。
优选的是:对非容器类标签内容进行比较的方式为纯文本比较,即对标签内的文本内容 进行比较。
一种鉴别网站更新的系统,该系统包括:
抓取模块:抓取原始页面和目标页面的URL地址所对应的基础页面源代码,并对原始页 面和目标页面代码分别进行md5数字签名;
解析模块:解析原始页面和目标代码所对应的DOM树;
简单比较模块:对原始页面和目标页面代码的md5数字签名进行比较;
标签比较模块:对原始页面和目标页面DOM树的标签进行比较,对容器标签的标签名进 行比较;
纯文本比较模块:对原始页面和目标页面DOM树的非容器标签的文本内容进行比较;
存储模块:存储比较结果,同时存储最新的页面URL页面代码及其多对应的DOM树,作 为下次比较的基础;在下次比较时,从存储页面中调用存储的结果,作为原始页面,作为与 目标页面比较的基础。
本发明的有益效果是:本发明提供了一种对网站内容更新进行检测评价的方法,首先解 析原始页面和目标页面的DOM树,通过简单比较、标签比较和纯文本比较的多种比较方式, 可快速、准确的反应页面的更新情况,以便用户及时作出反应。
附图说明
附图1为本发明鉴别网站更新方法流程示意图。
附图2为本发明鉴别网站更新系统结构示意图。
附图3为实施例3原始页面DOM树结构示意图。
附图4为实施例3目标页面DOM树结构示意图。
具体实施方式
以下结合附图对本发明的实施例进行具体说明。
实施例1
本实施例提供了一种对网站内容进行更新检测评价的方法,如图1所示,该方法的流程 为:
(1)抓取原始页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树,并对页面进行md5数字签名;
(2)抓取目标页面的URL地址所对应的基础页面源代码,并生成页面源代码所对应的文 件对象模型DOM树,并对页面进行md5数字签名;
(3)若原始页面源代码的md5数字签名与目标页面源代码的md5数字签名相同,则认为 原始页面的DOM树与目标页面的DOM树相似度为100%,目标页面没有更新,结束比较;否则 进行步骤(4)。
(4)计算目标页面DOM树所有直属子元素与原始页面DOM树所有直属子元素之间的相似 度。
A、比较目标页面DOM树的每个直属子元素与原始页面的DOM树的每个直属子元素的标 签,若标签不同,则认为相似度为0%,页面有更新;若标签相同,则进行步骤(2);
a、将目标页面DOM树的第一个节点与原始页面DOM树父节点和所有子节点依次进行比 较,直到找到与目标页面DOM树的第一个节点相同的节点,若能够找到相同的标签,则将此 标签作为基准标签,其余兄弟标签的比较以此节点标签为基准进行比较;若不能找到相同的 标签,则将目标页面DOM树的下一个节点进行相同过程的比较;
b、判断标签是否相同的标准为:对于容器类标签,比较标签名是否相同;对于非容器类 标签,判断标签名是否相同,并判断标签内容是否相同。对非容器类标签内容进行比较的方 式为纯文本比较,即对标签内的文本内容进行比较。
B、比较标签属性的相似度,即标签相同的属性占所有属性的百分比。
(5)计算目标页面DOM树每个直属子元素占这个给DOM树文档模型长度的百分比,即元 素长度百分比;取步骤(4)中计算得到的目标页面DOM树的每个直属子元素与原始页面DOM 树每个直属子元素之间的相似度值,即元素相似度值;将每个直属子元素的元素长度百分比 与该直属子元素对应的元素相似度值相乘,得到每个元素的DOM树相似度值。
(6)将目标页面DOM树的每个直属子元素的DOM树相似度值相加,得到原始页面的DOM 树与目标页面的DOM树的相似度值,若相似度大于设定值,则认为页面没有更新,若相似度 小于设定的相似度值,则认为页面有更新。
(7)将步骤(6)中对相似度的计算结果存保存到存储模块,同时将最新的页面URL快 照及页面对应的DOM树保存到存储模块中,用最新的页面DOM树替换原始页面DOM树,作为 之后比较的基础。
实施例2
本实施例将提供一种鉴别网站更新的系统,如图2所示,该系统包括:
解析模块:解析原始页面和目标代码所对应的DOM树;
简单比较模块:对原始页面和目标页面代码的md5数字签名进行比较;
标签比较模块:对原始页面和目标页面DOM树的标签进行比较,对容器标签的标签名进 行比较;
纯文本比较模块:对原始页面和目标页面DOM树的非容器标签的文本内容进行比较;
存储模块:存储比较结果,同时存储最新的页面URL页面代码及其多对应的DOM树,作 为下次比较的基础;在下次比较时,从存储页面中调用存储的结果,作为原始页面,作为与 目标页面比较的基础。
实施例3
本实施例提供了一种对网站内容进行更新检测评价的方法,图3和图4给出了该实施例 的DOM树结构模型。
通常,网站的标题发生变化则网站的内容将会发生变化。在对网站内容进行更新检测时, 将目标页面DOM树的标签与原始页面DOM树标签依次进行比较,找到相同的标签B,则以B 作为基准标签,对其余的兄弟标签依次进行比较。B之前的原始页面标签内容为A,目标页面 标签内容为E,B之后的原始页面标签内容为C和D,目标页面标签内容为F和G,B之前和B 之后目标页面的标签与原始页面标签的相似度为0,目标页面的B所在的标签与原始页面的 标签的相似度为100%。B占整个DOM树文档长度的百分比为25%,则认为目标页面与原始页 面的DOM树的相似度为25%,若设定的目标相似度为50%,则认为目标页面较原始页面有变化。
机译: 自动提供网站内容更新警报的系统和方法
机译: 自动提供网站内容更新警报的系统和方法
机译: 自动提供网站内容更新警报的系统和方法