首页> 外国专利> A METHOD FOR DETECTING NEW CONTENT IN A TARGET WEB PAGE WITH REFERENCE TO A CONTROL WEB PAGE USING NORMALIZED TEMPLATE MATCHING

A METHOD FOR DETECTING NEW CONTENT IN A TARGET WEB PAGE WITH REFERENCE TO A CONTROL WEB PAGE USING NORMALIZED TEMPLATE MATCHING

机译:一种基于归一化模板匹配的控制网页中检测目标网页新内容的方法

摘要

A method called normalized template matching is described which detects newcontent in any given target web page with reference to a control web page. Thecontrol page is typically an older version of the given target web page. The controlpage is first divided into sections by using non-formatting HTML tags. Each section isthen individually normalized by removing formatting HTML tags, meta charactersand repetitive white spaces, after which they are inserted into a template in sortedorder. Each entry in the template consists of the section content and its type. Once theentire control page is processed, a normalized template is obtained. The target page issimilarly divided and normalized, after which each section of the target template ismatched against the entries in the control template. Any section of the target pagewhich does not match the control template will be flagged as new content andpresented in a summary page to the user.
机译:描述了一种称为标准化模板匹配的方法,该方法可以检测新参考控制网页在任何给定目标网页中的内容。的控制页通常是给定目标网页的较旧版本。控制首先使用非格式HTML标签将页面分为几部分。每个部分是然后通过删除格式化的HTML标签,元字符分别进行标准化和重复的空白,然后将它们按顺序插入模板中订购。模板中的每个条目均由节内容及其类型组成。一旦处理整个控制页面,获得标准化的模板。目标页面是类似地划分并归一化,然后将目标模板的每个部分与控制模板中的条目匹配。目标页面的任何部分与控制模板不匹配的内容将被标记为新内容,并且在摘要页面中显示给用户。

著录项

  • 公开/公告号SG98408A1

    专利类型

  • 公开/公告日2003-09-19

    原文格式PDF

  • 申请/专利权人 NEXLABS PTE LTD;

    申请/专利号SG20000003423

  • 发明设计人 CHEW WEI YIH;

    申请日2000-06-19

  • 分类号G06T15/70;

  • 国家 SG

  • 入库时间 2022-08-22 00:00:48

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号