首页> 外国专利> Techniques for clustering structurally similar webpages based on page features

Techniques for clustering structurally similar webpages based on page features

机译:基于页面特征对结构相似的网页进行聚类的技术

摘要

Web page clustering techniques described herein are URL Clustering and Page Clustering, whereby clustering algorithms cluster together pages that are structurally similar. Regarding URL clustering, because similarly structured pages have similar patterns in their URLs, grouping similar URL patterns will group structurally similar pages. Embodiments of URL clustering may involve: (a) URL normalization and (b) URL variation computation. Regarding page clustering, page feature-based techniques further cluster any given set of homogenous clusters, reducing the number of clusters based on the underlying page code. Embodiments of page clustering may reduce the number of clusters based on the tag probabilities and the tag sequence, utilizing an Approximate Nearest Neighborhood (ANN) graph along with evaluation of intra-cluster and inter-cluster compactness.
机译:本文描述的网页聚类技术是URL聚类和页面聚类,其中聚类算法将结构相似的页面聚在一起。关于URL群集,由于结构相似的页面在其URL中具有相似的模式,因此对相似的URL模式进行分组将对结构相似的页面进行分组。 URL群集的实施例可以涉及:(a)URL归一化和(b)URL变化计算。关于页面集群,基于页面特征的技术还可以对任何给定的同类集群集合进行集群,从而减少基于基础页面代码的集群数量。页面聚类的实施例可以利用标签最近概率(ANN)图以及对聚类内和聚类间的紧密度的评估,基于标签概率和标签序列来减少聚类的数量。

著录项

  • 公开/公告号US2008010292A1

    专利类型

  • 公开/公告日2008-01-10

    原文格式PDF

  • 申请/专利权人 KRISHNA LEELA POOLA;

    申请/专利号US20060481809

  • 发明设计人 KRISHNA LEELA POOLA;

    申请日2006-07-05

  • 分类号G06F17/30;

  • 国家 US

  • 入库时间 2022-08-21 20:10:53

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号