首页> 外国专利> VERY-LARGE-SCALE AUTOMATIC CATEGORIZER FOR WEB CONTENT

VERY-LARGE-SCALE AUTOMATIC CATEGORIZER FOR WEB CONTENT

机译:用于Web内容的超大型自动分类器

摘要

A method and apparatus for efficiently classifying and categorizing data objects such as electronic text, graphics, and audio based documents within very-large-scale hierarchical classification trees is provided. In accordance with one embodiment of the invention, a first node of a plurality of nodes of a subject hierarchy is selected. Previously classified data objects (202) corresponding to a selected first node of a subject hierarchy as well as any associated sub-nodes of the selected node are aggregated to form a content class of data objects(206). Similarly, data objects corresponding to sibling nodes of the selected node and any associated sub-nodes of the sibling nodes are then aggregated to form an anti-content class of data objects (206). Features are then extracted (207) from each of the content class of data objects and the anti-content class of data objects to facilitate characterization (209) of said previously classified data objects (202).
机译:提供了一种用于在超大规模分层分类树内有效地对诸如电子文本,图形和基于音频的文档的数据对象进行分类和分类的方法和装置。根据本发明的一个实施例,选择主题层次结构的多个节点中的第一节点。对应于主题层次结构的所选第一节点以及所选节点的任何关联子节点的先前分类的数据对象(202)被聚合以形成数据对象的内容类别(206)。类似地,然后将与所选节点的同级节点和同级节点的任何关联的子节点相对应的数据对象聚合,以形成数据对象的反内容类(206)。然后从数据对象的内容类别和数据对象的反内容类别中的每一个提取特征(207),以有助于表征(209)所述先前分类的数据对象(202)。

著录项

  • 公开/公告号EP1386250A1

    专利类型

  • 公开/公告日2004-02-04

    原文格式PDF

  • 申请/专利权人 RULESPACE INC.;

    申请/专利号EP20020724010

  • 发明设计人 GUILAK FARZIN G.;LULICH DANIEL PETER;

    申请日2002-04-30

  • 分类号G06F17/00;

  • 国家 EP

  • 入库时间 2022-08-21 22:53:31

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号