首页> 外国专利> Automatic categorization of documents based on textual content

Automatic categorization of documents based on textual content

机译:基于文本内容的文档自动分类

摘要

An electronic device automatically classifies documents based upon textual content. Documents may be classified into document categories. Statistical characteristics are gathered for each document category and these statistical characteristics are used as a frame of reference in determining how to classify the document. The document categories may be intersecting or non-intersecting. A neutral category is used to represent documents that do not fit into many of the other specified categories. The statistical characteristics for an input document are compared with those for the document category and for the neutral category in making a determination on how to categorize the document. This approach is extensible, generalizable and efficient.
机译:电子设备基于文本内容自动分类文档。文档可以分类为文档类别。收集每个文档类别的统计特征,并将这些统计特征用作确定如何对文档进行分类的参考框架。文档类别可以是相交的或不相交的。中性类别用于表示不适合许多其他指定类别的文档。在确定如何对文档进行分类时,将输入文档的统计特征与文档类别和中性类别的统计特征进行比较。这种方法是可扩展的,可推广的和有效的。

著录项

  • 公开/公告号US6621930B1

    专利类型

  • 公开/公告日2003-09-16

    原文格式PDF

  • 申请/专利权人 ELRON SOFTWARE INC.;

    申请/专利号US20000635714

  • 发明设计人 FRANK SMADJA;

    申请日2000-08-09

  • 分类号G06K93/60;G06K97/20;G06K93/40;H04N10/00;G06F173/00;

  • 国家 US

  • 入库时间 2022-08-22 00:06:46

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号