首页> 外国专利> Document categorization by word length distribution analysis

Document categorization by word length distribution analysis

机译:通过单词长度分布分析对文档进行分类

摘要

A system and method for efficient document categorization are disclosed. In one embodiment, word length distribution information is used as a basis for categorization. Greater than 90% accuracy in classification may be achieved in, e.g., distinguishing newspaper articles from scientific journal articles. Word length distribution information may be developed without optical character recognition (OCR), permitting use of degraded document images.
机译:公开了一种用于有效文档分类的系统和方法。在一实施例中,字长分布信息被用作分类的基础。例如,将报纸文章与科学期刊文章区分开,可以实现大于90%的分类精度。可以在没有光学字符识别(OCR)的情况下开发字长分布信息,从而允许使用降级的文档图像。

著录项

  • 公开/公告号US5909680A

    专利类型

  • 公开/公告日1999-06-01

    原文格式PDF

  • 申请/专利权人 RICOH COMPANY LIMITED;RICOH CORPORATION;

    申请/专利号US19960709707

  • 发明设计人 JONATHAN J. HULL;

    申请日1996-09-09

  • 分类号G06F9/00;

  • 国家 US

  • 入库时间 2022-08-22 02:08:02

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号