首页> 外国专利> Document data classification using a noise-to-content ratio

Document data classification using a noise-to-content ratio

机译:使用噪声含量比对文档数据进行分类

摘要

A method and system for classifying document data is described. The method may include classifying a first portion of an electronic document as substantive content or noise, classifying a second portion of the electronic document as substantive content or noise, determining a first feature of the first portion of the electronic document indicative of substantive content using a machine learning algorithm, and determining a second feature of the second portion of the electronic document indicative of noise using the machine learning algorithm.
机译:描述了一种用于对文档数据进行分类的方法和系统。该方法可以包括:将电子文档的第一部分分类为实质内容或噪声;将电子文档的第二部分分类为实质内容或噪声;使用指示符确定指示实质内容的电子文档的第一部分的第一特征。机器学习算法,并使用机器学习算法确定电子文档第二部分的第二特征,该第二特征指示噪声。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号