首页> 外国专利> System and method for automatic document classification in ediscovery, compliance and legacy information clean-up

System and method for automatic document classification in ediscovery, compliance and legacy information clean-up

机译:用于电子发现,法规遵从和遗留信息清理的自动文档分类的系统和方法

摘要

A system, method and computer program product for automatic document classification, including an extraction module configured to extract structural, syntactical and/or semantic information from a document and normalize the extracted information; a machine learning module configured to generate a model representation for automatic document classification based on feature vectors built from the normalized and extracted semantic information for supervised and/or unsupervised clustering or machine learning; and a classification module configured to select a non-classified document from a document collection, and via the extraction module extract normalized structural, syntactical and/or semantic information from the selected document, and generate via the machine learning module a model representation of the selected document based on feature vectors, and match the model representation of the selected document against the machine learning model representation to generate a document category, and/or classification for display to a user.
机译:一种用于自动文档分类的系统,方法和计算机程序产品,包括:提取模块,被配置为从文档中提取结构,句法和/或语义信息,并对所提取的信息进行归一化;机器学习模块,被配置为基于特征向量生成用于自动文档分类的模型表示,所述特征向量是从用于监督和/或不受监督的聚类或机器学习的标准化和提取的语义信息构建的;分类模块,配置为从文档集合中选择未分类的文档,并通过提取模块从所选文档中提取归一化的结构,句法和/或语义信息,并通过机器学习模块生成所选文档的模型表示基于特征向量的文档,并将所选文档的模型表示与机器学习模型表示进行匹配,以生成文档类别和/或分类以显示给用户。

著录项

  • 公开/公告号US9235812B2

    专利类型

  • 公开/公告日2016-01-12

    原文格式PDF

  • 申请/专利权人 MSC INTELLECTUAL PROPERTIES B.V.;

    申请/专利号US201213693075

  • 发明设计人 JOHANNES CORNELIS SCHOLTES;

    申请日2012-12-04

  • 分类号G06F15/18;G06N99;G06F17/30;

  • 国家 US

  • 入库时间 2022-08-21 14:31:12

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号