首页> 外国专利> METHOD OF IDENTIFYING DOCUMENTS WITH SIMILAR PROPERTIES UTILIZING PRINCIPAL COMPONENT ANALYSIS

METHOD OF IDENTIFYING DOCUMENTS WITH SIMILAR PROPERTIES UTILIZING PRINCIPAL COMPONENT ANALYSIS

机译:利用主成分分析识别具有相似属性的文档的方法

摘要

The present invention generally provides methods and systems for characterizing texts, for example, for identifying textual documents by language, topic, author, or other attributes. In some embodiments, a method of the invention can include creating an n-gram frequency spectrum for a document under analysis, preferably selecting a subset of the n-gram frequency spectrum, transforming the n-gram frequency spectrum into principal component space, and identifying one or more attributes of the document according to its similarity to (or distinction from) reference documents in the principal component space.
机译:本发明通常提供用于表征文本的方法和系统,例如,用于通过语言,主题,作者或其他属性来识别文本文档。在一些实施例中,本发明的方法可以包括为被分析的文档创建n-gram频谱,优选地选择n-gram频谱的子集,将n-gram频谱转换为主成分空间,以及识别。根据文档在主成分空间中与参考文档的相似性(或与参考文档的相似性),确定文档的一个或多个属性。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号