首页> 外国专利> Unsupervised document clustering using latent semantic density analysis

Unsupervised document clustering using latent semantic density analysis

机译:使用潜在语义密度分析的无监督文档聚类

摘要

According to one embodiment, a latent semantic mapping (LSM) space is generated from a collection of a plurality of documents, where the LSM space includes a plurality of document vectors, each representing one of the documents in the collection. For each of the document vectors considered as a centroid document vector, a group of document vectors is identified in the LSM space that are within a predetermined hypersphere diameter from the centroid document vector. As a result, multiple groups of document vectors are formed. The predetermined hypersphere diameter represents a predetermined closeness measure among the document vectors in the LSM space. Thereafter, a group from the plurality of groups is designated as a cluster of document vectors, where the designated group contains a maximum number of document vectors among the plurality of groups.
机译:根据一个实施例,从多个文档的集合中生成潜在语义映射(LSM)空间,其中LSM空间包括多个文档向量,每个向量代表该集合中的一个文档。对于视为质心文档矢量的每个文档矢量,在LSM空间中标识一组文档矢量,这些文档矢量位于质心文档矢量的预定超球直径范围内。结果,形成了多组文档矢量。预定的超球直径表示LSM空间中的文档矢量中的预定的接近度。此后,将多个组中的一个组指定为文档向量的群集,其中指定的组包含多个组中最大数量的文档向量。

著录项

  • 公开/公告号US8713021B2

    专利类型

  • 公开/公告日2014-04-29

    原文格式PDF

  • 申请/专利权人 JEROME R. BELLEGARDA;

    申请/专利号US20100831909

  • 发明设计人 JEROME R. BELLEGARDA;

    申请日2010-07-07

  • 分类号G06F17/30;

  • 国家 US

  • 入库时间 2022-08-21 16:00:00

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号