【24h】

Variable latent semantic indexing

机译:可变潜在语义索引

获取原文

摘要

Latent Semantic Indexing is a classical method to produce optimal low-rank approximations of a term-document matrix. However, in the context of a particular query distribution, the approximation thus produced need not be optimal. We propose VLSI, a new query-dependent (or "variable") low-rank approximation that minimizes approximation error for any specified query distribution. With this tool, it is possible to tailor the LSI technique to particular settings, often resulting in vastly improved approximations at much lower dimensionality. We validate this method via a series of experiments on classical corpora, showing that VLSI typically performs similarly to LSI with an order of magnitude fewer dimensions.
机译:潜在语义索引是一种用于生成术语文档矩阵的最佳低秩近似的经典方法。但是,在特定查询分布的情况下,由此产生的近似值不一定是最佳的。我们提出了VLSI,这是一种新的依赖于查询(或“变量”)的低秩逼近,可将任何指定查询分布的逼近误差降至最低。使用该工具,可以将LSI技术调整为特定的设置,通常可以在低得多的尺寸下大大提高逼近度。我们通过在经典语料库上进行的一系列实验验证了该方法,结果表明,VLSI的性能通常与LSI相似,但尺寸却减少了一个数量级。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号