首页> 外文学位 >Improved latent semantic analysis model.
【24h】

Improved latent semantic analysis model.

机译:改进的潜在语义分析模型。

获取原文
获取原文并翻译 | 示例

摘要

The focus of this thesis is on a recent advance in Information Retrieval (IR), Latent Semantic Analysis (LSA). Literal matching schemas suffer from synonyms and noise in documents. LSA overcomes these problems by using statistically derived concepts instead of terms of retrieval. It uses Singular Value Decomposition (SVD) to transform high dimensional document vector into a lower-dimensional semantic vector, by projecting the former into a semantic space. Although Singular Value Decomposition (SVD) has usually been applied in LSA, this thesis is based on Semi-Discrete matrix Decomposition (SDD) which requires significantly less storage and is faster at query processing than SVD. Using Java programming language and Kolda and O'Leary's SDDPACK software, an implementation of SDD LSA is built and tested against the MEDLINE collection of biomedical abstracts. These results are compared to SVD LSA MEDLINE studies and discussed. Web interface is provided, which is hosted on Tomcat 4.1.24 (web container).
机译:本文的重点是信息检索(IR),潜在语义分析(LSA)的最新进展。文字匹配模式存在同义词和文档噪音的问题。 LSA通过使用统计派生的概念而不是检索术语来克服这些问题。通过将前者投影到语义空间中,它使用奇异值分解(SVD)将高维文档向量转换为低维语义向量。尽管LSA中通常采用奇异值分解(SVD),但本文基于半离散矩阵分解(SDD),与SVD相比,半离散矩阵分解(SDD)所需的存储量少得多,查询处理速度也更快。使用Java编程语言以及Kolda和O'Leary的SDDPACK软件,构建了SDD LSA的实现,并针对MEDLINE生物医学摘要集合进行了测试。将这些结果与SVD LSA MEDLINE研究进行比较并进行了讨论。提供了Web界面,该界面托管在Tomcat 4.1.24(Web容器)上。

著录项

  • 作者

    Kadam, Pradnya.;

  • 作者单位

    State University of New York Institute of Technology.;

  • 授予单位 State University of New York Institute of Technology.;
  • 学科 Computer Science.
  • 学位 M.S.
  • 年度 2005
  • 页码 46 p.
  • 总页数 46
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号