基于主题的文档检索模型

         

摘要

现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号