首页> 外文期刊>Information retrieval >Structure vs. content in hierarchical corpora
【24h】

Structure vs. content in hierarchical corpora

机译:层次语料库的结构与内容

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

We propose and describe Parameterized filesystem HITS (PFH), a lightweight rearrangement algorithm that performs a re-ranking of existing content-only search results in tree-like hierarchical corpora, such as a filesystem. PFH does this by combining the content analysis of the results with structural analysis of how they are organized. An a parameter is used to vary the structure-content bias, allowing us to observe changes in performance when we place more emphasis on structure or on content. Using real and simulated data, experiments are provided to show that a = 0.8 (i.e, 20% structure and 80% content) can substantially boost Mean Reciprocal Rank while keeping other IR metrics steady. Such an algorithm may be useful for building retrieval systems over hierarchical content such as Desktop Search, technical documents and books.
机译:我们提出并描述了参数化文件系统HITS(PFH),这是一种轻量级的重新排列算法,可以对树状分层语料库(例如文件系统)中现有的仅内容搜索结果进行重新排序。 PFH通过将结果的内容分析与结果的结构分析相结合来做到这一点。参数用于改变结构-内容偏差,当我们更加强调结构或内容时,可以观察性能的变化。使用真实和模拟数据,提供的实验表明a = 0.8(即20%的结构和80%的含量)可以大大提高平均互惠等级,同时保持其他IR指标稳定。这样的算法对于在诸如桌面搜索,技术文档和书籍之类的分层内容上构建检索系统可能是有用的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号