首页> 外文OA文献 >GPX : ad-hoc queries and automated link discovery in the Wikipedia
【2h】

GPX : ad-hoc queries and automated link discovery in the Wikipedia

机译:GPX:Wikipedia中的临时查询和自动链接发现

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

The INEX 2007 evaluation was based on the Wikipedia collection in XML format. In thisudpaper we describe some modifications to the GPX search engine and the approach taken in the Ad-hocudand the Link-the-Wiki tracks. The GPX retrieval strategy is based on the construction of a collectionudsub-tree, consisting of all nodes that contain one or more of the search terms. Nodes containing searchudterms are assigned a score using the GPX ranking scheme which incorporates an extended TF-IDFudvariant. In earlier version of GPX scores were recursively propagated from text containing nodes,udthrough ancestors, all the way to the document root of the XML tree. In this paper we describe audsimplification whereby the score of each node is computed directly, doing away with the scoreudpropagation mechanism. Preliminary results indicate improved performance. The GPX search engineudwas used in the Link-the-Wiki track to identify prospective incoming links to new Wikipedia pages. Weudalso describe a simple and efficient approach to the identification of prospective outgoing links in newudWikipedia pages. We present preliminary evaluation results.
机译:INEX 2007评估基于XML格式的Wikipedia集合。在本 udpaper中,我们描述了对GPX搜索引擎的一些修改以及Ad hoc ud和Wi​​ki链接中采用的方法。 GPX检索策略基于collection udsub-tree的构建,该树由包含一个或多个搜索词的所有节点组成。使用合并扩展的TF-IDF udvariant的GPX排名方案为包含search udterms的节点分配分数。在GPX的早期版本中,分数从包含节点的文本(递归祖先)递归传播,一直到XML树的文档根目录。在本文中,我们描述了简化,从而直接计算每个节点的分数,而没有使用分数传播机制。初步结果表明性能有所提高。 Wiki链接轨道中使用GPX搜索引擎 ud来标识到新Wikipedia页面的预期传入链接。我们还将在新的 udWikipedia页面中描述一种简单有效的方法来识别预期的传出链接。我们提出初步评估结果。

著录项

  • 作者

    Geva Shlomo;

  • 作者单位
  • 年度 2008
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号