首页> 外文会议>SIGMOD/PODS 2007 >A Random Walk Approach to Sampling Hidden Databases
【24h】

A Random Walk Approach to Sampling Hidden Databases

机译:随机游走方法对隐藏数据库进行采样

获取原文

摘要

A large part of the data on the World Wide Web is hidden behind form-like interfaces. These interfaces interact with a hidden backend database to provide answers to user queries. Generating a uniform random sample of this hidden database by using only the publicly available interface gives us access to the underlying data distribution. In this paper, we propose a random walk scheme over the query space provided by the interface to sample such databases. We discuss variants where the query space is visualized as a fixed and random ordering of attributes. We also propose techniques to further improve the sample quality by using a probabilistic rejection based approach. We conduct extensive experiments to illustrate the accuracy and efficiency of our techniques.
机译:万维网上的大部分数据都隐藏在类似表单的界面后面。这些接口与隐藏的后端数据库进行交互,以提供用户查询的答案。通过仅使用公共可用接口来生成此隐藏数据库的统一随机样本,将使我们能够访问基础数据分布。在本文中,我们提出了一种在接口提供的查询空间上的随机游走方案,以对此类数据库进行采样。我们讨论了将查询空间可视化为属性的固定和随机顺序的变体。我们还提出了通过使用基于概率拒绝的方法来进一步提高样本质量的技术。我们进行了广泛的实验,以说明我们技术的准确性和效率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号