首页> 外文会议>SIGMOD/PODS >A Random Walk Approach to Sampling Hidden Databases
【24h】

A Random Walk Approach to Sampling Hidden Databases

机译:采样隐藏数据库的随机步行方法

获取原文

摘要

A large part of the data on the World Wide Web is hidden behind form-like interfaces. These interfaces interact with a hidden backend database to provide answers to user queries. Generating a uniform random sample of this hidden database by using only the publicly available interface gives us access to the underlying data distribution. In this paper, we propose a random walk scheme over the query space provided by the interface to sample such databases. We discuss variants where the query space is visualized as a fixed and random ordering of attributes. We also propose techniques to further improve the sample quality by using a probabilistic rejection based approach. We conduct extensive experiments to illustrate the accuracy and efficiency of our techniques.
机译:万维网上的大部分数据隐藏在类似形式的接口后面。这些接口与隐藏的后端数据库进行交互,以向用户查询提供答案。仅使用公共可用的界面生成此隐藏数据库的均匀随机样本,使我们可以访问底层数据分发。在本文中,我们在接口提供的查询空间上提出随机步行方案来对这些数据库进行采样。我们讨论查询空间被可视化为属性的固定和随机排序的变体。我们还提出了通过使用基于概率的抑制方法进一步提高样品质量的技术。我们对我们技术的准确性和效率进行了广泛的实验。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号