In this paper we discuss simple random sampling from hash files on secondary storage. We consider both iterative and batch sampling algorithms from both static and dynamic hashing methods. The static methods considered are open addressing hash files and hash files with separate overflow chains. The dynamic hashing methods considered are Linear Hash files [Lit80] and Extendible Hash files [FNPS79]. We give the cost of sampling in terms of the cost of successfully searching a hash file and show how to exploit features of the dynamic hashing methods to improve sampling efficiency.
在本文中,我们讨论了从二级存储上的哈希文件进行的简单随机采样。我们同时考虑了静态和动态哈希方法中的迭代和批处理采样算法。所考虑的静态方法是开放式寻址哈希文件和具有单独溢出链的哈希文件。所考虑的动态哈希方法是线性哈希文件[Lit80]和可扩展哈希文件[FNPS79]。从成功搜索哈希文件的成本出发,给出了采样成本,并展示了如何利用动态哈希方法的功能来提高采样效率。 P>
机译:基于哈希的雕刻:使用扇区哈希和hashdb在媒体中搜索完整的文件和文件片段
机译:使用Visual Studio散列源代码文件以确保文件完整性
机译:基于随机Cuckoo Hashing和Minhash的Palmprint模板保护方案
机译:用于一个置换散列的重新随机化致密化和宾馆一致加权采样
机译:固态驱动器固件过程对单个文件哈希的影响
机译:定性饮食协议(Diet4Hashi)在桥本甲状腺炎饮食咨询中的应用评估:一项随机对照试验的研究协议
机译:从哈希文件随机抽样
机译:从哈希文件中随机抽样。