【24h】

Fast Manhattan Sketches in Data Streams

机译:数据流中的快速曼哈顿草图

获取原文
获取原文并翻译 | 示例

摘要

The l1-distance, also known as the Manhattan or taxicab distance, between two vectors x,y in R~n is ∑_(i=1)~n |x_i-y_i|. Approximating this distance is a fundamental primitive on massive databases, with applications to clustering, nearest neighbor search, network monitoring, regression, sampling, and support vector machines. We give the first 1-pass streaming algorithm for this problem in the turnstile model with O*(ε~(-2)) space and O*(1) update time. The O* notation hides polylogarithmic factors in ε, n, and the precision required to store vector entries. All previous algorithms either required Ω(ε~(-3)) space or Ω(ε~(-2)) update time and/or could not work in the turnstile model (i.e., support an arbitrary number of updates to each coordinate). Our bounds are optimal up to O*(1) factors.
机译:R〜n中两个向量x,y之间的l1-距离,也称为曼哈顿距离或出租车距离,为∑_(i = 1)〜n | x_i-y_i |。大约此距离是海量数据库上的基本基本要素,可应用于聚类,最近邻居搜索,网络监控,回归,采样和支持向量机。我们在具有O *(ε〜(-2))空间和O *(1)更新时间的旋转栅模型中针对该问题给出了第一个1-pass流算法。 O *表示法将多对数因子隐藏在ε,n中,并隐藏了存储向量项所需的精度。以前的所有算法都需要Ω(ε〜(-3))空间或Ω(ε〜(-2))更新时间和/或无法在旋转栅门模型中工作(即,支持对每个坐标进行任意数量的更新) 。我们的边界在O *(1)因子以内是最优的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号