首页> 外文期刊>ACM Transactions on Information Systems >Fast and Flexible Top-k Similarity Search on Large Networks
【24h】

Fast and Flexible Top-k Similarity Search on Large Networks

机译:大型网络上快速灵活的Top-k相似性搜索

获取原文
获取原文并翻译 | 示例

摘要

Similarity search is a fundamental problem in network analysis and can be applied in many applications. such as collaborator recommendation in coauthor networks, friend recommendation in social networks, and relation prediction in medical information networks. In this article, we propose a sampling-based method using random paths to estimate the similarities based on both common neighbors and structural contexts efficiently in very large homogeneous or heterogeneous information networks. We give a theoretical guarantee that the sampling size depends on the error-bound ε, the confidence level (1- δ), and the path length T of each random walk. We perform an extensive empirical study on a Tencent microblogging network of 1,000,000,000 edges. We show that our algorithm can return top-A: similar vertices for any vertex in a network 300× faster than the state-of-the-art methods. We develop a prototype system of recommending similar authors to demonstrate the effectiveness of our method.
机译:相似性搜索是网络分析中的一个基本问题,可以应用于许多应用中。例如共同作者网络中的协作者推荐,社交网络中的朋友推荐以及医学信息网络中的关系预测。在本文中,我们提出了一种基于采样的方法,该方法使用随机路径来基于非常大的同质或异类信息网络中的公共邻居和结构上下文有效地估计相似性。我们提供了一个理论上的保证,即采样大小取决于误差限制的ε,置信度(1-δ)和每个随机游走的路径长度T。我们对10亿个边缘的腾讯微博网络进行了广泛的实证研究。我们证明了我们的算法可以返回top-A:网络中任何顶点的相似顶点要比最新方法快300倍。我们开发了一个推荐类似作者的原型系统,以证明我们方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号