...
机译:在Web爬网中有效检测几乎重复的Web文档
CSE Department, CMR College of Engineering & Technology, JNTU, Hyderabad, India;
Department of Computer Science & Engineering, University College of Engineering, Osmania University Hyderabad-500007, AP, India;
Department of Computer Science and Engineering, JNTU College of Engineering Kukatpally, Hyderabad, India;
web mining; web content mining; web crawling; web pages; stemming; common words; near duplicate pages; near duplicate detection;
机译:Web爬行中检测几乎重复的Web文档的两种相反方法的性能和比较分析
机译:通过检测和避开近乎重复的文档来进行有效的Web爬网
机译:基于Web来源的近重复检测和消除以实现有效的Web搜索
机译:创建固定阈值的混淆矩阵,以有效检测Web爬网中几乎重复的Web文档
机译:连接Web上的链接结构和内容,以进行有效的集中爬网。
机译:通过Web爬网中的超链接对大数据进行Web索引的一种有效方法
机译:Web爬行中检测几乎重复的Web文档的两种相反方法的性能和比较分析