首页> 中文学位 >面向移动搜索的WAP页面消重技术研究
【6h】

面向移动搜索的WAP页面消重技术研究

代理获取

目录

文摘

英文文摘

致谢

1 引言

1.1 研究背景及意义

1.2 本文的主要工作

1.3 论文的组织结构

2 WAP页面消重框架

2.1 WAP页面特性

2.1.1 页面的类型

2.1.2 重复WAP页面的定义

2.2 消重框架流程

2.2.1 DOM解析

2.2.2 VIPS识别

2.2.3 页面分类

2.2.4 标题正文提取

2.3 本章小结

3 面向WAP页面的特征提取方法

3.1 现有特征提取方法

3.1.1 基于整个文档的特征提取方法

3.1.2 基于Shingle的特征提取方法

3.1.3 基于词(term/phrase)的特征提取方法

3.2 WAP页面驱动的特征提取

3.2.1 面向内容页的特征提取方法

3.2.2 面向下载页的特征提取方法

3.2.3 面向导航页的特征提取方法

3.2.4 面向图片页的特征提取方法

3.2.5 面向BBS页的特征提取方法

3.3 本章小结

4 基于SimHash消重技术的研究与应用

4.1 现有的消重技术

4.1.1 基于Shingle的消重技术

4.1.2 基于Bloom Filter的消重技术

4.1.3 基于SimHash的网页消重技术

4.2 面向WAP页面消重方法

4.2.1 算法详细描述

4.3 本章小结

5 实验及分析

5.1 WAP页面消重评价方法

5.1.1 现有评价方法

5.1.2 本文设计的评价方法

5.2 实验数据

5.3 实验设计

5.4 实验结果及分析

5.4.1 实验结果

5.4.2 实验分析

5.5 本章小结

6 总结与展望

6.1 全文总结

6.2 下一步工作展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

随着科学技术和网络通讯的发展,特别是Internet的应用和普及,电子信息资源呈现出爆炸式增长趋势,数据量已从GB级到TB级,再到PB级。海量数据在给人们获取信息带来便捷的同时,存在着大量重复的现象。由于信息来源的多样性,以及对不同用户群体的针对性,使得相同信息可能以多种形态在不同页面出现,导致互联网上存在大量重复信息。这些重复网页的存在,严重影响了用户上网的体验,增加了互联网的成本,所以网页消重成为一个亟待解决的问题。
   目前的消重技术主要集中于针对以PC为终端访问的Web页面,对于面向手机等移动终端的WAP(WirelessApplicationProtocol,无线应用协议)页面的消重技术鲜有涉及。然而,近年来随着移动互联网的迅速发展,手机等移动设备迅速普及,手机WAP页面海量增长,对WAP页面进行消重变得尤为迫切。
   本文针对WAP页面的特点以及WAP页面消重的特定需求,提出了面向不同类别的WAP网页的特征提取方法,然后,将其与SimHash算法结合,从而得到面向WAP页面的消重方法,并且将其应用到真实数据中。
   本文的主要贡献如下:
   1.提出了一种面向WAP页面的特征提取方法,包含两个步骤:一是对WAP页面进行特征提取,二是针对不同类别的WAP页面利用基于视觉的网页结构分割算法(VIPS)识别的行信息对特征进行过滤。该方法既能反映不同类别页面重复方式的差异,又能充分考虑语义信息,提取的特征粒度大小适中,计算复杂度低且具有代表性;
   2.提出了一个面向WAP页面的消重方法,该方法集成了前面提出的特征提取方法和网页相似度计算的SimHash算法。于此同时,本文设计了消重效果的评价准则,从而指导页面间相似度的阈值设定,有效去除WAP中重复页面;
   3.本文将提出的WAP页面消重方法应用到真实的数据集上,在数据集上取得了优异的性能,同时也验证了本文提出的特征提取算法及整个消重方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号