首页> 中文学位 >基于谱哈希的大规模网页分类算法研究与实现
【6h】

基于谱哈希的大规模网页分类算法研究与实现

代理获取

目录

声明

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 本文主要工作

1.4 本文的组织结构

第二章 相关研究

2.1 网页自动分类概述

2.2 网页预处理

2.3 特征选择

2.4 文本表示模型

2.5 特征权重计算

2.6 分类算法

2.7 本章小结

第三章 大规模网页分类算法设计

3.1 当前网页分类过程存在问题分析

3.2 网页分类算法优化方案

3.3 基于谱哈希的大规模中文网页分类算法设计

3.4 本章小结

第四章 基于谱哈希的大规模网页分类算法实现

4.1 基于谱哈希的大规模中文网页分类算法流程

4.2 网页预处理的实现

4.3 网页预分类的实现

4.4 CW-FS特征选择方法的实现

4.5 网页向量化表示的实现

4.6 基于谱哈希网页向量降维方法的实现

4.7 KNN分类器的实现

4.8 本章小结

第五章 基于谱哈希的大规模网页分类算法测试

5.1 数据集

5.2 测试标准

5.3 优化方案测试

5.4 基于谱哈希的大规模中文网页分类算法测试

5.5 测试分析

第六章 总结与展望

6.1 主要工作总结

6.2 下一步工作展望

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

随着信息时代的到来,互联网以其方便、快捷、信息量丰富等优势广泛应用于工作生活中,在给人们带来便利的同时,各种不良信息也充斥其中,如不对其加以控制和监管,必将对青少年成长及国家和谐安全稳定造成危害。基于网页服务分类的网络服务管控是对互联网信息进行有效监管的方法之一,其核心技术是网页分类技术,受到广大学者的研究。
  本文基于以上背景,以发改委项目“面向特定区域网络服务划分与验证系统”为依托,重点对大规模网页的分类进行了研究,在分析当前网页分类技术的基础上,对现有网页分类方法进行改进,设计出一种基于谱哈希的大规模中文网页分类算法,并将所设计算法进行了实现与测试。本文研究的主要内容如下:
  第一,提出基于关键词匹配的方法对网页进行预分类处理。通过对网页结构特点的研究发现,网页类别属性与标签项中的文本信息密切相关,对网页预处理分词后,提取标签中的词集合,与预分类关键词表进行匹配,若匹配成功后则直接输出分类结果。该方法不需要特征选择、网页向量化表示、分类算法等步骤,只是字符串的匹配,因此可以大幅提高分类效率。
  第二,提出综合权重计算方法,并将其应用于选择选择过程中,提出了CW-FS特征选择法。该方法将特征项在类内及类间的分布情况、特征项在网页中的位置、特征词长度均纳入权重考虑范围,从而选择出包含信息量大、区别能力强的特征项。
  第三,网页向量维度过高是影响网页分类效率的主要原因,本文提出将原始网页向量经谱哈希降维,以达到减小分类运算开销,提高网页分类效率的目的。通过实验验证,该方法可以在较小正确率损失的条件下,大幅提高网页分类算法的效率。
  最后综合以上优化方案,设计并实现了基于谱哈希的大规模中文网页分类算法,经过与KNN算法的对比实验,证明本文所提出的分类算法能够在较小分类准确率损失的条件下,大幅减小分类运算的时间开销和内存开销,分类效率提高明显。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号