基于谱哈希的大规模网页分类算法研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息时代的到来，互联网以其方便、快捷、信息量丰富等优势广泛应用于工作生活中，在给人们带来便利的同时，各种不良信息也充斥其中，如不对其加以控制和监管，必将对青少年成长及国家和谐安全稳定造成危害。基于网页服务分类的网络服务管控是对互联网信息进行有效监管的方法之一，其核心技术是网页分类技术，受到广大学者的研究。
　　本文基于以上背景，以发改委项目“面向特定区域网络服务划分与验证系统”为依托，重点对大规模网页的分类进行了研究，在分析当前网页分类技术的基础上，对现有网页分类方法进行改进，设计出一种基于谱哈希的大规模中文网页分类算法，并将所设计算法进行了实现与测试。本文研究的主要内容如下：
　　第一，提出基于关键词匹配的方法对网页进行预分类处理。通过对网页结构特点的研究发现，网页类别属性与标签项中的文本信息密切相关，对网页预处理分词后，提取标签中的词集合，与预分类关键词表进行匹配，若匹配成功后则直接输出分类结果。该方法不需要特征选择、网页向量化表示、分类算法等步骤，只是字符串的匹配，因此可以大幅提高分类效率。
　　第二，提出综合权重计算方法，并将其应用于选择选择过程中，提出了CW-FS特征选择法。该方法将特征项在类内及类间的分布情况、特征项在网页中的位置、特征词长度均纳入权重考虑范围，从而选择出包含信息量大、区别能力强的特征项。
　　第三，网页向量维度过高是影响网页分类效率的主要原因，本文提出将原始网页向量经谱哈希降维，以达到减小分类运算开销，提高网页分类效率的目的。通过实验验证，该方法可以在较小正确率损失的条件下，大幅提高网页分类算法的效率。
　　最后综合以上优化方案，设计并实现了基于谱哈希的大规模中文网页分类算法，经过与KNN算法的对比实验，证明本文所提出的分类算法能够在较小分类准确率损失的条件下，大幅减小分类运算的时间开销和内存开销，分类效率提高明显。

著录项

作者
田郸郸;
展开▼
作者单位

国防科学技术大学;

展开▼
授予单位国防科学技术大学;
学科计算机技术
授予学位硕士
导师姓名韩伟红;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
网络服务; 网页分类; 谱哈希; 关键词匹配; 权重计算;

相似文献

中文文献
外文文献
专利

1. 基于谱哈希的大规模网页分类算法 [J] . 田郸郸1 . 软件工程与应用 . 2016,第001期
2. 基于改进谱哈希的大规模图像检索 [J] . 夏立超 ,蒋建国 ,齐美彬 . 合肥工业大学学报：自然科学版 . 2016,第8期
3. 基于维度分解的哈希多维快速流分类算法 [J] . 佟海奇 ,包秀国 ,庹宇鹏 . 计算机工程 . 2015,第008期
4. 基于无冲突哈希Trie树的IP分类算法的研究 [J] . 罗金玲 ,刘罗仁 . 电脑知识与技术：学术交流 . 2007,第004期
5. 基于无冲突哈希Trie树的IP分类算法的研究 [J] . 罗金玲 ,刘罗仁 . 电脑知识与技术 . 2007,第007期
6. 基于改进K最近邻分类算法的不良网页并行识别 [C] . XU Yabin ,徐雅斌 ,LI Zbuo . 2013年全国开放式分布与并行计算学术年会 . 2013
7. 基于行为识别的网页文本分类算法研究与实现 [A] . 刘俊荣 . 2010

基于谱哈希的大规模网页分类算法研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅