改进样本加权K近邻分类器用于垃圾网页检测

吴俊华; 谭博觉; 高切; 陈木生

首页> 中文期刊> 《重庆理工大学学报（自然科学版）》 >改进样本加权K近邻分类器用于垃圾网页检测

改进样本加权K近邻分类器用于垃圾网页检测

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。

著录项

来源
《重庆理工大学学报（自然科学版）》 |2021年第7期|283-290|共8页
作者
吴俊华; 谭博觉; 高切; 陈木生;
展开▼
作者单位

江西理工大学软件工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP393.092;
关键词
垃圾网页检测; 特征选择; K近邻; 不平衡数据分类; 代价敏感分析;

相似文献

中文文献
外文文献
专利

1. 改进样本加权K近邻分类器用于垃圾网页检测 [J] . 吴俊华 ,谭博觉 ,高切 . 重庆理工大学学报 . 2021,第007期
2. 三种用于垃圾网页检测的随机欠采样集成分类器 [J] . 陈木生 ,卢晓勇 . 计算机应用 . 2017,第002期
3. 文本分类中基于训练样本空间分布的K近邻改进算法 [J] . 刘海峰 ,刘守生 ,姚泽清 . 情报学报 . 2013,第001期
4. 基于样本密度加权的神经网络分类器在文本分类中的应用 [J] . 廖一星 . 计算机应用与软件 . 2009,第009期
5. 用于动态心电图波形分类改进的K近邻算法研究 [J] . 苑静中 . 天津师范大学学报（自然科学版） . 2008,第003期
6. 基于改进的贝叶斯模型的中文网页分类器 [C] . 秦兵 ,郑实福 ,刘挺 . 全国第六届计算语言学联合学术会议 . 2001
7. 改进的K近邻算法在网页文本分类中的应用 [A] . 白凡 . 2010

改进样本加权K近邻分类器用于垃圾网页检测

摘要

著录项

相似文献

相关主题

期刊订阅