首页> 中文学位 >社交网络中垃圾内容过滤方法研究
【6h】

社交网络中垃圾内容过滤方法研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景及意义

1.2 国内外发展和研究现状

1.3 主要研究内容

1.4 文章的组织结构

1.5 本章小结

2 社交网络中垃圾内容过滤方法概述

2.1 基于规则的模式匹配过滤方法

2.1.1 AC算法

2.1.2 WM算法

2.2 基于非平衡数据集的机器学习过滤方法

2.2.1 SMOTE算法

2.2.2 Bagging算法

2.3 基于用户举报和后台人工审核机制

2.4 多方法协同过滤框架

2.5 本章小结

3 基于规则的模式匹配过滤方法ACF

3.1 ACF算法设计思想

3.2 ACF算法FPGA硬件设计

3.3 ACF算法实验和分析

3.4 本章小结

4 基于非平衡数据集的机器学习过滤算法SDR

4.1 非平衡数据分类过滤的难点

4.2 社交网络信息的特征提取

4.3 SDR算法设计思想

4.4 SDR算法实验

4.4.1 实验数据集

4.4.2 评价指标

4.4.3 实验和分析

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

社交网络中垃圾内容过滤的核心方法现今主要分为基于规则的模式匹配过滤方法和基于非平衡数据集的机器学习过滤方法。随着智能终端设备的普及,社交网络信息的实时数据量爆炸式增长,两大方法协同使用成为过滤其中垃圾内容的主要方案。第一层次过滤使用第一种方法,不断追求更快的处理速度,第二层次过滤使用第二种方法,不断追求更高的分类能力。本文在这两个方向均提出了自己的想法,相关研究工作如下:
  在基于规则的模式匹配过滤方法这方面,为了有效提升处理速度,提出基于硬件FPGA的多模式匹配算法ACF。ACF算法借鉴AC状态自动机的思想,去掉Failure失败转移函数,构造基于4位的16叉树的匹配型状态自动机。实验表明ACF算法是可行的,处理性能相比同类算法显著提高,能更有效地用于垃圾内容过滤。
  在基于非平衡数据集的机器学习过滤方法这方面,为了有效提高分类能力,提出数据重采样算法SDR。SDR算法将过采样机制与欠采样机制相结合。过采样阶段根据数据的空间分布特点构造更具分类能力的新数据。欠采样阶段使用聚类的方法,更多的保留有价值的数据。并且通过迭代优化与去噪声的方法进一步提高分类能力。实验表明SDR算法是可行的,相比同类算法具备更高的分类能力,能更有效地用于垃圾内容过滤。
  本文提出的两个算法均能更有效的解决社交网络中垃圾内容的过滤问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号