首页> 中文学位 >社交网络下的垃圾信息过滤技术的研究
【6h】

社交网络下的垃圾信息过滤技术的研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题研究的目的和意义

1.2 国内外研究现状

1.3 本文研究的主要内容

1.4 论文组织结构

第2章 社交平台下垃圾信息过滤技术概述

2.1 微博传播的特性

2.2 过滤垃圾微博方法

2.2.1 用户举报人工审核

2.2.2 基于规则和模式匹配的过滤方法

2.2.3 基于统计机器学习的过滤方法

2.3 统计学习理论的过滤方法框架

2.4 机器学习方法

2.4.1 逻辑回归

2.4.2 支持向量机

2.4.3 随机森林

2.5 实验数据集以及评价指标

2.6 本章小结

第3章 面向微博过滤的特征设计

3.1 用户行为特征

3.1.1 社交网络关系图

3.1.2 关注、好友、用户名誉度

3.1.3 微博中的信息传递

3.1.4 信息传播图的生成

3.2 用户内容特征

3.2.1 提及与话题标签

3.2.2 URL特征

3.2.3 文本相似性特征

3.2.4 时间间隔与发布平台

3.2.5 转发与评论特征

3.3 数据分析

3.4 实验评价

3.5 本章小结

第4章 基于在线主动学习的垃圾微博检测

4.1 基于在线学习的垃圾微博过滤框架

4.2 在线机器学习方法

4.2.1 在线逻辑回归算法

4.2.2 在线支持向量机算法

4.3 在线主动学习

4.3.1 b-Sampling采样方法

4.3.2 逻辑间隔的采样方法

4.3.3 固定间隔采样方法

4.4 实验评价

4.5 本章小结

第5章 社交网络中僵尸账号检测的研究

5.1 微博中的僵尸账号

5.2 序贯概率比检验

5.3 僵尸账号检测问题的形式化

5.4 微博僵尸检测框架

5.5 实验评价

5.6 本章小结

结论

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

随着Web2.0技术的发展,社交媒体已经成为最大最活跃的社交平台,为数亿用户提供优质且良好的沟通渠道。然而,当人们在社交网络分享、交流、互动的同时,垃圾信息却也不断的膨胀。当前迫切需要一种技术来净化网络空间,营造健康的社交生态体系,因此,社交网络下的垃圾信息过滤技术已经成为研究者们普遍关注的热点问题。
  基于机器学习的分类技术广泛应用在社交平台垃圾信息过滤上,机器学习方法具有准确率高、成本低等特点。本文以新浪微博为研究对象,主要的研究内容分为如下几个部分:
  首先,从社交网络服务的信息传播形态出发,分析了微博平台中垃圾信息的传播规律,设计了基于机器学习方法的过滤技术来识别新浪微博网络中的可疑账户,并实现了基于逻辑回归、支持向量机、随机森林三种模型的垃圾信息过滤系统。
  其次,从微博账户中提取多种具有区分性的特征,应用机器学习模型进行分类过滤。从用户行为以及内容行为两方面提取垃圾微博的属性特征,使用社交网络关系图来分析微博平台的数据流动和传播规律。以微博中的消息为主体构建信息传播图来描述用户之间的亲密度。最后通过数据分析以及实验测试评价了整个过滤系统的性能。
  再次,从系统的实际应用角度出发,提出采用在线主动学习的方法过滤垃圾微博,主动学习方法不仅能够减少系统对于标注数据的需求量,降低系统时间复杂度,同时也能保证良好的过滤性能。
  最后,垃圾信息制造者非常热衷于劫持正常用户的账号给人刷粉、帮人转发。本文提出基于序贯概率比检验的方法来检测僵尸账号,僵尸账号检测系统能够有效检测出社会网络中的僵尸账号。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号