首页> 中文学位 >微博垃圾博主的行为分析与检测
【6h】

微博垃圾博主的行为分析与检测

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 国内研究现状

1.2.2 国外研究现状

1.3 研究内容和目标

1.4 论文结构安排

第2章 微博垃圾博主行为分析与相关检测技术

2.1 微博垃圾博主的行为分析

2.2 基于微博博文链接内容的微博推广联盟的检测

2.3 基于支持向量机的微博垃圾博主分类算法

2.3.1 支持向量机分类算法概述

2.3.2 支持向量机分类算法的优点与不足

2.4 本章小结

第3章 中文微博样本集与微博主题词库的构建

3.1 中文微博样本集的数据获取与存储

3.1.1 用户授权控制部分

3.1.2 数据获取部分

3.1.3 数据持久化部分

3.2 数据集预处理

3.3 基于主题生成模型的微博博文关键词数据样本集构建

3.3.1 微博博文主题生成

3.3.2 博文主题关键字选择

3.4 数据集标注

3.5 本章小结

第4章 垃圾微博用户特征分析与选择

4.1 特征选择与分析

4.1.1 用户行为特征分析与选择

4.1.2 用户个人资料特征特征分析与选择

4.1.3 用户微博内容特征分析与选择

4.1.4 用户关系特征分析与选择

4.2 实验对比

4.2.1 数据集平衡

4.2.2 分类性能评价标准

4.2.3 特征贡献与特征组合

4.3 本章小结

第5章 微博垃圾博主检测

5.1 基于多元分类支持向量机的多层次微博博主检测

5.1.1 多元支持向量机的主要实现方式

5.1.2 快速多元支持向量机分类算法

5.1.3 对比实验

5.2 基于综合权重的多层次微博垃圾博主检测算法

5.2.1 综合权重的计算

5.2.2 对比实验

5.3 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

展开▼

摘要

随着互联网的日益发展,越来越多的组织或个人开始通过社交网络获取信息。社交网络的用户群体巨大,用户关系通常是基于同学、朋友或者亲人等社会关系,信息在传播过程中更容易被接受。于是便产生了许多通过发布有害链接、病毒,暴力、色情信息等对普通用户危害较大的微博来获取不正当利益的用户。然而,随着反作弊技术的不断提升以及社交网络系统的不断自我完善,这一类的作弊行为已经几乎不复存在。作弊者的行为逐渐趋于隐藏化,对用户造成的危害变小且相对间接,这种危害更多地体现在对用户从社交网络汲取信息效率的影响。本文从产生上述的影响的大小以及产生这种影响的行为的主动性等方面进行考虑,定义了不同类型的微博垃圾用户,然后对各种类型的微博用户的行为进行研究与分析。
  本文设计了大规模并行微博爬虫爬取了500多万条微博,对原数据集进行了扩充。同时从用户个人信息、用户行为、用户关系、用户微博博文四个方面对新数据集进行预处理,进一步提取特征,构建了包含手机广告被动营销用户、明星以及体育赛事被动宣传用户以及典型微博垃圾用户的中文微博样本集。同时,对用户的微博内容进行了分词和主题生成,构建了基于微博内容的主题词库。在此基础上,本文对数据集做平衡处理之后,通过对比实验,对不同特征组合的贡献效果进行了比较,最终选出了最优分类检测效果下的特征组合。之后,本文比较了两两不同子类的特征差异度,据此使用了基于多元分类的DAG-SVM算法对数据进行分类,并与其他算法进行了性能对比,在分类效果上具有优势。最后,本文设计了基于综合权重的多元SVM分类算法,根据任意两个子类间互相分错的样本个数来计算每个二元子分类器的权重,将其加入目标函数后进行分类,提高了分类的准确性。

著录项

  • 作者

    孙子川;

  • 作者单位

    西南交通大学;

  • 授予单位 西南交通大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 朱焱;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.131;
  • 关键词

    社交平台; 用户行为; 数据采集; 特征提取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号