在线社交网络用户的分类及采样研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着越来越多的网络在线服务的出现，大量以网络形式相互关联的数据在互联网中涌现。这些数据包括：在线社交网络的用户交互信息、论文检索库中的引用信息、电子商务网站上的消费评论信息等。此外，还存在一些非互联网络中产生的，但是同样具有相互关联特性的数据，比如：生物医学界中的蛋白质和基因组合数据、电信行业的用户通信数据等等。所有这些网络数据都具有如下显著特征：数据样本间不独立；数据样本的属性之间存在概率相关性；数据量十分巨大。
　　针对网络数据的上述特性，以网络数据的分类问题为核心，对网络数据的在线采集、模型建立、特征提取和分类应用等方面展开了一系列研究。主要研究内容和创新点如下：
　　1.研究如何对网络数据建立普适的模型，并基于该模型总结了一套通用的网络数据分类策略框架。该框架由本地分类器（Local Classifier）、关系分类器（Relational Classifier）和联合推理（Collective Inference）三部分组成。详细对比了各部分对应的算法，以及各种算法组合后的分类性能。
　　针对网络数据中小占比类别样本的数据缺失问题，提出了在样本权重中引入误分代价的方式，对网络数据的初始化操作进行了优化，使得小占比样本的数据缺失在本地分类（Local Classifier）阶段得以补足，为后续的关系分类和联合推理提供了更多分类依据。
　　2.针对在线社交网络用户分类问题中训练集和测试集的类别占比不一致的问题，以Na?ve Bayes算法为例，运用迁移学习的方法，将测试集中的信息迁移到训练集中，获得了更好的预测效果。
　　3.讨论了影响关系分类器（Relational Classifier）的预测精度的主要因素。大多数关系分类器都基于网络数据的一个普遍特征：同质性（Homophily）对数据进行分类。大多数同质性指标都仅仅对整个网络数据集进行同质性度量。然而，就分类问题而言，需要对数据集中的各个类别分别进行同质性度量。
　　因此，尝试性地定义了多个同质性指标（Edge-centered indexes和Node-centered indexes以及E-Index）专门对网络数据集中的任一给定类别的同质性进行量化。实验表明，E-Index指标的度量效果最好。研究同时发现，对关系数据分类问题而言，给定类别的分类预测精度仅和该类别自身的同质性有关，和其余类别的同质性无关。
　　4.以推特（Twitter）在线社交网络为研究实例，设计了一个基于用户交互行为的分级采样爬虫系统，详细介绍了该系统的模块架构和资源优化策略。
　　为实时锁定当前最有影响力的用户，重点优化了系统的用户采样模块：在用户分级算法—TunkRank算法中，引入了基于用户交互信息的，可调制的转发率因子p。使得系统能够实时的基于用户当前的信息交互状态对用户进行分级。实验表明，引入转发率因子p的TunkRank算法相较于传统的分级算法：PageRank算法和HITS算法，在采样时，更有助于对重要用户的信息更新进行实时跟进。
　　5.基于上述研究结果，对比了推特(Twitter)在线社交网络中的两个重要用户关系：关注（Follow）关系和转发（Retweet）关系，并分析了两者在传播用户影响力和提升用户分类精度这两个方面的作用。
　　定义了两个变量Vf和Vr，分别度量关注关系和转发关系对传播用户影响力的作用。实验对比发现：转发关系在传播用户影响力方面所起的作用更大。
　　分别依据关注关系和转发关系对Twitter用户进行分类后发现：基于关注关系的分类效果更好，但是转发关系也有助于理解用户的信息交互行为；此外，隶属于不同类别的用户，其信息交互行为习惯间存在着差异。

著录项

作者
曾雪;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位博士
导师姓名吴跃;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
社交网络; 用户分类; 网络数据集; 关系分类器; 联合推理;

相似文献

中文文献
外文文献
专利

1. 在线社交网络用户忠诚度研究——基于QQ和微信比较分析 [J] . 尹赛花 ,王金云 ,陈东岳 . 商业经济 . 2020,第008期
2. 基于跨平台的在线社交网络用户推荐研究 [J] . 彭舰 ,王屯屯 ,陈瑜 . 通信学报 . 2018,第003期
3. 在线社交网络中用户个体间信任评估算法研究 [J] . 徐常福 ,钟叶 ,万一红 . 科技广场 . 2017,第002期
4. 在线社交网络中用户伪装攻击检测方法研究 [J] . 高东伟 . 科学技术与工程 . 2017,第007期
5. 老年用户使用在线社交网络的行为类型研究 [J] . 柴雯 ,左美云 ,田雪松 . 情报杂志 . 2016,第007期
6. 在线社交网络用户情感传播研究 [C] . 纪雪梅 ,王芳 . 2013中国信息经济学会学术年会暨博士生论坛 . 2013
7. 在线社交网络用户分类算法研究 [A] . 李娜 . 2018

在线社交网络用户的分类及采样研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅