基于自然语言处理的社交网络数据挖掘研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

微博是一种目前非常热门的社交平台，用户以短文本或多媒体信息的方式在平台上实现实时的信息分享与交流。用户发布的文本虽短，但长时间积累下来的数据蕴含着丰富的用户的个性化特征等信息。平台的用户数据中蕴含着丰富的社会信息价值，微博用户数据挖掘对于社交网络发展与社交信息分析具有重要意义。
　　社交网络数据挖掘完成的主要功能就是通过分析和挖掘用户在微博中的海量短文本，得到用户的个性化特征等信息。其首要工作是从网络中采集大量微博数据，采用特定的格式进行信息存储；然后对获取的微博信息进行分词处理和信息特征表示处理，最后通过数据挖掘方法进行用户识别和用户类型分析。
　　本文利用网络爬虫技术设计了基于模拟登录的用户数据爬取系统，提供了从网络中获取大量用户微博数据的方法。根据用户数据结构特征，采用基于JSON格式的NOSQL数据库进行存储。
　　针对目前分词方法存在的新词发现困难的问题，提出了基于词典匹配与统计标注相融合的中文分词方法。本方法以字典匹配方法为基础，融入CRF标注算法，并在分词过程中迭代训练实现算法自学习能力。通过将匹配方法与标注方法相融合，根据汉语语义规律选取分词结果，有效改善了中文分词在分词准确性和未登录词发现等方面的分词效果。在测试语料上实验结果表明，文中提出的方法与最大正向匹配算法相比，F值提高了9.6%，且比CRF标注算法提高了2.9%，能更好地满足实际应用需求。
　　目前的微博数据挖掘中主要采用 One-hot representation特征表示方法，其缺点是不能表达上下文语义。本文采用基于 word2vec的用户特征表示方法，在用户特征表示中加入了上下文信息并且降低了用户信息向量维度，提高了后续数据挖掘算法的计算效率。
　　通过对微博用户数据的分析，发现用户中存在部分垃圾用户会对数据挖掘带来噪声干扰，本文设计了基于 SVM的垃圾用户识别模型对垃圾用户进行识别，在测试集上F值达到0.94。然后根据微博用户关注内容，利用K-means聚类分析算法进行了用户社区划分。由于用户社区划分的不确定性，通过 DB-index算法计算最优聚类中心数值，提高了聚类结果的类间辨识度和类内相似度。

著录项

作者
张培华;
展开▼
作者单位

华北电力大学;

华北电力大学(保定);

展开▼
授予单位华北电力大学;华北电力大学(保定);
学科计算机技术
授予学位硕士
导师姓名翟学明;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自然语言处理; 社交网络; 数据挖掘; 字典匹配;

相似文献

中文文献
外文文献
专利

1. 全球社交网络中用户"社会互动位置-信息位置"同质效应研究——基于 Twitter信息传播的数据挖掘和实证分析 [J] . 徐翔 ,刘悦 . 华东理工大学学报（社会科学版） . 2019,第005期
2. 基于数据挖掘的社交网络信息推荐与预测方法研究 [J] . 陈婉 ,朱世杰 . 内蒙古师范大学学报（自然科学汉文版） . 2018,第002期
3. 基于社群智能的大规模移动社交网络数据挖掘技术研究 [J] . 魏军林1 ,韩楠2 ,乔少杰3 . 数码设计．CG WORLD . 2018,第006期
4. 基于朴素贝叶斯算法的社交网络数据挖掘技术研究 [J] . 陈湘辉 . 计算机测量与控制 . 2017,第006期
5. 基于数据挖掘的弱关系社交网络及弱关系强化的研究 [J] . 潘树银 ,高建瓴 . 计算机科学 . 2016,第008期
6. 大数据挖掘与社交网络分析 [C] . Philip S.Yu ,Philip S.Yu . 2014年国际工程科技大会“信息网络与社会发展”分论坛 . 2014
7. 社交网络环境下基于数据挖掘的隐私属性推理攻击研究 [A] . 李艳 . 2019

基于自然语言处理的社交网络数据挖掘研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅