首页> 中文学位 >基于自然语言处理的社交网络数据挖掘研究
【6h】

基于自然语言处理的社交网络数据挖掘研究

代理获取

目录

声明

第1章 绪论

1.1 选题背景和意义

1.2 国内外研究动态

1.3 本文主要研究内容

1.4 论文结构

第2章 社交网络微博数据挖掘系统结构

2.1 数据挖掘系统结构

2.2 微博数据获取与存储

2.3 微博数据处理中的自然语言处理

2.4 微博用户数据挖掘与分析

2.5 本章小结

第3章 社交网络微博数据获取

3.1 微博数据爬虫系统设计

3.2 微博爬虫运行过程

3.3 用户模拟登录

3.4 微博页面解析

3.5 数据存储工具选择

3.6 数据存储格式设计

3.7 本章小结

第4章 微博数据的自然语言处理研究

4.1 中文分词算法设计

4.2 分词模型训练方法

4.3 中文分词算法实验

4.4 用户特征表示

4.5 本章小结

第5章 社交网络微博数据挖掘

5.1 基于SVM模型的垃圾用户识别

5.2 基于SVM的用户识别实验

5.3 基于K-means算法的用户聚类分析

5.4 基于K-means的用户聚类算法实验

5.5 本章小结

第6章 总结与展望

6.1 论文的主要贡献

6.2 工作展望

参考文献

攻读硕士学位期间发表的论文及参与科研情况

致谢

展开▼

摘要

微博是一种目前非常热门的社交平台,用户以短文本或多媒体信息的方式在平台上实现实时的信息分享与交流。用户发布的文本虽短,但长时间积累下来的数据蕴含着丰富的用户的个性化特征等信息。平台的用户数据中蕴含着丰富的社会信息价值,微博用户数据挖掘对于社交网络发展与社交信息分析具有重要意义。
  社交网络数据挖掘完成的主要功能就是通过分析和挖掘用户在微博中的海量短文本,得到用户的个性化特征等信息。其首要工作是从网络中采集大量微博数据,采用特定的格式进行信息存储;然后对获取的微博信息进行分词处理和信息特征表示处理,最后通过数据挖掘方法进行用户识别和用户类型分析。
  本文利用网络爬虫技术设计了基于模拟登录的用户数据爬取系统,提供了从网络中获取大量用户微博数据的方法。根据用户数据结构特征,采用基于JSON格式的NOSQL数据库进行存储。
  针对目前分词方法存在的新词发现困难的问题,提出了基于词典匹配与统计标注相融合的中文分词方法。本方法以字典匹配方法为基础,融入CRF标注算法,并在分词过程中迭代训练实现算法自学习能力。通过将匹配方法与标注方法相融合,根据汉语语义规律选取分词结果,有效改善了中文分词在分词准确性和未登录词发现等方面的分词效果。在测试语料上实验结果表明,文中提出的方法与最大正向匹配算法相比,F值提高了9.6%,且比CRF标注算法提高了2.9%,能更好地满足实际应用需求。
  目前的微博数据挖掘中主要采用 One-hot representation特征表示方法,其缺点是不能表达上下文语义。本文采用基于 word2vec的用户特征表示方法,在用户特征表示中加入了上下文信息并且降低了用户信息向量维度,提高了后续数据挖掘算法的计算效率。
  通过对微博用户数据的分析,发现用户中存在部分垃圾用户会对数据挖掘带来噪声干扰,本文设计了基于 SVM的垃圾用户识别模型对垃圾用户进行识别,在测试集上F值达到0.94。然后根据微博用户关注内容,利用K-means聚类分析算法进行了用户社区划分。由于用户社区划分的不确定性,通过 DB-index算法计算最优聚类中心数值,提高了聚类结果的类间辨识度和类内相似度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号