首页> 中文学位 >基于层次聚类的微博用户兴趣发现关键技术研究与实现
【6h】

基于层次聚类的微博用户兴趣发现关键技术研究与实现

代理获取

目录

声明

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3主要研究内容

1.4 论文结构

第二章 微博平台用户兴趣挖掘技术相关研究

2.1 引言

2.2 微博用户兴趣发现问题描述

2.3 文本分类相关技术

2.4 文本特征扩展技术

2.5 词汇向量化

2.6 本章小结

第三章 基于支持向量机的非话题性博文过滤技术

3.1 话题性博文定义

3.2 博文特征抽取

3.3 实验与分析

3.4 本章小结

第四章 基于层次聚类的用户兴趣模型构建

4.1 博文关键字构建

4.2 基于Word2Vec的词汇向量化

4.3 聚类算法介绍

4.4 算法描述

4.5 实验与分析

4.6 本章小结

第五章 基于层次聚类的微博用户兴趣发现与个性化推荐系统应用与实现

5.1 基于层次聚类的微博用户兴趣发现与个性化推荐系统设计

5.2 基于层次聚类的微博用户兴趣发现与个性化推荐系统实现

5.3 本章小结

第六章 结束语

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

随着在线社交网络的高速发展,社交网络平台(如 Twitter,Facebook.人人网,微博等)近几年迎来了爆炸式增长,社交网络已经深入到人们日常生活中的方方面面。人们在社交网络上与人交流,记录生活的点点滴滴,发表博文,分享照片视频等,可以说,社交网络已经成为人们现实生活的一个映射。然而,随着微博平台的发展,信息量以爆炸式速度进行增长。从而造成了一种现象,称作信息爆炸,周围的信息太多,用户并不是对所有的信息都感兴趣,用户不得不从大量的信息中找出自己感兴趣的进行阅读。因此,本文着手于如何找出用户感兴趣的博文呈现在用户面前,将用户更感兴趣的博文放在前面,给用户推荐他所感兴趣的博文。本文主要完成了以下工作:
  首先,本文针对微博平台中噪声多的特性,提出了话题性博文的概念,利用Twitter博文数据训练LDA模型作为博文词汇话题特征,并结合微博博文词汇话题特征、博文社交特征和博文文法特征构建支持向量机模型,用以过滤非话题性博文。实验表明,该分类器具有较高的准确率及召回率,能够满足系统要求。
  接着,在上述方法的基础上,提取用户博文关键字,并分别利用搜索引擎以及外部知识库对博文关键字进行扩展。接着利用离线维基百科语料库训练Word2Vec模型,将用户博文关键字映射到高维向量空间上。然后利用层次聚类方法,对用户博文关键字集合进行聚类,综合聚类纯度以及类簇权重,选出top-3用户话题用以表征用户兴趣。并通过实验验证了算法的有效性。
  最后,综合非话题性博文过滤技术、博文关键字扩展技术、博文词汇向量化技术、用户兴趣发现技术,设计实现了一种在线的用户兴趣发现及个性化博文推荐系统。并分析了系统各个模块的设计与实现,包括博文采集模块、数据预处理模块、用户兴趣发现模块等。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号