微博文本预处理与用户兴趣建模方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

微博，即微博客，是一个基于用户关系的信息分享、传播以及获取平台，用户可以通过如WEB、WAP等各种客户端登录微博，并以最长140字（包含标点符号）的文字信息来更新微博、分享微博。微博作为重要的社交网络平台，以其便捷性、创新交互性和原创性的特点，逐渐影响着人们的生活和工作方式。近年来针对微博方面的研究越来越多，包括话题事件分析、情感分析、信息检索与推荐、网络关系分析、信息传播、影响力分析等，利用微博用户兴趣模型提供的精准化广告投放逐渐成长为一种主要盈利模式。微博用户兴趣建模方法的研究,对微博网站提高用户满意度,实现盈利和发展有很大的作用。
　　2012年孙威《微博用户兴趣挖掘与建模研究》和2013年1月仇均《基于微博社会网络的用户兴趣模型研究》都对微博用户兴趣建模提出了自己的方法，但是侧重点不同，前者是在对体现微博用户兴趣信息的选取上重点研究，而后者的主要研究在于微博社会网络的构成方面。本文的出发点与以上二者又有不同，将微博文本的预处理作为侧重点进行研究。
　　本文的研究内容包含两个部分：微博文本预处理和微博用户兴趣建模。其主要的研究内容和取得的成果如下：
　　①停用词过滤方法研究：在中文文本处理过程中，停用词过滤是必不可少的环节，停用词过滤的准确性直接影响到了后续对于文本分析、内容抽取和相关性等的研究效果。本文根据停用词的特点，提出了基于上下文关系的停用词定义，并且通过分析停用词在词性方面的特征以及微博中文本的特点，提出了一种针对微博文本预处理的停用词过滤规则，可有效去除微博文本中的停用词。该方法处理快速、简单有效，为后续研究基于微博文本的用户兴趣建模提供了有效支撑。
　　②新词发现方法研究：微博是一些新词、网络词汇的快速源产地，研究显示，60％的分词错误都是由新词导致的，而分词错误又会导致后续用户兴趣建模的不准确性，因此对微博文本进行新词发现方法的研究是提高用户兴趣挖掘的有效方法。本文从新词的构成方式着手，提出基于相邻词组的微博新词定义，并且根据微博文本的特点，对微博中“@”和“＃”两种特殊符号所带来的特殊文本进行识别，并利用多元扩展的方法对候选新词集进行完善。
　　③微博用户兴趣表示方法研究：根据微博文本信息，即个性标签、原创微博、转发微博、评论微博四类文本信息构成初始用户兴趣信息，而微博文本是属于短文本范畴，存在着数据稀疏性和碎片化问题，为了尽量克服这个问题的影响，提出结合概念的向量空间模型，并从短文本扩展角度，利用《同义词词林》构建概念词表进行概念映射对向量进行扩展，构成微博用户兴趣模型，很好反应了用户细粒度的兴趣。

著录项

作者
黎荆妗;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名朱征宇;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
概念扩展; 用户兴趣模型; 微博文本; 预处理; 社交网络; 停用词;

相似文献

中文文献
外文文献
专利

1. 基于微博短文本的用户兴趣建模方法 [J] . 邱云飞 ,王琳颍 ,邵良杉 . 计算机工程 . 2014,第002期
2. 基于多粒度文本特征表示的微博用户兴趣识别 [J] . 郁友琴 ,李弼程 . 计算机科学 . 2021,第012期
3. 基于文本聚类与兴趣衰减的微博用户兴趣挖掘方法 [J] . 秦永彬 ,孙玉洁 ,魏笑 . 计算机应用研究 . 2019,第005期
4. 基于多标签语义关联关系的微博用户兴趣建模方法 [J] . 王艳茹 ,马慧芳 ,刘海姣 . 计算机工程与科学 . 2018,第011期
5. 基于发文内容的微博用户兴趣挖掘方法研究 [J] . 熊才伟 ,曹亚男 . 计算机应用研究 . 2018,第006期
6. 基于微博标签和微博内容的用户兴趣模型 [C] . Peng Ye ,彭晔 ,Zhang Cuixiao . SCEG2015研讨会（2015年“计算机科学与技术及教育技术“学术研讨会） . 2015
7. 微博用户兴趣建模及推荐方法研究 [A] . 姚伟 . 2014

微博文本预处理与用户兴趣建模方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅