法律状态公告日
法律状态信息
法律状态
2019-12-27
授权
授权
2016-07-27
实质审查的生效 IPC(主分类):G06Q50/00 申请日:20160115
实质审查的生效
2016-06-29
公开
公开
技术领域
本发明涉及一种社交网络中有效提高标签多样性的标签推荐方法。
背景技术
社交网络自20世纪90年代兴起,此后逐渐成为了新的信息发现、分享以及传播途径,随着时间的推进,这些社交网络中的用户日益增长,由此社交网络中的每天发布的信息量也以几何倍数增长,社交网络的数据挖掘成为了新兴的研究热点。近年来,微博成为了新兴的社交网络平台,标签也成为了微博当中划分各个社群的参考标准。基于标签的个性化推荐,作为标签系统的组成部分,已经成为新的研究热点。个性化推荐是标签系统的重要功能,对这一功能的改进无疑可以产生出巨大的经济和社会效益。
当下对于标签推荐的研究主要集中在基于社会标签的聚类算法研究以及用户发现和资源推荐上,同时结合协同过滤算法或LDA模型进行标签推荐,而在基于社会标签改善推荐效果上对于聚类的依赖性很强,且无法解决新加入网络用户的冷启动问题。
发明内容
针对已有的个性化标签推荐模型在实际运用到微博场景时存在的不足,本发明提出一种基于选取度关联规则的用户标签推荐方法,不但可以提高标签推荐的效率,而且大大保证了推荐的多样性。为了达到上述目的,本发明采用如下的技术方案:
一种社交网络中有效提高标签多样性的标签推荐方法,包括下列步骤:
(1)结合微博用户标签的特点,首先对已有用户标签数据进行预处理,去除至多有一项标签的用户数据,生成多项标签子集。
(2)对该集合选择Apriori算法中1-频繁项集及2-频繁项集的生成,用1-频繁项集来生成微博个性标签语料库。
(3)利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,即为用户提供备选标签时仅考虑用户之前选择的标签,以保证用户个性标签的多样性。
(4)按照2-频繁项集中标签支持度的高低进行Top-N项排序。当Top-N项的项数为M且M<N时,随机补充N-M项的备选项,可以从1-频繁项集中支持度排名较高的项进行随机选择。
本发明提出的基于选取度关联规则的推荐方法,对微博用户标签进行选取度分析,计算用户标签的关联度,对标签词汇进行重新挖掘,最终为用户推荐具有关联的个性化标签。通过该方法可以提高标签推荐的效率,同时保证了推荐的多样性。
附图说明
图1是用户个性标签2-频繁项集Top-N排序图
具体实施方式
本发明的技术方案是:
(1)首先采集微博数据,例如可以采用中国爬盟(该组织由清华大学博士梁斌发起,其所在清华大学智能技术与系统国家重点实验室信息检索组由马少平教授带队,是国内最为重要的智能信息处理实验室之一,该组织通过众包方式爬取微博数据)的新浪微博爬虫采集,得到足够的用户标签集。
(2)筛查掉标签数至多为1的用户得到剩余用户的信息集合A,然后对集合A进行个性标签语料库生成,得到用户个性标签集合B。
(3)利用集合B选择Apriori算法得到1-频繁项集和2-频繁项集,用1-频繁项集来生成微博个性标签语料库,利用2-频繁项集的支持度来挖掘个性标签间的线性选择关系,对于用户的首次选取,由于含有权重的标签排序制度会对于主题较为单一的标签系统产生局限性,使得推荐给用户的东西越来越相似。为了保证系统中用户生态的多样性,将支持度不低于阈值k的标签项进行随机提供,丰富用户的视野。鉴于用户数据量非常大,在这里可以取支持度不小于0.5%,以保证用户个性标签的多样性。
(4)按照2-频繁项集中的支持度高低进行Top-N项排序,这样可以以线性关联关系为用户推荐相应的标签组合,为日后做同类型标签组合的陌生用户推荐,提高社群的活跃度,增加在微博中群组的组合可能性奠定基础,推荐项形如图1所示。
(5)因为新浪微博可以提供多达10项的备选标签项,当经过Top-N项排序后得到标签的项数M小于10时,可以随机补充10-M项作为备选项,其范围可以从1频繁项集中支持度排名较高的项进行随机选择,以提高被用户选择的可能性。
机译: 标签推荐装置,标签推荐方法和标签推荐程序
机译: 标签推荐装置,标签推荐方法和标签推荐程序
机译: 使用索引在社交网络中针对标签推荐的局部度量学习