首页> 中国专利> 基于张量分解和模糊C-均值聚类的协同推荐算法

基于张量分解和模糊C-均值聚类的协同推荐算法

摘要

本发明公开了基于张量分解和模糊C‑均值聚类的协同推荐算法,涉及协同过滤推荐算法技术领域,包括以下步骤,首先,捕捉一些个性化的信息,在传统的用户项目的二元关系基础上,增加项目类型等多个维度的信息,构成张量。本发明针对传统协同过滤推荐算法中的数据稀疏性问题,提出了基于张量分解和模糊聚类的协同过滤推荐算法,一方面,利用张量分解对缺失数据进行填充,降低其稀疏性,并挖掘潜在信息,去除噪声;另一方面,基于填充后的矩阵,采用模糊C‑均值聚类算法对用户进行分类,减小目标用户的最近邻搜索空间,提高算法的可扩展性,最后用传统推荐算法在目标用户所在的类中产生推荐结果,具有很好的推荐性能。

著录项

  • 公开/公告号CN114861078A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 辽宁工业大学;

    申请/专利号CN202210313853.5

  • 发明设计人 伊华伟;钱慧慧;曲航;刘婧彤;

    申请日2022-03-28

  • 分类号G06F16/9536(2019.01);G06K9/62(2022.01);

  • 代理机构北京圣州专利代理事务所(普通合伙) 11818;

  • 代理人何世常

  • 地址 121001 辽宁省锦州市古塔区士英街169号

  • 入库时间 2023-06-19 16:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-23

    实质审查的生效 IPC(主分类):G06F16/9536 专利申请号:2022103138535 申请日:20220328

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及协同过滤推荐算法技术领域,尤其涉及基于张量分解和模糊C-均值聚类的协同推荐算法。

背景技术

随着互联网技术的快速发展以及大数据时代的来临,信息过载问题日益严重,用户想要从海量信息中找到自己所需要的信息越来越难。目前,大部分的电影在线平台,如迅雷、豆瓣电影等,都不同程度地应用推荐系统为用户推荐适合的影片,由此可见,个性化推荐技术能有效解决信息过载问题。与此同时,研究者们也越发关注如何为用户提供高效、准确的推荐服务这一热点问题。

协同过滤算法是推荐系统中具有代表性的一种算法。它一般分为基于内存的协同过滤算法和基于模型的协同过滤算法。其中,基于内存的协同过滤算法是通过计算用户或项目之间的相似度来预测用户对项目的喜好程度;基于模型的协同过滤算法是利用机器学习的思想建模来预测空白的物品和数据之间的评分关系,并找到最高评分的物品推荐给用户。另外,研究者们也将多种推荐算法进行融合,提出混合推荐算法,从而提高推荐精度。然而,协同过滤也面临着各种各样的挑战,如冷启动、可扩展性差、数据稀疏等问题。大数据时代,随着用户和项目数量的迅猛增长,在某些购物网站上,受多种因素影响,用户对所购买商品很少进行评分,这就导致了用户项目评分数据矩阵异常稀疏,在这种情况下,采用传统的协同过滤推荐算法为用户进行推荐,推荐质量明显下降。

为了解决数据稀疏性问题,所以亟需一种基于张量分解和模糊 C-均值聚类的协同推荐算法来改变这一现状。

发明内容

本发明的目的是为了解决现有技术中存在的缺点,而提出的基于张量分解和模糊C-均值聚类的协同推荐算法。其优点在于具有很好的推荐性能。

为了实现上述目的,本发明采用了如下技术方案:

基于张量分解和模糊C-均值聚类的协同推荐算法,包括以下步骤:

S1:首先,捕捉一些个性化的信息,在传统的用户项目的二元关系基础上,增加项目类型等多个维度的信息,构成张量;

S2:综合考虑用户、项目和项目类别三个方面,构建一个三阶张量,通过张量分解可以充分挖掘数据的隐含信息,采用梯度下降对三阶张量进行分解,得到用户特征矩阵、项目特征矩阵和项目类别特征矩阵,从而求得缺失值,解决张量的稀疏性;

S3:将张量分解的过程看作是一个低秩逼近问题,如果简单地使总的误差最小,那么,可以将张量分解的逼近问题转化为一个无约束的优化问题,并得到优化公式;

S4:根据以上思路,设计基于张量分解的稀疏张量填充算法,得到的用户特征矩阵、项目特征矩阵、类别特征矩阵以及填充后的张量。

通过采用以上技术方案:一方面,利用张量分解对缺失数据进行填充,降低其稀疏性,并挖掘潜在信息,去除噪声;另一方面,基于填充后的矩阵,采用模糊C-均值聚类算法对用户进行分类,减小目标用户的最近邻搜索空间,提高算法的可扩展性,最后用传统推荐算法在目标用户所在的类中产生推荐结果,具有很好的推荐性能。

本发明进一步设置为,所述张量的稀疏性分解公式为

通过采用以上技术方案:可计算出张量R在位置索引上的评分估计值。

本发明进一步设置为,所述优化公式为

通过采用以上技术方案:通过优化公式可以使得总的误差最小。

本发明进一步设置为,所述稀疏张量填充算法包括第一算法和第二算法。

通过采用以上技术方案:两种算法可以针对不同的条件进行计算,降低了计算时的转化难度。

本发明进一步设置为,所述第一算法为输入原始张量R,用户数m、项目数n、迭代步长η以及项目类别数c;

输出:U、V、C、

Begin

1Initialize the U∈R

2For R

3

4

5

6

7 End

8 ReturnU、V、C、

End。

通过采用以上技术方案:第1行初始化用户特征矩阵、项目特征矩阵和类别特征矩阵;第2~7行进行张量分解,并通过迭代法填充稀疏张量;第8行返回得到的用户特征矩阵、项目特征矩阵、类别特征矩阵以及填充后的张量。

本发明进一步设置为,所述第二算法为输入用户项目评分数据集 A,项目类别数据集B,模糊系数m

输出:目标用户u对未评分项目i的预测评分P

Begin

1 m

2 R←Data(A,B)

3

4[S,V',obj]←FCM(U,c

5 User

6 C

7 For v∈C

8 N←N∪v

9 End

10

11.Return P

End。

通过采用以上技术方案:第1行进行初始化;第2行基于评分矩阵及项目类别矩阵构造用户-项目-类别三维张量;第3行基于张量分解填充稀疏张量得到用户特征矩阵、项目特征矩阵和类别特征矩阵;第4行基于得到的用户特征矩阵对用户进行模糊聚类;第5行通过求最大隶属度得到用户所属类别矩阵;第6行找到用户u所属类别;第 7~9行得到用户u所属类别里对项目i进行评分的用户集合;第10~11 行计算用户u对项目i的预测评分并返回。

本发明进一步设置为,根据随机梯度下降法对u

通过采用以上技术方案:根据随机梯度下降法对u

本发明进一步设置为,所述第一算法和第二算法算出的结果均需进行试验与评价,评价计算公式为

其中,N为测试集大小,p

另外,衡量推荐结果的准确性也可以采用准确率(Precision)和召回率(Recall),它们的数值越大,表示推荐效果越好;

准确率(Precision)公式如下:

召回率(Recall)公式如下:

其中,P(u)表示系统为用户u推荐的项目集合,T(u)表示用户u喜好的项目集合。

通过采用以上技术方案:可以更加直观的反映出协同推荐算法相对于现有算法的优势,同时可以验证协同推荐算法是否合理。

本发明的有益效果为:

本发明针对传统协同过滤推荐算法中的数据稀疏性问题,提出了基于张量分解和模糊聚类的协同过滤推荐算法,一方面,利用张量分解对缺失数据进行填充,降低其稀疏性,并挖掘潜在信息,去除噪声;另一方面,基于填充后的矩阵,采用模糊C-均值聚类算法对用户进行分类,减小目标用户的最近邻搜索空间,提高算法的可扩展性,最后用传统推荐算法在目标用户所在的类中产生推荐结果,具有很好的推荐性能。

附图说明

图1为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的流程结构示意图;

图2为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的张量建模结构示意图;

图3为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的张量分解填充结构示意图;

图4为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的基于FCM的协同推荐结构示意图。

图5为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的k值对实际预测结果的影响的结构示意图。

图6为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的聚类数对推荐精度的影响的结构示意图。

图7为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的目标用户邻居数目对MAE值的影响的结构示意图。

图8为本发明提出的基于张量分解和模糊C-均值聚类的协同推荐算法的准确率和召回率的结构示意图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

参照图1-4,基于张量分解和模糊C-均值聚类的协同推荐算法,包括以下步骤:

S1:首先,捕捉一些个性化的信息,在传统的用户项目的二元关系基础上,增加项目类型等多个维度的信息,构成张量;

S2:综合考虑用户、项目和项目类别三个方面,构建一个三阶张量,通过张量分解可以充分挖掘数据的隐含信息,采用梯度下降对三阶张量进行分解,得到用户特征矩阵、项目特征矩阵和项目类别特征矩阵,从而求得缺失值,解决张量的稀疏性;

S3:将张量分解的过程看作是一个低秩逼近问题,如果简单地使总的误差最小,那么,可以将张量分解的逼近问题转化为一个无约束的优化问题,并得到优化公式;

S4:根据以上思路,设计基于张量分解的稀疏张量填充算法,得到的用户特征矩阵、项目特征矩阵、类别特征矩阵以及填充后的张量。

一方面,利用张量分解对缺失数据进行填充,降低其稀疏性,并挖掘潜在信息,去除噪声;另一方面,基于填充后的矩阵,采用模糊 C-均值聚类算法对用户进行分类,减小目标用户的最近邻搜索空间,提高算法的可扩展性,最后用传统推荐算法在目标用户所在的类中产生推荐结果,具有很好的推荐性能。

本实施例中,所述张量的稀疏性分解公式为

本实施例中,所述优化公式为

本实施例中,所述稀疏张量填充算法包括第一算法和第二算法。通过两种算法可以针对不同的条件进行计算,降低了计算时的转化难度。

本实施例中,所述第一算法为输入原始张量R,用户数m、项目数n、迭代步长η以及项目类别数c;

输出:U、V、C、

Begin

1 Initialize the U∈R

2 For R

3

4

5

6

7 End

8 ReturnU、V、C、

End。

第1行初始化用户特征矩阵、项目特征矩阵和类别特征矩阵;第 2~7行进行张量分解,并通过迭代法填充稀疏张量;第8行返回得到的用户特征矩阵、项目特征矩阵、类别特征矩阵以及填充后的张量。

本实施例中,所述第二算法为输入用户项目评分数据集A,项目类别数据集B,模糊系数m

输出:目标用户u对未评分项目i的预测评分P

Begin

1 m

2 R←Data(A,B)

3

4[S,V',obj]←FCM(U,c

5 User

6 C

7 For v∈C

8 N←N∪v

9 End

10

11.Return P

End。

第1行进行初始化;第2行基于评分矩阵及项目类别矩阵构造用户-项目-类别三维张量;第3行基于张量分解填充稀疏张量得到用户特征矩阵、项目特征矩阵和类别特征矩阵;第4行基于得到的用户特征矩阵对用户进行模糊聚类;第5行通过求最大隶属度得到用户所属类别矩阵;第6行找到用户u所属类别;第7~9行得到用户u所属类别里对项目i进行评分的用户集合;第10~11行计算用户u对项目i 的预测评分并返回。

本实施例中,根据随机梯度下降法对u

本实施例中,所述第一算法和第二算法算出的结果均需进行试验与评价,评价计算公式为

其中,N为测试集大小,p

另外,衡量推荐结果的准确性也可以采用准确率(Precision)和召回率(Recall),它们的数值越大,表示推荐效果越好。

准确率(Precision)公式如下:

召回率(Recall)公式如下:

其中,P(u)表示系统为用户u推荐的项目集合,T(u)表示用户u喜好的项目集合。通过试验与评价可以更加直观的反映出协同推荐算法相对于现有算法的优势,同时可以验证协同推荐算法是否合理。

在第一个试验中,基于张量分解填充后的数据进行协同过滤推荐,测试不同的k值(张量的秩)对实际预测结果的影响,设置k的取值范围为[10,60],对得出结果用MAE评价,实验结果参照图5所示。

由图可知,在不同的k值下分解张量,随着k值的增加,MAE的值减小,即随着k的增加推荐精度提高,在k=50时,推荐精度最高。因此选取50为张量的秩,在保证推荐精度的基础上降低了算法的计算复杂度。

本文算法的推荐效果不仅与张量的秩相关,也取决于聚类个数 c1的大小。因此,在第二个实验中,需要研究聚类个数对推荐准确度的影响。同时,探究FCM聚类相较于传统的K-Means聚类和层次聚类的优势。首先,令k=50,c1=3,聚类数每次增加1,直到c1=8,并依次得出其分别对应的MAE值,以此探究聚类数对推荐精度的影响,如图6所示。

由图所知,在三种聚类算法中,总体上,FCM算法的聚类效果最好,并且当c1=4时,取得其全局最优点,MAE的值最小,推荐精度最高。

为了验证本文算法的性能,将本文所提出的算法CF-TDFC和以下 4种算法进行对比实验分析。

(1)User-CF[25]:基于用户协同过滤推荐算法。

(2)Item-CF[26]:基于项目的协同过滤推荐算法。

(3)Slope-CF[19]:基于slope-one算法改进评分矩阵填充的协同过滤算法研究。

(4)SK-HCF[27]:基于SVD填充和用户属性特征聚类的混合推荐算法。

将以上5种算法在数据集Movielens上进行对比实验,设置邻居区间为[10,70],间隔为10,并使用MAE值来衡量推荐精度的大小,以探究邻居数目对MAE的影响,并求得最优解,其值越小则说明推荐精度越高。

由图7的实验数据表明:总体上,User-CF、Slope-CF、SK-HCF 及CF-TDFC这4种协同过滤推荐算法的MAE值会随着目标用户邻居数目的增加而逐渐减小,并且它们分别在邻居数目为60、60、40及50 时取得全局最优解,而Item-CF的MAE值与邻居数目无关。此外,无论邻居数目的取值大小,本文提出的基于张量分解和模糊C-均值聚类的协同过滤推荐算法的MAE值都是最小的,主要是因为CF-TDFC算法利用张量分解对缺失数据进行填充,有效缓解了数据稀疏性问题,提高了评分预测的准确性,在MAE衡量标准上,与Item-CF、User-CF、Slope-CF及SK-HCF算法相比有较好的精确度。

为了进一步说明实验的有效性,基于Movielens数据集采用准确率和召回率评价推荐结果的准确性,准确率和召回率的数值越大,则推荐质量越好。

从图8看出,Item-CF和User-CF算法的准确率和召回率差距不大,Slope-CF和SK-HCF算法相较于传统的算法推荐效率有一定的提高,而本文所提的CF-TDFC算法的准确率和召回率均优于图中其他4 种算法,是由于算法CF-TDFC不仅利用张量分解缓解了极端稀疏性张量的弊端,还用FCM算法减小最近邻搜索范围,有效缓解了相似度计算过程中,用户数量巨大引起的可扩展性问题,降低了计算复杂度,提高了算法推荐质量。

为了评价算法的时间复杂度,根据本文算法和对比算法的模型训练时间来对比分析算法的时间性能。

由上述数据可知,算法CF-TDFC的模型训练时间较长,由于该算法首先需要进行张量分解和模糊聚类操作,并对用户特征矩阵、项目特征矩阵和类别特征矩阵进行迭代运算;其次是算法SK-HCF,主要包括SVD分解和k-means聚类操作以及对用户特征矩阵和项目特征矩阵的迭代运算,算法User-CF、Item-CF及Slope-CF算法用时相差不大。对于在线预测时间而言,5种算法用时都相差无几,时间很短。

经由以上一系列对比实验表明,本文提出的CF-TDFC算法在保证时间效率的前提下,推荐性能优于现有的其他算法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号