首页> 中国专利> 结合记忆遗忘和记忆增强的用户兴趣分析方法及系统

结合记忆遗忘和记忆增强的用户兴趣分析方法及系统

摘要

本发明提供一种结合记忆遗忘和记忆增强的用户兴趣分析方法及系统,包括:通过遗忘系数和增强系数结合收视行为指标构建兴趣模型;采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;通过用户收视行为指标在设定时间段内的衰减规律获得遗忘系数;通过用户收视行为指标在设定时间段内的重复获得增强系数;将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。上述方法及系统将记忆遗忘和记忆增强过程相融合,能够更加精准地获得用户兴趣。

著录项

  • 公开/公告号CN110874441A

    专利类型发明专利

  • 公开/公告日2020-03-10

    原文格式PDF

  • 申请/专利权人 中国传媒大学;

    申请/专利号CN202010056736.6

  • 申请日2020-01-19

  • 分类号

  • 代理机构北京鸿元知识产权代理有限公司;

  • 代理人张超艳

  • 地址 100024 北京市朝阳区定福庄东街1号

  • 入库时间 2023-12-17 05:18:29

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-19

    授权

    授权

  • 2020-04-03

    实质审查的生效 IPC(主分类):G06F16/9535 申请日:20200119

    实质审查的生效

  • 2020-03-10

    公开

    公开

说明书

技术领域

本发明涉及用户兴趣分析技术领域,更具体地,涉及一种结合记忆遗忘和记忆增强的用户兴趣分析方法及系统。

背景技术

随着互联网和新媒体的快速发展,媒体资源日益丰富,观众的选择也越来越多,用户的行为背后隐藏着用户的收视习惯,基于此的用户兴趣研究对于深入了解用户并继而为用户提供个性化的媒体服务有着重要价值,其中基于用户行为分析的兴趣模型构建是该领域最主要的研究方法。

兴趣模型建模的研究最早始于信息检索领域,通过对用户在某个时间周期内相对稳定的信息需求进行形式化描述以表征用户兴趣。根据这一时间周期的长短,用户兴趣分析可分为短期兴趣建模和长期兴趣建模两类。其中前者主要集中于对时间窗口的研究,如固定时间窗口的兴趣漂移和自适应时间窗口算法等,由于短期兴趣的研究受到时间因素的限制无法描述长时间内用户的兴趣变化,因此后来大量的科研精力都被投入到长期兴趣建模中,这个过程中记忆理论受到了学者的大量关注。德国心理学家艾宾浩斯通过实验提出的遗忘曲线反映了人类记忆随时间推移先快后慢衰减的规律,这一规律常常被应用于对用户的兴趣研究中,通过拟合不同形式的遗忘函数,这一理论在教育、交通、生物医学、推荐系统等各个领域都取得了良好的应用效果。然而人类记忆也会随着重复行为产生兴趣增强,针对这一领域目前少有学者研究,因此如何提炼记忆增强规律,并将之与记忆遗忘规律结合以实现基于用户行为的更合理的用户兴趣描述研究是十分有必要的。

发明内容

鉴于上述问题,本发明提供一种通过分步累积增强的方式将记忆遗忘和记忆增强过程相融合,以更精准地获得用户兴趣的结合记忆遗忘和记忆增强的用户兴趣分析方法及系统。

根据本发明的一个方面,提供一种结合记忆遗忘和记忆增强的用户兴趣分析方法,包括:

通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型

其中,为时刻的用户兴趣值,是遗忘系数,是增强系数,时刻的用户的收视行为指标;

采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;

通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;

通过用户收视行为在设定时间段内的重复行为获得增强系数;

将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。

优选地,所述通过用户收视行为在设定时间段内的衰减规律获得遗忘系数的步骤包括:通过记忆遗忘曲线获得遗忘系数。

进一步,优选地,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:

通过下式获得遗忘系数

其中,为遗忘参数。

此外,优选地,所述通过记忆遗忘曲线获得遗忘系数的步骤包括:

通过下式获得遗忘系数

其中,为遗忘参数。

优选地,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:

通过下式获得增强系数

其中,是自然常数,为增强参数。

优选地,所述通过用户收视行为在设定时间段内的重复行为获得增强系数的步骤包括:

通过下式获得增强系数

优选地,所述通过遗忘系数和增强系数结合收视行为指标构建兴趣模型的步骤还包括:

设置有效时间窗口,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型

其中,为有效时间窗口的长度。

优选地,还包括:

采用最小二乘法对兴趣模型中的参数进行参数估计,所述参数包括遗忘参数以及增强参数

进一步,优选地,还包括:

根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低。

此外,优选地,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间,其中,

所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括以下一种或两种,其中,第一种获取方法包括:

根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期;

根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗;

其中,第二种获取方法包括:

通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。

此外,优选地,还包括:

采用用户历史收视数据一部分作为训练集,一部分作为测试集;

通过训练集获得最佳兴趣构建期和最佳记忆时间窗;

通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。

优选地,所述最佳兴趣构建期不小于15倍的单位时间,所述最佳记忆时间窗不小于6倍的单位时间。

优选地,所述采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标的步骤包括:

采集用户设定时间段的收视数据:

筛选出收视数据为零对应的单位时间;

对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。

根据本发明的另一个方面,提供一种结合记忆遗忘和记忆增强的用户兴趣分析系统,包括:

模型构建模块,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型

其中,为时刻的用户兴趣值,,是遗忘系数,,是增强系数,,是时刻的用户的收视行为指标;

采集模块,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;

遗忘系数获得模块,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;

增强系数获得模块,通过用户收视行为在设定时间段内的重复行为获得增强系数;

兴趣值获得模块,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。

优选地,所述遗忘系数获得模块通过下式获得遗忘系数

其中,为遗忘参数。

优选地,所述增强系数获得模块通过下式获得增强系数

其中,是自然常数,为增强参数。

优选地,所述模型构建模块包括:

窗口设置单元,设置有效时间窗口,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间;

模型构建单元,通过遗忘系数和增强系数结合收视行为指标通过下式构建兴趣模型

其中,为有效时间窗口的长度。

优选地,还包括以下模块中的一个或多个:

参数估计模块,采用最小二乘法对兴趣模型中的参数进行参数估计;

预测模块,根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低;

校正模块,对采集模块采集的数据进行零值校正,包括筛选单元以及均值补充单元或/和顺延补位单元,其中,所述筛选单元筛选出收视数据为零对应的单位时间;所述均值补充单元将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;所述顺延补位单元对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。

上述用户兴趣的结合记忆遗忘和记忆增强的用户兴趣分析方法及系统结合记忆遗忘和记忆增强,实现对用户兴趣更精准的描述,从而对用户行为进行预测,为用户的节目推荐、广告投放等个性化服务提供决策的理论依据。

附图说明

图1是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析方法的流程图的示意图;

图2是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析系统构成框图的示意图;

图3是最佳兴趣构建期与平均相对误差的关系图;

图4a和4b是兴趣构建期和最佳记忆时间窗的关系图;

图5a和5b是类用户的遗忘曲线和增强曲线的坐标图;

图6a和6b是本发明零值校正方法的示意图。

具体实施方式

在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。

下面将参照附图来对根据本发明的各个实施例进行详细描述。

图1是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析方法的流程图的示意图,如图1所示,所述用户兴趣分析方法包括:

步骤S1,通过遗忘系数和增强系数结合收视行为指标通过下式(1)构建兴趣模型

(1)

其中,为时刻的用户兴趣值,,是遗忘系数,,是增强系数,,是时刻的用户的收视行为指标;

步骤S2,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻,可以以天为单位,也可以以小时或几个小时或几天或秒为单位,所述收视指标可以是收视时长、收视频次等评价用户收视偏好的收视指标;

步骤S3,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;

步骤S4,通过用户收视行为在设定时间段内的重复行为获得增强系数;

步骤S5,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。

在步骤S2中,优选地,还包括:

采集用户设定时间段的收视数据:

筛选出收视数据为零对应的单位时间;

对筛选出的单位时间的收视数据进行零值校正,其中,零值校正的方法包括以下方法中的一种或两种:一种方法是将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;另一种方法是对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。

在步骤S3中,通过用户收视行为在设定时间段内的衰减规律获得用户记忆遗忘曲线,从而获得遗忘系数,例如,通过艾宾浩斯给出的经典记忆遗忘曲线获得遗忘系数。

在一个可选实施例中,通过下式(2)获得遗忘系数

(2)

其中,为遗忘参数。

在一个优选实施例中,通过下式(3)获得遗忘系数

(3)

其中,为遗忘参数。

在一个实施例中,在步骤S4中,通过下式(4)获得增强系数

(4)

在一个优选实施例中,通过下式(5)获得增强系数

(5)

其中,是自然常数,为增强参数。

上述由遗忘系数给出的遗忘模型和由增强系数给出的增强模型是相互独立的。

在增强模型方面,领域内少有学者进行相关研究且并无成熟的增强理论可供直接引用,因此本发明通过将艾宾浩斯实验中字母间距的概念转换为收视行为的时间间隔,再结合已有的遗忘衰减规律,可以得到一组反映不同时间间隔下重复行为所产生的不同兴趣增强程度的数据如表1所示:

表1

从上表中可知,增强数据结合记忆衰减规律后的计算结果和真实数据的误差在3%以下,因此可认为该数据在反映用户重复行为的兴趣增强方面是可靠的,基于此,可以得到一个线型分段形式的增强模型如公式(4)所示。

为方便增强模型在兴趣模型中的应用,根据公式(4),进一步拟合(例如最小二乘法拟合)出一个形式更为简洁、描述更为细致的指数形式增强函数如公式(5)所示。

在步骤S5中,还包括:

设置有效时间窗口,通过遗忘系数和增强系数结合收视行为指标通过下式(6)构建兴趣模型

(6)

其中,为有效时间窗口的长度。

上述有效时间窗口表示经过多长时间的用户收视数据的积累才能准确预测用户的兴趣值,优选地,有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示预测用户下一时刻收视行为所需的历史收视行为的时间。

根据遗忘系数(公式(3))和增强系数(公式(5)),上述兴趣模型可进一步细化为下式(7):

(7)

优选地,根据艾宾浩斯人类记忆实验实验获得遗忘参数以及增强参数,如表1的例子中,=1.84和=1.25,=0.908和=0.068。

上述兴趣模型将用户的每一次收视行为视为互不影响的独立行为,分别给出用户在有效时间窗口内随时间衰减的兴趣曲线,当需要计算某一天的用户兴趣时,将有效时间窗口内所有收视行为到这一天产生的兴趣遗留按照增强函数给出的增强系数按比例叠加,从而得到最终的用户兴趣结果。由于艾宾浩斯实验给出的参数经验值是基于无意义音节实验得到的,这一人类记忆规律并不一定符合用户有意义的兴趣规律,因此进一步对兴趣模型中的参数进行了参数估计,以得到更符合用户兴趣特征的参数值,从而实现更精准的用户行为预测,例如,采用最小二乘法根据下式(8)

(8)

其中,是根据用户兴趣模型得到的兴趣计算值,是用户的兴趣的真实值,是用户有效收视天数。

在一个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:

根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期,所述降低趋势可以是,随着兴趣构建期窗口的长度增加,预测误差的变化范围在设定误差范围内,还可以是随着兴趣构建期窗口的长度增加,预测误差小于设定阈值,也可以是达到最低预测误差,因此最佳兴趣构建期可以是一段时间也可以是一个时间点;

根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗,所述最佳记忆时间窗对应的降低趋势和上述最佳兴趣构建期对应的降低趋势相同。

在另一个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:

通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。

在第三个实施例中,所述兴趣构建期窗口和记忆时间窗口的长度的获取方法包括:

采用用户历史收视数据一部分作为训练集,一部分作为测试集;

通过训练集获得最佳兴趣构建期和最佳记忆时间窗;

通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。

在上述各实施例中,优选地,所述最佳兴趣构建期不小于15倍的单位时间,所述最佳记忆时间窗不小于6倍的单位时间。

图2是本发明所述结合记忆遗忘和记忆增强的用户兴趣分析系统构成框图的示意图,如图2所示,所述用户兴趣分析系统包括:

模型构建模块1,通过遗忘系数和增强系数结合收视行为指标通过公式(1)构建兴趣模型;

采集模块2,采集用户的收视数据,获得用户在设定时间段的单位时间的收视行为指标,所述单位时间为一个时刻;

遗忘系数获得模块3,通过用户收视行为在设定时间段内的衰减规律获得遗忘系数;

增强系数获得模块4,通过用户收视行为在设定时间段内的重复行为获得增强系数;

兴趣值获得模块5,将上述用户在设定时间段的收视行为指标、遗忘系数和增强系数输入兴趣模型,获得用户的兴趣值。

在一个实施例中,所述模型构建模块1包括:

窗口设置单元11,设置有效时间窗口,所述有效时间窗口包括兴趣构建期窗口和记忆时间窗口,所述兴趣构建期窗口表示兴趣模型进行参数估计所需的时间,所述记忆时间窗口表示对预测用户下一时刻收视行为所需的历史收视行为的时间;

模型构建单元17,通过遗忘系数和增强系数结合收视行为指标通过公式(6)构建兴趣模型。

优选地,所述模型构建模块1还包括:

最佳兴趣构建期获得单元12,获得兴趣构建期窗口的最佳长度,即最佳兴趣构建期;

最佳记忆时间窗获得单元13,获得记忆时间窗口的最佳长度,即最佳记忆时间窗。

在一个可选实施例中,最佳兴趣构建期获得单元12根据随着兴趣构建期窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳兴趣构建期窗口的长度,即最佳兴趣构建期;最佳记忆时间窗获得单元13根据随着记忆时间窗口的长度增加,兴趣模型的预测误差的降低趋势获得最佳记忆时间窗口的长度,即最佳记忆时间窗。

在另一个可选实施例中,最佳兴趣构建期获得单元12和最佳记忆时间窗获得单元13通过同时改变兴趣构建期窗口和记忆时间窗口的大小来计算不同时间窗组合下的兴趣模型的预测误差,将最低预测误差对应的时间窗组合作为最佳兴趣构建期和最佳记忆时间窗的组合。

在上述两个实施例中,还可以包括数据划分单元14、训练单元15和测试单元16,所述数据划分单元14将用户历史收视数据一部分作为训练集,一部分作为测试集;所述训练单元15通过训练集获得最佳兴趣构建期和最佳记忆时间窗;所述测试单元16通过测试集对最佳兴趣构建期和最佳记忆时间窗进行验证调整。

优选地,所述遗忘系数获得模块3通过公式(3)获得遗忘系数。

优选地,所述增强系数获得模块4通过公式(5)获得增强系数。

优选地,还包括以下模块中的一个或多个:

参数估计模块,采用最小二乘法对兴趣模型中的参数进行参数估计;

预测模块,根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,参数值随时间变大,用户未来兴趣增加,参数值随时间变小,用户未来兴趣降低;

校正模块,对采集模块采集的数据进行零值校正,包括筛选单元以及均值补充单元或/和顺延补位单元,其中,所述筛选单元筛选出收视数据为零对应的单位时间;所述均值补充单元将设定时间段的收视数据的均值作为筛选出的单位时间的收视数据;所述顺延补位单元对筛选出的单位时间的收视数据顺序用其后有效的收视数据进行补位填充。

在本发明的一个具体实施例中,传统的仅考虑记忆遗忘的兴趣模型通过下式(9)构建

(9)

传统的仅考虑简单完全增强的兴趣模型通过下式(10)构建

(10)

为比较传统模型与本发明提出的结合记忆遗忘和增强规律的兴趣模型的性能,需要基于一定的用户行为指标根据不同兴趣模型的预测用户行为,通过各个兴趣模型模型得出的预测值与真实值的误差来对比模型之间的优劣。本实例中选用的用户行为指标为用户的每日收看时长,该指标从由北京歌华有线提供的北京地区用户真实收视数据中提取。

这里各个兴趣模型的预测值可分别由公式 (9)、(10)、(7)计算得到,其中本发明提出的兴趣模型(公式(7))还可进一步在参数估计(公式(8))后的基础上进行预测。各模型预测值与真实值的平均相对误差通过下式(11)获得,

(11)

其中,表示预测值,表示真实值,为计算总天数。

在本实施例中,采用每日收视时长作为收视行为指标,采集10名用户的收视数据,通过公式(7)和公式(8)获得的兴趣模型的参数数值,如下表2所示

表2

如表2所示的10名用户为例的模型对比实验误差结果如下表3所示

表3

从上表中可以看出,相比于误差水平在0.7左右的传统仅遗忘模型和误差水平在0.55左右的传统简单完全增强模型,本发明提出的兴趣模型在很大程度上(超50%)降低了预测误差,而经过参数估计后的模型更是进一步提高了预测准确率,使得误差基本维持在0.2以下。由该实验可知本发明提出的结合记忆遗忘和增强规律的兴趣模型在参数估计后可以更好地拟合用户兴趣,实现更精准的用户行为预测。

在本发明提出的结合记忆遗忘和增强规律的兴趣模型中有两个重要的时间窗:一个是兴趣构建期窗口iwindow,它反映了模型需要用多少天的收视数据来进行参数估计,即使用多少天的用户历史行为基础上掌握用户兴趣;一个是记忆时间窗口twindow,它反映了根据模型对用户行为进行预测时使用多少天的历史行为去预测下一天。这两个时间窗分别通过影响模型参数和历史行为的使用量来影响模型的预测效果,本实例对两个时间窗进行了协同的影响实验,通过同时改变两个时间窗的大小来计算不同时间窗组合下的模型预测误差,以查看两个时间窗对模型预测效果的影响,如图3、图4a和图4b所示,图中兴趣构建期窗口iwindow取值范围[5,31],记忆时间窗窗口twindow亦同,同时twindow≤iwindow,兴趣构建期窗口对模型预测效果的影响要大于记忆时间窗口对模型参数的影响,即在提高预测准确率上,使用合适天数的历史数据来掌握用户兴趣要比使用合适天数的历史数据来预测用户行为更重要。

图3是最佳兴趣构建期与平均相对误差的关系图,从图3中可以看出随着兴趣构建期窗口的增长,预测误差呈下降趋势,即当使用越多天数的历史数据去掌握用户兴趣,对用户兴趣的描述就越准确,但同时,当兴趣构建期窗口长度达到一定程度后,其对预测误差的降低作用也会随之减弱,优选地,最佳兴趣构建期基本在7至15天左右便可达到稳定。

图4a和4b的横坐标为兴趣构建期窗口长度,纵坐标为最佳记忆时间窗,图4a是采用先验训练方法获得最佳记忆时间窗,也就是说将用户在训练前已经发生的收视数据作为训练集和验证集对兴趣模型进行训练,获得最佳记忆窗,图4b采用的是后验训练方法获得最佳记忆时间窗,也就是说,将用户在训练前已经发生的收视数据作为训练集,训练兴趣模型,采用训练后发生的收视数据作为验证集,获得最佳记忆窗。由图4a和4b可知广电用户的先验最佳记忆时间窗基本为5或8天,而后验最佳记忆时间窗在兴趣构建期窗口长度较短时(18天之内)亦基本稳定为5天左右,而当兴趣构建期窗口长度较长时(18天以上)则会随着兴趣构建期窗口长度的增大而增大。结合兴趣构建期窗口实验和记忆时间窗口实验的结论可知,当在数据量不足或追求计算效率的情况下,最少通过15天的历史数据我们就可以对用户兴趣进行描述建模,而在预测时,最少使用6天的历史数据我们就可以预测用户下一天的行为。

在一个实施例中,还包括:根据用户的兴趣模型的参数值随时间的变化趋势预测用户未来兴趣的发展趋势,对用户进行分群,例如,兴趣上升期用户UP、兴趣稳定期用户STEADY和兴趣下降期用户DOWN三类,随时间变化的速度超过设定值且随时间变化的程度小于设定值的用户属于兴趣上升期用户,随时间变化的速度小于设定值且随时间变化的程度超过设定值的用户属于兴趣下降期用户,兴趣稳定期的用户介于两者之间。

在本发明提出的结合记忆遗忘和增强规律的兴趣模型中,描述遗忘和增强过程的两个函数中的参数对遗忘的衰减速度和重复行为带来的增强程度有着重要影响。根据用户真实收视行为进行参数估计得到的兴趣模型是因人而异的,因此不同的参数在一定程度上也能反映用户的行为特点。根据用户的真实收视记录将用户按照每日收看时长作为收视行为指标对上述根据用户的兴趣模型的参数值随时间的变化趋势对用户进行分群进行了验证。

根据用户的真实收视记录将用户按照每日收看时长的走势分为兴趣上升期用户、兴趣稳定期用户和兴趣下降期用户三类,再分别对这三类用户进行参数估计,得到每类用户兴趣模型参数的平均值如表4所示:

表4

将这些参数分别带入遗忘模型(公式(3))和增强模型(公式(5)),可以得到三类用户的遗忘曲线和增强曲线如图5a和5b所示。结合图4a和4b可以看到,随着用户的兴趣沿上升期到稳定期到下降期这一趋势发展,模型的四个参数都呈减小趋势,当表现在兴趣曲线上,即兴趣上升期的用户遗忘速度最快同时重复行为带来的增强程度最大,而兴趣下降期的用户遗忘速度较慢但重复行为带来的增强程度最小,兴趣稳定期的用户介于两者之间。由此可知,当根据用户的收视记录对兴趣模型进行实时迭代的参数估计时,可以从参数值的大小变化上推测用户未来的兴趣发展趋势。

在本发明的一个实施例中,在广电用户的真实收视数据中常常会出现收视行为指标为零的情况,即用户当天并未收看电视,这一用户的收视中断有长有短,但无疑都会影响对用户兴趣模型的构建,为了降低用户收视中断对模型参数的影响,需要对收视为零的天数进行零值校正,从而保证模型的预测能力。

本发明提出了两种零值校正方法如图6a和6b所示:一是均值补充法,即对于收视为零的天数,取兴趣构建期内所有有效收视行为指标的平均值进行替换;一是顺延补位法,即对于收视为零的天数,顺序用其后有效的收视行为指标进行补位填充。

从采集的多个用户的收视数据中,随机筛选出10个用户对上述两种零值校正方法进行验证,如表5所示给出的是无校正和两种零值校正方法下的模型预测误差

表5

从上表中,可以看出两种方法都在一定程度上降低了模型的预测误差,且整体而言顺延补位法效果更佳。通过结合不同用户收视中断类型可知,对于那些存在长期收视中断的用户,零值校正对模型预测准确率的提高有着更明显的改善效果。

针对基于用户行为分析的用户兴趣建模问题,本发明提出结合记忆遗忘和增强规律的用户兴趣模型,其中遗忘模型反映用户一次行为产生的兴趣在一定时间范围内的衰减规律,而增强模型反映用户一次重复行为在一定时间范围内带来的兴趣增强程度。本发明首次给出了独立于记忆遗忘模型的记忆增强模型,并通过分步累积增强的方式将记忆遗忘和记忆增强过程相融合,以更精准地理解用户兴趣实现用户行为预测。最终通过基于广电用户真实收视数据的实验,验证了本发明提出的兴趣模型明显优于传统模型的结论。

尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权利要求限定的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明的元素可以以个体形式描述或要求,但是也可以设想具有多个元素,除非明确限制为单个元素。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号