首页> 中国专利> 数据处理系统中的自动配对选择方法和装置

数据处理系统中的自动配对选择方法和装置

摘要

本发明公开了一种自动配对选择方法和装置,方法包括:A.接受针对用户的配对请求;B.检测所述用户当前时刻的状态信息,利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系,计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率;C.根据所述选中概率选择一种配对对象;D.检测用户对所选的配对对象的反应动作信息,根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。装置包括:请求接收模块、状态信息检测模块、增强学习模块、对象选择模块、反应信息检测模块、以及修正模块。利用本发明,可提高选择出的配对对象与配对请求方的相关度,进而提高最终的配对成功率。

著录项

  • 公开/公告号CN103150595A

    专利类型发明专利

  • 公开/公告日2013-06-12

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201110400345.2

  • 发明设计人 佘锡伟;谭志远;杜嘉辉;

    申请日2011-12-06

  • 分类号G06N3/08(20060101);

  • 代理机构11018 北京德琦知识产权代理有限公司;

  • 代理人张晓峰;宋志强

  • 地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

  • 入库时间 2024-02-19 19:15:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-09

    授权

    授权

  • 2013-07-17

    实质审查的生效 IPC(主分类):G06N3/08 申请日:20111206

    实质审查的生效

  • 2013-06-12

    公开

    公开

说明书

技术领域

本发明涉及网络数据处理技术,尤其涉及一种在网络数据处理系统中的 自动配对选择方法和装置。

背景技术

目前,随着互联网络技术的发展,各种细分领域的网络数据处理系统也 纷纷出现和发展,满足了不同细分领域用户的特殊需求。例如通信网络系统 可以满足用户的实名或匿名通信需求、社交网络系统可以满足用户的社交需 求,电子商务平台系统可以满足用户的商品选购需求,网络博客系统可以满 足用户的日志展示需求,文学网络系统可以满足用户的阅读需求等等。

在网络数据处理系统中,在许多情况下系统需要根据用户的请求进行选 择配对处理。例如:在匿名通信系统中为用户选择匿名通信对象,在即时通 信网络或社交网络系统等其他通信网络中为用户选择推荐好友,在电子商务 平台系统中为用户推荐特定的商品,在网络博客系统中为用户推荐特定的日 志,在文学网络系统中为用户推荐文章等等。

目前的网络数据处理系统中,后台服务系统应请求方的配对请求从众多 候选的配对对象中选择一个进行配对的方式通常有以下两种。

(一)采用完全随机配对方式。

这种方式在收到用户的配对请求后,为用户随机选择配对对象。例如在 匿名通信系统中,信息收取方发出的通信请求即为配对请求,系统收到该通 信请求后从数量众多的配对对象即信息传播单元中选择一个给信息收取方, 并进一步建立该信息传播单元发起方与所述收取方之间的通信。

这种随机配对方式的缺点是:随机选择出的配对对象与配对请求方的相 关度极低,用户往往不满意系统随机选择的配对对象,导致最终的配对成功 率极低。

(二)根据人工经验设置的静态配对方式。

例如在现有的某一款叫做“漂流瓶”的匿名通信系统中,其中的“定向瓶”, “交往瓶”都是根据用户的地域或性别信息人工设定了配对的概率。这种根据 用户的属性特征设置固定配对策略的方法,相对于完全随机的配对策略,选 择出的信息传播单元与收取方的状态信息的相关度有了一些提高,但是这种 方法仍然存在着以下缺点:

1)这种方法人为地根据大多数用户的喜好而设计配对策略并作用于全局 用户,而忽略了不同用户的个性化需求,造成部分用户状态信息与配对出的 配对对象的相关度不高。

2)用户对匿名交流对象的喜好很可能会随着不同的日期(如工作日或节 假日会有不同)、不同时段而发生变化,采用这种人工静态配对方式将无法 适应这种动态的用户状态变更的需求,造成在某些动态条件下用户状态信息 与配对出的配对对象的相关度不高。

3)由于这种方法是通过人工根据经验来进行配对,因此在设定配对概率 的时候一般采用的是估计值,因此很难给出与收取方高度相关的配对对象。

4)对用户反馈的应对速度慢。虽然人工设置的静态配对策略可以通过观 察分析用户在一段时期的使用情况来调整配对策略,但是这种反馈机制周期 较长,无法迅速对用户的使用情况做出策略的调整。

总之,现有的网络数据处理系统为配对请求方选择配对对象的方法,选 择出的配对对象与配对请求方的状态(包括静态状态和动态状态)的相关度 不高,所述配对请求方往往不满意配对结果,导致最终的配对成功率不高。

发明内容

有鉴于此,本发明的主要目的在于提供一种数据处理系统中的自动配对选 择方法和装置,以提高选择出的配对对象与配对请求方的相关度。

本发明的技术方案是这样实现的:

一种数据处理系统中的自动配对选择方法,包括:

A、接受针对用户的配对请求;

B、检测所述用户当前时刻的状态信息,利用预设的增强学习函数中的状态 与配对对象类型选择概率的映射关系,计算用户当前时刻的状态信息对应的不 同配对对象类型的选中概率;

C、根据所述选中概率选择一种配对对象;

D、检测用户对所选的配对对象的反应动作信息,根据所获取的反应动作信 息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修 正。

一种数据处理系统中的自动配对选择装置,包括:

请求接收模块,用于接受针对用户的配对请求,在接收到后触发状态信息 检测模块;

状态信息检测模块,用于检测所述用户当前时刻的状态信息,并输入到增 强学习模块;

增强学习模块,其中存储增强学习函数中的状态与配对对象类型选择概率 的映射关系,用于利用所述映射关系计算用户当前时刻的状态信息对应的不同 配对对象类型的选中概率;

对象选择模块,用于根据所述增强学习模块计算出的选中概率选择一种配 对对象;

反应信息检测模块,用于检测用户对所选的配对对象的反应动作信息;

修正模块,用于根据反应信息检测模块检测的反应动作信息对所述增强学 习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。

与现有技术相比,本发明将用户的状态信息输入到增强学习函数中,利用 增强学习函数中的状态与配对对象类型选择概率的映射关系,计算用户状态信 息对应的不同配对对象类型的选中概率,根据该选中概率选择配对对象,并根 据用户的反应对增强学习函数进行反馈修正。从而可以根据用户状态选择配对 对象,提高选择出的配对对象与配对请求方的相关度,进而提高最终的配对成 功率。

附图说明

图1本发明所述自动配对选择方法的一种流程图;

图2本发明所述自动配对选择装置的一种组成示意图;

图3为本发明所述自动配对选择装置在匿名通信系统中自动配对选择通 信对象的一种实施方法的示意图;

图4为本发明所述的自动配对选择装置的一种类型和分布图;

图5为本发明所述初始化自动配对选择装置的一种详细流程图;

图6为本发明所述通过阈值移动进行选择策略外部干预的一种实施例的 示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1本发明所述数据处理系统中的自动配对选择方法的一种流程图。参 见图1,本发明的方法主要包括:

步骤101、接受针对用户的配对请求;

步骤102、检测所述用户当前时刻的状态信息,利用预设的增强学习函数中 的状态与配对对象类型选择概率的映射关系,计算用户当前时刻的状态信息对 应的不同配对对象类型的选中概率;

步骤103、根据所述选中概率选择一种配对对象;

步骤104、检测用户对所选的配对对象的反应动作信息,根据所获取的反应 动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行 反馈修正。

本发明所述的针对用户的配对请求可以是:在线用户在线发起的配对请求, 该配对请求针对发起请求的用户,如匿名通信系统中用户发起的配对请求;也 可以是系统侧在用户离线情况下,针对某个用户或系统内的各个用户发起的配 对请求,如在电子商务平台系统中为用户推荐特定的商品而发起的用户与商品 配对的请求,在网络博客系统中为用户推荐特定的日志而发起的用户与特定日 志配对的请求等等。

之后如果用户发起新的配对请求再返回到步骤101重新进行选择和对应的 修正过程,通过大量的选择和修正过程使得不同状态与相应配对对象类型的选 择概率逼近用户的真实需求。从而可以根据用户状态选择配对对象,提高选择 出的配对对象与配对请求方的相关度,进而提高最终的配对成功率。

图2本发明所述数据处理系统中的自动配对选择装置的一种组成示意图。 参见图2,该装置200包括:

请求接收模块201,用于接受针对用户的配对请求,在接收到后触发状态信 息检测模块202。

状态信息检测模块202,用于检测所述用户当前时刻的状态信息,并输入到 增强学习模块203。

增强学习模块203,其中存储增强学习函数中的状态与配对对象类型选择概 率的映射关系,用于利用所述映射关系计算用户当前时刻的状态信息对应的不 同配对对象类型的选中概率;所述增强学习模块203中包括逼近函数学习器, 所述增强学习函数中的状态与配对对象类型选择概率的映射关系由该逼近函数 学习器存储。

对象选择模块204,用于根据所述增强学习模块203计算出的选中概率选择 一种配对对象。

反应信息检测模块205,用于检测用户对所选的配对对象的反应动作信息。

修正模块206,用于根据反应信息检测模块检测的反应动作信息对所述增强 学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。

所述修正模块206还可以用于通知状态信息检测模块202检测最新时刻的 用户状态信息,并根据所述最新的用户状态信息和反应信息检测模块检测的反 应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率 进行反馈修正。

本发明所述的配对选择方案基于增强学习函数。所述增强学习 (reinforcement learning)又称为再励学习,是一种重要的人工智能在线策略学 习方法。增强学习把行为学习看成是反复试验的过程,从而把动态环境状态映 射成相应的动作。在增强学习问题中,控制系统从某一个状态转移到另一个状 态时将获得一个称为报酬(payoff)的数值,该报酬值用于表示对本次状态转移 的奖惩,用于调整后续的状态转移动作,系统的控制目标是找到一个动作控制 策略使得未来所获得的报酬乘以折扣因子后的和值最大化。该值的函数式是对 每个状态的返回变量的一个预测,如下述公式(1):

V(st)=E{Σk=0γkrt+k}---(1)

其中rt是状态向量st转移到st+1的报酬,γ表示折扣因子(0<γ<1)。V(st)表示 从时间t之后的报酬折扣值总和,该值将依赖于后续选择的动作。系统控制需要 找到相应的动作,使得V(st)在每个状态的值最大。

所述增强学习函数是一种“状态-动作”控制方法,其中设置有不同状态与不 同配对对象类型选择概率的映射关系。所述映射关系可以由通常的映射表的方 式存储,也可以由逼近函数学习器存储。所述逼近函数学习器例如可以是后向 传播神经网络(BPNN,简称BP神经网络),也可以是诸如支持向量机、径向机 神经网络等其他逼近函数学习器。

所述增强学习函数中,某一状态对应的不同配对对象类型的选择概率的初 始值可以根据经验设定或随机设定,但其取值区间在[-1,1]。所述增强学习函数 就是根据不同状态对应的不同配对对象类型的选择概率的初始值选择配对对象 类型,再根据用户对选中配对对象的反应对所述增强学习函数中相应状态对应 的所述选中配对对象类型的选择概率进行反馈修正的不断的选择和修正过程, 通过大量的选择修正过程使得最终的各个状态所对应的配对对象类型的选择概 率逼近用户的真实配对需求。因此这种选择修正的数据处理过程被形象地称为 “学习”过程。

在本发明的一种实施例中,所述增强学习函数为Q学习函数。Q学习函数 是增强学习函数的一种,是一种马尔可夫决策过程(MDP,Markov Decision  Process)。相对于其他增强学习函数的“状态-动作”控制方法(如动态规划方法 等),Q学习函数无需作为动作选择基础的环境先验模型,而是通过与环境交互 学习以获得状态、动作和奖惩值三者之间的关系。Q学习函数是一种无监督的 学习方法,它不需要任何现有的训练样本,只在于任何遭遇状态所做出的动作 关联,并通过对可选动作的动态“试验-误差”的探索和对相关结果的观察和反馈。

Q学习函数中,每个状态下对于每个选择动作报酬值的估计值通常被称为Q 值。假设a为选择动作,A={a1,a2,…,am}为选择动作的候选集合,a∈A。在本 发明中将所述一个选择动作a看作一种配对对象类型,A为候选的所有配对对象 类型的集合。本发明中,Q学习函数中的所述某一状态下对于某一选择动作报 酬值的估计值就是该状态对应的某一配对对象类型的选择概率,该选择概率被 称为该状态对应的该配对对象类型的Q值,不同状态对应的不同配对对象类型 都有对应的Q值,在Q学习函数中存储有不同状态与不同配对对象类型的Q值 的映射关系。

所述Q学习函数中,初始的Q值可以预先设定。例如不是利用逼近函数学 习器存储不同状态与不同配对对象类型Q值的映射关系的Q学习函数,可以让 每个配对对象类型对应的Q值都是相等的,如果有m个配对对象类型,则可以 让每个配对对象类型对应的初始Q值均等于1/m。而对于利用逼近函数学习器 (例如BP神经网络)存储不同状态与不同配对对象类型Q值的映射关系的Q 学习函数,由于每个配对对象类型对应的逼近函数学习器中的初始连接权重是 随机赋值的,那么初始Q值也是随机的,但其取值区间都在[-1,1]。

在Q学习函数中,Q值的修正可以通过下面的公式(2)来完成:

Q(st,at)=Q(st,at)+α[R(st,at)-Q(st,at)]        (2)

其中,所述st为t时刻的状态信息;所述at为t时刻选中的配对对象类型; Q(st,at)为在状态st下选择配对对象类型at的Q值(即选择概率);所述=为赋值; R(st,at)为根据在状态st下选择配对对象类型at后用户对该选择结果的反应信息 计算得到的立即奖惩值;α为预设的学习率。

在另一种Q值修正方法中,还可以进一步引入最新时刻的用户状态信息 st+1,并通过下面的公式(3)来修正Q(st,at):

Q(st,at)=Q(st,at)+α[R(st,at)+γmaxa∈AQ(st+1,a)-Q(st,at)]     (3)

其中,所述st+1为在最新时刻即t+1时刻的用户状态信息;所述Q(st+1,a)为 在st+1状态下的每种配对对象类型对应的Q值;所述maxa∈AQ(st+1,a)为在st+1状态 下所有配对对象类型对应Q值中的最大值;所述γ为预设的折扣率。

本发明存储Q学习函数中的不同状态与不同配对对象类型的Q值的映射关 系的方式可以是映射表的方式存储,也可以由逼近函数学习器存储。所述逼近 函数学习器例如可以是BP神经网络,也可以是诸如支持向量机、径向机神经网 络等其他逼近函数学习器。

由于用户的状态信息受多方面因素影响,并且随着时间变化而不同。因此, 可以认为用户的状态信息是在一个高维的连续状态空间中。采用“状态-动作”查 表形式的Q学习方法需要存储每个状态对应每个动作当前的Q值估计,并且在 获得新反馈时更新它们。而对于这种由多种因素共同决定的用户状态,分别存 储关于每个状态-动作对应的值的效率不高。因此,本发明的一种实施例中,可 以使用一些用于归纳和预测(即使是以前没有遇到过的用户状态)的函数逼近 方法来存储这种连续的对应关系,例如在一种实施例中使用了BP神经网络这样 一种函数逼近技术来存储用户状态与每个配对对象类型对应的Q值。BP神经网 络的Q值的修正阶段(即学习阶段)的反馈误差如公式(4)所示:

δ=α[R(st,at)-Q(st,at)]或者δ=α[R(st,at)+γmaxaAQ(st+1,a)-Q(st,at)]---(4)

其中表示BP神经网络的反馈误差,用于调整BP神经元网络权值,使 误差尽可能小,最终将得到最优策略所对应的Q值。因此在BP神经网络结合Q 学习函数的实施例中,上述公式(2)和(3)也可变为以下公式(5):

Q(st,at)=Q(st,at)+δ---(5)

由于Q学习函数在一个短的时间间隔内更新状态所对应配对对象类型的 Q值,因此非常适合实时在线学习。下面的实施例以Q学习函数结合BP神 经网络存储所述映射关系为例介绍本发明的方案。

本发明所述的方法和装置适用于多种网络数据处理系统中的配对需求, 例如:

在匿名通信系统系统中为用户选择匿名通信对象,其配对请求为匿名通 信请求,所述配对对象类型为匿名通信系统中的通信对象类型;所述步骤103 具体包括:根据所述选中概率选择一种通信对象类型,并从中选择通信对象 与所述发起配对请求的用户配对,在该通信对象与所述用户之间建立通信;

或者,所述配对请求为即时通信系统或社交网络系统中的好友推荐请求, 所述配对对象类型为即时通信系统或社交网络系统中的用户类型;所述步骤 103具体包括:根据所述选中概率选择一种用户类型,并从中选择用户作为 好友推荐给所述发起配对请求的用户;

或者,所述配对请求为电子商务平台系统中的商品推荐请求,所述配对 对象类型为电子商务平台系统中的商品类型;所述步骤103具体包括:根据 所述选中概率选择一种商品类型,并从中选择商品作为推荐商品推荐给所述 发起配对请求的用户;

或者,所述配对请求为网络博客系统或文学网络系统中的文章(包括博 客日志)推荐请求,所述配对对象类型为文章类型;所述步骤103具体包括: 根据所述选中概率选择一种文章类型,并从中选择文章作为推荐文章推荐给 所述发起配对请求的用户。

下面实施例中,以在匿名通信系统中为用户选择匿名配对选择通信对象 的方法和装置对本发明进行说明。

在这种匿名通信系统中,信息发送方可以发出不同种类和内容的信息传 播单元,该信息传播单元不指定收取方,而是直接发送给匿名通信系统的后 台服务系统。收取方在登录后,会向后台服务系统发送接收信息传播单元的 配对请求,后台服务系统应收取方的配对请求从众多的信息传播单元中进行 选择配对,选出一个信息传播单元发送给该收取方,并在信息传播单元的发 送方和收取方之间建立通信。在这种匿名通信系统中,用户可以把自己的祝 福、许愿、个人介绍、不方便给熟悉人说的隐私等,输入到所述信息传播单 元中传播出去,收取方根据系统的配对收到某一信息传播单元后,可以选择 回复也可以丢弃该信息传播单元,在这种匿名通信系统中,通信双方是匿名 的,因此不必担心隐私问题,可以畅所欲言,满足了一部分用户的这种特殊 通信需求。由于发送方在发送信息传播单元时不指定收取方,因此在某些匿 名通信系统中,形象地称这些信息传播单元为“漂流瓶”。在这种匿名通信系 统中,所述配对请求为匿名通信系统中的匿名通信请求,所述配对对象类型 为匿名通信系统中的通信对象类型。

图3为本发明所述自动配对选择装置在匿名通信系统中自动配对选择通 信对象的一种实施方法的示意图。参见图3,该实施方法包括:

步骤301:在t时刻接受到用户发起的一个新的配对请求,例如收取方 发出的一个收取信息的请求。

步骤302:利用用户状态检测器检测提取当前时刻用户的状态信息,即 状态向量St

所述用户状态信息包括静态和动态的。静态信息包括用户个人资料中设 置性别、年龄、所在城市、兴趣爱好等信息;动态信息包括用户当前的日期 属性(工作日或节假日)、时间段、本次登录时长、以及一些通过其他统计 和分析方法得到的用户行为特征等。而具体需要提取用户哪些状态信息,是 由具体应用和系统所拥有的用户个人信息内容所决定的。这里,认为用户的 状态信息将由一个用户状态检测器获得(具体实现由不同应用所决定)。通 过该用户状态检测器可以得到用户状态向量S={s1,s2,…,sn}。

步骤303:在本实施例中,利用BP神经网络存储Q学习函数中状态与配对 对象类型Q值的映射关系,且每种配对对象类型a都有一个对应的BP神经网络, 例如,此处有m个配对对象类型A={a1,a2,…,am},则有m个对应的BP神经网 络。因此,此处将状态信息St作为所有配对对象类型对应BP神经网络的输入, 所述BP神经网络根据所存储的映射关系,得到在状态st下的每种配对对象类型 对应的动态Q值Q(st,a),并将该Q值作为BP神经网络的输出值输出。

在本方案中,所述配对对象类型在不同的匿名通信系统中会有所不同。例 如对于某些即时匿名聊天工具,可以是根据用户属性信息对用户做出的分类类 别,所述的配对对象类型可以是年轻活力型用户、成熟稳重型用户等。再例如 对于某些匿名通信系统如,“邮箱漂流瓶”系统,所述配对对象类型可以是不同类 型的漂流瓶(如交往瓶,心情瓶,定向瓶,真话瓶等)。

步骤304:根据如下公式(6)计算每种配对对象类型的选中概率;

p(st,ai)=eQ(st,ai)/τΣaAeQ(st,a)/τ---(6)

其中,所述ai为第i个配对对象类型,i=1,2,…,m,所述p(st,ai)为在st状 态下配对对象类型ai对应的选中概率,Q(st,ai)为在st状态下配对对象类型ai对 应的Q值,e为自然对数,所述τ为模拟退火因子,当τ→0时,动作选择策略 方式将近似于贪婪策略算法,A为所有配对对象类型的集合。

选择配对对象类型的方法直接影响Q学习函数收敛于一个最优策略的速 率,在配对对象类型的选择过程中,假如每次都选取最大Q值所对应的配对 对象类型,那么Q学习函数将可能得不到有效的学习,因为在训练过程中, 其他拥有较低预测报酬的动作可能在实际上更优。因此,本实施例所述公式 (6)的配对对象类型的选中概率,采用统计物理学中的波尔兹曼(Boltzman) 分布的近似贪婪且连续可微的动作选择策略,通过引入模拟退火因子τ,使 得在学习初期配对对象类型的选中概率对Q值的大小不敏感,随着学习的深 入,Q值对配对对象类型选中概率的影响将逐渐加大,以较大概率从配对对 象类型集合中选择最大报酬值的配对对象类型。

步骤305:将上述求出的每种配对对象类型的选中概率与配对请求一起 发送给匿名通信系统的服务器。所述服务器收到配对请求,根据所述选中概 率选择配对对象类型。一般来讲是选择选中概率最大的一个配对对象类型, 此处该选中的配对对象类型为at。例如,在此实施例中为选择一种通信对象 类型,并从中选择通信对象(即匿名聊天对象)与所述发起配对请求的用户 配对,在该通信对象与所述用户之间建立通信。

步骤306:检测用户对所选的配对对象的反应动作信息;根据用户对所 选的配对对象的反应动作信息确定立即奖惩值R(st,at),其中at为t时刻选中 的配对对象类型,该R(st,at)表示用户对在st状态下选择的配对对象类型at的 立即奖惩值。

在Q学习函数中,立即奖惩值是对决策的作用效果好坏的一种评价,学 习函数系统是通过立即奖惩值反馈指导学习过程的,立即奖惩值信号将对下 一次配对决策的选择产生影响。因此立即奖惩值的计算方法决定着学习系统 性能的好坏,是Q学习系统的一个关键。

在本方案中,立即奖惩值是通过用户对配对结果的满意程度决定的。而 用户对配对结果的满意程度可以采用多种衡量指标,例如用户是否向有向配 对对象发起对话ST,用户向配对对象发送的信息数SN,配对对象向用户发 送的信息数GN,用户与配对对象通讯时长等T。同时对于立即奖惩值的计算 可以采用单一显式的计算方法,也可以采用一些多参数非线性计算方法,如 专家模型、模糊逻辑等。

本实施例中,假设以上述提到的4种指标为例,并采用单一显式来计算 立即奖惩值,可以下面的反馈公式(7)来计算所述立即奖惩值R(st,at)。

R(st,at)=α·ST+β·SN+χ·GN+κ·T    (7)

其中,所述ST,SN,GN和T都必须先进行无量纲化处理,α,β,χ和 κ为指标的系数,最终计算得到的R(st,at)将被归一化到(-1,1)。

步骤307:根据上述公式(2)即Q(st,at)=Q(st,at)+α[R(st,at)-Q(st,at)], 修正Q学习函数中的st状态下配对对象类型at对应的Q值Q(st,at)。此实施例中 为修正at对应的BP神经网络中对应存储的Q值,具体的修正方式此处可以是调 整对应神经网络的反馈误差即其中,所述st为t 时刻的状态信息;所述at为t时刻选中的配对对象类型;Q(st,at)为在状态st下 选择配对对象类型at的Q值(即选择概率);R(st,at)为根据在状态st下选择配 对对象类型at后用户对该选择结果的反应信息计算得到的立即奖惩值;α为预设 的学习率。

当然,在另一种实施例中,还可以进一步包括:在用户结束会话时,假设 此时刻为t+1时刻,通过所述用户状态检测器检测提取t+1时刻的用户状态信息 st+1,将st+1输入到每种配对对象类型对应的BP神经网络中,根据BP神经网络 所存储的状态与配对对象类型Q值的映射关系,得到在st+1状态下的每种配对对 象类型对应的Q值Q(st+1,a);之后通过上述公式(3)即: Q(st,at)=Q(st,at)+α[R(st,at)+γmaxa∈AQ(st+1,a)-Q(st,at)]来修正Q(st,at)。此实 施例中为修正at对应的BP神经网络中对应存储的Q值,具体的修正方式此处可 以是调整对应神经网络的反馈误差即 δ=α[R(st,at)+γmaxaAQ(st+1,a)-Q(st,at)];其中,所述st+1为在新时刻即t+1时刻 的用户状态信息;所述Q(st+1,a)为在st+1状态下的每种配对对象类型对应的Q值; 所述maxa∈AQ(st+1,a)为在st+1状态下所有配对对象类型对应Q值中的最大值;所 述γ为预设的折扣率。

之后如果用户发起新的配对请求再返回到步骤301重新进行选择和对应的 Q值修正过程,通过大量的选择和修正过程使得不同状态与相应配对对象类型 的Q值逼近用户的真实需求。从而可以根据用户状态选择配对对象,提高选择 出的配对对象与配对请求方的相关度,进而提高最终的配对成功率。

在匿名通信系统的启动初期,系统可以为每一位注册用户都单独建立一个 所述的自动配对选择装置,并执行本发明所述的自动配对选择方法。但是,增 强学习函数中所述不同状态对应的不同配对对象类型的选择概率(Q学习函数 中为Q值)的初始值是根据经验设定(如利用非BP神经网络存储映射关系) 或随机设定(如利用BP神经网络存储映射关系)的,因此用户在初期的配对策 略也将是不确定的,必须经过该用户多次地使用,并根据该用户对配对结果的 反应来训练所述自动配对选择装置,直到能较好地拟合用户状态与配对对象类 型之间的关系。但是其拟合速度,取决于用户的使用频率,用户状态参数量, 可选配对对象类型数量(神经网络数量)。

如果将采用随机初始设置或经验设置的自动配对选择装置直接投入使用, 可能会使得每位用户在刚开始使用的较长一段时间,均无法获得符合其喜好的 配对策略。这样可能会使得一些初次使用的用户很快失去对相应系统(例如对 匿名通信系统)的兴趣。

因此,为了让系统可以实现可靠的冷启动,在本发明的一种实施例中,可 以有两种自动配对选择装置。一种是服务器端拥有的全局自动配对选择装置(数 量为1),另一种是由用户所拥有的私有自动配对选择装置(数量等于用户数), 如图4所示。在系统启动初期,使用所述全局自动配对选择装置为指定范围内 的所有用户的配对请求做出配对对象的选择决策,并根据这些用户的反馈来训 练所述自动配对选择装置。当所述全局自动配对选择装置得到充分训练后,将 其作为每个用户初始的私有自动配对选择装置。

图5为本发明所述初始化自动配对选择装置的一种详细流程图。参见图4 和参见图5,该流程包括:

步骤501:在系统启动初期,在服务器端建立一个全局自动配对选择装置。

步骤502:使用所述全局自动配对选择装置为指定范围内的所有用户的配对 请求做出配对对象的选择决策,并根据这些用户的反馈来训练所述自动配对选 择装置。即:先针对指定范围内的所有用户的配对请求,使用同一个增强学习 函数(该算法包括其中的状态与配对对象类型选择概率)执行所述步骤301至 步骤307。

步骤503:所述全局自动配对选择装置对于对所有配对对象类型的选择概率 的反馈修正次数是否超出预定的阈值(即对于所有配对对象类型所对应神经网 络的训练次数是否超出所述预定的阈值),如果是,则执行步骤504;否则返回 步骤502。

步骤504:将所述全局自动配对选择装置分别拷贝给所述指定范围内的每一 位用户作为用户的私有自动配对选择装置。

步骤505、不同的用户发出配对请求后,使用该用户私有的自动配对选择装 置做出配对对象的选择决策。

上述步骤504和505实质上相当于:在通过全局自动配对选择装置将增强 学习函数训练好后,将所述增强学习函数分别拷贝给每一位用户;不同的用户 发出配对请求后,使用该用户对应的增强学习函数执行所述步骤301至步骤307。

在上述所提出的方案中可以看到每个用户在不同状态下对于不同配对对象 类型的选择概率是由其独立拥有的自动配对选择装置所决定的,并且该自动配 对选择装置通过不断地在线学习可以拟合用户动态变化的需求,而这是无需系 统运营方人工干预的。然而,对于一些特殊情况,如系统运营方希望人为地提 高或降低某种配对对象类型的选中概率;或者系统增加了一种新的匹配对象类 型,希望提高其被选中的概率以检测用户对该类型的喜好情况。因此,在本发 明的一种实施例中设计了一种基于阈值移动的配对策略外部干预方法。

图6为本发明所述通过阈值移动进行选择策略外部干预的一种实施例的示 意图。参见图6,该实施例在不改变所述自动配对选择装置的内部结构的基础上, 通过移动自动配对选择装置对应于不同匹配对象类型神经网络的输出阈值来改 变对于不同配对对象类型的选择概率。即:在得到配对对象类型对应的Q值之 后,进一步包括:将该Q值乘以一外部的干预系数,得到阈值移动Q值,以该 阈值移动Q值作为相应配对对象类型的Q值计算该配对对象类型的选中概率。

具体方式如公式(8)所示:

Oi*=OiCi---(8)

其中,表示经过阈值移动后对应于配对对象类型i的神经网络输出层的输 出值Q值,Oi表示没有经过移动阈值的Q值,Ci为对于配对对象类型i的外部 干预系数。经过阈值移动后最终输出的Q值在计算配对对象类型选中概率时取 代了之前的Q值,这样就能通过外部干预系数强制改变配对对象类型的选中概 率。

利用本发明,可以根据不同用户本身所处于的状态信息采用不同的配对 策略,并根据用户对配对结果做出的反应,来评价决策器所产生配对策略的 合理性,并根据评价结果动态调整用户状态与配对策略之间的映射关系,使 得该自动配对选择装置在下一次做出的配对决策时可以更符合用户的需求。 从而可以满足收取方的个性化的配对需求,提高选择出的配对对象与配对请 求方的相关度,进而提高最终的配对成功率。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号