首页> 中国专利> 数据处理系统中的自动配对选择方法和装置

数据处理系统中的自动配对选择方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种自动配对选择方法和装置，方法包括：A.接受针对用户的配对请求；B.检测所述用户当前时刻的状态信息，利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；C.根据所述选中概率选择一种配对对象；D.检测用户对所选的配对对象的反应动作信息，根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。装置包括：请求接收模块、状态信息检测模块、增强学习模块、对象选择模块、反应信息检测模块、以及修正模块。利用本发明，可提高选择出的配对对象与配对请求方的相关度，进而提高最终的配对成功率。

著录项

公开/公告号CN103150595A

专利类型发明专利
公开/公告日2013-06-12

原文格式PDF
申请/专利权人腾讯科技(深圳)有限公司;
展开▼

申请/专利号CN201110400345.2
发明设计人佘锡伟;谭志远;杜嘉辉;
展开▼

申请日2011-12-06
分类号G06N3/08(20060101);
代理机构11018 北京德琦知识产权代理有限公司;
代理人张晓峰;宋志强
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室
入库时间 2024-02-19 19:15:47

法律信息

法律状态公告日

法律状态信息

法律状态
2016-03-09

授权

授权
2013-07-17

实质审查的生效 IPC(主分类):G06N3/08 申请日:20111206

实质审查的生效
2013-06-12

公开

公开

说明书

技术领域

本发明涉及网络数据处理技术，尤其涉及一种在网络数据处理系统中的自动配对选择方法和装置。

背景技术

目前，随着互联网络技术的发展，各种细分领域的网络数据处理系统也纷纷出现和发展，满足了不同细分领域用户的特殊需求。例如通信网络系统可以满足用户的实名或匿名通信需求、社交网络系统可以满足用户的社交需求，电子商务平台系统可以满足用户的商品选购需求，网络博客系统可以满足用户的日志展示需求，文学网络系统可以满足用户的阅读需求等等。

在网络数据处理系统中，在许多情况下系统需要根据用户的请求进行选择配对处理。例如：在匿名通信系统中为用户选择匿名通信对象，在即时通信网络或社交网络系统等其他通信网络中为用户选择推荐好友，在电子商务平台系统中为用户推荐特定的商品，在网络博客系统中为用户推荐特定的日志，在文学网络系统中为用户推荐文章等等。

目前的网络数据处理系统中，后台服务系统应请求方的配对请求从众多候选的配对对象中选择一个进行配对的方式通常有以下两种。

(一)采用完全随机配对方式。

这种方式在收到用户的配对请求后，为用户随机选择配对对象。例如在匿名通信系统中，信息收取方发出的通信请求即为配对请求，系统收到该通信请求后从数量众多的配对对象即信息传播单元中选择一个给信息收取方，并进一步建立该信息传播单元发起方与所述收取方之间的通信。

这种随机配对方式的缺点是：随机选择出的配对对象与配对请求方的相关度极低，用户往往不满意系统随机选择的配对对象，导致最终的配对成功率极低。

(二)根据人工经验设置的静态配对方式。

例如在现有的某一款叫做“漂流瓶”的匿名通信系统中，其中的“定向瓶”， “交往瓶”都是根据用户的地域或性别信息人工设定了配对的概率。这种根据用户的属性特征设置固定配对策略的方法，相对于完全随机的配对策略，选择出的信息传播单元与收取方的状态信息的相关度有了一些提高，但是这种方法仍然存在着以下缺点：

1)这种方法人为地根据大多数用户的喜好而设计配对策略并作用于全局用户，而忽略了不同用户的个性化需求，造成部分用户状态信息与配对出的配对对象的相关度不高。

2)用户对匿名交流对象的喜好很可能会随着不同的日期(如工作日或节假日会有不同)、不同时段而发生变化，采用这种人工静态配对方式将无法适应这种动态的用户状态变更的需求，造成在某些动态条件下用户状态信息与配对出的配对对象的相关度不高。

3)由于这种方法是通过人工根据经验来进行配对，因此在设定配对概率的时候一般采用的是估计值，因此很难给出与收取方高度相关的配对对象。

4)对用户反馈的应对速度慢。虽然人工设置的静态配对策略可以通过观察分析用户在一段时期的使用情况来调整配对策略，但是这种反馈机制周期较长，无法迅速对用户的使用情况做出策略的调整。

总之，现有的网络数据处理系统为配对请求方选择配对对象的方法，选择出的配对对象与配对请求方的状态(包括静态状态和动态状态)的相关度不高，所述配对请求方往往不满意配对结果，导致最终的配对成功率不高。

发明内容

有鉴于此，本发明的主要目的在于提供一种数据处理系统中的自动配对选择方法和装置，以提高选择出的配对对象与配对请求方的相关度。

本发明的技术方案是这样实现的：

一种数据处理系统中的自动配对选择方法，包括：

A、接受针对用户的配对请求；

B、检测所述用户当前时刻的状态信息，利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；

C、根据所述选中概率选择一种配对对象；

D、检测用户对所选的配对对象的反应动作信息，根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。

一种数据处理系统中的自动配对选择装置，包括：

请求接收模块，用于接受针对用户的配对请求，在接收到后触发状态信息检测模块；

状态信息检测模块，用于检测所述用户当前时刻的状态信息，并输入到增强学习模块；

增强学习模块，其中存储增强学习函数中的状态与配对对象类型选择概率的映射关系，用于利用所述映射关系计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；

对象选择模块，用于根据所述增强学习模块计算出的选中概率选择一种配对对象；

反应信息检测模块，用于检测用户对所选的配对对象的反应动作信息；

修正模块，用于根据反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。

与现有技术相比，本发明将用户的状态信息输入到增强学习函数中，利用增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户状态信息对应的不同配对对象类型的选中概率，根据该选中概率选择配对对象，并根据用户的反应对增强学习函数进行反馈修正。从而可以根据用户状态选择配对对象，提高选择出的配对对象与配对请求方的相关度，进而提高最终的配对成功率。

附图说明

图1本发明所述自动配对选择方法的一种流程图；

图2本发明所述自动配对选择装置的一种组成示意图；

图3为本发明所述自动配对选择装置在匿名通信系统中自动配对选择通信对象的一种实施方法的示意图；

图4为本发明所述的自动配对选择装置的一种类型和分布图；

图5为本发明所述初始化自动配对选择装置的一种详细流程图；

图6为本发明所述通过阈值移动进行选择策略外部干预的一种实施例的示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1本发明所述数据处理系统中的自动配对选择方法的一种流程图。参见图1，本发明的方法主要包括：

步骤101、接受针对用户的配对请求；

步骤102、检测所述用户当前时刻的状态信息，利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；

步骤103、根据所述选中概率选择一种配对对象；

步骤104、检测用户对所选的配对对象的反应动作信息，根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。

本发明所述的针对用户的配对请求可以是：在线用户在线发起的配对请求，该配对请求针对发起请求的用户，如匿名通信系统中用户发起的配对请求；也可以是系统侧在用户离线情况下，针对某个用户或系统内的各个用户发起的配对请求，如在电子商务平台系统中为用户推荐特定的商品而发起的用户与商品配对的请求，在网络博客系统中为用户推荐特定的日志而发起的用户与特定日志配对的请求等等。

之后如果用户发起新的配对请求再返回到步骤101重新进行选择和对应的修正过程，通过大量的选择和修正过程使得不同状态与相应配对对象类型的选择概率逼近用户的真实需求。从而可以根据用户状态选择配对对象，提高选择出的配对对象与配对请求方的相关度，进而提高最终的配对成功率。

图2本发明所述数据处理系统中的自动配对选择装置的一种组成示意图。参见图2，该装置200包括：

请求接收模块201，用于接受针对用户的配对请求，在接收到后触发状态信息检测模块202。

状态信息检测模块202，用于检测所述用户当前时刻的状态信息，并输入到增强学习模块203。

增强学习模块203，其中存储增强学习函数中的状态与配对对象类型选择概率的映射关系，用于利用所述映射关系计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；所述增强学习模块203中包括逼近函数学习器，所述增强学习函数中的状态与配对对象类型选择概率的映射关系由该逼近函数学习器存储。

对象选择模块204，用于根据所述增强学习模块203计算出的选中概率选择一种配对对象。

反应信息检测模块205，用于检测用户对所选的配对对象的反应动作信息。

修正模块206，用于根据反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。

所述修正模块206还可以用于通知状态信息检测模块202检测最新时刻的用户状态信息，并根据所述最新的用户状态信息和反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。

本发明所述的配对选择方案基于增强学习函数。所述增强学习 (reinforcement learning)又称为再励学习，是一种重要的人工智能在线策略学习方法。增强学习把行为学习看成是反复试验的过程，从而把动态环境状态映射成相应的动作。在增强学习问题中，控制系统从某一个状态转移到另一个状态时将获得一个称为报酬(payoff)的数值，该报酬值用于表示对本次状态转移的奖惩，用于调整后续的状态转移动作，系统的控制目标是找到一个动作控制策略使得未来所获得的报酬乘以折扣因子后的和值最大化。该值的函数式是对每个状态的返回变量的一个预测，如下述公式(1)：

$V (s_{t}) = E {Σ_{k = 0}^{\infty} γ^{k} r_{t + k}} - - - (1)$

其中r_t是状态向量s_t转移到s_t+1的报酬，γ表示折扣因子(0＜γ＜1)。V(s_t)表示从时间t之后的报酬折扣值总和，该值将依赖于后续选择的动作。系统控制需要找到相应的动作，使得V(s_t)在每个状态的值最大。

所述增强学习函数是一种“状态-动作”控制方法，其中设置有不同状态与不同配对对象类型选择概率的映射关系。所述映射关系可以由通常的映射表的方式存储，也可以由逼近函数学习器存储。所述逼近函数学习器例如可以是后向传播神经网络(BPNN，简称BP神经网络)，也可以是诸如支持向量机、径向机神经网络等其他逼近函数学习器。

所述增强学习函数中，某一状态对应的不同配对对象类型的选择概率的初始值可以根据经验设定或随机设定，但其取值区间在[-1，1]。所述增强学习函数就是根据不同状态对应的不同配对对象类型的选择概率的初始值选择配对对象类型，再根据用户对选中配对对象的反应对所述增强学习函数中相应状态对应的所述选中配对对象类型的选择概率进行反馈修正的不断的选择和修正过程，通过大量的选择修正过程使得最终的各个状态所对应的配对对象类型的选择概率逼近用户的真实配对需求。因此这种选择修正的数据处理过程被形象地称为 “学习”过程。

在本发明的一种实施例中，所述增强学习函数为Q学习函数。Q学习函数是增强学习函数的一种，是一种马尔可夫决策过程(MDP，Markov Decision Process)。相对于其他增强学习函数的“状态-动作”控制方法(如动态规划方法等)，Q学习函数无需作为动作选择基础的环境先验模型，而是通过与环境交互学习以获得状态、动作和奖惩值三者之间的关系。Q学习函数是一种无监督的学习方法，它不需要任何现有的训练样本，只在于任何遭遇状态所做出的动作关联，并通过对可选动作的动态“试验-误差”的探索和对相关结果的观察和反馈。

Q学习函数中，每个状态下对于每个选择动作报酬值的估计值通常被称为Q 值。假设a为选择动作，A＝{a₁，a₂，…，a_m}为选择动作的候选集合，a∈A。在本发明中将所述一个选择动作a看作一种配对对象类型，A为候选的所有配对对象类型的集合。本发明中，Q学习函数中的所述某一状态下对于某一选择动作报酬值的估计值就是该状态对应的某一配对对象类型的选择概率，该选择概率被称为该状态对应的该配对对象类型的Q值，不同状态对应的不同配对对象类型都有对应的Q值，在Q学习函数中存储有不同状态与不同配对对象类型的Q值的映射关系。

所述Q学习函数中，初始的Q值可以预先设定。例如不是利用逼近函数学习器存储不同状态与不同配对对象类型Q值的映射关系的Q学习函数，可以让每个配对对象类型对应的Q值都是相等的，如果有m个配对对象类型，则可以让每个配对对象类型对应的初始Q值均等于1/m。而对于利用逼近函数学习器 (例如BP神经网络)存储不同状态与不同配对对象类型Q值的映射关系的Q 学习函数，由于每个配对对象类型对应的逼近函数学习器中的初始连接权重是随机赋值的，那么初始Q值也是随机的，但其取值区间都在[-1，1]。

在Q学习函数中，Q值的修正可以通过下面的公式(2)来完成：

Q(s_t，a_t)＝Q(s_t，a_t)+α[R(s_t，a_t)-Q(s_t，a_t)] (2)

其中，所述s_t为t时刻的状态信息；所述a_t为t时刻选中的配对对象类型； Q(s_t，a_t)为在状态s_t下选择配对对象类型a_t的Q值(即选择概率)；所述＝为赋值； R(s_t，a_t)为根据在状态s_t下选择配对对象类型a_t后用户对该选择结果的反应信息计算得到的立即奖惩值；α为预设的学习率。

在另一种Q值修正方法中，还可以进一步引入最新时刻的用户状态信息 s_t+1，并通过下面的公式(3)来修正Q(s_t，a_t)：

Q(s_t，a_t)＝Q(s_t，a_t)+α[R(s_t，a_t)+γmax_a∈AQ(s_t+1，a)-Q(s_t，a_t)] (3)

其中，所述s_t+1为在最新时刻即t+1时刻的用户状态信息；所述Q(s_t+1，a)为在s_t+1状态下的每种配对对象类型对应的Q值；所述max_a∈AQ(s_t+1，a)为在s_t+1状态下所有配对对象类型对应Q值中的最大值；所述γ为预设的折扣率。

本发明存储Q学习函数中的不同状态与不同配对对象类型的Q值的映射关系的方式可以是映射表的方式存储，也可以由逼近函数学习器存储。所述逼近函数学习器例如可以是BP神经网络，也可以是诸如支持向量机、径向机神经网络等其他逼近函数学习器。

由于用户的状态信息受多方面因素影响，并且随着时间变化而不同。因此，可以认为用户的状态信息是在一个高维的连续状态空间中。采用“状态-动作”查表形式的Q学习方法需要存储每个状态对应每个动作当前的Q值估计，并且在获得新反馈时更新它们。而对于这种由多种因素共同决定的用户状态，分别存储关于每个状态-动作对应的值的效率不高。因此，本发明的一种实施例中，可以使用一些用于归纳和预测(即使是以前没有遇到过的用户状态)的函数逼近方法来存储这种连续的对应关系，例如在一种实施例中使用了BP神经网络这样一种函数逼近技术来存储用户状态与每个配对对象类型对应的Q值。BP神经网络的Q值的修正阶段(即学习阶段)的反馈误差如公式(4)所示：

$▿ δ = α [R (s_{t}, a_{t}) - Q (s_{t}, a_{t})]$ 或者 $▿ δ = α [R (s_{t}, a_{t}) + γ \max_{a \in A} Q (s_{t + 1}, a) - Q (s_{t}, a_{t})] - - - (4)$

其中表示BP神经网络的反馈误差，用于调整BP神经元网络权值，使误差尽可能小，最终将得到最优策略所对应的Q值。因此在BP神经网络结合Q 学习函数的实施例中，上述公式(2)和(3)也可变为以下公式(5)：

$Q (s_{t}, a_{t}) = Q (s_{t}, a_{t}) + ▿ δ - - - (5)$

由于Q学习函数在一个短的时间间隔内更新状态所对应配对对象类型的 Q值，因此非常适合实时在线学习。下面的实施例以Q学习函数结合BP神经网络存储所述映射关系为例介绍本发明的方案。

本发明所述的方法和装置适用于多种网络数据处理系统中的配对需求，例如：

在匿名通信系统系统中为用户选择匿名通信对象，其配对请求为匿名通信请求，所述配对对象类型为匿名通信系统中的通信对象类型；所述步骤103 具体包括：根据所述选中概率选择一种通信对象类型，并从中选择通信对象与所述发起配对请求的用户配对，在该通信对象与所述用户之间建立通信；

或者，所述配对请求为即时通信系统或社交网络系统中的好友推荐请求，所述配对对象类型为即时通信系统或社交网络系统中的用户类型；所述步骤 103具体包括：根据所述选中概率选择一种用户类型，并从中选择用户作为好友推荐给所述发起配对请求的用户；

或者，所述配对请求为电子商务平台系统中的商品推荐请求，所述配对对象类型为电子商务平台系统中的商品类型；所述步骤103具体包括：根据所述选中概率选择一种商品类型，并从中选择商品作为推荐商品推荐给所述发起配对请求的用户；

或者，所述配对请求为网络博客系统或文学网络系统中的文章(包括博客日志)推荐请求，所述配对对象类型为文章类型；所述步骤103具体包括：根据所述选中概率选择一种文章类型，并从中选择文章作为推荐文章推荐给所述发起配对请求的用户。

下面实施例中，以在匿名通信系统中为用户选择匿名配对选择通信对象的方法和装置对本发明进行说明。

在这种匿名通信系统中，信息发送方可以发出不同种类和内容的信息传播单元，该信息传播单元不指定收取方，而是直接发送给匿名通信系统的后台服务系统。收取方在登录后，会向后台服务系统发送接收信息传播单元的配对请求，后台服务系统应收取方的配对请求从众多的信息传播单元中进行选择配对，选出一个信息传播单元发送给该收取方，并在信息传播单元的发送方和收取方之间建立通信。在这种匿名通信系统中，用户可以把自己的祝福、许愿、个人介绍、不方便给熟悉人说的隐私等，输入到所述信息传播单元中传播出去，收取方根据系统的配对收到某一信息传播单元后，可以选择回复也可以丢弃该信息传播单元，在这种匿名通信系统中，通信双方是匿名的，因此不必担心隐私问题，可以畅所欲言，满足了一部分用户的这种特殊通信需求。由于发送方在发送信息传播单元时不指定收取方，因此在某些匿名通信系统中，形象地称这些信息传播单元为“漂流瓶”。在这种匿名通信系统中，所述配对请求为匿名通信系统中的匿名通信请求，所述配对对象类型为匿名通信系统中的通信对象类型。

图3为本发明所述自动配对选择装置在匿名通信系统中自动配对选择通信对象的一种实施方法的示意图。参见图3，该实施方法包括：

步骤301：在t时刻接受到用户发起的一个新的配对请求，例如收取方发出的一个收取信息的请求。

步骤302：利用用户状态检测器检测提取当前时刻用户的状态信息，即状态向量S_t。

所述用户状态信息包括静态和动态的。静态信息包括用户个人资料中设置性别、年龄、所在城市、兴趣爱好等信息；动态信息包括用户当前的日期属性(工作日或节假日)、时间段、本次登录时长、以及一些通过其他统计和分析方法得到的用户行为特征等。而具体需要提取用户哪些状态信息，是由具体应用和系统所拥有的用户个人信息内容所决定的。这里，认为用户的状态信息将由一个用户状态检测器获得(具体实现由不同应用所决定)。通过该用户状态检测器可以得到用户状态向量S＝{s₁，s₂，…，s_n}。

步骤303：在本实施例中，利用BP神经网络存储Q学习函数中状态与配对对象类型Q值的映射关系，且每种配对对象类型a都有一个对应的BP神经网络，例如，此处有m个配对对象类型A＝{a₁，a₂，…，a_m}，则有m个对应的BP神经网络。因此，此处将状态信息S_t作为所有配对对象类型对应BP神经网络的输入，所述BP神经网络根据所存储的映射关系，得到在状态s_t下的每种配对对象类型对应的动态Q值Q(s_t，a)，并将该Q值作为BP神经网络的输出值输出。

在本方案中，所述配对对象类型在不同的匿名通信系统中会有所不同。例如对于某些即时匿名聊天工具，可以是根据用户属性信息对用户做出的分类类别，所述的配对对象类型可以是年轻活力型用户、成熟稳重型用户等。再例如对于某些匿名通信系统如，“邮箱漂流瓶”系统，所述配对对象类型可以是不同类型的漂流瓶(如交往瓶，心情瓶，定向瓶，真话瓶等)。

步骤304：根据如下公式(6)计算每种配对对象类型的选中概率；

$p (s_{t}, a_{i}) = \frac{e^{Q (s_{t}, a_{i}) / τ}}{\underset{a \in A}{Σ} e^{Q (s_{t}, a) / τ}} - - - (6)$

其中，所述a_i为第i个配对对象类型，i＝1，2，…，m，所述p(s_t，a_i)为在s_t状态下配对对象类型a_i对应的选中概率，Q(s_t，a_i)为在s_t状态下配对对象类型a_i对应的Q值，e为自然对数，所述τ为模拟退火因子，当τ→0时，动作选择策略方式将近似于贪婪策略算法，A为所有配对对象类型的集合。

选择配对对象类型的方法直接影响Q学习函数收敛于一个最优策略的速率，在配对对象类型的选择过程中，假如每次都选取最大Q值所对应的配对对象类型，那么Q学习函数将可能得不到有效的学习，因为在训练过程中，其他拥有较低预测报酬的动作可能在实际上更优。因此，本实施例所述公式 (6)的配对对象类型的选中概率，采用统计物理学中的波尔兹曼(Boltzman) 分布的近似贪婪且连续可微的动作选择策略，通过引入模拟退火因子τ，使得在学习初期配对对象类型的选中概率对Q值的大小不敏感，随着学习的深入，Q值对配对对象类型选中概率的影响将逐渐加大，以较大概率从配对对象类型集合中选择最大报酬值的配对对象类型。

步骤305：将上述求出的每种配对对象类型的选中概率与配对请求一起发送给匿名通信系统的服务器。所述服务器收到配对请求，根据所述选中概率选择配对对象类型。一般来讲是选择选中概率最大的一个配对对象类型，此处该选中的配对对象类型为a_t。例如，在此实施例中为选择一种通信对象类型，并从中选择通信对象(即匿名聊天对象)与所述发起配对请求的用户配对，在该通信对象与所述用户之间建立通信。

步骤306：检测用户对所选的配对对象的反应动作信息；根据用户对所选的配对对象的反应动作信息确定立即奖惩值R(s_t，a_t)，其中a_t为t时刻选中的配对对象类型，该R(s_t，a_t)表示用户对在s_t状态下选择的配对对象类型a_t的立即奖惩值。

在Q学习函数中，立即奖惩值是对决策的作用效果好坏的一种评价，学习函数系统是通过立即奖惩值反馈指导学习过程的，立即奖惩值信号将对下一次配对决策的选择产生影响。因此立即奖惩值的计算方法决定着学习系统性能的好坏，是Q学习系统的一个关键。

在本方案中，立即奖惩值是通过用户对配对结果的满意程度决定的。而用户对配对结果的满意程度可以采用多种衡量指标，例如用户是否向有向配对对象发起对话ST，用户向配对对象发送的信息数SN，配对对象向用户发送的信息数GN，用户与配对对象通讯时长等T。同时对于立即奖惩值的计算可以采用单一显式的计算方法，也可以采用一些多参数非线性计算方法，如专家模型、模糊逻辑等。

本实施例中，假设以上述提到的4种指标为例，并采用单一显式来计算立即奖惩值，可以下面的反馈公式(7)来计算所述立即奖惩值R(s_t，a_t)。

R(s_t，a_t)＝α·ST+β·SN+χ·GN+κ·T (7)

其中，所述ST，SN，GN和T都必须先进行无量纲化处理，α，β，χ和 κ为指标的系数，最终计算得到的R(s_t，a_t)将被归一化到(-1，1)。

步骤307：根据上述公式(2)即Q(s_t，a_t)＝Q(s_t，a_t)+α[R(s_t，a_t)-Q(s_t，a_t)]，修正Q学习函数中的s_t状态下配对对象类型a_t对应的Q值Q(s_t，a_t)。此实施例中为修正a_t对应的BP神经网络中对应存储的Q值，具体的修正方式此处可以是调整对应神经网络的反馈误差即其中，所述s_t为t 时刻的状态信息；所述a_t为t时刻选中的配对对象类型；Q(s_t，a_t)为在状态s_t下选择配对对象类型a_t的Q值(即选择概率)；R(s_t，a_t)为根据在状态s_t下选择配对对象类型a_t后用户对该选择结果的反应信息计算得到的立即奖惩值；α为预设的学习率。

当然，在另一种实施例中，还可以进一步包括：在用户结束会话时，假设此时刻为t+1时刻，通过所述用户状态检测器检测提取t+1时刻的用户状态信息 s_t+1，将s_t+1输入到每种配对对象类型对应的BP神经网络中，根据BP神经网络所存储的状态与配对对象类型Q值的映射关系，得到在s_t+1状态下的每种配对对象类型对应的Q值Q(s_t+1，a)；之后通过上述公式(3)即： Q(s_t，a_t)＝Q(s_t，a_t)+α[R(s_t，a_t)+γmax_a∈AQ(s_t+1，a)-Q(s_t，a_t)]来修正Q(s_t，a_t)。此实施例中为修正a_t对应的BP神经网络中对应存储的Q值，具体的修正方式此处可以是调整对应神经网络的反馈误差即 $▿ δ = α [R (s_{t}, a_{t}) + γ \max_{a \in A} Q (s_{t + 1}, a) - Q (s_{t}, a_{t})];$ 其中，所述s_t+1为在新时刻即t+1时刻的用户状态信息；所述Q(s_t+1，a)为在s_t+1状态下的每种配对对象类型对应的Q值；所述max_a∈AQ(s_t+1，a)为在s_t+1状态下所有配对对象类型对应Q值中的最大值；所述γ为预设的折扣率。

之后如果用户发起新的配对请求再返回到步骤301重新进行选择和对应的 Q值修正过程，通过大量的选择和修正过程使得不同状态与相应配对对象类型的Q值逼近用户的真实需求。从而可以根据用户状态选择配对对象，提高选择出的配对对象与配对请求方的相关度，进而提高最终的配对成功率。

在匿名通信系统的启动初期，系统可以为每一位注册用户都单独建立一个所述的自动配对选择装置，并执行本发明所述的自动配对选择方法。但是，增强学习函数中所述不同状态对应的不同配对对象类型的选择概率(Q学习函数中为Q值)的初始值是根据经验设定(如利用非BP神经网络存储映射关系) 或随机设定(如利用BP神经网络存储映射关系)的，因此用户在初期的配对策略也将是不确定的，必须经过该用户多次地使用，并根据该用户对配对结果的反应来训练所述自动配对选择装置，直到能较好地拟合用户状态与配对对象类型之间的关系。但是其拟合速度，取决于用户的使用频率，用户状态参数量，可选配对对象类型数量(神经网络数量)。

如果将采用随机初始设置或经验设置的自动配对选择装置直接投入使用，可能会使得每位用户在刚开始使用的较长一段时间，均无法获得符合其喜好的配对策略。这样可能会使得一些初次使用的用户很快失去对相应系统(例如对匿名通信系统)的兴趣。

因此，为了让系统可以实现可靠的冷启动，在本发明的一种实施例中，可以有两种自动配对选择装置。一种是服务器端拥有的全局自动配对选择装置(数量为1)，另一种是由用户所拥有的私有自动配对选择装置(数量等于用户数)，如图4所示。在系统启动初期，使用所述全局自动配对选择装置为指定范围内的所有用户的配对请求做出配对对象的选择决策，并根据这些用户的反馈来训练所述自动配对选择装置。当所述全局自动配对选择装置得到充分训练后，将其作为每个用户初始的私有自动配对选择装置。

图5为本发明所述初始化自动配对选择装置的一种详细流程图。参见图4 和参见图5，该流程包括：

步骤501：在系统启动初期，在服务器端建立一个全局自动配对选择装置。

步骤502：使用所述全局自动配对选择装置为指定范围内的所有用户的配对请求做出配对对象的选择决策，并根据这些用户的反馈来训练所述自动配对选择装置。即：先针对指定范围内的所有用户的配对请求，使用同一个增强学习函数(该算法包括其中的状态与配对对象类型选择概率)执行所述步骤301至步骤307。

步骤503：所述全局自动配对选择装置对于对所有配对对象类型的选择概率的反馈修正次数是否超出预定的阈值(即对于所有配对对象类型所对应神经网络的训练次数是否超出所述预定的阈值)，如果是，则执行步骤504；否则返回步骤502。

步骤504：将所述全局自动配对选择装置分别拷贝给所述指定范围内的每一位用户作为用户的私有自动配对选择装置。

步骤505、不同的用户发出配对请求后，使用该用户私有的自动配对选择装置做出配对对象的选择决策。

上述步骤504和505实质上相当于：在通过全局自动配对选择装置将增强学习函数训练好后，将所述增强学习函数分别拷贝给每一位用户；不同的用户发出配对请求后，使用该用户对应的增强学习函数执行所述步骤301至步骤307。

在上述所提出的方案中可以看到每个用户在不同状态下对于不同配对对象类型的选择概率是由其独立拥有的自动配对选择装置所决定的，并且该自动配对选择装置通过不断地在线学习可以拟合用户动态变化的需求，而这是无需系统运营方人工干预的。然而，对于一些特殊情况，如系统运营方希望人为地提高或降低某种配对对象类型的选中概率；或者系统增加了一种新的匹配对象类型，希望提高其被选中的概率以检测用户对该类型的喜好情况。因此，在本发明的一种实施例中设计了一种基于阈值移动的配对策略外部干预方法。

图6为本发明所述通过阈值移动进行选择策略外部干预的一种实施例的示意图。参见图6，该实施例在不改变所述自动配对选择装置的内部结构的基础上，通过移动自动配对选择装置对应于不同匹配对象类型神经网络的输出阈值来改变对于不同配对对象类型的选择概率。即：在得到配对对象类型对应的Q值之后，进一步包括：将该Q值乘以一外部的干预系数，得到阈值移动Q值，以该阈值移动Q值作为相应配对对象类型的Q值计算该配对对象类型的选中概率。

具体方式如公式(8)所示：

$O_{i}^{*} = O_{i} C_{i} - - - (8)$

其中，表示经过阈值移动后对应于配对对象类型i的神经网络输出层的输出值Q值，O_i表示没有经过移动阈值的Q值，C_i为对于配对对象类型i的外部干预系数。经过阈值移动后最终输出的Q值在计算配对对象类型选中概率时取代了之前的Q值，这样就能通过外部干预系数强制改变配对对象类型的选中概率。

利用本发明，可以根据不同用户本身所处于的状态信息采用不同的配对策略，并根据用户对配对结果做出的反应，来评价决策器所产生配对策略的合理性，并根据评价结果动态调整用户状态与配对策略之间的映射关系，使得该自动配对选择装置在下一次做出的配对决策时可以更符合用户的需求。从而可以满足收取方的个性化的配对需求，提高选择出的配对对象与配对请求方的相关度，进而提高最终的配对成功率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 数据处理系统中的自动配对选择方法和装置 [P] . 中国专利： CN103150595B . 2016.03.09
2. 数据处理系统中的自动配对选择方法和装置 [P] . 中国专利： CN103150595A . 2013-06-12
3. Defect automatic observation classification system, apparatus selection method, program, and observation apparatus in defect automatic observation classification system [P] . 日本专利： JP4681356B2 . 2011-05-11

机译：缺陷自动观察分类系统中的缺陷自动观察分类系统，装置选择方法，程序以及观察装置
4. Method and apparatus for automatic storage of an object in a graphical user interface in a data processing system [P] . 德国专利： DE69429711T2 . 2002-09-12

机译：在数据处理系统中的图形用户界面中自动存储对象的方法和装置
5. DEVICE AND METHOD FOR AUTOMATIC AND SECURE PAIRING OF APPLIANCES IN A RADIOFREQUENCY NETWORK [P] . 欧洲知识产权局专利： EP1358748B1 . 2006-10-04

机译：射频网络中设备自动安全配对的装置和方法