首页> 中国专利> 一种模拟用户情绪的对话策略生成方法

一种模拟用户情绪的对话策略生成方法

摘要

本发明公开了一种模拟用户情绪的对话策略生成方法,首先,建立用户性格与情感表征体系;然后,对环境触发事件进行表示;继而,建立对话中情绪变化的函数表示;最后,结合用户情绪选取对话动作。通过对不同性格的人模拟更复杂的情绪状态和变化过程,提高对话策略模型的泛化能力,并允许对话系统对不同个性的用户制定针对性的对话策略;对话策略生成方法可模仿用户在对话中随时终止对话,而不是始终把用户假设为始终配合对话的理想个体,因此可产生比现有的对话系统用户模拟器更接近实际用户的模拟行为,从而允许在更接近真实环境的模拟框架中训练与评估对机器人的对话策略。

著录项

  • 公开/公告号CN112949857A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 网经科技(苏州)有限公司;

    申请/专利号CN202110312778.6

  • 发明设计人 孟亚磊;刘继明;金宁;陈浮;韩甫;

    申请日2021-03-24

  • 分类号G06N3/08(20060101);G06F40/35(20200101);

  • 代理机构32237 江苏圣典律师事务所;

  • 代理人王玉国

  • 地址 215021 江苏省苏州市工业园区金鸡湖大道1355号国际科技园一期

  • 入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明涉及一种模拟用户情绪的对话策略生成方法。

背景技术

人机对话系统依据交互轮次的多少可以分成单轮与多轮两种形式。单轮对话往往是传统的问答系统,在问题中包括查找答案所需要的必要信息,系统则根据问题中的信息给出应答。多轮对话的形式更贴近真人交互习惯,但同时实现难度也更大。典型的多轮对话系统包含自然语言理解、对话管理、自然语言生成三个主要组件,其中对话管理组件又包括对话状态追踪和对话策略两部分,对话状态追踪负责记录对话过程中从双方历史对话中理解和收集到的各种信息,这些信息序列构成了某一时刻的对话状态,对话系统根据每一时刻的对话状态会选择一个特定动作回应,这个回应的种类是有限的、可枚举的,假设一个多轮对话的状态序列S={S1,S2,S3,……Sn},系统对应需要采取的回应序列A={A1,A2,A3……An},对话策略就是要建立一个从S到A的映射关系,使得对话效果最好。

任务导向型的对话策略优化通常可看作是监督学习或强化学习任务,在基于监督学习的方法中,对策略模型进行训练以模仿专家的行为,此方法通常需要借助领域专家标记的大量数据进行培训,因此,对于特定任务领域,通常需要昂贵且耗时的数据收集和标注;此外,基于监督学习的方法缺乏探索未知对话状态空间的能力,这限制了策略模型找到最佳对话策略的能力。

基于强化学习的方法,机器人可以根据来自环境的奖励信号来改进对话策略,而无需任何专家生成的示例。不幸的是,基于强化学习的方法需要大量的人机交互样本来进行模型优化。这过于昂贵且不切实际,尤其是在冷启动策略模型时,为了克服这个问题,许多研究人员使用用户模拟器来训练基于强化学习的对话机器人。用户模拟的目的是生成自然合理的对话,以便机器人可以从收集的观测数据中可能不存在的轨迹中进行探索和学习,从而克服基于监督学习的方法的主要局限。

但用户模拟器无法针对对话机器人明显不合理的行为(如反复询问已知信息、答非所问等)产生任何明显的负面奖励(惩罚),而人类用户则会在对话中表示不满意,一种常见表现是尽早终止难以忍受的对话。业内已经研究了许多基于神经网络的面向任务的对话策略模型来帮助用户完成任务,但仍然缺乏涉及用户情感的相关研究。主要原因是基于深度学习的方法通常需要大量数据用于模型学习,但是现有的公开标记的面向任务的对话数据通常不包含情感信息;同时,现有用户模拟器也忽略了用户情绪的模拟,因此难以有效地研究涉及用户情绪的任务导向的对话策略生成方法。

发明内容

本发明的目的是克服现有技术存在的不足,提供一种模拟用户情绪的对话策略生成方法。

本发明的目的通过以下技术方案来实现:

一种模拟用户情绪的对话策略生成方法,特点是:包括以下步骤:

S101)建立用户性格与情感表征体系;

对人物性格和情绪进行数字化表示,根据五维人格理论将性格分为开放性、责任心、外向性、宜人性、神经质共五个维度,根据常见面部表情的种类选取欢喜、愤怒、悲哀、惊讶、恐惧和厌恶共六种情绪作为情感维度,用户性格P表示为一个一维向量:

P=[p

其中,括号内各个p表示每种性格维度对应的权重,取值范围均为[0,1]区间内的实数;

用户在t时刻的情绪状态Et表示为一个一维向量:

Et=[Et

其中,括号内各个Et表示每种情绪类别对应的强度,取值范围均为[0,1]区间内的实数,并且各个Et的总和为1;

S102)对环境触发事件进行表示;

需识别出对话过程中的典型事件并根据事件发生情况生成相应的情绪变化;通用性事件因素有:

7)超多轮次:任务导向型对话的目标是通过尽可能少的轮次帮助用户达到目标;冗长的对话引起用户不满;

8)相关回应:机器人回应合理,针对性强,则用户情绪趋于积极、正面;

9)无关回应:如果机器人回应与用户话语无关,则用户满意度下降,情绪偏向负面;

10)重复询问:如果机器人对于已经问过并得到答复的信息再次询问,则用户满意度下降,情绪偏向负面;

11)主动交互:良好设计的机器人主动提供与任务有关的信息,推动和促进任务的完成;这种事件改善用户体验,对情绪有正面影响;

12)合理建议:当可用资源不满足用户的需求或约束条件时,机器人提供其他选择,根据选择的合理性与可行性不同,这类事件使用户情绪发生变化;

结合以上事件是否发生,t时刻的触发事件ATt表示为一个一维向量:

ATt=[Tt

其中,括号内各个Tt表示对应的每种事件在t时刻是否发生,取值是0或者1,0指未发生,1指发生;

S103)建立对话中情绪变化的函数表示;

如只考虑用户性格P与环境触发事件ATt的影响,理论上t时刻的用户情绪变化Vt表示为自变量为P和ATt的一个函数:

Vt=((P·M)*ATt)·W (4)

其中M、W是两个权重矩阵,M的维度是触发事件种类数×情绪类别数,W的维度是用户性格维度数×触发事件种类数;公式中·表示矩阵运算中的点积运算,*表示两个向量对应元素相乘的运算;

用户的情绪状态随着时间推移而逐渐变化,当前时刻的情绪始终会受到前一时刻情绪状态的影响,因此情绪状态的更新需考虑用户的历史情绪信息;情绪变化分为外部和内部两部分,其中外部变化是由环境触发事件刺激引起,内部变化则是原情绪状态随着时间推移逐渐减弱与消退导致,因此,t时刻情绪状态用如下式子计算:

Et=Et-1+F(E1:Et-1,P,Vt)+G(Et-1,P) (5)

其中,F是根据历史情绪状态E1:Et-1、用户性格P、当前情绪变化Vt来计算用户情绪实际改变量的更新函数,G是根据前一时刻情绪状态Et-1和用户性格P模拟内部因素影响的衰退函数;

S104)结合用户情绪选取对话动作。

进一步地,上述的一种模拟用户情绪的对话策略生成方法,其中,步骤S103)中式(4),M是一个6×6的矩阵,W是一个5×6的矩阵。

进一步地,上述的一种模拟用户情绪的对话策略生成方法,其中,步骤S103)中式(5),F(E1:Et-1,P,Vt)、G(Et-1,P)的一种线性实现形式分别为:

F(E1:Et-1,P,Vt)=P·K*Vt (6)

G(Et-1,P)=[-C

其中,K是一个权重矩阵,维度是性格类别数×情绪类别数;len(Et)表示取Et向量的长度,也就是情绪的种类数;C

进一步地,上述的一种模拟用户情绪的对话策略生成方法,其中,K是一个5×6的矩阵。

进一步地,上述的一种模拟用户情绪的对话策略生成方法,其中,步骤S104),结合情绪选取对话动作需一个任务完成型对话策略做基础,情绪的主要影响是在用户感受很糟糕时采取提前中止对话的特殊动作;基本的任务完成型对话策略实现形式,是基于简单规则对话策略、基于有限状态自动机的对话策略、基于表单填充的对话策略或者基于强化学习训练模型的对话策略;策略都支持在未考虑情绪影响的情况下,在对话过程中按对话状态选择某种系统动作。

进一步地,上述的一种模拟用户情绪的对话策略生成方法,其中,用简单的方式模拟强烈的负面情绪导致对话提前终止的情况,也就是当t时刻的四个负面情绪分量Et

本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:

①本发明通过对不同性格的人模拟更复杂的情绪状态和变化过程,显著提高对话策略模型的泛化能力,并允许对话系统对不同个性的用户制定针对性的对话策略;本发明对话策略生成方法可模仿用户在对话中随时终止对话,而不是始终把用户假设为始终配合对话的理想个体,因此可产生比现有的对话系统用户模拟器更接近实际用户的模拟行为,从而允许在更接近真实环境的模拟框架中训练与评估对机器人的对话策略;

②本发明情绪变化模拟方法是特定领域知识无关的事件驱动的,具有良好的领域适应性,只需要很少的改动就可以迁移到其他业务领域;

③本发明还提供一个评估机器人对话策略的视角,通过本发明的方法可以从对话事件与情绪的角度观察和分析机器人对话策略优化的过程,通过负面体验对话数量的减少情况评价训练效果;因此,本发明在对话系统的用户模拟器中创造性地引入了情绪模拟方法,不仅有助于提高了机器人对话策略的泛化性能,又能以更接近真实用户行为的方式生成高价值的对话样本,同时本发明的方法还具有良好的领域适应性,便于推广到具体垂直行业领域,在各类人机对话系统中具有广泛的应用价值。

本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书中所特别指出的结构来实现和获得。

附图说明

图1:本发明的流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现详细说明具体实施方案。

如图1所示,一种模拟用户情绪的对话策略生成方法,具体包括以下步骤:

S101)建立用户性格与情感表征体系;

对话系统面对的用户千变万化,具有不同的性格特质,在对话中会对机器人的回应产生不同的情绪,从而做出不同的反应;对用户在对话中的情绪进行模拟,首先需要对人物性格和情绪进行数字化表示;

典型地,根据五维人格理论将性格分为开放性、责任心、外向性、宜人性、神经质共五个维度;另外,根据常见面部表情的种类选取欢喜、愤怒、悲哀、惊讶、恐惧和厌恶共六种情绪作为情感维度;

性格具有稳定性,通常在一段较长时期内不会变化;而情绪在对话中会随时间而变化,因此对人物性格和情绪分别表示如下:

用户性格P表示为一个一维向量:

P=[p

其中,括号内各个p表示每种性格维度对应的权重,取值范围均为[0,1]区间内的实数;

用户在t时刻的情绪状态Et表示为一个一维向量:

Et=[Et

其中,括号内各个Et表示每种情绪类别对应的强度,取值范围均为[0,1]区间内的实数,并且各个Et的总和为1;

S102)对环境触发事件进行表示;

对话过程中发生的一些事件对用户的情绪状态产生明显的影响,如:答非所问;为模拟真实用户对外部事件的情绪感知,需识别出对话过程中的典型事件并根据事件发生情况生成相应的情绪变化;

任务导向型对话中的情感触发事件取决于特定的任务领域;除了某些互斥情况之外,可假定所有的情感触发因素可以同时发生;通用性事件因素有:

1)超多轮次:任务导向型对话的目标是通过尽可能少的轮次帮助用户达到目标;冗长的对话会引起用户不满;可接受的最大轮次限度会随着具体领域任务的复杂性不同而变化,应结合实际选取,比如15轮;

2)相关回应:机器人回应合理,针对性强,则用户情绪会趋于积极、正面;

3)无关回应:如果机器人回应与用户话语无关,则用户满意度下降,情绪偏向负面;

4)重复询问:如果机器人对于已经问过并得到答复的信息再次询问,则用户满意度下降,情绪偏向负面;

5)主动交互:良好设计的机器人可主动提供与任务有关的信息,推动和促进任务的完成;这种事件改善用户体验,对情绪有正面影响;

6)合理建议:当可用资源不满足用户的需求或约束条件时,机器人可提供其他选择,根据选择的合理性与可行性不同,这类事件使用户情绪发生变化;

结合以上事件是否发生,t时刻的触发事件ATt表示为一个一维向量:

ATt=[Tt

其中,括号内各个Tt表示对应的每种事件在t时刻是否发生,取值是0(未发生)或1(发生);

S103)建立对话中情绪变化的函数表示;

如只考虑用户性格P与环境触发事件ATt的影响,理论上t时刻的用户情绪变化Vt表示为自变量为P和ATt的一个函数:

Vt=((P·M)*ATt)·W (4)

其中M、W是两个权重矩阵,M的维度是触发事件种类数×情绪类别数,W的维度是用户性格维度数×触发事件种类数;M是一个6×6的矩阵,W是一个5×6的矩阵,其元素初始值根据经验感知确定,后续结合系统表现微调优化;公式中·表示矩阵运算中的点积运算,*表示两个向量对应元素相乘的运算;

用户的情绪状态通常随着时间推移而逐渐变化,当前时刻的情绪始终会受到前一时刻情绪状态的影响;情绪状态的更新需考虑用户的历史情绪信息;情绪变化分为外部和内部两部分,其中外部变化是由环境触发事件刺激引起,内部变化则是原情绪状态随着时间推移逐渐减弱与消退导致,因此更具体地,t时刻情绪状态采用如下式子计算:

Et=Et-1+F(E1:Et-1,P,Vt)+G(Et-1,P) (5)

其中F是根据历史情绪状态E1:Et-1、用户性格P、当前情绪变化Vt来计算用户情绪实际改变量的更新函数,G是根据前一时刻情绪状态Et-1和用户性格P模拟内部因素影响的衰退函数;

具体地,F(E1:Et-1,P,Vt)、G(Et-1,P)的一种线性实现形式分别为:

F(E1:Et-1,P,Vt)=P·K*Vt (6)

G(Et-1,P)=[-C

其中,K是一个权重矩阵,维度是性格类别数×情绪类别数;K是一个5×6的矩阵,其元素初始值根据经验感知确定,后续结合系统表现微调优化;len(Et)表示取Et向量的长度,也就是情绪的种类数;C

S104)结合用户情绪选取对话动作

结合情绪选取对话动作需一个任务完成型对话策略做基础,情绪的主要影响是在用户感受很糟糕时采取提前中止对话的特殊动作;基本的任务完成型对话策略有多种实现形式,可以是基于简单规则对话策略、基于有限状态自动机的对话策略、基于表单填充的对话策略或者基于强化学习训练模型的对话策略等;策略都支持在不考虑情绪影响的情况下,在对话过程中按对话状态选择某种系统动作。

具体地,用简单的方式模拟强烈的负面情绪导致对话提前终止的情况,也就是当t时刻的四个负面情绪分量Et

综上所述,本发明通过对不同性格的人模拟更复杂的情绪状态和变化过程,显著提高对话策略模型的泛化能力,并允许对话系统对不同个性的用户制定针对性的对话策略;本发明对话策略生成方法可模仿用户在对话中随时终止对话,而不是始终把用户假设为始终配合对话的理想个体,因此可产生比现有的对话系统用户模拟器更接近实际用户的模拟行为,从而允许在更接近真实环境的模拟框架中训练与评估对机器人的对话策略。

本发明情绪变化模拟方法是特定领域知识无关的事件驱动的,具有良好的领域适应性,只需要很少的改动就可以迁移到其他业务领域。

本发明还提供一个评估机器人对话策略的视角,通过本发明的方法可以从对话事件与情绪的角度观察和分析机器人对话策略优化的过程,通过负面体验对话数量的减少情况评价训练效果。因此,本发明在对话系统的用户模拟器中创造性地引入了情绪模拟方法,不仅有助于提高了机器人对话策略的泛化性能,又能以更接近真实用户行为的方式生成高价值的对话样本,同时本发明的方法还具有良好的领域适应性,便于推广到具体垂直行业领域,在各类人机对话系统中具有广泛的应用价值。

本发明对不同性格的人模拟更复杂的情绪状态和变化过程,显著提高对话策略模型的泛化能力,并允许对话系统对不同个性的用户制定针对性的对话策略;对话策略生成方法可模仿用户在对话中随时终止对话,而不是始终把用户假设为始终配合对话的理想个体,可产生比现有的对话系统用户模拟器更接近实际用户的模拟行为,从而允许在更接近真实环境的模拟框架中训练与评估对机器人的对话策略。本发明情绪变化模拟方法是特定领域知识无关的事件驱动的,具有良好的领域适应性,只需要很少的改动就可以迁移到其他业务领域。评估机器人对话策略的视角,通过本发明的方法可以从对话事件与情绪的角度观察和分析机器人对话策略优化的过程,通过负面体验对话数量的减少情况评价训练效果。在对话系统的用户模拟器中创造性地引入情绪模拟方法,不仅有助于提高了机器人对话策略的泛化性能,又能以更接近真实用户行为的方式生成高价值的对话样本,还具有良好的领域适应性,便于推广到具体垂直行业领域。

需要说明的是:以上所述仅为本发明的优选实施方式,并非用以限定本发明的权利范围;同时以上的描述,对于相关技术领域的专门人士应可明了及实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在申请专利范围中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号