首页> 中国专利> 一种人机混合决策的机器行为在冲突中的协调方法

一种人机混合决策的机器行为在冲突中的协调方法

摘要

本发明涉及人工智能技术领域,具体涉及一种人机混合决策的机器行为在冲突中的协调方法,包括机器计算的超车收益Rvehicle以及人认为的超车收益Rhuman,Rvehicle=△t·v‑p·L,Rhuman=△t·v‑p·L‑M‑E,实施超车动作时的预期奖励为:r(s,a)=E[rt+1|st=s,at=a,st+1=s’],此时,最优策略π*=argmaxπE[R|π],得到的最大回报R=Σγr‑1t=0’rt+1,遵循策略的预期回报为:Vπ(s)=E[Rt|st=s]=Eπ[Σγk∞k=0rt+k+1|st=s,at=a],其中,γk为折扣因子,t为当前时点,k为远期步长,本发明通过上述基于大数据下人机混合决策的机器行为在人‑机决策冲突中的协调方法,可以使得在自动驾驶的过程中,能够有效区分人或机器槽孔,从而有效提升国内的自动驾驶技术,以及整体的行业水平。

著录项

  • 公开/公告号CN112348198A

    专利类型发明专利

  • 公开/公告日2021-02-09

    原文格式PDF

  • 申请/专利权人 上海对外经贸大学;华东师范大学;

    申请/专利号CN202011193756.4

  • 发明设计人 刘峰;齐佳音;李志斌;杨峰;

    申请日2020-10-30

  • 分类号G06N20/00(20190101);B60W60/00(20200101);B60W40/00(20060101);

  • 代理机构32260 无锡市汇诚永信专利代理事务所(普通合伙);

  • 代理人王晨光

  • 地址 201620 上海市徐汇区古北路620号

  • 入库时间 2023-06-19 09:51:02

说明书

技术领域

本发明涉及人工智能技术领域,具体涉及一种人机混合决策的机器行为在冲突中的协调方法。

背景技术

目前的人工智能技术常常应用于汽车的自动驾驶行业,其中,所谓的人-机混合智能决策系统的输出,就包含了决策等机器行为,因此,其不可避免地会在一些具体场景中出现人的经验决策与机器在大数据下以数据驱动的方式进行推断时的决策相矛盾,因此,机器具体的“物理”场景中,最终决策时其“机理”要素与“人力”要素和“事理”要素三者之间如何更加透明的决策,同时又能够有效对机器实现某种决策要素的“增强”或“切段”的干预,就显得尤为重要。

就目前来讲,通常的人机混合决策还十分容易混淆机器指令,发生操作紊乱的情况,同时,人机混合决策还容易对机器本身的协调性产生影响,因此,行业里亟待研究出一种在冲突中协调的方法。

发明内容

针对现有技术中存在的不足,本发明提供了一种人机混合决策的机器行为在冲突中的协调方法,所要解决的技术问题是通过什么样的设计能够使得在自动驾驶的过程中,人或机器的操控能被有效地区分,并达到协调,从而有效提升行业水平和自动驾驶技术。

为解决上述技术问题,本发明提供的技术方案是:一种人机混合决策的机器行为在冲突中的协调方法,包括机器计算的超车收益Rvehicle以及人认为的超车收益Rhuman,还包括超车相对于不超车节约的时间△t、单位时间的价值v、超车事故发生的概率p、超车事故发生的损失L、承担礼让的成本M和人的预期收益E,Rvehicle=△t·v-p·L,Rhuman=△t·v-p·L-M-E;

将车辆动作的集合即人的干预作为A,A=a1,a2,a3,...,ak,将车辆行驶环境的集合作为S,S=s1,s2,…,st,st+1,车辆的超车策略π为S→A的集合映射过程,该动态过程为Pr{rt+1=r,st+1=s|s0,a,r1,…,st-1,at-1,rt,st,at},该过程具有马尔可夫性并简化为p(s’,r|s,a)=Pr{rt+1=r,st+1=s’|st,at},实施超车动作时的预期奖励为:r(s,a)=E[rt+1|st=s,at=a,st+1=s’],此时,最优策略π*=argmaxπE[R|π],得到的最大回报R=Σγr-1t=0’rt+1,遵循策略的预期回报为:Vπ(s)=E[Rt|st=s]=Eπ[Σγk∞k=0rt+k+1|st=s,at=a],其中,γk为折扣因子,t为当前时点,k为远期步长。

本技术方案所带来的有益效果是:通过上述基于大数据下人机混合决策的机器行为在人-机决策冲突中的协调方法,可以使得在自动驾驶的过程中,能够有效区分人或机器槽孔,从而有效提升国内的自动驾驶技术,以及整体的行业水平。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明一种人机混合决策的机器行为在冲突中的协调方法在实施方式中的推断原理图。

具体实施方式

以下结合附图对本发明的优选实例进行说明,应当理解,此处所描述的优选实例仅用于说明和解释本发明,并不用于限定本发明。

如图1所示,本发明一种人机混合决策的机器行为在冲突中的协调方法,有三种典型的决策推断过程:

Type1:对于处于“物理”环境中的车A决策需要满足“事理”、“机理”、“人理”三大要素,如车A对车B实施“超车”的决策,在“机理”要素和“人理”要素下可判定执行的可行性,执行方式通过满足“事理”要素来判定实时决策的方式方法;

Type2:在车A继续跟随车C实施“跟车”决策时,根据动态变化的“物理”环境来决策,从“事理”要素与“机理”要素来判断具备继续行驶的可行性(行车雷达监测直行道上并无障碍,且老人并没有移动)。人-机混合决策系统此时同时需耦合“人理”要素进行决策,如考虑道德等要素则会对车A实施“制动”的决策;

Type3:在车A继续跟随车C实施“跟车”决策时,根据动态变化的“物理”环境来决策,从“事理”要素与“机理”要素来判断具备继续行驶的可行性(行车雷达监测直行道上并无障碍,且老人并没有移动)。人-机混合决策系统此时根据历史数据(机器根据等待行人的动作特征分析历次在同样路口形成都是给车让人,并无任何意图走人行道的经验)进行学习后的策略,“人理”判定实施“行车”。但在汽车上的司机决策仍然存在危险进行“紧急制动”时,人-机混合决策系统能够有效对机器实现对“人理”增强的干预。

因此,根据上述三种典型的推断过程,我们可以得出人-机混合决策系统的形式化判定如下:机器计算的超车收益Rvehicle=△t·v-p·L,人认为的超车收益Rhuman=△t·v-p·L-M-E,判定条件为Rvehicle>0时实施超车,Rhuman>0时实施超车,其中△t为超车相对于不超车节约的时间,v是单位时间的价值,p是超车事故发生的概率,L是超车事故发生的损失,M为愿意承担礼让的成本,E代表人的预期收益。

由于人相对汽车更加复杂,因此人会受到文化环境和社交习惯的影响,会考虑道德因素或情感因素,更倾向于采取礼让的思维习惯而放弃超车行为,M在式中作为减项可以理解为超车会引发一定的道德风险或心里损失。此外,人具有一定的惰性,收益过小的事情可能不愿意去实施,达到一定的临界值才能激发人的行动,因此在人的决策模型中加入了期望收益E,而在机器决策中只考虑了收益是否大于成本,作为决定行动的依据。

将车辆动作的集合即人的干预作为A,A=a1,a2,a3,...,ak,将车辆行驶环境的集合作为S,S=s1,s2,…,st,st+1,车辆的超车策略π为S→A的集合映射过程,该动态过程为Pr{rt+1=r,st+1=s|s0,a,r1,…,st-1,at-1,rt,st,at},该过程具有马尔可夫性并简化为p(s’,r|s,a)=Pr{rt+1=r,st+1=s’|st,at},实施超车动作时的预期奖励为:r(s,a)=E[rt+1|st=s,at=a,st+1=s’],此时,最优策略π*=argmaxπE[R|π],得到的最大回报R=Σγr-1t=0’rt+1,遵循策略的预期回报为:Vπ(s)=E[Rt|st=s]=Eπ[Σγk∞k=0rt+k+1|st=s,at=a],其中,γk为折扣因子,t为当前时点,k为远期步长。

综上所述,通过上述基于大数据下人机混合决策的机器行为在人-机决策冲突中的协调方法,可以使得在自动驾驶的过程中,能够有效区分人或机器槽孔,从而有效提升国内的自动驾驶技术,以及整体的行业水平。

最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号