首页> 中国专利> 一种无人驾驶汽车伦理行为的确定方法、系统及智能汽车

一种无人驾驶汽车伦理行为的确定方法、系统及智能汽车

摘要

本发明公开了一种基于伦理决策的无人驾驶汽车伦理行为确定方法,包括:获取两个车道上的障碍物特征数据;将障碍物特征数据输入至伦理决策模型中,确定无人驾驶汽车的伦理行为;伦理决策模型的确定包括:采用多组两个车道上的障碍物特征数据,获得各障碍物特征数据的正向激励数量的统计结果、并确定无人驾驶汽车的伦理行为。本发明采用无人驾驶汽车伦理困境测试或仿真场景,提出了自下而上的深度强化学习方式的伦理决策生成或实现的方法,从周围环境和人、物等特征信息进行深度感知,选取被保护的特征多一方,作为伦理执行行为,再通过人类伦理规则进行判断,避免了人类伦理决策过程中存在偏面性和歧视性缺点。

著录项

  • 公开/公告号CN112926748A

    专利类型发明专利

  • 公开/公告日2021-06-08

    原文格式PDF

  • 申请/专利权人 华东交通大学;南昌工程学院;

    申请/专利号CN202110400739.1

  • 发明设计人 刘国满;罗玉峰;盛敬;

    申请日2021-04-14

  • 分类号G06N20/00(20190101);G06F30/27(20200101);

  • 代理机构61223 西安铭泽知识产权代理事务所(普通合伙);

  • 代理人张举

  • 地址 330013 江西省南昌市经济技术开发区双港东大街808号

  • 入库时间 2023-06-19 11:19:16

说明书

技术领域

本发明涉及机器伦理决策技术领域,更具体的涉及一种基于伦理决策的无人驾驶汽车伦理行为的确定方法、系统及智能汽车。

背景技术

美国麻省理工学院于2016年部署了“道德机器”(Moral Machine)这一在线实验平台,旨在探索无人驾驶汽车面临的道德困境。调查结果显示,在道德机器实验中,呈现出三种十分强烈的偏好,分别为:保护人类而不是保护动物,保护更多的生命,保护年轻的生命。在研究者看来,这三个偏好应该为法律和政策制定者着重考虑。2011年,由加州州立理工大学的帕特里克·林(Patrick Lin)领衔,联合同事基思·阿布尼(Keith Abney),以及南加利福尼亚大学计算机科学教授乔治·拜柯(George A.Bekey)三人出版了世界上第一部以“机器人伦理学”(Robot Ethics)命名的学术专著,并旗帜鲜明地提出了“机器人伦理学(Roboethics)作为应用伦理学的新学科”的论断。雅典国立技术大学电气和计算机工程学院的Spyros G.Tzafestas教授把“机器人伦理学”当作一门新兴应用伦理学学科,并率先出版了国际上第一本通识教材《机器人伦理学:学科导论》,对“机器人伦理学”的基本概念、研究对象、基本伦理原则、主要伦理问题以及研究方法等作了介绍。

当前针对智能机器伦理决策的研究方法,主要从规则推理和基于脑神经科学等方向来进行机器伦理决策的设计。

基于规则推理:基于规则推理是机器根据预先设定伦理决策原则来进行推理决策。该方法采用的是一种理性决策设计方式,具有较强的逻辑性和规则性。根据确定规则进行推理使得智能机器可以快速地做出决策,且其伦理决策具有较强的解释性和透明性。如Bringsjord S等人通过分析机器人三原则的不足,总结了两种基本机器决策原则:(1)机器只做允许的动作;(2)机器在做强制性动作时会受到其他可用动作的制约。还有Anderson M等人设计了一种伦理决策顾问系统(MedEthEx)用以解决医疗机器护理中涉及人机交互伦理问题。

基于脑神经科学:主要分成两种算法,第1种算法是基于学习算法,利用机器学习等算法模型模仿人脑决策时神经运行机制来实现机器决策设计的方法。主要原理是机器对环境的不断学习从而获得决策经验,实际应用中是通过对人类决策数据的学习,应用神经网络或贝叶斯学习等机器学习方法得到人类伦理决策规律,但这种机器学习所获得的伦理决策,具有当前人类伦理决策所存在缺点:有些伦理具有歧视性和偏面性。第2种算法是基于脑认知结构,这种算法利用计算模型模拟脑认知结构和机制,是智能机器研究的重要方向。

当前很多智能机器决策方面,涉及到伦理方面决策很少,即使采取机器学习方式,主要根据人类驾驶数据来学习,导致机器伦理与人类伦理一样,存在偏面性和歧视性等方面问题。

发明内容

本发明实施例提供一种基于伦理决策的无人驾驶汽车伦理行为确定方法,用以解决上述背景技术中提出的问题。

本发明实施例提供一种基于伦理决策的无人驾驶汽车伦理行为确定方法,包括:

获取两个车道上的障碍物特征数据;

将障碍物特征数据输入至伦理决策模型中,确定无人驾驶汽车的伦理行为;

其中,所述伦理决策模型的确定包括:

根据多组两个车道上的障碍物特征数据,获得各障碍物特征数据的正向激励数量的统计结果;

根据两个车道上的障碍物特征数据对应的正向激励数量的统计结果,确定无人驾驶汽车的伦理行为。

进一步地,所述根据两个车道上的障碍物特征数据对应的正向激励数量的统计结果,确定无人驾驶汽车的伦理行为,包括:

当第一个车道上正向激励多的障碍物特征数据数量、大于第二个车道上正向激励多的障碍物特征数据数量时,将第一个车道作为无人驾驶汽车被保护对象,将第二个车道作为无人驾驶汽车被碰撞对象。

进一步地,本发明实施例提供的基于伦理决策的无人驾驶汽车伦理行为确定方法,还包括:

通过人类伦理判断标准,对无人驾驶汽车的伦理行为的正误进行判断,若无人驾驶汽车的伦理行正确时,则对被保护对象的障碍物特征数据进行正向激励、并对对应的正向激励数量加1,及对被碰撞对象的障碍物特征数据进行负向激励、并对对应的正向激励数量减1;

重新统计、并更新所述伦理决策模型中各障碍物特征数据的正向激励数量的统计结果。

进一步地,本发明实施例提供的基于伦理决策的无人驾驶汽车伦理行为确定方法,还包括:

采用深度强化学习方法,识别、比较两车道上的障碍物特征。

进一步地,所述障碍物特征数据,包括:

无人驾驶汽车与车道上障碍物之间距离、无人驾驶汽车当前运动速度、障碍物当前运动速度、障碍物类型、障碍物外部特征;其中,所述障碍物外部特征包括:高矮、胖瘦、黑白、性别、年龄、数量、身份、价值。

本发明实施例还提供了一种基于伦理决策的无人驾驶汽车伦理行为确定系统,包括:

数据感知模块,用于采集两个车道上的障碍物特征数据;

伦理行为确定模块,用于将障碍物特征数据输入至伦理决策模型中,确定无人驾驶汽车的伦理行为;

其中,所述伦理决策模型包括:

信息统计单元,用于根据多组两个车道上的障碍物特征数据,获得各障碍物特征数据的正向激励数量的统计结果;

信息学习单元,用于根据两个车道上的障碍物特征数据对应的正向激励数量的统计结果,确定无人驾驶汽车的伦理行为。

进一步地,所述信息学习单元,具体用于,

当第一个车道上正向激励多的障碍物特征数据数量、大于第二个车道上正向激励多的障碍物特征数据数量时,将第一个车道作为无人驾驶汽车被保护对象,将第二个车道作为无人驾驶汽车被碰撞对象。

进一步地,本发明实施例提供的基于伦理决策的无人驾驶汽车伦理行为确定系统,还包括:模型更新模块;

所述模型更新模块,用于通过人类伦理判断标准,对无人驾驶汽车的伦理行为的正误进行判断,若无人驾驶汽车的伦理行正确时,则对被保护对象的障碍物特征数据进行正向激励、并对对应的正向激励数量加1,及对被碰撞对象的障碍物特征数据进行负向激励、并对对应的正向激励数量减1;及

用于重新统计、并更新所述伦理决策模型中各障碍物特征数据的正向激励数量的统计结果。

本发明实施例还提供了一种智能汽车,包括存储器和处理器,所述存储器存储有程序,所述处理器执行程序时实现上述所述方法的步骤。

本发明实施例提供一种基于伦理决策的无人驾驶汽车伦理行为确定方法,与现有技术相比,其有益效果如下:

本发明采用无人驾驶汽车伦理困境测试或仿真场景,提出了自下而上的深度强化学习方式的伦理决策模型,从周围环境和人、物等特征信息进行深度感知,并通过人类伦理规则进行判断,对其执行的结果进行判断,采取正向和负向反馈方式,对伦理行为进行激励,以便强化执行的伦理行为,以便其机器伦理行为满足人类的道德标准;一方面机器采取特征分析,选取正向激励最大化一方,作为伦理执行行为,使得自动生成的伦理决策不完全等同于人类的伦理道德,使得机器伦理更具有公平性,避免了人类伦理决策过程中存在偏面性和歧视性缺点;另一方面,其采取伦理行为是根据人类判断,作出相应的反馈和强化,又能保证其生成的伦理决策模型符合人类的道德。

附图说明

图1为本发明实施例提供的一种基于伦理决策的无人驾驶汽车伦理行为确定方法流程图;

图2为为本发明实施例提供的深度强化学习的伦理决策模型。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,本发明实施例提供一种基于伦理决策的无人驾驶汽车伦理行为确定方法,该方法包括:

步骤1:采用深度强化学习方法,获取两车道上的障碍物特征数据。

步骤2:将障碍物特征数据输入至伦理决策模型中,确定无人驾驶汽车的伦理行为;其中,所述伦理决策模型的确定包括:

步骤21,根据多组两个车道上的障碍物特征数据,获得各障碍物特征数据的正向激励数量的统计结果.

步骤22,根据两个车道上的障碍物特征数据对应的正向激励数量的统计结果,确定无人驾驶汽车的伦理行为。

进一步地,当第一个车道上正向激励多的障碍物特征数据数量、大于第二个车道上正向激励多的障碍物特征数据数量时,将第一个车道作为无人驾驶汽车被保护对象,将第二个车道作为无人驾驶汽车被碰撞对象。即根据正向激励多的特征个数多少来确定伦理行为,比如,一个车道障碍物特征,具有2个正向激励多的特征,而另外一个车道障碍物特征,具有3个正向激励多的特征,则选择后者作为被保护对象。

步骤3:通过人类伦理判断标准,对无人驾驶汽车的伦理行为的正误进行判断,若无人驾驶汽车的伦理行正确时,则对被保护对象的障碍物特征数据进行正向激励、并对对应的正向激励数量加1,及对被碰撞对象的障碍物特征数据进行负向激励、并对对应的正向激励数量减1。

步骤4:重新统计、并更新所述伦理决策模型中各障碍物特征数据的正向激励数量的统计结果。

具体地,本发明的工作原理为:获取车道上的无人驾驶汽车与障碍物之间距离以及障碍物特征数据,由感知模块对获取的特征数据进行处理、判断和识别、比较,将障碍物特征数据识别结果输入至无人驾驶汽车伦理决策模块中,由伦理决策模块根据以往各特征被保护次数统计结果,选择被保护次数为正的特征多的一方,作为被保护的对象,确定无人驾驶汽车的伦理决策行为;再由人类伦理判断标准,对无人驾驶汽车所执行的伦理行为结果进行评估和判断,若认为符合人类伦理标准,则对被保护车道上障碍物特征进行正向激励,其对应的特征次数加1,进行该特征保护的强化;而对未保护车道上障碍物特征进行负向激励,其对应的特征次数减1,进行该特征保护的弱化,且伦理决策模块重新统计和更新被保护的特征次数。

上述步骤1的具体说明:

搭建伦理困境测试场景,包括两车道上有不同类型的障碍物,如:人、车或动物等,无人驾驶汽车由于刹车失灵或者不得不发生碰撞时,无人驾驶汽车如何作出选择进行测试或仿真。

无人驾驶汽车利用各种传感器或摄像头来采集无人驾驶汽车周围或前方车道上障碍物的特征数据,如:无人驾驶汽车与车道上各障碍物之间距离、无人驾驶汽车当前运动速度、障碍物的当前运动速度、类型、外部特征,比如:高矮、胖瘦、黑白、性别、年龄等等。

上述步骤2~4的具体说明分为两种情况:

第一情况:当两个车道上的障碍物为两个不同类型的障碍物时,采用多组两个车道上的障碍物特征数据,通过人类伦理判断标准,获得两个障碍物特征数据的正向激励数量;并将正向激励数量多的障碍物,作为被碰撞物。

具体地,当两个车道上障碍物为两个不同类型的障碍物,如:一个人,一个动物,则无人驾驶汽车感知模块识别出障碍物类型情况下,直接根据以往类型特征正向激励统计情况,选择正向激励多的类型作为被碰撞的对象,这里不再考虑障碍物其他方面特征进行比较。即对特征数据,运用深度学习算法,判断出各障碍物的特征,并对车道上两个障碍物的特征进行比较。若一个人,另一个为非人类,根据人工智能的准则,则优先保护人类原则进行保护。

第二种情况:当两个车道上的障碍物为两个同类型的障碍物时,

采用多组两个车道上的障碍物特征数据,通过人类伦理判断标准,获得两个障碍物特征数据的正向激励数量;将正向激励数量多的障碍物,作为被碰撞物;再次通过人类伦理判断标准,确定被碰撞物作为正向激励是否正确,如果正确,则将该被碰撞物作为最终被碰撞物。

进一步地,再次通过人类伦理判断标准,确定被碰撞物作为正向激励是否正确,如果正确,则给出正向激励反馈,如果错误,则给出负向激励反馈。

进一步地,获得正向激励反馈时,对正向激励对应的障碍物特征计数,更新伦理决策模型。

具体地,当两个车道上障碍物为同类型的障碍物时,如:同为动物,或者同为人时,则需要根据障碍物其他特征,如:大小、高矮、胖瘦、黑白以及身份地位高低等等特征来进行识别和比较,根据以往特征的正向激励统计情况下,选择正向激励的特征多的一方,作为被碰撞一方。并将选择的伦理行为,根据人类伦理原则来判断是否正确,若认为正确,则给予该伦理行为进行正向激励;否则,给予伦理行为进行负向激励,根据人类反馈情况,重新统计和更新无人驾驶汽车伦理决策模型。

还有,无人驾驶伦理决策系统,根据以往特征的统计结果,比如说,高矮来说,若以往统计结果,选择高的人进行碰撞的正向激励多于矮的人作为碰撞的正向激励,则这次无人驾驶将选择高的人作为碰撞物。而对于胖瘦特征来说,根据以往统计结果,选择瘦的人进行碰撞的正向激励少于胖的人作为碰撞的正向激励,则这次在该特征,将会选择胖的人作为碰撞物。最后就黑白特征来说,根据以往统计结果,选择皮肤白的人进行碰撞的正向激励少于黑的人进行碰撞的正向激励,则无人驾驶汽车这次将选择白的人作为被保护对象。假如这次两个车道上人,一个人高瘦黑,另一个人相对来说,矮胖白,则前者作为碰撞物的正向激励特征有两个,分别为高和黑;而后者只有一个特征:胖,根据正向激励的特征多的原则,则这次选择前者作为碰撞物,进行车道选择决策;

进一步地,由人类伦理判断结果,对无人驾驶汽车所采取伦理行为进行判断,若认为正确,则反馈给无人驾驶汽车一个正向激励,若认为错误,则反馈给无人驾驶汽车的一个负向激励,以便对无人驾驶汽车伦理决策进行强化学习。

进一步地,无人驾驶伦理决策系统根据人类判断所反馈的结果,重新统计和更新以往伦理决策数据,若人类给予这次为正向激励,则将前者高、瘦和黑三个特征作为碰撞的正向激励都加1,这样又生成了一个新的无人驾驶伦理决策系统。

参见图2,本发明实施例提供的一种基于伦理决策的无人驾驶汽车伦理行为确定系统,包括:

数据感知模块,用于采集两个车道上的障碍物特征数据。

伦理行为确定模块,用于将障碍物特征数据输入至伦理决策模型中,确定无人驾驶汽车的伦理行为。

其中,所述伦理决策模型包括:

信息统计单元,用于根据多组两个车道上的障碍物特征数据,获得各障碍物特征数据的正向激励数量的统计结果。

信息学习单元,用于根据两个车道上的障碍物特征数据对应的正向激励数量的统计结果,确定无人驾驶汽车的伦理行为。

模型更新模块;用于通过人类伦理判断标准,对无人驾驶汽车的伦理行为的正误进行判断,若无人驾驶汽车的伦理行正确时,则对被保护对象的障碍物特征数据进行正向激励、并对对应的正向激励数量加1,及对被碰撞对象的障碍物特征数据进行负向激励、并对对应的正向激励数量减1;及用于重新统计、并更新所述伦理决策模型中各障碍物特征数据的正向激励数量的统计结果。

需要说明的是,由于该系统与上面的方法为同一发明构思,因此,该系统的具体说明不再赘述。

以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号