首页> 中国专利> 一种基于强化学习的刀具路径生成与优化方法

一种基于强化学习的刀具路径生成与优化方法

摘要

本发明属于人工智能和计算机辅助相关技术领域,其公开了一种基于强化学习的刀具路径生成与优化方法,该方法包括以下步骤:(1)将加工信息输入到环境仿真模型;(2)环境仿真模型依据来自深度神经网络模型的动作值产生状态值,并将状态值输出给深度神经网络模型,深度神经网络模型根据状态值作产生新的动作值,并将新的动作值传输给环境仿真模型,如此两者不断交互,使得刀具从加工起始点到达加工终点,进而生成刀具路径;(3)重复步骤(2)以获得多条刀具路径,将多条刀具路径输入到路径评判模块,路径评判模块对每刀具路径做出判断并输出评判分数,将评判分数最高的刀具路径作为最终的刀具路径。本发明提高精度及效率,适用性较强。

著录项

  • 公开/公告号CN109491320A

    专利类型发明专利

  • 公开/公告日2019-03-19

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201811283054.8

  • 申请日2018-10-31

  • 分类号G05B19/19(20060101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人孔娜;曹葆青

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2024-02-19 08:07:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-06

    授权

    授权

  • 2019-04-12

    实质审查的生效 IPC(主分类):G05B19/19 申请日:20181031

    实质审查的生效

  • 2019-03-19

    公开

    公开

说明书

技术领域

本发明属于人工智能和计算机辅助相关技术领域,更具体地,涉及一种基于强化学习的刀具路径生成与优化方法。

背景技术

为了提高数控机床的加工技术的应用水平,降低数控加工的加工成本以及确保零件与产品的加工质量,无论是国内还是国外对数控加工中的刀具轨迹优化技术做了大量的研究工作。在数控加工过程中,当刀具轨迹骤然变化时,有可能会导致刀具瞬间铣削力急剧增大,机床和刀具的振动幅度增加,这样不仅会降低零件或产品的加工精度,还会降低机床和刀具的使用寿命。因此,刀具路径的研究具有十分重要的理论意义和经济效益。

目前,本领域相关技术人员已经做了一些研究,如采用了机器学习技术,然而当前的加工轨迹生成方法大都是基于几何形状而没有考虑实际加工过程中的动力学问题,导致刀具路径的生成速度较差、加速特性不佳、与实际机械加工过程的契合度较低、需要人为参与、灵活性较差等技术问题。相应地,本领域存在发展一种速度较好的基于强化学习的刀具路径生成与优化方法的技术需求。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于强化学习的刀具路径生成与优化方法,其基于现有刀具路径的生成特点,研究及设计了一种速度较好的基于强化学习的刀具路径生成与优化方法。所述方法结合了强化学习强大的决策能力及深度神经网络强大的感知能力,且考虑了实际加工过程中的运动学及动力学特性,能够在公差带之中快速、准确地规划一条更加符合实际加工过程的刀具路径。

为实现上述目的,本发明提供了一种基于强化学习的刀具路径生成及优化方法,该方法包括以下步骤:

(1)将加工信息输入到环境仿真模型,所述环境仿真模型依据所述加工信息产生仿真刀具加工环境及加工的公差带,并将所述公差带输入到所述仿真刀具加工环境中;

(2)所述环境仿真模型依据来自训练好的深度神经网络模型的动作值产生状态值,并将所述状态值输出给所述深度神经网络模型,所述深度神经网络模型根据接受到的所述状态值作前向推导以产生新的动作值,并将新的动作值传输给所述环境仿真模型,如此所述环境仿真模型与所述深度神经网络模型不断交互,使得刀具不断做出动作以从加工起始点沿着所述公差带延伸方向到达加工终点,进而生成一条刀具路径;

(3)重复步骤(2)以获得多条刀具路径,将多条所述刀具路径输入到路径评判模块,所述路径评判模块对接收到的每一条刀具路径做出判断并输出一个评判分数,将多条所述刀具路径中评判分数最高的刀具路径作为最终的刀具路径。

进一步地,所述加工信息包括工件轮廓信息、公差带带宽及刀具半径。

进一步地,步骤(1)之前还包括构建所述环境仿真模型的步骤,所述环境仿真模型的构建包括以下步骤:首先,对实际加工过程进行建模以得到刀具加工模型,且对加工过程中机床给予刀具的动力及摩擦力进行分析,以抽象出加工过程中的刀具动力学过程;接着,对所述刀具加工模型中的摩擦系数进行辨识;最后,采用物理引擎构建仿真环境,进而得到所述环境仿真模型。

进一步地,所述环境仿真模型根据接受到的该动作值仿真计算出下一刻刀具所处的状态,并将该状态以状态值的形式传输给所述深度神经网络模型。

进一步地,所述环境仿真模型还根据接受到的动作值生成奖赏值并将生成的奖赏值传输给所述深度神经网络模型,所述奖赏值用于所述深度神经网络模型的训练。

进一步地,所述深度神经网络模型根据接受到的所述状态值再做前向推导以生成一个动作空间的分布,并选取最优动作值来决定下一步的动作值。

进一步地,步骤(2)之前还包括构建及训练所述深度神经网络模型的步骤。

进一步地,构建所述深度神经网络模型时,采用开源机器学习框架搭建整个深度神经网络模型的结构,并利用近端策略优化算法建立训练和预测的数据流通道。

进一步地,所述环境仿真模型与所述深度神经网络模型交互多轮后,所述深度神经网络模型将之前存储的奖赏值及状态值传输给值函数估计器,所述值函数估计器产生批量的优势值并将所述优势值传输给所述深度神经网络模型,进而结合所述状态值、所述奖赏值及所述优势值来训练所述神经网络模型,反复进行直至所述深度神经网络模型收敛到预定状态。

进一步地,所述深度神经网络模型训练时采用的公差带不是固定的加工公差带,而是所述环境仿真模型随机生成的公差带,以提高所述深度神经网络模型的泛化能力。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供的基于强化学习的刀具路径生成与优化方法主要具有以下有益效果:

1.该方法结合了强化学习的决策能力及深度神经网络强大的感知能力,如此实现了快速、准确地规划符合实际加工过程中运动学和动力学特性的刀具路径,适用性较强。

2.采用物理引擎构建仿真环境,进而得到所述环境仿真模型,不仅仅模拟了加工过程中刀具与工件的几何关系,而且模拟了刀具运动过程中的动力学特性,这样保证生成的刀具路径既避免了干涉,使得路径在内外公差带之间,还符合真实的加工动力学特性,保证了加工的精度和效率。

3.所述方法通过搭建仿真的加工环境模拟加工过程中刀具的运动学和动力学过程,生成更加符合实际加工过程的刀具路径,从而在实际加工过程中能够获得具有更好速度及加速度特性的走刀轨迹。

4.所述方法能够应对不同刀具轨迹和不同的公差带,无需人工介入,自动生成与优化刀具的走刀轨迹,灵活性较好,适用性较强,且减小了标注数据的需求量。

附图说明

图1是本发明提供的基于强化学习的刀具路径生成与优化方法的流程示意图。

图2是图1中的基于强化学习的刀具路径生成与优化方法涉及的深度神经网络模型的示意图。

图3是图2中的深度神经网络模型、环境仿真模型与值函数估计器之间的交互示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参阅图1、图2及图3,本发明提供的基于强化学习的刀具路径生成与优化方法主要包括以下步骤:

步骤一,将加工信息输入到环境仿真模型,所述环境仿真模型依据所述加工信息产生仿真刀具加工环境及加工的公差带,并将所述公差带输入到所述仿真刀具加工环境中。

具体地,将加工信息输入到所述环境仿真模型,所述环境仿真模型根据所述加工信息中的加工工程中零件的形状和需求的精度要求生成一个加工的公差带及仿真刀具加工环境,并将所述公差带输入到所述仿真刀具加工环境中,让刀具在所述公差带之内运动。所述加工信息包括加工过程中的工件轮廓信息、公差带带宽、刀具半径、机床特性等。所述环境仿真模型根据所述加工信息进行一系列转换以得到可训练的公差带并且设置机床加工过程中刀具走刀的加速度等加工量来创建对应的模拟刀具走刀的仿真刀具加工环境。

步骤一之前还包括建立所述环境仿真模型的步骤,具体为,首先,对实际加工工程进行建模,具体针对机床加工过程中刀具的行进过程进行建模,对刀具加工过程中机床给予的动力及摩擦力等进行分析,以抽象出加工过程中的刀具动力学过程。随后进行参数的辨识,刀具加工模型中的摩擦系数等参数进行辨识,以更加准确地描述刀具加工过程。接着,采用物理引擎及计算机图形学库构建一个仿真的环境,进而得到所述环境仿真模型。所述环境仿真模型能够将整个加工过程可视化,且可将刀具在加工过程中的状态量表示出来。

步骤二,所述环境仿真模型依据来自训练好的深度神经网络模型的动作值产生状态值,并将所述状态值输出给所述深度神经网络模型,所述深度神经网络模型根据接受到的所述状态值作前向推导以产生新的动作值,并将新的动作值传输给所述环境仿真模型,如此所述环境仿真模型与所述深度神经网络模型不断交互,使得刀具不断做出动作以从加工起始点沿着所述公差带延伸方向到达加工终点,进而生成一条刀具路径。

具体地,所述环境仿真模型能够接受来自所述深度神经网络模型的动作值,该动作值表示刀具的几种连续动作形式的组合,例如向右加速、向左加速等。所述环境仿真模型根据接受到的该动作值仿真计算出下一刻刀具所处的状态,并将该状态以状态值的形式传输给所述深度神经网络模型,同时根据预先设定的规则生成一个奖赏值并将所述奖赏值也输出给所述深度神经网络模型。所述奖赏值用于所述深度神经网络模型的训练。

所述深度神经网络模型根据接受到所述状态值再做一次前向推导以生成一个动作空间的分布,并选取最优动作值来决定下一步的动作,同时将得到的最优动作值传输给所述环境仿真模型。

所述深度神经网络模型与所述环境仿真模型如此交互不断的进行下去,在仿真刀具加工环境下,刀具会不断做出动作以自加工起始点沿着所述公差带延伸方向到达加工终点,最终完成走刀过程,这样就生成了一条刀具路径。

步骤二之前还包括构建及训练所述深度神经网络模型的步骤。具体地,采用开源机器学习框架搭建起整个深度神经网络结构,并利用近端策略优化算法建立训练和预测的数据流通道。接着,训练所述深度神经网络模型。训练时无需利用真实的加工公差带,随机的生成一条公差带和刀具半径,并运行仿真刀具加工环境,所述环境仿真模型产生状态值和奖赏值,并把得到的状态值及奖赏值传输给所述深度神经网络模型,所述深度神经网络模型产生新的动作值并将新的动作值传输给所述环境仿真模型。所述环境仿真模型与所述深度神经网络模型交互几轮后,所述深度神经网络模型将之前存储的奖赏值(Reward)及状态值(State)传输给值函数估计器,所述值函数估计器产生批量的优势值(AdvantageValue),进而结合所述状态值、所述奖赏值及所述优势值来训练所述神经网络模型,反复进行直至所述深度神经网络模型收敛到一个理想的状态。

步骤三,重复步骤二以获得多条刀具路径,将多条所述刀具路径输入到路径评判模块,所述路径评判模块对接收到的每一条刀具路径做出判断并输出一个评判分数,将多条所述刀具路径中评判分数最高的刀具路径作为最终的刀具路径。

具体地,为了完善优化,在同一个加工信息下生成多条刀具路径,并将多条所述刀具路径输入到所述路径评判模块,所述路径评判模块对每一条刀具路径进行评判并给出评判分数,选取一条最优刀具路径作为最终的刀具路径,所述最优刀具路径对应的评判分数是所有所述刀具路径对应的评判分数中的最大值。

本发明提供的基于强化学习的刀具路径生成与优化方法,该方法通过强化学习的方式,利用物理引擎搭建仿真刀具加工环境,不仅仅模拟加工过程中刀具与工件的几何关系,而且模拟了刀具运动过程中的动力学特性来生成刀路,这样保证生成的刀具路径既避免了干涉,使得路径在内外公差带之间,还符合真实的加工动力学特性,保证了加工的精度和效率。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号