首页> 中国专利> 一种提高MADDPG算法收敛速度的方法及其应用

一种提高MADDPG算法收敛速度的方法及其应用

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种提高MADDPG算法收敛速度的方法及其应用，获取多智能体环境；依据多智能体环境加载MADDPG算法训练框架；依据MADDPG算法训练框架获取训练参数，将训练参数输入到引入距离参数奖励机制的奖励函数中，进行网络更新，保存训练结果。优点：本发明在引入person‑distance个体‑距离奖励机制后，由于距离参数的加入，使得贝尔曼方程每次更新时，单个智能体采取动作后得到的奖励值变化明显，这奖励值因为捕食者和逃逸者之间的距离不断变化而变化，Critic网络在策略更新时能更好的识别出不同动作值之间奖励值的差异，有效的解决了延迟奖励问。

著录项

公开/公告号CN112651486A

专利类型发明专利
公开/公告日2021-04-13

原文格式PDF
申请/专利权人中国人民解放军陆军工程大学;
展开▼

申请/专利号CN202011428745.X
发明设计人张婷婷;董会;
展开▼

申请日2020-12-09
分类号G06N3/04(20060101);G06N3/08(20060101);
代理机构32224 南京纵横知识产权代理有限公司;
代理人董建林
地址 210014 江苏省南京市秦淮区后标营路88号
入库时间 2023-06-19 10:35:20

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-15

发明专利申请公布后的驳回 IPC(主分类):G06N 3/04 专利申请号:202011428745X 申请公布日:20210413

发明专利申请公布后的驳回

相似文献

专利
中文文献
外文文献

1. 一种提高MADDPG算法收敛速度的方法及其应用 [P] . 中国专利： CN112651486A . 2021-04-13
2. 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法 [P] . 中国专利： CN110781915A . 2020-02-11
3. FEEDBACK INTERFERENCE REMOVING APPARATUS OF AN RF RELAY AND A METHOD THEREOF CAPABLE OF INCREASING CONVERGENCE SPEED OF AN LMS ALGORITHM [P] . 韩国专利： KR20120078129A . 2012-07-10

机译：射频继电器的反馈干扰消除装置及其提高LMS算法收敛速度的方法
4. The ‘Property Identification Method’ (“PIM”) is a novel algorithm through which a Real Estate Authority and/or Conveyancing data is created through image-processing a document such as a Council/Shire Rates Notice. This invention establishes a unique algorithm incorporating techniques such deep learning segmentation and computer vision to decode property information. This application utilises computer-implemented technology configured in such manner as to enable conveyancers and real estate agents to automate the creation of client files. [P] . AU2020102233A4 . 2020-10-29

机译： “财产识别方法”（“ PIM”）是一种新颖的算法，通过该算法，可以通过对文件（如市议会/房屋价格通知）进行图像处理来创建房地产管理局和/或产权转让数据。本发明建立了一种独特的算法，该算法结合了诸如深度学习分段和计算机视觉之类的技术来解码属性信息。该应用程序利用以某种方式配置的计算机实现的技术，以使运输商和房地产经纪人能够自动创建客户端文件。
5. Method for speeding up the convergence of the back-propagation algorithm applied to realize the learning process in a neural network of the multilayer perceptron type [P] . 美国专利： US6016384A . 2000-01-18

机译：用于加快多层感知器型神经网络中学习过程的反向传播算法收敛速度的方法