【24h】

A modification of gradient policy in reinforcement learning procedure

机译:加固学习过程中渐变政策的修改

获取原文

摘要

The gradient of a scalar function is frequently used in various areas of mathematics. In informatics it can be used, for example, in the process of learning procedure of many control systems. The key observation is that gradient, if it is a non-zero vector, is a vector in the direction of greatest rate of the scalar function. In this contribution we show a method how to determine the direction(s) even if the gradient is zero vector. We show that this can be done with the knowledge which students have it their stage of study.
机译:标量函数的梯度经常用于数学领域。 在信息学中,可以使用例如许多控制系统的学习过程的过程中。 关键观察是梯度,如果是非零向量,则是标量函数最大速率方向的矢量。 在该贡献中,我们示出了如何确定即使梯度为零向量的方向的方法。 我们表明,这可以通过学生将其学习阶段的知识完成。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号