值函数
值函数的相关文献在1956年到2022年内共计139篇,主要集中在自动化技术、计算机技术、数学、财政、金融
等领域,其中期刊论文107篇、会议论文2篇、专利文献37923篇;相关期刊81种,包括数学理论与应用、高中数学教与学、系统工程学报等;
相关会议2种,包括第29届中国控制会议、第三届中国青年运筹与管理学者大会等;值函数的相关文献由291位作者贡献,包括李爱梅、杨君、梁斌等。
值函数—发文量
专利文献>
论文:37923篇
占比:99.71%
总计:38032篇
值函数
-研究学者
- 李爱梅
- 杨君
- 梁斌
- 王伟
- 王忠林
- A·K·塞恩
- B·塞兹金
- C·J·坎宁安
- K·基斯
- R·凡卡特施
- 乔贵方
- 代奇迹
- 何雨旻
- 关健
- 冯慧斌
- 冯起辉
- 凌文辁
- 刘成元
- 刘波
- 刘海龙
- 古庭赟
- 叶提芳
- 吴昊霖
- 孙慧玉
- 孙鹏
- 孟令雯
- 宋科康
- 徐菁
- 徐长宝
- 朴凤华
- 李妍
- 李欣洋
- 李瑞娟
- 李辉
- 杨婧
- 杨宇翔
- 林呈辉
- 林旺群
- 林耿
- 梁苑
- 汪明媚
- 王壮
- 王宇
- 王彤歌
- 王涛
- 王辉
- 王锐华
- 王鲁平
- 田成平
- 祝健杨
-
-
-
-
-
林建伟;
林琦
-
-
摘要:
为了更好地处理公司破产重组条款对于最优红利分配策略的影响,在公司资产盈余演化过程服从布朗运动模型条件下,基于自我协商破产重组模式,采用随机控制的理论和方法,建构具有正的破产边界下公司最优红利分配问题的数学模型。通过动态规划原理,获得了数学模型中值函数所满足的H问题(HJB方程和定解条件),并利用微分方程方法,得出H问题解的解析表达式。最后,运用It8公式和鞅的性质,证明了H问题的解就是值函数的解,并提出了公司红利分配的最优策略。
-
-
肖凡;
乔勇军
-
-
摘要:
针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装备、预设阵地、防守要地3类影响因素,利用不同的基于值函数的强化学习算法进行测试,通过测试能得到各武器装备最佳位置并判断预设阵地是否合理,通过比较可看出算法间各有优劣,适合的环境各不相同。结果表明:该方法能够运用于不同的环境,减少时空开销,提高岛礁守备决策的效率,有助于策略改进。
-
-
李娜;
王伟
-
-
摘要:
在经典风险模型的基础上,考虑带有指数罚金函数的最优分红策略.当索赔额服从指数分布时,利用动态规划原理建立了值函数的Hamilton-Jacobi-Bellman(HJB)方程,推导出值函数的表达式并得到了相应的最优策略.最后给出一个数值算例讨论参数对值函数和最优策略的影响.
-
-
黄晓辉;
张雄;
杨凯铭;
熊李艳
-
-
摘要:
因网约车订单派送不合理,导致资源利用率和出行效率降低。基于联合Q值函数分解的框架,提出两种订单派送方法ODDRL和LF-ODDRL,高效地将用户订单请求派送给合适的网约车司机,尽可能缩短乘客等待时间。为捕获网约车订单派送场景中随机需求与供应动态变化关系,把城市定义为一张四边形网格的地图,将每辆车视为一个独立的智能体,构建多智能体马尔可夫决策过程模型,通过最大化熵与累计奖励训练智能体。将多智能体的联合Q值函数转化为易分解函数,使联合Q值函数与单个智能体值函数中的动作具有一致性,同时设计动作搜索函数,结合集中训练、分散执行策略的优点,让每辆车以分布式的方式解决订单匹配问题,而不需要与其他车辆进行协调,从而降低复杂性。实验结果表明,相比Random、Greedy、QMIX等方法,所提ODDRL和LF-ODDRL具有较优的扩展性,其中,在500×500网格上,当乘客数为10、车辆数为2时,相对于QMIX方法接送乘客所产生的总时间分别缩短5%和12%。
-
-
-
-
-
- 皇家飞利浦有限公司
- 公开公告日期:2017.06.06
-
摘要:
一种被配置成计算关于函数‑输入值(w)的数据函数(f)的计算设备,所述设备包括存储被配置用于所述数据函数(f)的第一表格网络的电子存储装置,所述计算设备包括耦合至所述存储装置并且被配置成获取用于所述第一表格网络的多个第一表格输入的电子处理器,所述多个第一表格输入 (x=E(w,s))包括所述函数‑输入值(w),并且所述电子处理器被配置成通过向所述多个第一表格输入(x)应用所述第一表格网络以产生多个第一表格输出 (u=E(f(w),g(w,s))来计算所述数据函数(f),所述多个第一表格输出(u)包括函数‑输出值(f(w)),所述函数‑输出值(f(w))对应于向所述函数‑输入值(w)应用所述数据函数(f)的结果,所述电子存储装置还存储第二表格网络,所述第二表格网络被配置成与所述第一表格网络合作以反击针对所述第一表格网络做出的修改,所述电子处理器被配置成获取用于所述第二表格网络的多个第二表格输入,所述第二表格输入包括所述多个第一表格输出(u)和所述多个第一表格输入(w;s)中的至少一个,并且所述电子处理器被配置成向所述多个第二表格输入应用所述第二表格网络,所述第二表格网络被配置成针对所述多个第一表格输出中的至少具体的一个 (f(w) 或g(w,s))验证未修改的第一表格网络是否能够从所述多个第一表格输入(w;s)中的给定的至少一个获取所述多个第一表格输出 (f(w);g(w,s))中的所述具体的一个,所述第二表格网络产生包括被保护的函数输出(w’)的第二表格输出 (v=E(w’,s’)),在所述验证是成功的情形中所述被保护的函数输出等于所述函数输出(f(w)),以及在所述验证是不成功的情形中,所述被保护的函数输出(w’)不等于所述函数输出。
-
-
-
-
-
-
-
-
-