首页> 外国专利> SYSTEMS AND METHODS FOR SAFE POLICY IMPROVEMENT FOR TASK ORIENTED DIALOGUES

SYSTEMS AND METHODS FOR SAFE POLICY IMPROVEMENT FOR TASK ORIENTED DIALOGUES

机译：用于安全策略改进的任务导向对话的系统和方法

页面导航

摘要
著录项
相似文献

摘要

Embodiments described herein provide safe policy improvement (SPI) in a batch reinforcement learning framework for a task-oriented dialogue. Specifically, a batch reinforcement learning framework for dialogue policy learning is provided, which improves the performance of the dialogue and learns to shape a reward that reasons the invention behind human response rather than just imitating the human demonstration.

机译：这里描述的实施例提供用于面向任务对话的批量增强学习框架中的安全策略改进（SPI）。具体而言，提供了一种用于对话策略学习的批量增强学习框架，从而提高了对话的性能，并学会塑造原因，原因是人类反应背后的发明，而不是模仿人类示范。

著录项

公开/公告号US2021383212A1

专利类型
公开/公告日2021-12-09

原文格式PDF
申请/专利权人 SALESFORCE.COM INC.;
展开▼

申请/专利号US202017105262
发明设计人 GOVARDANA SACHITHANANDAM RAMACHANDRAN;KAZUMA HASHIMOTO;CAIMING XIONG;RICHARD SOCHER;
展开▼

申请日2020-11-25
分类号G06N3/08;G06N3/04;G06N3;G06F40/35;
国家 US
入库时间 2022-08-24 22:42:46

相似文献

专利
外文文献
中文文献