要解决的问题:减少学习对话策略所需的劳动时间。
解决方案:对话策略学习设备执行用于接受对用户终端的响应的评估值的输入的过程,以学习马尔可夫决策过程;一种将一个或多个相似状态集成到一个集群的过程,注意状态转换的频率;通过强化学习从评估值和聚类形成第一马尔可夫决策过程的过程;用于将第一马尔可夫决策过程的簇分解为积分前的状态以形成第二马尔可夫决策过程的过程,并将其存储在存储装置中;用于输出第二马尔可夫决策过程作为对话系统中使用的马尔可夫决策过程的过程。
版权:(C)2006,JPO&NCIPI
公开/公告号JP2006072477A
专利类型
公开/公告日2006-03-16
原文格式PDF
申请/专利权人 NIPPON TELEGR & TELEPH CORP NTT;
申请/专利号JP20040252323
申请日2004-08-31
分类号G06N3;G06N5/04;G10L15/22;
国家 JP
入库时间 2022-08-21 21:55:31