作者陈希亮,曹雷,沈驰(2019)在《基于深度逆向强化学习的行动序列规划问题研究》一文中研究指出:针对深度强化学习在解决序贯决策任务中严重依赖回报函数,而回报函数又存在着反馈稀疏和反馈延迟等问题,论文提出了基于深度逆向强化学习方法的行动序列生成与优化方法,通过专家示例轨迹数据重构回报函数,实现高质量示例轨迹数据中隐性专家经验的获取和利用,挖掘数据背后的规律。然后将重构的回报函数与环境固有的回报函数进行奖赏塑型,生成的新的回报函数能够更加及时、准确地对智能实体的行为给予反馈,大幅加速了强化学习的收敛速度。
zhen dui shen du jiang hua xue xi zai jie jue xu guan jue ce ren wu zhong yan chong yi lai hui bao han shu ,er hui bao han shu you cun zai zhao fan kui xi shu he fan kui yan chi deng wen ti ,lun wen di chu le ji yu shen du ni xiang jiang hua xue xi fang fa de hang dong xu lie sheng cheng yu you hua fang fa ,tong guo zhuan jia shi li gui ji shu ju chong gou hui bao han shu ,shi xian gao zhi liang shi li gui ji shu ju zhong yin xing zhuan jia jing yan de huo qu he li yong ,wa jue shu ju bei hou de gui lv 。ran hou jiang chong gou de hui bao han shu yu huan jing gu you de hui bao han shu jin hang jiang shang su xing ,sheng cheng de xin de hui bao han shu neng gou geng jia ji shi 、zhun que de dui zhi neng shi ti de hang wei gei yu fan kui ,da fu jia su le jiang hua xue xi de shou lian su du 。
论文作者分别是来自国防科技的陈希亮,曹雷,沈驰,发表于刊物国防科技2019年04期论文,是一篇关于深度强化学习论文,作战行动序列论文,智能化战争论文,国防科技2019年04期论文的文章。本文可供学术参考使用,各位学者可以免费参考阅读下载,文章观点不代表本站观点,资料来自国防科技2019年04期论文网站,若本站收录的文献无意侵犯了您的著作版权,请联系我们删除。
本文来源: https://www.lw00.cn/article/44bec741123dd91547a9d70b.html