近似策略迭代论文-季挺,张华

近似策略迭代论文-季挺,张华

导读:本文包含了近似策略迭代论文开题报告文献综述及选题提纲参考文献,主要关键词:增强学习,小脑关节模型控制器,非参数化,倒立摆

近似策略迭代论文文献综述

季挺,张华[1](2019)在《基于CMAC的非参数化近似策略迭代增强学习》一文中研究指出为解决在线近似策略迭代增强学习计算复杂度高、收敛速度慢的问题,引入CMAC结构作为值函数逼近器,提出一种基于CMAC的非参数化近似策略迭代增强学习(NPAPI-CMAC)算法。算法通过构建样本采集过程确定CMAC泛化参数,利用初始划分和拓展划分确定CMAC状态划分方式,利用量化编码结构构建样本数集合定义增强学习率,实现了增强学习结构和参数的完全自动构建。此外,该算法利用delta规则和最近邻思想在学习过程中自适应调整增强学习参数,利用贪心策略对动作投票器得到的结果进行选择。一级倒立摆平衡控制的仿真实验结果验证了算法的有效性、鲁棒性和快速收敛能力。(本文来源于《计算机工程与应用》期刊2019年02期)

季挺,张华[2](2018)在《非参数化近似策略迭代并行强化学习算法》一文中研究指出针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性逼近结构设计强化学习单元,然后采用以样本空间完全覆盖为目标的估计方法实现单元自主构建,并基于近似策略迭代进行单元自主学习。其中,各单元通过平均加权法融合得到算法的整体策略。一级倒立摆仿真结果表明,与online LSPI算法和BLSPI算法相比,该算法在保持较高加速比的同时具有较高的效率,其控制参数更少,收敛速度更快。(本文来源于《计算机工程》期刊2018年11期)

季挺,张华[3](2018)在《基于Dyna框架的非参数化近似策略迭代增强学习》一文中研究指出为解决当前近似策略迭代增强学习算法逼近器不能完全自动构建的问题,提出一种基于Dyna框架的非参数化近似策略迭代(NPAPI-Dyna)增强学习算法。引入采样缓存和采样变化率设计二级随机采样过程采集样本,基于轮廓指标、采用K均值聚类算法实现trial-and-error过程生成核心状态基函数,采用以样本完全覆盖为目标的估计方法生成Q值函数逼近器,采用贪心策略设计动作选择器,利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型;而后基于Dyna框架的模型辨识思想,将学习和规划过程有机结合,进一步加快了增强学习速度。一级倒立摆平衡控制的仿真实验中,当增强学习误差率为0.01时,算法学习成功率为100%,学习成功的最小尝试次数仅为2,平均尝试次数仅为7.73,角度平均绝对偏差为3.053 8°,角度平均振荡范围为2.759°;当增强学习误差率为0.1时进行100次独立仿真运算,相比Online-LSPI和BLSPI算法平均需要150次以上尝试才能学习得到控制策略,而NPAPI-Dyna基本可在50次尝试内学习成功。实验分析表明,NPAPI-Dyna能够完全自动地构建、调整增强学习结构,学习结果精度较高,同时较快收敛。(本文来源于《计算机应用》期刊2018年05期)

韦化,龙丹丽,黎静华[4](2014)在《求解大规模机组组合问题的策略迭代近似动态规划》一文中研究指出针对动态规划存在的"维数灾"问题,提出了一种求解大规模电力系统机组组合(unit commitment,UC)问题的策略迭代近似动态规划(policy iteration-approximate dynamic programming,PI-ADP)方法。采用策略迭代对动态规划过程中的值函数进行近似,替代了从可行状态中精确计算值函数的过程,避免了"维数灾"的发生。在值函数的近似过程中,利用了实际系统的运行约束有效压缩状态空间,减少可选择的启停动作,进一步降低了计算量。10~1 000机96时段系统的计算结果表明,所提方法能在较少时间内获得高质量的解,从而为求解大规模电力系统UC问题提供了参考。(本文来源于《中国电机工程学报》期刊2014年25期)

傅启明,刘全,伏玉琛,周谊成,于俊[5](2013)在《一种高斯过程的带参近似策略迭代算法》一文中研究指出在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car问题,实验结果表明,该算法收敛速度较快,收敛精度较好.(本文来源于《软件学报》期刊2013年11期)

近似策略迭代论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采集过程确定并行单元数量,基于径向基函数线性逼近结构设计强化学习单元,然后采用以样本空间完全覆盖为目标的估计方法实现单元自主构建,并基于近似策略迭代进行单元自主学习。其中,各单元通过平均加权法融合得到算法的整体策略。一级倒立摆仿真结果表明,与online LSPI算法和BLSPI算法相比,该算法在保持较高加速比的同时具有较高的效率,其控制参数更少,收敛速度更快。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

近似策略迭代论文参考文献

[1].季挺,张华.基于CMAC的非参数化近似策略迭代增强学习[J].计算机工程与应用.2019

[2].季挺,张华.非参数化近似策略迭代并行强化学习算法[J].计算机工程.2018

[3].季挺,张华.基于Dyna框架的非参数化近似策略迭代增强学习[J].计算机应用.2018

[4].韦化,龙丹丽,黎静华.求解大规模机组组合问题的策略迭代近似动态规划[J].中国电机工程学报.2014

[5].傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J].软件学报.2013

标签:;  ;  ;  ;  

近似策略迭代论文-季挺,张华
下载Doc文档

猜你喜欢