自适应动态规划论文-单延逍

自适应动态规划论文-单延逍

导读:本文包含了自适应动态规划论文开题报告文献综述及选题提纲参考文献,主要关键词:微电网,光伏功率短期预测方法,优化调度,主成分分析法

自适应动态规划论文文献综述

单延逍[1](2019)在《基于自适应动态规划的微网光储联合鲁棒优化方法研究》一文中研究指出目前,化石能源的日渐匮乏以及利用化石能源发电导致的环境污染问题日趋严重,可再生能源的开发与利用已成为社会可持续发展的首要任务。光伏发电作为当前使用率最高的清洁可再生能源,因其发电功率受太阳辐照度、温度等不确定因素影响,使得光伏发电难以准确预测,导致光伏发电并入电网时,会对电网的稳定运行造成冲击,并且会对电网优化调度产生较大影响。微电网能够有效避免光伏并网给大电网带来的冲击,减少光伏发电的不确定性对电网造成的影响。通过微电网将光伏发电系统与大电网结合起来,可以保证光伏发电系统的充分利用并且使得大电网能够稳定可靠运行。针对光伏发电预测不准确问题以及由于光伏发电预测不准确而导致微电网调度不经济问题,本文主要做了以下几部分工作:(1)针对光伏发电预测不准确的问题,提出了基于PCA和PSO算法优化RBF神经网络的光伏功率短期预测方法。首先通过光伏发电历史数据与相应气象数据作为原始预测输入,然后利用PCA将多数维度的原始变量降到少数互不相干、相关独立的变量作为神经网络的输入,最后利用PSO算法优化RBF神经网络,对光伏发电功率进行预测,提高光伏发电预测精度,减少光伏并网时由于其波动性和不确定性对电网安全、稳定运行造成的影响。(2)针对微电网中的光伏发电和负荷存在的不确定性问题,鲁棒优化能够有效抑制这些不确定性,但同时带来很强的保守性。本文首先对微电网中分布式能源进行数学建模,构建微电网调度模型。然后提出一种基于弱鲁棒优化的多储能调度方法,弱鲁棒优化可以根据实际优化调度问题调节违背约束条件的惩罚系数,权衡调度方案的安全性和经济性。在弱鲁棒优化模型中充分考虑光伏发电和负荷的不确定性,在系统功率平衡公式中引入象征负荷缺额的松弛变量,该方法可以有效改善传统鲁棒模型的保守性,利用对等式转化方法,将模型中的不确定约束转化为确定约束,最后,利用PSO算法求解出弱鲁棒优化模型的最优调度方案。(3)在微电网光伏与负荷已知的情况下,对微电网分布式能源进行数学建模,同时将可中断负荷纳入微电网优化模型,充分挖掘出供电侧和用电侧的优化调节能力。提出一种迭代自适应动态规划算法,该算法将每一时刻的储能实时容量作为系统状态量,将每一时刻的储能充放电量、负荷中断量以及电网购电量作为系统控制量,将微电网运行成本作为效用函数,根据Bellman最优性原理,建立Bellman差分方程,根据迭代自适应动态规划推导,求出最优控制量。(本文来源于《南京邮电大学》期刊2019-12-09)

穆朝絮,张勇,余瑶,孙长银[2](2019)在《基于自适应动态规划的航空航天飞行器鲁棒控制研究综述》一文中研究指出自适应动态规划方法(ADP)是一种基于强化学习框架的智能控制方法,通过函数近似技术,最终得到动态规划问题的近似最优控制策略.本文对ADP方法在航空航天飞行器鲁棒控制的研究进行综述.首先,介绍了ADP方法基本结构框架与典型算法实现原理.进一步,对于ADP方法在高超声速飞行器系统,导航制导系统以及无人机系统在鲁棒控制中的相关研究进行介绍.最后,对未来航空航天飞行器领域ADP方法的发展前景进行了分析.(本文来源于《空间控制技术与应用》期刊2019年04期)

邓阳,周莉,许多,岳诚成,游梦琪[3](2019)在《基于动态规划的自适应和弦编配算法研究》一文中研究指出和弦的编配是作曲过程中耗时较长的一个重要步骤,传统作曲中的和弦编配主要采用人工完成,尚无成熟的自动和弦编配技术.本文针对以上问题,根据和弦构成规律与进行逻辑,提出了和弦体系构造函数(CFCS),设计出一种自动和弦编配的动态规划算法,以此来实现机器自动和弦编配.通过对多个算例进行实验,检测结果验证本算法是有效可行的.(本文来源于《复旦学报(自然科学版)》期刊2019年03期)

周思雨[4](2019)在《动态环境下多传感器行星车自适应路径规划方法研究》一文中研究指出在星体表面运动时,行星车的路径规划作为自主决策系统的关键组成部分,是其能够安全高效地开展科学巡视探测的重要保证。特别是,在未来为了大规模探测高价值的科学目标,可能存在宇航员和多个移动机器人联合作业的情景,由此伴随着更为复杂的动态环境。在传统的规划方法中,行星车的所有行为都来自于地面人员预先定义好的规则,但是行星车的作业环境不是完全已知的,这时就需要行星车具备一定的自适应能力,应对环境发生的变化。为了进一步提升行星车的自主决策能力,并解决传统人为规划框架中过于依赖地图信息的问题,基于深度强化学习理论提出了端到端的路径规划方法,直接从传感器信息映射出动作指令再发布给行星车。同时采用不同的神经网络结构分别处理不同的传感器信息,最后将环境特征融合在一起,构成基于D3QN PER的多传感器行星车路径规划方法。首先,对深度强化学习的基础理论进行了深入的研究。分别采用卷积神经网络处理视觉图像信息,长短期记忆处理激光雷达点云信息和自身状态信息,继而给出了行星车的环境特征融合方案。同时汲取其他深度强化学习算法的优点,将D3QN PER算法应用于多传感器行星车的路径规划方法中,通过输出速度和角速度指令来控制它的运动。其次,搭建仿真环境,分叁步验证算法的有效性。第一步,测试深度强化学习的相关算法是否能够在空旷的环境下引导行星车到达终点,由路径规划的结果可知,D3QN PER比DQN的其他衍生算法更具优势。第二步,将行星表面的沙砾和岩石简化为静态障碍环境,验证基于D3QN PER的多传感器行星车路径规划方法的避障性能,并将它与传统的RRT*算法进行了对比分析。第叁步,将行星表面的宇航员和多个移动机器人简化为动态障碍环境,直接加载由静态障碍环境下训练好的网络模型,由实验结果可知,行星车对环境发生的变化具有较强的自适应能力,同时将该方法与传统的人工势场法进行了对比分析。最后,通过加载由仿真环境中训练好的网络模型,使用Jackal移动机器人进行了实物验证,测试了基于D3QN PER的路径规划方法在真实环境中的适应性,从而为实际的巡视探测提供可靠的实验支撑。(本文来源于《哈尔滨工业大学》期刊2019-06-01)

安毅[5](2019)在《基于自适应动态规划的可重构机械臂的分散保代价最优控制方法研究》一文中研究指出随着现代科学技术智能化的推进,针对可重构机械臂一类具有自动组装性、灵活应变性及环境适应性等特点,子模块可按既定任务需求进行重新组合的智能机械设备,广泛应用于深空深海探测、核工业等高危产业及智能娱乐工厂等领域中。然而,可重构机械臂在构形重组时需要兼顾能耗和控制精度性能指标的问题来确保其在强耦合、非线性不确定性条件下完成既定任务,故简化控制器结构及优化能源消耗的研究十分重要。本文首先论述了选题的背景意义,分别对可重构机械臂及控制方法和自适应动态规划(Adaptive Dynamic Programming,ADP)的现状和进展论述,且介绍了ADP的基本理论基础,确定了本文的研究内容。其次,针对于可重构机械臂构建了两种的动力学模型。一种是基于NewtonEuler迭代算法建立的传统动力学模型,将耦合交联不确定项表征为一组与耦合力矩相关联子系统的集合。另一种是针对谐波传动装置,基于关节实时力矩量测信息的的动力学模型,大大简化了传统的动力学模型。再次,针对于传统的动力学模型,设计了一种基于ADP的可重构机械臂的分散保代价最优(Guaranteed Cost Optimal Control,GCOC)跟踪控制器。针对轨迹跟踪问题,为简化控制器的结构和提高系统的控制精度,结合最优控制理论,建立关于匹配构形与运动轨迹联合优化下的保代价上界约束性能指标函数,利用神经网络构建了单网络评价结构,继而求解哈密顿雅可比贝尔曼(Hamilton Jacobi Bellman,HJB)方程得出最优反馈跟踪控制律,并对系统稳定性分析和仿真验证。然后,针对于关节力矩量测信息的动力学模型,设计了一种基于关节力矩量测信息的可重构机械臂的能耗分散保代价最优跟踪控制器。通过定义兼顾控制精度与能耗的性能指标函数构建HJB方程,采用基于策略迭代(Policy Iteration,PI)的学习算法对HJB方程进行求解,继而得到近似最优控制律。并基于Lyapunov理论对系统的渐近稳定性进行证明,在数值仿真中,对比了本章算法和传统的RBF神经网络算法,验证了算法的有效性。最后,针对本文完成的工作内容进行了总结展望。(本文来源于《吉林大学》期刊2019-06-01)

许一鸣[6](2019)在《基于自适应动态规划的柔性机械臂组合控制》一文中研究指出柔性机械臂由于具有质量轻、速度快、成本低、能耗低等优点被广泛应用于现代工业。柔性机械臂的运动包括宏观的刚体运动和微观的柔性振动,总体动态过程易受外界干扰影响,且具有刚柔耦合、非线性、无限维、模型参数不确定等复杂特性。现有控制方法缺乏对自适应性和最优性的综合考虑,难以实现复杂环境下的高精度运动控制。本文以提高系统的自适应性和最优性为目标,利用奇异摄动(Singular Perturbation,SP)理论和自适应动态规划(Adaptive Dynamic Programming,ADP)方法研究柔性机械臂的轨迹跟踪和振动抑制问题。主要工作总结如下:1.建立柔性机械臂的双时间尺度模型。首先,利用Lagrange法和假设模态法建立柔性机械臂的动力学模型;然后,利用SP理论分解得到柔性机械臂的双时间尺度模型;最后,通过仿真实验验证利用SP理论分解得到的柔性机械臂双时间尺度模型的有效性。2.提出基于滑模控制和ADP的柔性机械臂组合控制方法。首先,利用慢时间尺度模型(慢子系统),设计基于准滑动模态的滑模控制器,实现轨迹跟踪控制,同时避免滑模抖振对系统的影响;然后,针对快时间尺度模型(快子系统),在模型参数不精确已知的情况下,利用ADP设计振动抑制控制器,实现对机械臂的柔性振动抑制;最后,通过仿真实验对比已有的两类控制方法,验证本文设计的组合控制器具有更好的轨迹跟踪和振动抑制效果。3.提出基于双重ADP的柔性机械臂组合控制方法。首先,在慢时间尺度下,基于系统输入和系统状态,采用ADP设计轨迹跟踪控制器,利用最小二乘法估计柔性机械臂在慢时间尺度下的振动量;其次,在快时间尺度下,通过上述振动量估计值及快时间尺度下柔性机械臂振动量的实际测量值,重构系统状态,运用ADP设计振动抑制控制器;然后,利用SP理论证明闭环系统的稳定性;最后通过仿真实验验证该方法的可行性和有效性。(本文来源于《中国矿业大学》期刊2019-05-01)

刘新宇,谭力铭,杨春曦,翟持[7](2019)在《未知环境下的蚁群-聚类自适应动态路径规划》一文中研究指出针对用于动态环境中的机器人路径规划的蚁群算法存在收敛速度慢,路径累计转折角大,对环境变化适应性低等问题,提出了一种未知环境下的蚁群-聚类自适应动态路径规划方法。依据聚类算法对环境复杂程度的准确判别自动改变寻优半径,达到充分利用机器人有限的计算能力,提高收敛速度的目的;通过识别对角障碍,生成虚拟障碍,确保规划的路径不穿过对角障碍;通过平滑机制对搜索的动态路径做平滑优化处理,有效降低了路径长度,减少了累计转折角。仿真结果表明,提出的算法能够根据障碍的复杂程度自动选择合适的搜索半径,完成路径的动态规划,体现出良好的环境适应能力和较好的综合路径优化性能。(本文来源于《计算机科学与探索》期刊2019年05期)

陈燕妮[8](2019)在《基于微分对策的有限时间自适应动态规划制导研究》一文中研究指出导弹作为一种强震慑力的精确制导武器,一直在现代战争中占据着无可替代的作用。微分对策理论起源于军事问题,最初就是因制导系统拦截飞行器等有关机动追击的国防和军事需求而产生的。导弹拦截制导问题中存在着大量连续动态环境下的冲突对抗、竞争合作,而微分对策则融合了现代控制理论与对策论,是一种恰当的处理这种双方或多方竞争对抗的最优控制问题。本文主要研究拦截运动目标的微分对策制导律,根据非线性控制系统有限时间稳定性理论,研究有限时间导引方法。针对微分对策问题中求解困难、系统模型存在不确定性等问题,结合自适应动态规划(Adaptive dynamic programming,ADP)技术在线逼近相关非线性微分方程的解。主要研究内容和方法包括:首先,对于一类非线性仿射连续系统设计了有限时间微分对策控制策略。引入了一个速度函数,构造转换系统,将有限时间性能指标函数转化为常见无限时间性能指标函数。采用神经网络中评价网络的近似性质,设计权值自适应更新律来近似估计系统中控制双方的最优解。此外,在控制律中设计了一个鲁棒项,消除了一般神经网络中估计误差的影响,使得闭环系统在有限时间内达到渐近稳定。其次,考虑一类导弹拦截目标问题,研究有限时间微分对策制导律。应用微分对策理论,建立弹目拦截的非线性模型,将弹目运动微分方程化为非线性仿射方程,推导出双方的一对纳什均衡解。针对制导过程中对快速性的要求,设计了一种具有时变权值和激励函数的评价网络,在线求解双方最优控制策略,满足了末端约束并实现了闭环系统稳定。最后,进一步考虑导弹拦截过程中存在的各种如环境干扰、系统结构不确定等问题,研究有限时间鲁棒微分对策制导律。针对系统中存在的不确定项,将其分解为系统的匹配项与不匹配项,将原系统转化为辅助微分对策非线性仿射系统。利用评价网络推导求解出弹目双方的最优控制策略。设计了一种评价网络权值更新律,不仅可以求解出微分对策控制策略,还消除初始容许控制,放松了持续激励等约束条件。此方法满足了非线性制导系统稳定,并且使系统具有一定的鲁棒性。(本文来源于《南京航空航天大学》期刊2019-01-01)

蒲俊,马清亮,李远冬,顾凡[9](2019)在《基于数据驱动自适应动态规划的输入约束的非线性系统H_∞控制》一文中研究指出提出了一种包含在线采样、离线学习两个阶段的基于数据驱动的迭代自适应动态规划(ADP)算法,仅通过在线数据,解决输入约束的连续未知模型的非线性系统的H_∞控制问题。通过策略迭代(PI)和迭代强化学习(IRL)方法推导出无模型(HJI)方程。构建3个神经网络,在线采集系统数据结束后,利用离线学习方法,近似求解无模型HJI方程,进而得到值函数、控制策略和扰动策略,神经网络的未知参数通过最小二乘方法求解。仿真结果验证了算法的可行性。(本文来源于《电光与控制》期刊2019年07期)

周丽娟[10](2018)在《混合自适应动态规划和蚁群算法的agent路径规划》一文中研究指出针对agent路径规划算法收敛速度慢和规划效率低的缺点,提出了一种基于自适应动态规划和蚁群算法的agent路径规划算法.首先,利用agent获取的各距离传感器和目标传感器数据来获得系统状态的输入和输出;然后,提出了一种基于蚁群算法的路径各位置信息素更新方法,并用算法收敛后的信息素来初始化值函数;基于初始化的值函数,提出采用自适应的动态规划算法即Q学习算法来更新值函数,实现状态到动作的最优策略.最后,对基于自适应动态规划算法和蚁群算法的agent路径规划算法分别进行了定义和描述.在MATLAB环境下对所提的方法进行了仿真实验,实验结果表明:在固定障碍物和随机障碍物分布两种情况下所提方法均能收敛,而且分别仅需18个和25个时间步就能达到目标,较其它方法具有更高的收敛精度.(本文来源于《中北大学学报(自然科学版)》期刊2018年06期)

自适应动态规划论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

自适应动态规划方法(ADP)是一种基于强化学习框架的智能控制方法,通过函数近似技术,最终得到动态规划问题的近似最优控制策略.本文对ADP方法在航空航天飞行器鲁棒控制的研究进行综述.首先,介绍了ADP方法基本结构框架与典型算法实现原理.进一步,对于ADP方法在高超声速飞行器系统,导航制导系统以及无人机系统在鲁棒控制中的相关研究进行介绍.最后,对未来航空航天飞行器领域ADP方法的发展前景进行了分析.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

自适应动态规划论文参考文献

[1].单延逍.基于自适应动态规划的微网光储联合鲁棒优化方法研究[D].南京邮电大学.2019

[2].穆朝絮,张勇,余瑶,孙长银.基于自适应动态规划的航空航天飞行器鲁棒控制研究综述[J].空间控制技术与应用.2019

[3].邓阳,周莉,许多,岳诚成,游梦琪.基于动态规划的自适应和弦编配算法研究[J].复旦学报(自然科学版).2019

[4].周思雨.动态环境下多传感器行星车自适应路径规划方法研究[D].哈尔滨工业大学.2019

[5].安毅.基于自适应动态规划的可重构机械臂的分散保代价最优控制方法研究[D].吉林大学.2019

[6].许一鸣.基于自适应动态规划的柔性机械臂组合控制[D].中国矿业大学.2019

[7].刘新宇,谭力铭,杨春曦,翟持.未知环境下的蚁群-聚类自适应动态路径规划[J].计算机科学与探索.2019

[8].陈燕妮.基于微分对策的有限时间自适应动态规划制导研究[D].南京航空航天大学.2019

[9].蒲俊,马清亮,李远冬,顾凡.基于数据驱动自适应动态规划的输入约束的非线性系统H_∞控制[J].电光与控制.2019

[10].周丽娟.混合自适应动态规划和蚁群算法的agent路径规划[J].中北大学学报(自然科学版).2018

标签:;  ;  ;  ;  

自适应动态规划论文-单延逍
下载Doc文档

猜你喜欢