自适应决策过程论文-夏新海,许伦辉

自适应决策过程论文-夏新海,许伦辉

导读:本文包含了自适应决策过程论文开题报告文献综述及选题提纲参考文献,主要关键词:强化学习,交通信号,交叉口,Markov过程

自适应决策过程论文文献综述

夏新海,许伦辉[1](2018)在《引入MARKOV过程预测的强化学习下的城市交叉口自适应交通信号配时决策》一文中研究指出针对城市交叉口交通流具有的动态性、不确定性等特性,采用Markov过程对进入交叉口各入口的交通流占有率进行预估,通过构造Q-强化学习方法对道路交叉口交通信号配时决策进行优化。以交叉口车均延误为性能指标,与传统的定时配时决策方法进行对比分析,验证了此强化学习配时决策方法的有效性,其对于动态交通流环境具有一定的适应能力。最后从系统集成等方面就提高城市交叉口交通信号配时决策效率提出一些对策。(本文来源于《公路工程》期刊2018年01期)

张汝波,唐平鹏,杨歌,李雪耀,史长亭[2](2014)在《水面无人艇自适应危险规避决策过程收敛性分析》一文中研究指出水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.(本文来源于《计算机研究与发展》期刊2014年12期)

于海江,张志亮[3](2007)在《供应链系统自组织自适应过程与决策模型描述》一文中研究指出供应链作为一个复杂系统,在演化过程中表现出大量的自组织与自适应现象。在系统科学关于自组织和复杂自适应(CAS)的原理基础上,研究了供应链系统演化过程中的自组织与自适应行为,并对供应链系统决策的相似性机理给出模型描述。(本文来源于《价值工程》期刊2007年11期)

李江红,胡照文[4](2001)在《一类Markov决策过程自适应决策的新方法》一文中研究指出提出一种计算效率高且能以任意给定精度实现决策近优的新方法。该方法的原理是根据要求的决策精度对参数集进行有限分区 ,利用有偏极大似然估计器估计未知参数 ,并在决策过程中根据估计参数所在的分区获得控制对 Markov过程进行决策。(本文来源于《控制与决策》期刊2001年04期)

李江洪,韩正之[5](2001)在《马尔可夫决策过程自适应决策的进展》一文中研究指出在介绍一般马尔可夫决策过程的基础上 ,分析了当前主要马尔可夫过程自适应决策方法的基本思想、具体算法实现以及相应结论 ,总结了现有马尔可夫过程自适应决策算法的特点 ,并指出了需要进一步解决的问题(本文来源于《控制与决策》期刊2001年01期)

李江红,韩正之[6](2000)在《有限规划水平部分可观Markov自适应决策过程的参数决策》一文中研究指出提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 .(本文来源于《上海交通大学学报》期刊2000年12期)

李江洪,韩正之[7](2000)在《有限规划水平自适应Markov决策过程的参数决策》一文中研究指出针对现有Markov决策过程自适应决策方法仅研究无限规划水平自适应决策的不足,提出了一种有限规划水平Markov决策过程自适应决策算法.算法的基本思想是运用Bayes理论对未知系统进行“学习”,并且在每次决策时以最大概率保证实际决策为最优决策.最后用仿真结果表明了算法的有效性.(本文来源于《应用科学学报》期刊2000年04期)

自适应决策过程论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

水面无人艇(unmanned surface vehicle,USV)是一种重要的海洋自主机器人,当前正被广泛研究并逐渐应用于实际.然而USV的安全航行问题仍严重制约其自主性能的提高,尤其是在复杂海况下的危险规避问题亟待解决.以Sarsa在线策略强化学习算法为基础,提出了USV在复杂海况下的自适应危险规避决策模型,并以渐进贪心策略作为行为探索策略,证明了USV自适应危险规避决策过程能够以概率1收敛到最优行为策略.论证结果表明,采用在线策略强化学习算法提升USV在复杂海况下的危险规避性能是可行的.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

自适应决策过程论文参考文献

[1].夏新海,许伦辉.引入MARKOV过程预测的强化学习下的城市交叉口自适应交通信号配时决策[J].公路工程.2018

[2].张汝波,唐平鹏,杨歌,李雪耀,史长亭.水面无人艇自适应危险规避决策过程收敛性分析[J].计算机研究与发展.2014

[3].于海江,张志亮.供应链系统自组织自适应过程与决策模型描述[J].价值工程.2007

[4].李江红,胡照文.一类Markov决策过程自适应决策的新方法[J].控制与决策.2001

[5].李江洪,韩正之.马尔可夫决策过程自适应决策的进展[J].控制与决策.2001

[6].李江红,韩正之.有限规划水平部分可观Markov自适应决策过程的参数决策[J].上海交通大学学报.2000

[7].李江洪,韩正之.有限规划水平自适应Markov决策过程的参数决策[J].应用科学学报.2000

标签:;  ;  ;  ;  

自适应决策过程论文-夏新海,许伦辉
下载Doc文档

猜你喜欢