值迭代算法论文-胡文

值迭代算法论文-胡文

导读:本文包含了值迭代算法论文开题报告文献综述及选题提纲参考文献,主要关键词:强化学习,建筑能耗预测,值迭代算法,深度置信网

值迭代算法论文文献综述

胡文[1](2018)在《基于值迭代算法的建筑能耗预测方法研究》一文中研究指出由于建筑具有面积大、能耗大和能耗复杂等特点,并且建筑自身是一个包含多种系统、设备相互连接的复杂非线性系统,因此一直被作为节能的重点。然而,建筑能耗受诸多因素影响,使得能耗预测变得相当困难。在建筑节能问题中,建筑能耗预测方法有很多,例如工程法、数学分析法、人工智能法等。其中,人工智能方法目前使用较为广泛,而强化学习方法在人工智能领域引发了广泛学者的关注,并在多个领域体现其应用价值。强化学习利用试错与环境相互交互的方法不断改进已获得的策略,主要优点在于自学习和在线学习,是目前人工智能的主要研究方向。本文围绕如何利用强化学习方法对建筑能耗进行预测展开研究,通过深度置信网(DBN)对历史能耗进行状态估计,利用强化学习中值迭代算法对能耗建模,实现能耗预测。由于值迭代算法具有较慢的收敛速率、较差的稳定性以及“维数灾难”等问题,本文通过函数逼近、option自动分层、reward shaping等方法提出两种改进的值迭代算法,更加快速准确地预测建筑能耗,主要内容包括以下叁部分:(1)针对经典值迭代算法所存在的算法收敛不稳定以及收敛速度慢的问题,提出一种改进的基于函数逼近的冗余值迭代算法。算法将经典的值迭代算法与贝尔曼冗余值迭代算法相结合,引入权重因子,构建新的值函数参数更新向量,同时从理论上证明,利用所提出的值函数参数更新向量更新值函数参数可以保证算法收敛,解决经典值迭代算法收敛不稳定的问题。(2)提出一种基于option自动分层的启发式值迭代算法。该算法在识别子目标的过程中引入轨迹去环方法,减少样本数据,加快子目标的识别,提高option集的构造质量。为了避免误选子目标的情况发生,算法引入均值限界的方法,降低子目标周围状态的访问次数,以提高子目标识别的精度。此外,算法通过奖赏塑造(Reward shaping)方法,构建启发式信息,加快算法的学习过程。在完成option集的构造后,将option作为值迭代算法中抽象状态的输入,以求解问题的最优策略。(3)为了精确地预测建筑物未来时刻的能耗,提出一种基于值迭代算法的建筑能耗预测方法。由于值迭代算法无法处理连续的状态空间问题,因此本章节通过结合深度置信网(DBN)对建筑能耗进行状态估计,并将输出的状态集作为值迭代算法的输入,进一步完成能耗建模及能耗预测。通过美国巴尔的摩燃气和电力公司记载的建筑能耗数据进行测试实验,实验结果表明,利用DBN的方法提取能耗的高阶特征,能耗预测的准确性明显提高。此外,将第叁章和第四章提出的两种改进的值迭代算法应用于能耗预测实验中,进一步验证算法的性能,由实验结果可知,两种改进的VI算法对能耗预测的精确性皆高于经典VI算法。(本文来源于《苏州科技大学》期刊2018-06-01)

陈建平,胡文,傅启明[2](2017)在《基于函数逼近的冗余值迭代算法》一文中研究指出针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余值迭代算法,引入权重因子,构建值函数参数更新向量.同时从理论上证明,利用此更新向量更新值函数参数可以保证算法收敛,解决值迭代算法收敛不稳定的问题.此外,算法引入遗忘因子,加快权重向量的更新速率和算法收敛速度.在Grid World问题上的实验表明,文中算法收敛性能较好,具有较好的鲁棒性.(本文来源于《模式识别与人工智能》期刊2017年07期)

刘峰[3](2016)在《基于杂合标准的POMDP值迭代求解算法》一文中研究指出基于点的值迭代方法是求解部分可观测马尔科夫决策过程(POMDP)问题的一类有效算法.目前基于点的值迭代算法大都基于单一启发式标准探索信念点集,从而限制算法效果.基于此种情况,文中提出基于杂合标准探索信念点集的值迭代算法(HHVI),可以同时维持值函数的上界和下界.在扩展探索点集时,选取值函数上下界差值大于阈值的信念点进行扩展,并且在值函数上下界差值大于阈值的后继信念点中选择与已探索点集距离最远的信念点进行探索,保证探索点集尽量有效分布于可达信念空间内.在4个基准问题上的实验表明,HHVI能保证收敛效率,并能收敛到更好的全局最优解.(本文来源于《模式识别与人工智能》期刊2016年11期)

卢棪,刘应安[4](2016)在《基于缺失值迭代预测填充的协同过滤推荐算法》一文中研究指出推荐系统是目前在电子商务中用的较为广泛的一种技术。伴随着数据量的增大,评分矩阵的稀疏性成为了一大难题。对于评分数据较为稀疏的矩阵,提出了一种基于缺失值迭代预测填充的协同过滤算法。这种算法以迭代的方式对评分矩阵填充,直到缺失值个数恒定在某一数值。而在迭代的过程中,每一次用于填充计算的相似度度量又是依据均值填充后的相似度来动态计算的。说明该算法即可以降低数据稀疏性,又提高了用户相似度计算精度的问题。实验研究表明,利用该算法能够提高评分矩阵的密度,并降低了系统的推荐误差。(本文来源于《计算机与数字工程》期刊2016年06期)

刘峰,王崇骏,骆斌[5](2016)在《一种基于最优策略概率分布的POMDP值迭代算法》一文中研究指出随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率.(本文来源于《电子学报》期刊2016年05期)

刘寅,江虹[6](2016)在《基于快速蒙特卡罗值迭代算法实现认知无线电信道接入》一文中研究指出在认知无线电(CR)技术中,无线网接入是一个极为重要的问题。针对这一问题,当前主流的解决思路包括博弈算法和基于部分可观测马尔科夫决策过程模型(POMDP)的算法。相比于博弈算法,基于POMDP模型的算法具有更好的环境适应性。在此背景下,提出了基于POMDP模型的快速蒙特卡罗值迭代算法(fast MCVI)解决无线网接入问题。与其他解决POMDP模型的算法不同,该算法可解决值连续状态空间下的POMDP模型,具有更好的可靠性和稳定性。另外,相比于传统MCVI算法,快速MCVI算法使用非可支配排序遗传算法(NSGA2)进行优化,加快了算法收敛速度,使其在相同运行时间内能获得更好的决策结果。实验证明,通过值连续状态空间的POMDP模型对CR接入问题建模并使用快速MCVI算法进行决策,网络吞吐率比传统MCVI算法提高了1~1.7个百分点,比贪心算法提高了2.8~5个百分点。(本文来源于《科学技术与工程》期刊2016年02期)

房俊恒[7](2015)在《基于点的值迭代算法在POMDP问题中的研究》一文中研究指出部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)是马尔可夫决策过程(Markov Decision Process,MDP)的扩展。在POMDP框架下,由于环境状态是部分可感知的,求解POMDP问题非常困难。基于点的值迭代思想使得对POMDP问题的求解取得了重大突破。当前POMDP问题的很多求解方法都是在这个基本思想上拓展的,主要是对可信空间子集的选择方法和值函数更新的次序进行改进。本文主要研究可信空间子集的选择方法,针对当前方法的不足,提出几种改进的基于点的近似值迭代算法:(1)对于大规模POMDP问题,传统的求解算法收集可信状态是不可控制的。针对该问题,提出一种改进的启发式搜索值迭代算法(Heuristic Search Value Iteration,HSVI)。该算法以可达性作为启发式标准来搜索具有重大价值的可信状态点,然后在这些点上对值函数进行局部更新,获得有效的近似最优策略。(2)在POMDP问题的近似算法中,使用基于试验的异步值迭代的HSVI算法能够处理规模最大的POMDP问题。然而,HSVI算法需要同时保存最优值函数的上界和下界并更新它们,而且更新上界时需要非常复杂的计算,这都大大降低了算法的性能。针对HSVI算法的缺点,本文提出另一种改进的向前搜索值迭代算法(Forward Search Value Iteration,FSVI),该算法利用MDP的最优策略来选择可信状态点,并且不再保存值函数的上界。(3)针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,获得值函数并把它们结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。(本文来源于《苏州大学》期刊2015-04-01)

崔军晓,朱蒙婷,王海燕,章鹏,王辉[8](2014)在《基于强化学习的值迭代算法》一文中研究指出强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有叁种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。(本文来源于《电脑知识与技术》期刊2014年31期)

郭松[9](2014)在《基于奇异值迭代的空频分组码盲识别算法研究》一文中研究指出MIMO-OFDM技术是下一代无线通信的核心解决方案,空频分组码是MIMOOFDM系统的重要组成部分。空频分组码的盲识别是通信对抗中迫切需要攻克的领域,具有重要的研究和应用价值。目前MIMO系统中存在的编码盲识别方法主要针对空时分组码,主要包括最大似然算法和时延相关算法。但最大似然算法对具有相同分组符号数和分组长度的编码无法识别;时延相关算法计算量随采样长度成倍增加,难以应用于实时检测。空频分组码盲识别则是一个新的研究领域,目前还没有提出实质的检测方法。同时,将空时分组码盲识别算法直接应用到空频分组码的盲识别中去时,由于两者使用的分集差异,使得算法无法在小样本、低信噪比的应用场景下正常工作,不能有效地满足实际的工程需要。本文目的就在于针对现有空频分组码盲识别算法中存在的问题,提出一种基于奇异值迭代的空频分组码盲识别方法,以实现对空频分组码的盲识别,并且提高算法在小样本、低信噪比情况下的性能。本文首先简述了MIMO-OFDM系统模型及空频分组码技术,并就当前已有的两类空时分组码盲识别算法:最大似然算法和时延相关算法,进行了仿真验证,并根据结果进行了性能分析。然后,给出了空频分组码盲识别系统的模型,并将编码盲识别问题成功转化为求编码分组符号数的问题,由此提出了一种基于奇异值迭代的空频分组码盲识别方法。通过对接收信号自相关矩阵的奇异值进行有效迭代,增大信号特征值和噪声特征值之间的差值,提高系统在小样本、低信噪比条件下的估计性能。应用Matlab对该算法的性能进行了仿真,验证了算法的正确性和高效性。最后,分析了剩余频偏对空频分组码盲识别算法的影响,并根据分析结果,提出一种基于剩余频偏补偿的空频分组码盲识别方法。通过搜索补偿估计出剩余频偏的大小,补偿观测信号后识别出空频分组码型。在Matlab中对该算法与不进行频偏补偿的算法进行了比较仿真,验证了算法的有效性及必要性。(本文来源于《西安电子科技大学》期刊2014-11-01)

黄蔚,刘全,孙洪坤,傅启明,周小科[10](2014)在《基于拓扑序列更新的值迭代算法》一文中研究指出提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。(本文来源于《通信学报》期刊2014年08期)

值迭代算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对值迭代算法存在算法收敛不稳定及收敛速度慢的问题,文中提出改进的基于函数逼近的冗余值迭代算法.结合值迭代算法与贝尔曼冗余值迭代算法,引入权重因子,构建值函数参数更新向量.同时从理论上证明,利用此更新向量更新值函数参数可以保证算法收敛,解决值迭代算法收敛不稳定的问题.此外,算法引入遗忘因子,加快权重向量的更新速率和算法收敛速度.在Grid World问题上的实验表明,文中算法收敛性能较好,具有较好的鲁棒性.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

值迭代算法论文参考文献

[1].胡文.基于值迭代算法的建筑能耗预测方法研究[D].苏州科技大学.2018

[2].陈建平,胡文,傅启明.基于函数逼近的冗余值迭代算法[J].模式识别与人工智能.2017

[3].刘峰.基于杂合标准的POMDP值迭代求解算法[J].模式识别与人工智能.2016

[4].卢棪,刘应安.基于缺失值迭代预测填充的协同过滤推荐算法[J].计算机与数字工程.2016

[5].刘峰,王崇骏,骆斌.一种基于最优策略概率分布的POMDP值迭代算法[J].电子学报.2016

[6].刘寅,江虹.基于快速蒙特卡罗值迭代算法实现认知无线电信道接入[J].科学技术与工程.2016

[7].房俊恒.基于点的值迭代算法在POMDP问题中的研究[D].苏州大学.2015

[8].崔军晓,朱蒙婷,王海燕,章鹏,王辉.基于强化学习的值迭代算法[J].电脑知识与技术.2014

[9].郭松.基于奇异值迭代的空频分组码盲识别算法研究[D].西安电子科技大学.2014

[10].黄蔚,刘全,孙洪坤,傅启明,周小科.基于拓扑序列更新的值迭代算法[J].通信学报.2014

标签:;  ;  ;  ;  

值迭代算法论文-胡文
下载Doc文档

猜你喜欢