分布式多域合作论文-陆坤

分布式多域合作论文-陆坤

导读:本文包含了分布式多域合作论文开题报告文献综述及选题提纲参考文献,主要关键词:多主体系统,演化博弈,合作模型,合作演化

分布式多域合作论文文献综述

陆坤[1](2017)在《分布式多主体系统中合作演化模型研究》一文中研究指出分布式多主体系统是由多个自治个体为了实现特定目的进行相互作用,而形成的计算机系统。在文件分享、在线社交、无线传感器网络等方面广泛应用。由于系统中参与个体具备自私性和推理学习能力,他们会倾向于最大化自己收益,即剥削其他个体,而自身并不积极贡献资源。若系统中广泛存在这种不合作行为,将使得整个系统效率大大降低。如何促进节点合作,以提升系统性能是目前分布式多主体系统中的研究热点,得到了学者们的广泛关注。本文通过对已有工作的深入研究,发现现有的促进合作的模型研究存在一些不足:如对个体建模时没有很好的体现个体普遍存在的内在利他性;模型重在考虑如何促进合作,但是对开销考虑不足;在基于信誉的合作模型中,对策略个体的动态交互行为没能很好的建模等。本文基于演化博弈理论,从多主体系统中个体内在属性刻画、个体及交互行为的建模、系统开销等方面出发,提出了相关模型和解决方案,主要贡献在于:(1)针对分布式多主体系合作模型研究中忽略个体内在利他性的问题,提出了一种考虑个体利他属性的合作演化模型。模型中利他性的引入主要体现在影响策略更新的适应度的计算上,本文将交互对象的收益加入到个体的适应度计算中,即个体的适应度不仅与自己的收益相关,还和邻居的收益相关,二者的权重通过适应度参数调节。本文通过理论分析和仿真实验,验证了在混合均匀群体中,考虑个体的利他性的合作模型可以促进合作演化的速度;在结构化网络中,个体的利他性甚至会改变网络中演化的结果。(2)基于奖励的激励机制是促进合作的有效方式,针对奖励开销问题,提出了一种基于动态奖励的合作演化模型。该模型中对合作节点的奖励额度随系统环境而变化:当系统中合作情况不好时,单位奖励值较大;当系统中合作情况较好时,单位奖励值减少,这样既能促进合作,同时又降低奖励开销。通过复制动力方程,分析得到了在不同场景下的演化稳定策略,定量证明了采用动态奖励机制可以减少系统开销。仿真实验验证了理论分析的结果,即动态奖励机制可以有效促进个体合作,同时可以减少开销。(3)将演化博弈理论引入信誉系统,提出了一种基于节点自适用行为的EigenTrust合作演化模型。模型中充分考虑理性策略节点的动态交互性,可以更好的模拟分布式多主体网络中个体行为的变化规律。通过引入演化博弈论作为刻画理性个体之间交互行为的理论框架,构建了更贴近真实场景的合作演化模型。仿真和分析结果表明,本文的模型能够有效促进合作,抑制文件共享系统中的搭便车行为,减少恶意文件的下载。(本文来源于《大连理工大学》期刊2017-03-15)

傅波[2](2014)在《基于交替跟踪的分布式多智能体合作学习算法研究》一文中研究指出本文以合作式多智能体系统为研究对象,研究应用强化学习对多智能体系统的合作策略进行优化,其中关键问题主要包括学习降维、信度分配与收敛证明叁个方面。本文研究的思路来源于强化学习理论,其相关定义以离散环境为基础展开,由于其良好的自学习性质广泛应用于合作式的多智能体系统。同时,随着多智能体系统理论研究的进展,对理论在实际中的应用要求进一步提高。然而,“维数灾”问题突出、学习效率低下以及无收敛性理论保证等阻碍了其在合作式多智能体系统的推广和应用。本文针对合作式多智能体强化学习中的降维、信度分配以及收敛理论叁个关键问题进行研究。在分布式强化学习的降维手段基础上,提出一种新的多智能体合作学习框架——交替跟踪学习。一方面通过降维的Q学习缓解维数灾,另一方面基于交替跟踪学习框架提高学习效率的同时保证合作策略的收敛,并实现学习智能体的信度分配。此外,针对分布式的多智能体同时学习进行了初步的探讨。首先,以强化学习基本理论框架为对比基础,结合分布式多智能体合作学习环境,定义了新型的降维的奖励以及值函数。从适应性角度分析了最佳响应学习的合理性,假设非学习智能体策略稳定环境下,提出了降维的最佳响应学习算法,并证明了其收敛性。其次,在定义降维跟踪学习值函数的基础之上,提出一种交替跟踪的分布式多智能体合作学习框架,并重点分析了框架的策略搜索、降维、同时学习等特点。并针对实际应用,给出了框架下多智能体进行交替学习的切换机制。此外,在个体奖励已知情况下,将现有的最佳响应算法融入交替跟踪框架,形成一种完全合作式的分布式多智能体强化学习算法。个体奖励相同条件下,多智能体合作推箱子作为仿真对象,验证了所提算法的正确性和有效性。再次,为进一步扩展算法的应用范围,针对一般的合作式多智能体系统,个体奖励未知情况下,提出采用随机逼近方式获取学习智能体的个体奖励以实现信度分配。同样,建立在交替跟踪的交替学习框架下,结合基于信度分配的最佳响应学习算法,克服了个体奖励的逼近问题,提出了一般合作式多智能体系统的强化学习算法。以多智能体合作推箱子作为仿真对象,在信度分配未知下,验证了所提算法的能有效逼近个体奖励并获得较好的学习效果。最后,针对多智能体完全合作环境下学习速度慢及收敛效果不佳问题,提出了基于分布式强化学习的二阶段适应学习方法,依次实现了智能体对环境的适应以及系统内部的协作,有利于大规模空间环境下的实际应用问题。叁连杆捉取物体的仿真验证了所提算法的高效性。图15幅,表3个,参考文献64篇。(本文来源于《中南大学》期刊2014-05-01)

路海明,卢增祥,刘达,李衍达[3](2001)在《分布式多Agent安全合作体系结构TRUST!》一文中研究指出给出了一种基于互惠和安全的分布式多Agent合作体系结构TRUST !,TRUST !具有很好的可扩展性、鲁棒性、安全性、与现实社会的一致性。同时 ,基于TRUST !,对分布式合作过滤进行了仿真研究 ,Agent只有局部视角 ,通过Agent之间的非线性交互 ,形成了宏观的自组织现象 ,从而有助于探讨复杂系统的本质。(本文来源于《高技术通讯》期刊2001年12期)

陈仁际,吴镇炜,王韬,谈大龙[4](2000)在《分布式多机器人装配系统任务合作规划算法研究》一文中研究指出:综述了多机器人系统任务规划的研究 ,介绍了基于 Agent的分布协作式多机器人装配系统 ,给出了分布式多机器人系统任务协商规划算法 ,采用了改进的合同网协议方法。针对多机器人任务规划算法的软件实现 ,采用了先进的分布式对象技术 ,介绍了算法的具体实现方法(本文来源于《中国机械工程》期刊2000年04期)

分布式多域合作论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文以合作式多智能体系统为研究对象,研究应用强化学习对多智能体系统的合作策略进行优化,其中关键问题主要包括学习降维、信度分配与收敛证明叁个方面。本文研究的思路来源于强化学习理论,其相关定义以离散环境为基础展开,由于其良好的自学习性质广泛应用于合作式的多智能体系统。同时,随着多智能体系统理论研究的进展,对理论在实际中的应用要求进一步提高。然而,“维数灾”问题突出、学习效率低下以及无收敛性理论保证等阻碍了其在合作式多智能体系统的推广和应用。本文针对合作式多智能体强化学习中的降维、信度分配以及收敛理论叁个关键问题进行研究。在分布式强化学习的降维手段基础上,提出一种新的多智能体合作学习框架——交替跟踪学习。一方面通过降维的Q学习缓解维数灾,另一方面基于交替跟踪学习框架提高学习效率的同时保证合作策略的收敛,并实现学习智能体的信度分配。此外,针对分布式的多智能体同时学习进行了初步的探讨。首先,以强化学习基本理论框架为对比基础,结合分布式多智能体合作学习环境,定义了新型的降维的奖励以及值函数。从适应性角度分析了最佳响应学习的合理性,假设非学习智能体策略稳定环境下,提出了降维的最佳响应学习算法,并证明了其收敛性。其次,在定义降维跟踪学习值函数的基础之上,提出一种交替跟踪的分布式多智能体合作学习框架,并重点分析了框架的策略搜索、降维、同时学习等特点。并针对实际应用,给出了框架下多智能体进行交替学习的切换机制。此外,在个体奖励已知情况下,将现有的最佳响应算法融入交替跟踪框架,形成一种完全合作式的分布式多智能体强化学习算法。个体奖励相同条件下,多智能体合作推箱子作为仿真对象,验证了所提算法的正确性和有效性。再次,为进一步扩展算法的应用范围,针对一般的合作式多智能体系统,个体奖励未知情况下,提出采用随机逼近方式获取学习智能体的个体奖励以实现信度分配。同样,建立在交替跟踪的交替学习框架下,结合基于信度分配的最佳响应学习算法,克服了个体奖励的逼近问题,提出了一般合作式多智能体系统的强化学习算法。以多智能体合作推箱子作为仿真对象,在信度分配未知下,验证了所提算法的能有效逼近个体奖励并获得较好的学习效果。最后,针对多智能体完全合作环境下学习速度慢及收敛效果不佳问题,提出了基于分布式强化学习的二阶段适应学习方法,依次实现了智能体对环境的适应以及系统内部的协作,有利于大规模空间环境下的实际应用问题。叁连杆捉取物体的仿真验证了所提算法的高效性。图15幅,表3个,参考文献64篇。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式多域合作论文参考文献

[1].陆坤.分布式多主体系统中合作演化模型研究[D].大连理工大学.2017

[2].傅波.基于交替跟踪的分布式多智能体合作学习算法研究[D].中南大学.2014

[3].路海明,卢增祥,刘达,李衍达.分布式多Agent安全合作体系结构TRUST![J].高技术通讯.2001

[4].陈仁际,吴镇炜,王韬,谈大龙.分布式多机器人装配系统任务合作规划算法研究[J].中国机械工程.2000

标签:;  ;  ;  ;  

分布式多域合作论文-陆坤
下载Doc文档

猜你喜欢