导读:本文包含了算法加速器论文开题报告文献综述及选题提纲参考文献,主要关键词:卷积神经网络,快速滤波算法,FPGA,并行结构
算法加速器论文文献综述
王巍,周凯利,王伊昌,王广,袁军[1](2019)在《基于快速滤波算法的卷积神经网络加速器设计》一文中研究指出为减少卷积神经网络(CNN)的计算量,该文将2维快速滤波算法引入到卷积神经网络,并提出一种在FPGA上实现CNN逐层加速的硬件架构。首先,采用循环变换方法设计行缓存循环控制单元,用于有效地管理不同卷积窗口以及不同层之间的输入特征图数据,并通过标志信号启动卷积计算加速单元来实现逐层加速;其次,设计了基于4并行快速滤波算法的卷积计算加速单元,该单元采用若干小滤波器组成的复杂度较低的并行滤波结构来实现。利用手写数字集MNIST对所设计的CNN加速器电路进行测试,结果表明:在xilinx kintex7平台上,输入时钟为100 MHz时,电路的计算性能达到了20.49 GOPS,识别率为98.68%。可见通过减少CNN的计算量,能够提高电路的计算性能。(本文来源于《电子与信息学报》期刊2019年11期)
徐睿,马胜,郭阳,黄友,李艺煌[2](2019)在《基于Winograd稀疏算法的卷积神经网络加速器设计与研究》一文中研究指出随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。(本文来源于《计算机工程与科学》期刊2019年09期)
徐倩倩,佟旭,庄鹏,李京,王凤娇[3](2019)在《对PTW晨检仪应用不同算法在西门子加速器上晨检结果稳定性的临床比较研究》一文中研究指出目的:研究PTW晨检仪应用四种不同算法在西门子加速器上检测结果的比较,对四种算法的稳定性进行评价。方法:使用PTW晨检仪,在西门子加速器上,采用相同的剂量学参数,包括正常与异常情况,对每种算法进行数学分析及数据分析,对检测的项目包括中心轴剂量、平坦度、X方向对称性、Y方向对称性和射线质等分别进行比较,将所有检测结果进行统计并分析哪种算法在加速器上检测的数值更稳定。结果:四种算法在日常监测中稳定性都符合临床质量控制标准,但是在测量的灵敏度上有所不同。结论:经过分析比较,Elekta算法在确定稳定的前提下,平坦度及对称性的灵敏度与其他叁种算法相比更好,为PTW晨检仪的最优算法。(本文来源于《科学技术创新》期刊2019年23期)
李阳[4](2019)在《基于异构计算平台的推荐算法加速器的研究与实现》一文中研究指出在移动互联蓬勃发展的当下,任何与用户打交道并希望获得较好用户体验的系统都离不开一套完备的推荐系统。随着系统数据体量的增长,各种推荐算法需要花费更长的时间来处理来自用户的海量数据。为了让推荐系统对输入数据进行响应并处理后更快地将推荐结果呈现给用户,加快推荐算法的执行速度成为了亟待解决的问题。目前针对现有的各种推荐算法,主要采用云计算平台,分布式通用处理器平台,和图形处理器平台进行硬件加速。这些方法虽然在一定程度上提升了推荐算法的运行效率,但同时伴随而来的能效和成本等问题也是不容忽视的。本文选用一种由通用处理器(CPU)和现场可编程门阵列(FPGA)组成的异构计算平台来对推荐算法的硬件加速相关问题进行研究。它的主处理器(CPU)可以对整个系统进行控制,同时完成一些简单的数据处理任务;协处理器(FPGA)本身的功耗非常低,且拥有大量的逻辑运算单元可以用来执行耗时的任务。两者相互协作,获得算法执行时整体功耗的降低和效率上的提升。本文的研究工作主要包括以下几个方面:1.从目前较为流行推荐算法中,选取基于内容的推荐算法、基于协同过滤的推荐算法和基于关联规则推荐算法的原理进行研究,针对基于关联规则的推荐算法存在的问题进行优化,结合本文所设计的支持多种推荐算法的异构计算平台,提出了一种新的混合最近邻和关联规则的推荐算法,并进行了实验验证了其推荐效果。2.对几种推荐算法的计算热点进行研究,归结出四个计算热点,对它们的运算过程进行了并行和流水线的优化来加速其执行过程。3.将优化后的计算热点设计为四种硬件加速IP核,完成了对它们内部结构、IO接口、关键模块的执行过程的设计,并提出了针对性的HLS优化策略;同时,完成了整个硬件加速器的设备驱动层和用户接口层的设计。4.选用ZYNQ系列实验板作为异构计算平台实现了整个硬件加速器的原型,设计在异构计算平台和几种通用处理器(CPU)平台上完成几种相同推荐任务的对比实验,验证了对计算热点的并行和流水线优化的后的加速效果,得出了该异构计算平台在能效比较高的基础上有良好的加速效果的预期结论。(本文来源于《北京邮电大学》期刊2019-06-01)
徐莹[5](2019)在《面向多种聚类算法的通用加速器研究与设计》一文中研究指出随着人工智能的快速发展,很多传统算法被赋予了新的活力,聚类分析在各行各业中占有着越来越重要的地位。信息化时代带来的海量数据,使得人们对聚类算法的处理速度提出了更高的要求。针对聚类算法的加速研究,除了修改自身算法外,还可以利用硬件加速平台实现加速。可编程逻辑门阵列FPGA作为常用的硬件设备之一,其高性能、低功耗、可重复组合内部大量逻辑块等特性是它作为加速设备的优势。现如今,硬件加速方法通常针对单一算法,对多种算法的通用设计很少。为此,本文在提高算法执行速度的同时充分考虑加速器的通用性和灵活性,设计了包含多种聚类算法的通用加速器,避免资源浪费等问题。本文的具体工作如下:(1)对加速器进行软硬件功能划分。从基于划分、层次、密度以及网格的聚类算法中各选择一个典型算法,分别是K-means、Single-linkage、DBScan和Clique算法。通过解读四种聚类算法的关键代码,详细分析其运算特性,直接取出或转化后取出相同的功能模块。得到了距离计算单元和最小值查找单元。然后对提出的共性单元进行热度分析,将其中较为耗时的模块划分到硬件设备上,算法的其余部分保留在CPU上执行。使加速器在满足通用性的同时最大限度的提高加速性能。(2)对分配在加速器上的通用模块进行并行优化设计。针对距离计算单元,本文分别从数据并行和维度并行的两个角度完成设计。数据并行的方面体现在:利用FPGA中嵌有的大量的逻辑块,设计多个处理单元间的并行操作。可以同时计算出多组数据对象间的距离,实现数据的并行处理。维度并行的方面体现在:改变每个处理单元的内部执行方式,把每对点到点的距离计算也设计成并行处理模式,达到资源利用最大化。针对最小值查找单元,本文运用了大量的比较器设计成多位比较树,能够快速从一组数据对象中找出最小值,有效地提高算法执行效率。本文在不同数据集下验证了对多种聚类算法共性提取的正确性。再根据共性模块在FPGA上执行所需的时钟周期数,得到软硬件协同工作下的算法执行时间。通过算法在CPU上运行与软硬件协同工作下的加速比,评估加速器的加速性能。结果表明,用加速器替代部分软件算法的方案能够有效地提高整体运行速度。(本文来源于《吉林大学》期刊2019-05-01)
王刚[6](2019)在《基于SOPC的Smith-Waterman算法硬件加速器的设计与实现》一文中研究指出近年来,生物信息学在不断地发展并成为一门重要的学科,国内许多高校和科研院所都在大力发展这一方面的技术,使其有了突飞猛进的发展,并且以大数据为基础的精准医疗将成为我国“十叁五”期间重点发展的科学领域,这样使得生物信息学领域更受关注。生物序列分析是现代生命科学领域中重要的基础性研究工作,而进行序列分析的根本就是序列比对。目前美国已经建立起100万人的基因数据库,预计我国的基因数据库将远超此量级,并且伴随着新一代测序技术的迅速发展,所需比对分析的序列数量出现了爆炸性增长的趋势,但在现如今的序列比对技术当中,已经难以找出匹配序列数量迅速增快的技术,随后引发了序列比对速度跟不上序列产生速度的问题。针对这一问题,本文开展了基于SOPC的Smith-Waterman基因序列比对算法硬件加速器的设计实现工作,该研究利用Smith-Waterman算法原理与脉动阵列思想相结合的方法,基于SOPC硬件系统实现算法的高速完成,解决了上述的速度失配问题,具有十分重要的工程应用价值。本文首先对基因数据处理流程进行分析,提取其关键步骤,通过对处理模型进行特征分析,得出其中序列比对环节耗时最严重的结论;随后制定Smith-Waterman算法的硬件实现方案,利用算法的结果矩阵反对角线的并行性,在电路上结合脉动阵列思想,提出了适用于SOPC硬件系统的并行处理方案;进而搭建SmithWaterman算法的硬件加速器,采用行为级建模算法的阵列控制器、处理单元阵列、序列补给、回溯等模块,并完成模块仿真;搭建Smith-Waterman算法的软件处理平台,使用C语言(MFC控件)开发出序列比对算法程序,以此平台来检验硬件加速器的仿真正确性;最后下板验证硬件加速器的实际加速效果,基于团队自主研发的SOPC硬件开发平台,利用其动态可重构的功能,实现不同算法类型之间的快速切换。实验结果表明,本设计中Smith-Waterman算法硬件化系统可以实现40×50bp规模的短序列比对,将算法硬件加速器与算法软件平台的运行时间和比对结果进行比较,可以发现二者比对结果吻合,并且完成一次序列比对硬件系统所需时间是软件程序的1/40,最终硬件加速器实现了Smith-Waterman算法的高速完成,达到了设计之初的目的。(本文来源于《电子科技大学》期刊2019-04-01)
冯泽臣,马永忠,孙亚茹,朱维杰,王时进[7](2019)在《加速器主屏蔽区外剂量率解析算法与实测比较》一文中研究指出屏蔽是确保加速器机房外关注点剂量率和剂量满足控制目标的重要措施,屏蔽厚度的优化设计一般采用解析算法,其可靠性需验证。选取加速器主屏蔽区外10个位点和1个无均整高剂量率模式的位点对加速器主屏蔽区外剂量率采用IAEA 47号报告和GBZ/T 201.2中的解析算法进行计算,并将计算结果与实测结果进行比较。结果表明,采用IAEA 47号报告中的参数计算出的主屏蔽区外剂量率值均高于采用GBZ/T 201.2中的参数的计算结果,采用GBZ/T 201.2中的参数的计算结果与实测结果更加接近,个别位点的实测结果高于采用GBZ/T 201.2中参数的计算结果,其原因可能是混凝土墙的施工厚度不足。GBZ/T 201.2的解析算法可合理估算主屏蔽区外的剂量率,在施工过程中应严格控制施工质量,确保混凝土密度、混凝土墙厚度等与设计值保持一致。(本文来源于《辐射防护通讯》期刊2019年01期)
孙威[8](2018)在《多种拟合算法对检测加速器等中心的研究》一文中研究指出在癌症日趋严重的今天,使用医用加速器进行放射性治疗已成为治愈肿瘤的关键技术,而医用直线加速器的等中心位置的精度,直接影响治疗计划中确定的靶区和危及器官的位置。现代医用直线加速器是按照等中心原理设计,机架的旋转轴和治疗床的旋转轴交于一点,此点即是医用直线加速器的等中心。目前,在利用可被红外定位系统识别的定位小球对加速器和治疗床进行运动轨迹拟合时计算等中心时,是将治疗床和机头上的定位小球旋转轨迹直接看成空间的球面上的点进行拟合,通过计算球心和圆形平面法向量的方式得出基准轴线。然而这种方法求得的空间圆形不是球壳的大圆,解算出球心坐标后,很可能与实际的圆平面相距甚远而造成误差。本文在此种方法上进行了改进,首先拟合出运动轨迹的平面,然后把球心限制在平面上进行球体的拟合,求得的球心就是空间圆的圆心坐标。本文还充分利用空间圆的几何特性和数学定理,利用圆上弦的中垂面相交于圆心这一定理计算圆心的位置。为了验证不同拟合算法对等中心的误差影响,本文设计了一系列实验,实验表明,采用圆上弦的中垂面相交方法相较于其他算法更优,具有较高的精确度和实时性。由于医院的加速器和治疗床并不能旋转360度,且有的治疗房间的空间有限,红外定位装置和加速器之间的距离不足以让红外定位装置监控到加速器运动到每一个角度的位置,所以本文用叁种拟合方法分别对不同角度下的采样点进行了测量。发现了在旋转角度小于一定角度之后,等中心的计算误差已经不能满足精准放疗的要求了。在针对短圆弧小角度的拟合问题中,本文又采用了高密集采样的方法提高了短圆弧下等中心的精度,使得加速器在只旋转20度的情况下就能够使得拟合计算的精度满足国家标准中精准放疗所要求的小于1mm精度误差。最后,通过本文提出的方法到医院实际测量得到加速器的机械等中心,帮助放射科物理师进行加速器等中心的验证和调整,提高了加速器机械的质量控制水平,并且为放射治疗质量提供更有力地保障。(本文来源于《南京大学》期刊2018-05-28)
张奕玮[9](2018)在《基于FPGA的高能效比LSTM预测算法加速器的设计与实现》一文中研究指出如今,人工智能已经成为了计算机应用领域最为重要的学科之一。由于其在很多领域表现出强大的学习和处理能力,人工智能技术逐渐在各类实际应用中代替人类完成那些需要人的思维才能完成的工作。作为实现人工智能的重要方法,机器学习如今也愈来愈受研究者们的重视,并在工业界得到广泛应用,例如人脸识别、语音识别、机器翻译以及内容推荐等等功能都离不开机器学习的参与。人工神经网络模型在实际应用中取得了优异的效果,成为了机器学习领域最为常用的模型。神经网络的种类非常繁多,目前最为主流的神经网络模型包括DNNs,CNNs以及LSTM等,而LSTM由于其固有的时序特性,在语音识别、语义分析、图像识别等领域都有应用。LSTM网络的特点是存在大量连接,参数规模巨大,并且计算过程也较为复杂。如何实现高性能、低功耗的LSTM神经网络是当前学术界和工业界的热点问题之一,其中采用低功耗硬件实现神经网络加速器便是有效的解决办法。作为一种硬件加速手段,FPGA的高性能和低功耗的特点使其被广泛应用。本文基于FPGA设计与实现了一款LSTM神经网络预测算法的硬件加速器,主要工作包括:1.分析LSTM神经网络前向计算部分的运算逻辑,将其分解为不同的运算模块,并分析每个模块的算法特性。2.针对每个运算模块分别设计FPGA硬件运算单元。采用流水线方法对运算过程进行并行加速,以提高加速器的吞吐率。最终实现LSTM神经网络的硬件加速器设计。3.针对较大规模的LSTM网络需要消耗大量存储资源的情况,本文采用剪枝-重训练方法对其进行了压缩处理,并根据剪枝后的LSTM网络设计专门的稀疏神经网络加速器。4.实验验证本文的LSTM硬件加速器设计,基于FPGA的常规/稀疏LSTM网络加速器与CPU平台进行对比,测试运算吞吐率和功耗等性能数据,并对FPGA硬件实现的资源消耗进行分析。此外使用数据集,测试剪枝手段对LSTM神经网络预测精度效果的影响。(本文来源于《中国科学技术大学》期刊2018-05-21)
罗聪[10](2018)在《基于人脸检测YOLO算法的专用型卷积神经网络推理加速器的研究与设计》一文中研究指出近年来,随着人工智能热度的上升,深度学习算法模型不断涌现,与此同时,卷积神经网络在机器视觉领域上也取得了巨大的进展。当前的深度学习算法大多利用云端服务器强大的计算能力进行运算,但基于用户对终端设备的实时性、安全性、离线性等需求,云端的深度学习网络需放到本地进行计算,因此,针对具体的应用场景以及相应的算法设计,研究专用型卷积神经网络推理加速器是目前学术界和工业界研究热点,具有重要的研究意义与实用价值。论文将围绕硬件结构、计算性能、功耗、片上缓存、硬件资源利用率等方面,开展基于人脸检测YOLO算法的专用型卷积神经网络推理加速器的研究与设计,主要工作有:(1)研究与分析人脸检测YOLO算法,依据算法调整神经网络结构与训练参数,训练符合人脸检测的卷积神经网络模型,得出训练后的权值与推理参数;根据人脸检测算法模型的分析结果,提出系统实现框架。(2)针对人脸检测YOLO算法处理浮点数据,提出一款数据复用与分布式片上存储相结合的卷积神经网络推理加速器,在降低模块外部数据带宽需求的同时加速卷积神经网络的推理过程。设定相应指令集与工作模式,通过指令控制实现卷积神经网络不同网络层的多种参数进行不同的运算操作。(3)针对人脸检测YOLO算法二值化处理方式,提出一款二值化与分布式片上存储相结合的卷积神经网络加速器,减少权值、推理参数及输入数据量,加速运算过程。(4)使用Xilinx的FPGA对上述卷积神经网络推理加速器进行设计仿真。仿真结果表明,本文的浮点型卷积神经网络推理加速器在100MHz时钟下,峰值运算速度达到3.188GMAC/s,功耗为2.519W,相比于通用CPU实现了8.46倍加速,而功耗仅为其3.88%。同样在100MHz时钟下,二值化推理加速器需要处理的数据量为浮点型的1/32,避免了大量的浮点卷积乘累加运算,加速了推理过程,但是二值化的YOLO算法检测精度需要再进一步提高。(本文来源于《华南理工大学》期刊2018-04-12)
算法加速器论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
算法加速器论文参考文献
[1].王巍,周凯利,王伊昌,王广,袁军.基于快速滤波算法的卷积神经网络加速器设计[J].电子与信息学报.2019
[2].徐睿,马胜,郭阳,黄友,李艺煌.基于Winograd稀疏算法的卷积神经网络加速器设计与研究[J].计算机工程与科学.2019
[3].徐倩倩,佟旭,庄鹏,李京,王凤娇.对PTW晨检仪应用不同算法在西门子加速器上晨检结果稳定性的临床比较研究[J].科学技术创新.2019
[4].李阳.基于异构计算平台的推荐算法加速器的研究与实现[D].北京邮电大学.2019
[5].徐莹.面向多种聚类算法的通用加速器研究与设计[D].吉林大学.2019
[6].王刚.基于SOPC的Smith-Waterman算法硬件加速器的设计与实现[D].电子科技大学.2019
[7].冯泽臣,马永忠,孙亚茹,朱维杰,王时进.加速器主屏蔽区外剂量率解析算法与实测比较[J].辐射防护通讯.2019
[8].孙威.多种拟合算法对检测加速器等中心的研究[D].南京大学.2018
[9].张奕玮.基于FPGA的高能效比LSTM预测算法加速器的设计与实现[D].中国科学技术大学.2018
[10].罗聪.基于人脸检测YOLO算法的专用型卷积神经网络推理加速器的研究与设计[D].华南理工大学.2018