导读:本文包含了稀疏矩阵向量乘论文开题报告文献综述及选题提纲参考文献,主要关键词:稀疏矩阵向量乘法(SpMV),直接内存存取(DMA),压缩稀疏行(CSR)
稀疏矩阵向量乘论文文献综述
曹亚松,刘胜[1](2019)在《面向稀疏矩阵向量乘的DMA设计与验证》一文中研究指出稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操作,降低了系统计算性能。基于X-DSP项目,在DMA中设计一条面向SpMV的专用数据通道实现不规则访存的功能,提高HPCG算法运算速度。设计代码的验证与综合结果表明预期的功能实现正确,且满足项目对时序、面积和功耗的要求。(本文来源于《计算机与数字工程》期刊2019年11期)
苏锦柱,邬贵明,贾迅[2](2016)在《二元域大型稀疏矩阵向量乘的FPGA设计与实现》一文中研究指出作为Wiedemannn算法的核心部分,稀疏矩阵向量乘是求解二元域上大型稀疏线性方程组的主要步骤。提出了一种基于FPGA的二元域大型稀疏矩阵向量乘的环网硬件系统架构,为解决Wiedemannn算法重复计算稀疏矩阵向量乘,提出了新的并行计算结构。实验分析表明,提出的架构提高了Wiedemannn算法中稀疏矩阵向量乘的并行性,同时充分利用了FPGA的片内存储器和吉比特收发器,与目前性能最好的部分可重构计算PR模型相比,实现了2.65倍的加速性能。(本文来源于《计算机工程与科学》期刊2016年08期)
张爱民,安虹,姚文军,梁伟浩,江霞[3](2016)在《基于Intel Xeon Phi的稀疏矩阵向量乘性能优化》一文中研究指出稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi的体系结构特点,提出了一种通用的分块压缩存储表示的稀疏矩阵向量乘并行算法:(1)在ELLPACK存储格式基础上按列分块及压缩矩阵,增加非零元的密度,提高SIMD利用率;(2)通过精心的数据重排,保留矩阵非零元本身的局部性,从而提高数据重用率,降低访存开销;(3)将矩阵压缩后划分成近似等大的矩阵块并静态等量分配到不同核上计算,使各核负载均衡.实验结果表明,与Intel Xeon Phi上已有的MKL数学库中的CSR算法相比,本算法获得了更高的计算访存比,性能比M KL的CSR算法平均快2.05倍.(本文来源于《小型微型计算机系统》期刊2016年04期)
阳王东,李肯立[4](2016)在《基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化》一文中研究指出稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。(本文来源于《计算机工程与科学》期刊2016年02期)
张禾,陈客松[5](2014)在《基于FPGA的稀疏矩阵向量乘的设计研究》一文中研究指出作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。在一维划分的行压缩稀疏矩阵数据存储技术以及计算部件的流水化设计的基础上,提出了一种基于单个浮点加法器的无阻塞累加器设计。通过实验验证表明,简化了算法的设计提高了算法执行的并行度和外部存储器的带宽利用率,获得了相对于传统处理器1.37-2.60倍的性能加速比。(本文来源于《计算机应用研究》期刊2014年06期)
王迎瑞,任江勇,田荣[6](2013)在《基于GPU的高性能稀疏矩阵向量乘及CG求解器优化》一文中研究指出以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。(本文来源于《计算机科学》期刊2013年03期)
叶纬材[7](2012)在《选择粗化函数优化并行稀疏矩阵向量乘法》一文中研究指出讨论了如何分划稀疏矩阵的非零元素以减少并行矩阵向量乘法的通信代价。通过以粗化函数为工具,统一现有的数据分划方法;提出一种基于行列分划为初解的粗化函数选取方法,在理论上的证明其运行效率与分划质量不逊于一维数据分划方法;实验数据表明,该方法产生分划质量超过一维数据分划方法的结果,接近甚至超过二维细粒度方上法的结果。(本文来源于《中山大学学报(自然科学版)》期刊2012年05期)
赵加强[8](2012)在《基于OpenCL的稀疏矩阵向量乘优化》一文中研究指出在过去的几年间GPU在大规模并行运算中起到重要的作用,单从单位面积和单位功耗来看,GPU的计算能力已经大大超过CPU。CUDA、OpenCL等编程工具的出现使得更多的开发人员更容易地更有效率地在GPU平台上编程。本文主要用的是目前一个重要的GPGPU解决方案——OpenCL。稀疏矩阵向量乘是数学和工程学中常用的数值类算法之一,很多数值类算法又能够转换为矩阵的运算,如图像处理和工程科学中的信息处理,求解线性方程组,快速傅里叶变换,优化。解决稀疏矩阵向量乘的优化问题可以对工程科学中的性能有很大的提升。本文首先以GPU计算为背景,对GPU的发展过程和一些基本概念做些介绍。其次,阐述了AMD系列的GPU的架构,从硬件出发,通过了解硬件平台的架构来为优化做一些准备,并从OpenCL架构方面介绍了平台模型、执行模型、内存模型、编程模型四种模型详细了解OpenCL的运行过程。在实现基于CSR格式的优化过程中,首先配置了OpenCL的开发环境,主要是针对OpenCL的SDK在头文件和程序库的设置。因为矩阵中的任意两行的操作是没有数据和逻辑依赖关系,所以传统串行算法可并行化,即在传统串行算法代码中表现也就是外层的循环是可以进行并行处理。并用了一个线程处理一行数据、一个wave处理一行数据、一个线程和一个wave处理一行数据的折中方法叁种方法。在用一个线程处理一行数据的方法之后发现负载平衡和访问存储器的连续性的问题,之后用一个wave处理一行数据解决。在针对绝大多数行拥有的非零元素数量都远大于64的矩阵时,发现一个wave处理一行数据不能发挥很好的性能,之后用一个线程处理一行数据和一个wave处理一行数据的折中方法解决,之后利用图像对象和量化内核其他优化方法。最后,对本文进行简单的总结并展望未来异构平台下的SpMV优化。(本文来源于《吉林大学》期刊2012-04-01)
宋庆增,顾军华[9](2011)在《稀疏矩阵向量乘的FPGA设计与实现》一文中研究指出针对传统的通用处理器(GPP)平台上执行稀疏矩阵向量乘计算效率低的问题,提出一种基于可重构计算平台的SpMXV协处理器设计。方案采用二叉树结构高度流水的数据流、IEEE-754的32 bit浮点数数据格式和对角存储格式。数据通路以流水线方式进行组织,能够优化计算性能。仿真结果表明,与GPP平台上的软件实现相比,通过硬件实现的设计能达到最高2.69倍的性能加速。(本文来源于《计算机工程》期刊2011年23期)
庄立[10](2011)在《稀疏矩阵向量乘及自动调优》一文中研究指出在数值分析领域中,稀疏矩阵是阵内元素大部分为零的矩阵。大规模稀疏矩阵广泛出现在科学计算以及工程领域中,用于大规模线性求解系统和求解矩阵特征值等问题。稀疏矩阵在很多科学问题的物理过程离散求解中都有着重要的作用,如在有限元分析中利用稀疏矩阵来表示元素之间的相互作用,在图论中利用稀疏矩阵来描述图并通过稀疏矩阵的运算来实现图的变换,流体力学偏微分方程的求解等等。目前,针对稀疏矩阵的研究已经渗入到很多领域,在结构分析、网络理论、电力分配系统、化学工程、摄影测绘学以及管理科学等方面研究中,都出现了上千阶直至几百万阶的稀疏矩阵。因此对于稀疏矩阵向量乘(SpMV)及其调优技术的研究有助于提升解决相关领域问题的运算效率,有着巨大的研究价值与意义。本文在大量阅读国内外相关研究文献的基础上,研究并实现了稀疏矩阵向量乘运算的相关优化技术与方法,给出了一种基于主成分分析法的优化技术自动调优算法,进而提出并开发了一种整合现有优化技术的数学库COSC。在以上工作的基础上,本文创新性地提出一种基于四叉树的稀疏矩阵存储方式,利用递归进行分解重排,保证在该存储格式下的稀疏矩阵向量乘运算拥有较高的Cache命中率,从而提升运算的整体性能。进一步的,本文给出了基于四叉树的稀疏矩阵向量乘优化技术的性能分析与优化原则。本文的主要工作总结如下:(1)查阅并研究国内外现有优化技术,从面向计算体系结构的优化方面入手,论述、总结并归纳了在该方向上的四类基本策略及现有优化技术的优势与不足,从而为本文的研究提供了基本的研究方向。(2)阐述和介绍了基于CSR格式的稀疏矩阵向量乘优化与自动调优。该部分通过编码实现与优化,给出了一种基于训练集与主成分分析法的自动调优策略SCS,并基于此提出一种可整合优化策略的数学库COSC。实验表明SCS的有效性,结合COSC,可以为以稀疏矩阵向量乘运算为计算热点的相关问题在解决效率上带来显着的改进。(3)提出一种基于四叉树的稀疏矩阵存储方式。该存储方式通过递归进行分解重排,保证了进行稀疏矩阵向量乘运算时的高Cache命中率,从而带来性能上的提升。基于该存储方式,本文亦提出了其上相关的优化技术,进而分析了各优化技术的性能影响。实验证明基于四叉树存储结构的稀疏矩阵在矩阵乘法中具有较高的性能,其结构利于计算并行化并具较高的数据局部性。在深腾7000高性能计算集群上的实验表明基于四叉树存储结构的矩阵向量乘较MKL的实现能获得平均63%的性能提升。(4)对本文的上述方面研究作了总结性的概括,给出了本课题今后的研究方向,展望并提出下一步工作。(本文来源于《杭州电子科技大学》期刊2011-12-01)
稀疏矩阵向量乘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
作为Wiedemannn算法的核心部分,稀疏矩阵向量乘是求解二元域上大型稀疏线性方程组的主要步骤。提出了一种基于FPGA的二元域大型稀疏矩阵向量乘的环网硬件系统架构,为解决Wiedemannn算法重复计算稀疏矩阵向量乘,提出了新的并行计算结构。实验分析表明,提出的架构提高了Wiedemannn算法中稀疏矩阵向量乘的并行性,同时充分利用了FPGA的片内存储器和吉比特收发器,与目前性能最好的部分可重构计算PR模型相比,实现了2.65倍的加速性能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
稀疏矩阵向量乘论文参考文献
[1].曹亚松,刘胜.面向稀疏矩阵向量乘的DMA设计与验证[J].计算机与数字工程.2019
[2].苏锦柱,邬贵明,贾迅.二元域大型稀疏矩阵向量乘的FPGA设计与实现[J].计算机工程与科学.2016
[3].张爱民,安虹,姚文军,梁伟浩,江霞.基于IntelXeonPhi的稀疏矩阵向量乘性能优化[J].小型微型计算机系统.2016
[4].阳王东,李肯立.基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化[J].计算机工程与科学.2016
[5].张禾,陈客松.基于FPGA的稀疏矩阵向量乘的设计研究[J].计算机应用研究.2014
[6].王迎瑞,任江勇,田荣.基于GPU的高性能稀疏矩阵向量乘及CG求解器优化[J].计算机科学.2013
[7].叶纬材.选择粗化函数优化并行稀疏矩阵向量乘法[J].中山大学学报(自然科学版).2012
[8].赵加强.基于OpenCL的稀疏矩阵向量乘优化[D].吉林大学.2012
[9].宋庆增,顾军华.稀疏矩阵向量乘的FPGA设计与实现[J].计算机工程.2011
[10].庄立.稀疏矩阵向量乘及自动调优[D].杭州电子科技大学.2011