导读:本文包含了向量索引论文开题报告文献综述及选题提纲参考文献,主要关键词:内存OLAP,外键连接,向量索引,向量引用
向量索引论文文献综述
张延松,张宇,王珊[1](2019)在《一种基于向量索引的内存OLAP星型连接加速新技术》一文中研究指出星型连接是OLAP中重要的操作,事实表与维表基于星型连接执行多维分析处理.星型连接的性能取决于连接性能.当前研究主要集中在如何在不同的处理器平台上优化哈希连接性能,然而如何获得最优的哈希连接参数或实现是一个复杂的问题.哈希连接不依赖于模式的语义信息,然而却可以在事实表与维表之间通过维映射特征进一步优化连接性能.该文提出了一种新颖的面向OLAP负载的向量索引以提高事实表与维表之间的连接性能.从模式的角度来看,维表可以映射为向量索引,每一个事实表记录可以直接映射到向量索引上的相应位置,无须执行基于值匹配的哈希连接操作.从实现技术的角度看,向量索引是一种位图索引、字典表压缩、主外键参照完整性约束和连接索引相结合的技术.系统化的设计使向量索引可以扮演多种角色:(1)向量索引与位图索引类似起到过滤作用;(2)向量索引相对于只存储0或1的位图索引使用更多的位来表示更多的信息;(3)映射或创建自动增长的主键作为向量索引地址并且更新相应的外键,将主外键参照完整性约束转换为向量参照约束;(4)外键连接操作简化为通过外键值引用向量单元.基于向量索引,OLAP中代价大的星形连接可以抽象为向量索引计算,OLAP查询可以简化为基于向量索引的单表扫描处理.向量索引简化的设计不仅可以提升性能,而且降低了在GPU平台实现的复杂度.本文首先讨论了向量索引机制和如何在数据库中应用向量索引;然后设计向量索引更新机制,以保证在更新时向量参照约束;最后提出基于向量索引的OLAP框架来提高内存数据库OLAP性能.基于向量索引的星型连接可以用作GPU上的OLAP加速器,使CPU可以将计算密集型负载转移到高性能GPU平台来加速OLAP处理.实验结果表明向量索引更新代价较低,而向量引用性能收益较大.更重要的是,向量索引支持OLAP中的星形连接操作在内存数据库引擎之外进行加速,降低了内存数据库的CPU负载,或者将星形连接负载通过硬件级加速器,如GPU进行加速.基于向量索引的星型连接可以显着提升CPU和GPU平台上的星型连接性能,相对于内存数据库Vector,在SSB Q4.1查询可以获得最大3倍的性能提升,平均性能提升了1.2倍.(本文来源于《计算机学报》期刊2019年08期)
陈伊玲[2](2015)在《基于向量近似的复合空间索引研究》一文中研究指出随着对地观测手段的不断发展,人类获取空间数据的能力达到空前的水平。快速准确地从海量空间数据中获取有效的信息,既是GIS可用性的前提,也是对空间数据进一步分析应用的基础。复合空间查询是一种常用的空间查询方式,通过几何与属性条件复合进行查询以获取用户需要的空间信息。为了提高复合空间查询的效率,一般通过空间索引和属性索引进行剪枝,但由于需要在不同字段上分别建立索引,一方面增加了索引维护的复杂性,降低了存储效率,另一方面割裂了特征间可能存在的相关性,降低了查询效率。本文提出一种复合空间索引,该索引引入向量近似思想并进行空间化扩展,利用特征间的相关性实现对几何与属性特征同时剪枝,借助二进制位向量和计算机高效的位运算能力,实现了较高的查询效率和较低的存储开销。尤其需要指出,该索引无需建立基于MBR的空间索引结构,通过隐式空间剪枝即可实现更精确的空间过滤。论文的主要研究内容和成果如下:(1)提出了向量近似空间化扩展方法。论文对比分析了均匀划分和非均匀划分对查询效率的影响,提出了在几何和属性特征上建立非均匀划分的优化划分方案,并采用向量近似思想将空间数据的多维特征映射到一维线性空间中。该扩展方法具有低存储和高性能等优点。(2)提出了一种基于向量近似的复合空间索引(VAHSI, Vector Approximation based Hybrid Spatial Index)。该索引基于空间化向量近似思想把空间数据集映射为一系列数据桶。在一级过滤层,基于计数排序思想,建立了空间数据集与数据桶的高速映射表,基于该高速映射表,无需任何辅助结构,可以实现在O(1)时间内对数据桶的直接定位;在二级索引层,根据数据桶的数据密度,分别采用位向量和枚举法建立桶索引。查询时首先对查询条件进行分解,通过高速映射表高速剪枝,然后利用桶索引和位运算进行二次快速剪枝以获得更精炼的候选数据集,最后对候选数据集进行精确过滤。论文给出了该复合空间索引的查询、插入和删除算法。(3)构建了基于VAHSI的复合空间查询原型系统,在此基础上进行了一系列对比实验,对实验结果的分析表明,本文提出的复合空间索引具有高性能和低存储开销的特性。(本文来源于《南京师范大学》期刊2015-05-15)
范文婷,陈秀宏[3](2015)在《基于子向量距离索引的特征匹配算法的改进》一文中研究指出在解决高维向量的搜索问题方法中,基于子向量距离索引的向量匹配算法iSVD拥有较好的搜索精度和效率。但是,该算法计算复杂度仍然较高,在实际应用中会受到限制。针对该问题,引入关键维选取方法,对iSVD算法进行改进。该方法首先将特征向量划分为多个子向量;再通过某种筛选方法,选出部分子向量代替原特征向量,进而创建索引值;最后利用索引值进行最近邻搜索。该方法能够将相似性较小的特征向量进行有效的区分,且可以进一步缩小最近邻搜索的搜索范围。实验结果表明,该算法能够在保持良好搜索精度的同时,提高匹配的正确率,缩短匹配时间,具有较好的实用性。(本文来源于《计算机工程与科学》期刊2015年04期)
付永贵,尚成国,马尚才[4](2013)在《基于云计算的改进余弦向量度量法索引项权值算法》一文中研究指出针对用户对索引项重要程度无区分以及普通计算平台承载能力受限提出基于云计算的改进余弦向量度量法索引项权值算法(ICVMMITWCC算法),该算法通过从包含全部索引项的文本集中计算索引项平均权值对经典的余弦向量度量法索引项权值算法(CCVMMITW算法)修改求得相对权值;通过实验对比ICVMMITWCC算法与CCVMMITW算法下文本的排序效率,说明ICVMMITWCC算法更贴近用户查询需求.(本文来源于《计算机系统应用》期刊2013年06期)
赵嵩,马荣华,曹海旺,杨恒[5](2013)在《基于子向量距离索引的高维图像特征匹配算法》一文中研究指出图像局部不变特征已经成功地应用在计算机视觉当中的许多领域,而如何快速有效地匹配高维图像局部特征向量是解决这类问题的关键步骤。提出了一种新的基于子向量距离索引的高维特征向量匹配算法,将高维空间中最近邻搜索问题转化为一维索引值的查找和局部搜索问题,在保证较高的搜索精度的同时大大提高了搜索速度。大量的图像匹配和图像检索实验验证了该算法的有效性。(本文来源于《计算机工程与应用》期刊2013年02期)
陈慧中,陈永光,景宁,陈荦[6](2011)在《PCPF:一种面向多媒体数据库中高维向量匹配的并行索引结构》一文中研究指出提高特征向量的匹配效率是将高维局部特征运用于多媒体数据检索的关键.面向多核处理器架构,提出一种新的PCPF索引以及PCPF并行构建与并行查询匹配算法.PCPF并行构建算法通过量化特征向量构建近似向量空间上的高维索引结构,并进行空间划分并行构建多个子索引分支;PCPF并行查询匹配算法利用优先队列在邻近子分支上并行过滤得到近似近邻候选集,精确计算候选实际特征向量得到最终近邻.实验及分析表明,与经典的BBF算法相比较,PCPF通过降低了磁盘I/O和浮点运算次数以及并行优化,显着提升了查询匹配效率,总体匹配精度也有所提高.(本文来源于《计算机学报》期刊2011年10期)
陈建英,刘心松[7](2011)在《一种基于位向量的位置索引压缩方法》一文中研究指出为了缓解大规模分布式系统中共享资源位置索引信息带来的存储压力,提出一种基于位向量的信息压缩方法。该方法建立在区/站/节点叁级分层和区间对等的混合覆盖网结构上,通过在两级代理节点的有序子节点集和一定位数的位向量间建立映射关系,进而把冗余资源的位置索引信息汇聚到一条记录,逆向的位向量查询则可获取副本的分布信息。实验表明,该压缩方法达到了较高的记录压缩比,同时对提高副本定位效率起到了一定的作用。(本文来源于《计算机应用研究》期刊2011年05期)
牟昕,唐常杰,左劼,段磊,巩杰[8](2010)在《FOLAPE:基于位向量索引的快速OLAP引擎研究》一文中研究指出提高联机分析处理OLAP效率是学术界和工业界共同关注的课题.传统OLAP在处理复杂应用时,运算代价随维度增大而增大,为解决这一问题,做了如下工作:(1)分析现有OLAP模型的不足,设计了一种采用位向量索引技术的快速OLAP模型,FOLAPE;(2)FOLAPE支持索引的增量式更新,提高了数据更新效率;(3)针对FOLAPE特点,设计了新的聚集函数算法;(4)在真实数据上进行了实验验证.实验表明,FOLAPE相对于最新OLAP模型,其平均查询时间最低减少90%,最高减少95%,同时存储空间需求也显着降低.(本文来源于《四川大学学报(自然科学版)》期刊2010年05期)
郑天坤[9](2010)在《基于特征向量的时态XML索引研究》一文中研究指出由于网络技术的不断发展,web服务、电子商务的广泛应用,XML已成为网络应用中数据表示和数据交换的标准。XML表示数据的同时,还携带了数据的语义,可以作为一种中间格式,为所有平台所使用。XML数据库技术已得到较为深入的发展,取得许多优秀的学术成果。而时间作为商业应用中的一个重要元素,引入到XML数据中具有实际意义,可用于表示数据的有效时间。时态XML数据库就是对XML数据库进行扩展,增加对时态属性的支持,可以跟踪历史数据,或恢复数据到任一时刻的状态。国内外对时态XML数据库关注越来越多。随时间推移,数据不断增多,对查询处理的性能要求越来越高。与非时态XML数据库一样,如何建立高效的索引成为时态XML数据技术的重要问题。在时态XML索引领域,较多是在时态XML文档更新时产生一个新版本,需要遍历不同的版本才能完成查询处理,影响查询处理性能。另一些则注重借鉴非时态XML数据库的索引技术,对其进行扩展,在索引的构建,查询和维护中分别增加对时态的支持。非时态XML索引大致分为结构摘要类和结点记录类索引。它们的构造思想对处于起步阶段的时态XML索引技术有很好的启发作用。本文中使用的时态XML模型是将不同有效时间的数据存放在同一个文档,而不是将数据按时间划分版本分开保存。针对这种时态XML文档的特点,本文提出一种新的时态XML索引技术TFIX。它的基本思想是在处理查询时,只在文档中可能包含查询结果的部分进行搜索,避免遍历整个文档。对于大的时态XML文档,本文首先枚举出所有深度为K的子文档片,K是索引的参数且为整数,以特征向量来表征每一个文档片,计算出各个文档片的特征向量并作为键值插入到B+树中建立索引。索引在处理查询时,同样将小枝查询看作是一棵查询树,计算出特征向量,以此在B+树进行匹配,查找出所有可能包含查询结果的子文档片集,最后只在这个中间结果集中进行简单遍历即可得到最终结果集。本文所使用的特征向量包含如下几个分量:文档片根结点名称、文档图对应矩阵的最大最小特征值和根结点有效时间。它是基于图论中的基本结论和时态XML文档自身的性质提出来的。本文详细讨论了TFIX索引的构造、查询和维护的算法过程,并通过实验对比,验证索引的性能。本文的创新之处在于,提出一个特征向量并利用它的筛选作用,减少查询时需要遍历的范围,提高索引的查询处理性能。这种思路与结点记录类和结构摘要类索引的构造思想有所区别,但在TFIX索引构造过程中也借鉴了计算结构摘要的理论,提出适合本索引的双拟概念。实验结果表明TFIX索引具有较突出的查询性能。(本文来源于《山东大学》期刊2010-04-05)
姜丽丽[10](2010)在《基于潜在语义索引和支持向量机的文本分类过滤技术研究》一文中研究指出随着我国互联网基础建设的日趋完善,网络技术的创新发展,网络已日益渗透到各个行业,其影响涉及到人类社会生活的各个方面,网络的应用已经从生活娱乐逐步向社会经济领域渗透,网民对互联网的要求也日渐提高。然而,如何从因特网中过滤掉与个人兴趣不相关信息并免受不法信息的侵扰,已成为迫切需要解决的问题,信息过滤已成为当前网络信息技术领域中研究的一个重要部分。本文通过分析文本信息过滤的模型,探讨文本分类技术应用于过滤系统的可行性以及过滤系统性能评价指标等,按模块化的设计思路,分为预处理模块、特征降维模块、训练模块和过滤模块四大部分,设计并实现了基于潜在语义索引和支持向量机的过滤系统。本文提出了基于聚类和潜在语义索引模型相结合的特征降维方法。在深入研究了特征降维方法的基础上,针对在分类方法中特征降维的特点以及要求,使用基于互信息的改进k-means算法降维,将相同或相近的特征项进行了有效的合并,很大程度上减少了特征个数。并将聚类与潜在语义索引方法相结合,对通过聚类得到的特征集进行语义层面的压缩,对特征空间进行更深一层的降维。并进行了相关实验,结果表明这种算法是可行的。有效解决特征集中大量的特征对类别判定的贡献非常小的分类问题。对于各种文本分类算法,本文着重对支持向量机(SVM,Support Vector Machines)方法进行了研究。针对传统多分类方法中存在的问题进行了分析,提出了一种将遗传算法和二叉树多分类SVM结合的分类方法,利用遗传算法对二叉树支持向量机优化获得更好的模型,在每个节点应用遗传算法将多类训练样本划分为两类问题进行训练,直到达到叶节点为止,使子类之间的可分性大大增强,从而得到合理的二叉树结构,最终自适应的生成最优二叉树。该方法减少了分类的时间,提高了分类的精度,最后为了验证改进算法的可行性和有效性,选取复旦大学的文本分类语料进行仿真实验。(本文来源于《大庆石油学院》期刊2010-03-17)
向量索引论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着对地观测手段的不断发展,人类获取空间数据的能力达到空前的水平。快速准确地从海量空间数据中获取有效的信息,既是GIS可用性的前提,也是对空间数据进一步分析应用的基础。复合空间查询是一种常用的空间查询方式,通过几何与属性条件复合进行查询以获取用户需要的空间信息。为了提高复合空间查询的效率,一般通过空间索引和属性索引进行剪枝,但由于需要在不同字段上分别建立索引,一方面增加了索引维护的复杂性,降低了存储效率,另一方面割裂了特征间可能存在的相关性,降低了查询效率。本文提出一种复合空间索引,该索引引入向量近似思想并进行空间化扩展,利用特征间的相关性实现对几何与属性特征同时剪枝,借助二进制位向量和计算机高效的位运算能力,实现了较高的查询效率和较低的存储开销。尤其需要指出,该索引无需建立基于MBR的空间索引结构,通过隐式空间剪枝即可实现更精确的空间过滤。论文的主要研究内容和成果如下:(1)提出了向量近似空间化扩展方法。论文对比分析了均匀划分和非均匀划分对查询效率的影响,提出了在几何和属性特征上建立非均匀划分的优化划分方案,并采用向量近似思想将空间数据的多维特征映射到一维线性空间中。该扩展方法具有低存储和高性能等优点。(2)提出了一种基于向量近似的复合空间索引(VAHSI, Vector Approximation based Hybrid Spatial Index)。该索引基于空间化向量近似思想把空间数据集映射为一系列数据桶。在一级过滤层,基于计数排序思想,建立了空间数据集与数据桶的高速映射表,基于该高速映射表,无需任何辅助结构,可以实现在O(1)时间内对数据桶的直接定位;在二级索引层,根据数据桶的数据密度,分别采用位向量和枚举法建立桶索引。查询时首先对查询条件进行分解,通过高速映射表高速剪枝,然后利用桶索引和位运算进行二次快速剪枝以获得更精炼的候选数据集,最后对候选数据集进行精确过滤。论文给出了该复合空间索引的查询、插入和删除算法。(3)构建了基于VAHSI的复合空间查询原型系统,在此基础上进行了一系列对比实验,对实验结果的分析表明,本文提出的复合空间索引具有高性能和低存储开销的特性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
向量索引论文参考文献
[1].张延松,张宇,王珊.一种基于向量索引的内存OLAP星型连接加速新技术[J].计算机学报.2019
[2].陈伊玲.基于向量近似的复合空间索引研究[D].南京师范大学.2015
[3].范文婷,陈秀宏.基于子向量距离索引的特征匹配算法的改进[J].计算机工程与科学.2015
[4].付永贵,尚成国,马尚才.基于云计算的改进余弦向量度量法索引项权值算法[J].计算机系统应用.2013
[5].赵嵩,马荣华,曹海旺,杨恒.基于子向量距离索引的高维图像特征匹配算法[J].计算机工程与应用.2013
[6].陈慧中,陈永光,景宁,陈荦.PCPF:一种面向多媒体数据库中高维向量匹配的并行索引结构[J].计算机学报.2011
[7].陈建英,刘心松.一种基于位向量的位置索引压缩方法[J].计算机应用研究.2011
[8].牟昕,唐常杰,左劼,段磊,巩杰.FOLAPE:基于位向量索引的快速OLAP引擎研究[J].四川大学学报(自然科学版).2010
[9].郑天坤.基于特征向量的时态XML索引研究[D].山东大学.2010
[10].姜丽丽.基于潜在语义索引和支持向量机的文本分类过滤技术研究[D].大庆石油学院.2010