高维数据索引论文-杨传福

高维数据索引论文-杨传福

导读:本文包含了高维数据索引论文开题报告文献综述及选题提纲参考文献,主要关键词:大规模数据,高维数据,近似最近邻搜索,多哈希表索引

高维数据索引论文文献综述

杨传福[1](2017)在《海量高维数据的多哈希表索引算法的研究》一文中研究指出近年来,随着互特网技术的快速发展,多媒体数据诸如文本、图像、视频等数据已呈现爆炸性增长的趋势。如何在海量的多媒体数据中搜索到目标数据是计算机科学研究领域的一个热点问题。由于在实际应用中,多媒体数据一般通过其特征数据表示,而这些特征表示往往是高维向量数据。此时传统的基于空间划分树、聚类划分树等索引技术的检索方案,并不能很好地应对这类海量高维数据,且面临着效率低下的问题。针对海量高维数据的近邻查询,一种主流的解决思路是把数据映射为二进制码,其主要原因是二进制码具备存储代价低、汉明距离计算快等特性。主流的研究工作包括局部敏感哈希、乘积量化、ITQ、K均值哈希等。不过,二进制表示本身也有一些问题:首先,如何使得二进制码表示能够保持原始数据之间的空间近邻结构;其次,如何利用尽量少的二进制码位数来保持尽量高的检索性能;再次,当数据的规模太大直接进行汉明距离匹配效率过低时,如何利用二进制码作为索引,给出海量高维数据的高效索引及查询方案等。针对海量高维数据的二进制表示如何索引问题,本文提出了一种新的索引结构及近邻查找算法,即基于多哈希表的索引及查询算法。首先,我们通过度量不同哈希位之间的独立性,选择最优的哈希位分组方案。由于哈希位之间的组合数是几何数量级的,我们提出了近似求解的方法来构建多个哈希表。其次,对于原始数据集中的数据点,进行离线索引的构建。再次,对于给定查询点,我们在多个哈希表中分别搜索查询点近邻,并提出了近邻查询扩展和优化方法。最后,我们结合当前主流的大数据计算框架Spark,讨论了算法的并行实现。为了评价多哈希表索引及查询算法的性能,我们在多个数据集包括公开数据集和合成数据集上,进行了大量的数值实验,并且和一些主流的哈希及索引算法进行了对比分析。数值实验说明,相比于其它算法,论文提出的算法在检索的准确率、召回率、MAP值方面具备一定的优势。(本文来源于《大连海事大学》期刊2017-12-01)

宋宝燕,刘宇,丁琳琳[2](2015)在《大数据环境下一种基于可变网格的高维数据索引》一文中研究指出伴随着互联网和云计算技术的飞速发展,国民经济各行各业涉及的数据量急剧增加,特别是积累了大量的诸如网络交易数据、用户评论数据以及多媒体数据等海量高维数据。有效的海量高维数据索引结构能够提高大数据环境下高维数据查询处理的性能。因此,首先提出了一种大数据环境下基于可变网格的二级高维数据索引结构,全局索引维护数据空间中所有子空间的位置关系信息,局部索引通过在每个子空间上构建M树管理自身的数据;其次,提出了基于二级索引结构的相似查询处理算法,包括点查询和范围查询,查询时通过全局索引快速定位与查询相关的局部索引节点并在每个局部节点上并行查找,避免了在不必要的节点上进行查询;最后,大量实验结果表明提出的索引结构优于现有索引结构,具有良好的查询性能和可扩展性。(本文来源于《计算机与数字工程》期刊2015年10期)

沈江炎[3](2015)在《基于软子空间的高维数据树形索引研究》一文中研究指出高维索引研究问题是研究相似性查找领域里的一个重要分支,随着多媒体及大数据的发展,越来越受到研究者的关注。为提高在高维空间中相似性查询的效率,如何设计合适的高维索引是研究者近年来研究的热门问题。在对高维索引领域的诸多研究中,最多的两类问题是研究良好的降维方法和寻找高效的索引建立方法。聚类算法是海量数据的查询处理与数据统计的一种常用技术,软子空间聚类算法是特征选择和特征转换问题的一个重要分支,该问题主要研究内容是如何在保证在有较高聚类精度的基础上改善高维数据集的聚类效率。本文设计并实现基于子空间的高维数据聚类算法,并在此基础上设计了一种适合子空间聚类的树形索引。文中首先引入子空间聚类问题,研究了特征选择理论后改进一种稳健的软子空间聚类算法,找出隐藏在不同子空间中的不同子簇。然后根据子空间及聚类簇在空间中的分布得出高维空间的划分策略,在该策略上结合区域覆盖思想建立适合子空间聚类的树形索引结构。最后,在文中建立的树形索引结构上提出合适过滤查询算法,以降低高维数据的相似性查询开销。在经过这些研究的基础上,通过在不同规模的人工实验数据和真实的数据集上设计实验和分析实验结果,得出了基于软子空间聚类算法的高维数据树形索引可以提高高维数据的查询效率。(本文来源于《昆明理工大学》期刊2015-05-01)

杨真真[4](2015)在《高维数据的哈希索引技术研究》一文中研究指出数据检索是计算机科学领域中的一个重要问题。近年来,随着互联网技术、通讯技术及多媒体技术的快速发展,高维的多媒体数据呈现出指数级增长。如何对这些大规模高维多媒体数据进行高效检索,对传统的检索技术带来了新的挑战。因此,开展高效的大规模高维数据索引技术已成为数据挖掘领域的研究热点,具有很好的理论研究意义和实际应用价值。基于哈希的索引方法已经被证明是一种有效的索引技术。本文在基于迭代量化哈希索引算法的基础上引入局部约束,实现了聚类驱动的迭代量化,从而获得更为紧凑的哈希码书;在此基础上,将其扩展到多视角数据索引。本文的研究成果主要包括:1.提出了基于聚类驱动的迭代量化哈希模型。迭代量化哈希算法只考虑了原始数据集映射前后整体结构的保持,而忽略了数据集局部结构的变化,造成原始数据的结构在哈希空间没有得到有效的保持。为解决该问题,本文在迭代量化哈希的基础上引入聚类驱动的局部约束,从而使原始高维数据在映射前后的整体结构和局部结构得以有效保持,此外,本文还提出了一种高效的针对外点的哈希码生成方法,满足在线检索的实时性要求;2.针对目前大量存在的多视角数据,本文提出了一种基于共享子空间(Shared Subspace)的多视角关联模型,该模型在获得多视角数据显性共享表示的同时,能够对多视角数据形成一致性表示,并指出传统的典型相关分析是该共享子空间方法的一个特例;基于以上共享子空间分析方法,本文提出了基于共享子空间(Shared Subspace)的多视角哈希模型。该模型利用共享子空间方法实现多视角数据间的语义关联性挖掘。在共享子空间中通过结合基于聚类驱动的迭代量化哈希模型,有效实现了多视角数据的联合索引。(本文来源于《北京交通大学》期刊2015-04-01)

王倩,朱变[5](2015)在《云环境下聚类分解的高维数据混合索引方法》一文中研究指出针对云计算环境下分布式存储系统的数据索引不支持复杂查询的问题,笔者提出了云环境下聚类分解的高维数据混合索引方法.首先,采用聚类分解方法对分割数据建立树状索引;然后,以叶节点为单位,通过扫描线算法来获取节点内部所有对象的局部最近邻结果;最后,依据计算的结果得出启发式的裁剪距离.在单节点最近邻计算中,第二个阶段获取外部的最近邻对象采用范围查询算法.实验分析表明,在查询效率上该索引方法高于单纯的聚类方法.与M-tree、顺序查找、iDisance相比,基于聚类分解的混合索引方法在高维查询模式下具有良好的查询效率和负载均衡.(本文来源于《周口师范学院学报》期刊2015年02期)

曹玉东,刘福英,蔡希彪[6](2013)在《基于局部敏感哈希算法的图像高维数据索引技术的研究》一文中研究指出局部敏感哈希(LSH)算法是有效的高维数据索引方法之一,该算法成功地解决了"维数灾难"问题。分析了LSH算法中主要参数对索引性能的影响,在规模不同的图像数据集上应用了LSH算法,实验结果表明选择合适的参数时,其性能接近顺序搜索方法。(本文来源于《辽宁工业大学学报(自然科学版)》期刊2013年01期)

李仲生,李仁发,禹亮[7](2011)在《PD-Tree:一种映射空间上的高维数据索引结构》一文中研究指出高效的数据过滤是减少距离函数计算次数的捷径.提出了一种高效处理高维数据的索引算法-在空间映射的基础上,选取信息蕴含丰富的一组维为主维,结合叁角不等式完成数据过滤,实现分层聚类、分级索引,构成一种基于主维过滤的索引结构:PD-Tree.用方差覆盖权对主维的信息保持量做了定量分析.不同数据规模下的实验均显示:PD-Tree进一步减少了距离函数的计算次数,降低了CPU开销,提高了检索速度.(本文来源于《小型微型计算机系统》期刊2011年12期)

王寅峰,刘昊,狄盛,胡昊宇[8](2011)在《一种支持高维数据查询的并行索引机制》一文中研究指出提出了一种基于独立特征的并行索引体系结构以检索符合正态分布的高维数据.通过分析并行搜索的多维数据及其复杂度,结合用户设定的维度权重返回待核实的结果,最后通过加权相似度计算函数合并检索结果以完成kNN查询.针对高维数据的异构性特点,给出了规范情景上下文信息数据的算法.通过联合香港大学的2个社区和深圳先进研究院的CNGrid社区进行的测试,证明基于并行检索机制的100NN查询准确率可达93%,在千万个高维数据中的检索时间小于0.7s,结果表明所提出的并行索引机制能有效提高查询效率,尤其适合海量高维数据的有偏组合特征查询.(本文来源于《华中科技大学学报(自然科学版)》期刊2011年S1期)

李国庆[9](2011)在《高维数据集合索引技术》一文中研究指出在图像和视频的内容分析和对象识别领域,以SIFT特征为代表的局部特征提取方法在最近几年得到了成熟和广泛的应用。从图像或视频关键帧中提取局部特征组成特征集合,通过匹配局部特征集合可以判别图像或视频数据之间的相似性。局部特征集合往往具有高维和多量的特性,传统的针对高维数据点的索引技术不能满足高维数据集合快速匹配的需求。本文针对高维数据集合具有的高维、多量特性而带来的查询效率问题,提出了层次化的高维数据集合索引框架以及查询算法,在保证高维数据集合匹配准确率的前提下,解决其匹配效率过低的问题。首先介绍针对高维数据点的索引技术,分析了将高维数据索引技术应用到高维数据集合匹配中所面临的问题,在此基础上,提出一种适用于大规模高维数据集合匹配的层次化索引技术。首先将高维数据集合映射为一个独立的高维向量即高层抽象特征,通过高维向量来衡量高维数据集合之间的相似性。对高层抽象特征建立一次索引,对局部特征集合建立二次索引,并且在抽象特征与其对应的高维数据集合之间建立映射关系。查询时首先根据一次索引结构对高维数据集合进行过滤,排除掉不可能匹配的高层抽象特征,然后根据候选集中的高维数据集合标识,访问相应的二次索引结构。实验结果表明,与其他索引方法相比,新方法能够显着降低查询过程中的数据访问数量,提高匹配效率。本文最后将层次化索引框架应用到在线雷同视频片段检测演示系统中,通过在10,000规模的视频片段库中进行实验表明,采用层次化索引方法能够加快雷同视频片段的检测速度,达到近似实时的在线检测效果。(本文来源于《西安电子科技大学》期刊2011-01-01)

余静,刘万军[10](2010)在《Intensive KDB-Tree:一种有效的高维数据索引结构》一文中研究指出本文并提出了高维空间中一种新的索引结构Intensive KDB-Tree,它采用一种新的数据插入算法和新的分裂策略,进而减小了索引结构,最后经实验证明,Intensive KDB-Tree的检索性能优于金字塔技术和KDB-Tree。(本文来源于《世界科技研究与发展》期刊2010年01期)

高维数据索引论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

伴随着互联网和云计算技术的飞速发展,国民经济各行各业涉及的数据量急剧增加,特别是积累了大量的诸如网络交易数据、用户评论数据以及多媒体数据等海量高维数据。有效的海量高维数据索引结构能够提高大数据环境下高维数据查询处理的性能。因此,首先提出了一种大数据环境下基于可变网格的二级高维数据索引结构,全局索引维护数据空间中所有子空间的位置关系信息,局部索引通过在每个子空间上构建M树管理自身的数据;其次,提出了基于二级索引结构的相似查询处理算法,包括点查询和范围查询,查询时通过全局索引快速定位与查询相关的局部索引节点并在每个局部节点上并行查找,避免了在不必要的节点上进行查询;最后,大量实验结果表明提出的索引结构优于现有索引结构,具有良好的查询性能和可扩展性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

高维数据索引论文参考文献

[1].杨传福.海量高维数据的多哈希表索引算法的研究[D].大连海事大学.2017

[2].宋宝燕,刘宇,丁琳琳.大数据环境下一种基于可变网格的高维数据索引[J].计算机与数字工程.2015

[3].沈江炎.基于软子空间的高维数据树形索引研究[D].昆明理工大学.2015

[4].杨真真.高维数据的哈希索引技术研究[D].北京交通大学.2015

[5].王倩,朱变.云环境下聚类分解的高维数据混合索引方法[J].周口师范学院学报.2015

[6].曹玉东,刘福英,蔡希彪.基于局部敏感哈希算法的图像高维数据索引技术的研究[J].辽宁工业大学学报(自然科学版).2013

[7].李仲生,李仁发,禹亮.PD-Tree:一种映射空间上的高维数据索引结构[J].小型微型计算机系统.2011

[8].王寅峰,刘昊,狄盛,胡昊宇.一种支持高维数据查询的并行索引机制[J].华中科技大学学报(自然科学版).2011

[9].李国庆.高维数据集合索引技术[D].西安电子科技大学.2011

[10].余静,刘万军.IntensiveKDB-Tree:一种有效的高维数据索引结构[J].世界科技研究与发展.2010

标签:;  ;  ;  ;  

高维数据索引论文-杨传福
下载Doc文档

猜你喜欢