导读:本文包含了索引和存储论文开题报告文献综述及选题提纲参考文献,主要关键词:Spark,HBase,交通流,时空编码行键
索引和存储论文文献综述
李欣[1](2019)在《基于Spark/HBase的交通流数据存储及索引模型探讨》一文中研究指出为了对海量增长的交通流数据进行处理和管理,需要基于大数据框架设计更加高效的数据存储及索引模型,以满足智能交通应用的需求。该文设计了基于Spark/HBase的系统架构以及基于混合时空编码行键和动态扩展属性列族的交通流数据存储及索引模型,并在此模型基础上,通过语义解析、时空行键索引查询、并行属性条件过滤实现交通流大数据高效语义查询。对比实验证明,该文设计的交通流大数据并行处理框架在清洗、索引和存储数据时运算高效,构建的混合时空编码行键索引时空权重均衡,能够实现更加高效的交通流大数据访存管理,可为智能交通应用提供技术基础。(本文来源于《地理与地理信息科学》期刊2019年04期)
李斌,郭景维,彭骞[2](2019)在《面向大数据存储的HBase二级索引设计》一文中研究指出针对HBase缺乏二级索引的功能,导致在非行键列上的查询需要使用过滤器并配合全表扫描完来完成。在大数据的场景下性能较差的问题,结合HBase表行键的索引结构与关系型数据库的二级索引结构提出了索引列值聚集的二级索引解决方案。此外,还提出二级索引机制的支持联合索引与特殊的索引列值的处理,提高了二级索引的性能并拓宽了二级索引的适用场景。最后,通过构建系统测试证明了二级索引极大地提高了HBase的查询效率。(本文来源于《计算技术与自动化》期刊2019年02期)
李雪丽[3](2019)在《云计算环境下空间大数据存储索引机制研究》一文中研究指出大数据时代的到来,使得空间数据正在以前所未有的速度增长,并呈现出多源、多尺度、多时相、全球覆盖和高分辨率特征,GIS在生活中的广泛应用,用户数量变得越来越庞大,空间实时检索与获取在不断增多,而空间数据作为GIS的“血液”,如何对其进行合理的存储管理才能满足GIS用户的需求值得进一步探索。云计算的发展使得Hadoop和MapReduce在处理空间大数据的并行存取与处理等问题上得到了充分的应用,特别适用于空间大数据的并行存取与处理,因此,针对空间数据数据量大、存在拓扑与语义关系、更新频繁等特点,需要利用Hadoop平台,对空间大数据设计一种合理的空间数据结构进行存储,并构建高效的索引。本文利用云计算平台Hadoop、分布式数据库HBase、分布式计算模型MapReduce研究空间大数据的存储索引机制,并以OSM空间数据为例,完成了以下3个方面的研究:(1)分析OSM空间数据的结构和特点,针对空间大数据在云计算环境下的管理需求,设计空间数据存储模型和增量数据组织方式。同时为保证地理要素几何完整性以及拓扑关系完整性,将HDFS现有的副本放置策略进行改进并研究适合空间数据的数据副本放置策略。(2)对于空间大数据,为解决其空间分布不均、保证空间数据的相邻性等问题,经对比分析常见的空间数据划分策略后,提出基于STR树的空间数据划分策略,同时为了提高空间数据的索引效率和分析性能,利用MapReduce技术进行并行划分。(3)分析传统空间索引机制的优缺点,对划分好的空间数据,根据地理实体要素的分布排序以自下而上的方式利用R-树进行局部索引的构建,然后再根据STR树构建全局索引,将局部索引与全局索引的信息分别存储在DataNode和NameNode上,以此来提高空间数据检索效率。最后,部署Hadoop分布式环境,以OSM数据为例进行测试分析,对比在数据量及集群节点个数不同的情况下空间数据的存储和查询性能,验证了分布式环境下空间数据的存储和索引都具有良好的性能,能够满足空间数据存储和检索的需求。(本文来源于《江西理工大学》期刊2019-05-31)
蒋园,阳许军[4](2019)在《基于人脸识别的海量图片的存储和索引优化》一文中研究指出人脸识别是一种根据人类的面部特征来鉴别个体的技术。其中需要通过摄像机获取人脸图像,但在产生大量的小文件过程中,过去的分布式文件系统很难为其提供高性能读写和快速检索。结合FastDFS,Redis以及Mysql来优化图片的存储和索引,将同一摄像机目录下的小图片文件合并成大文件,并在其中建立内部小文件索引,然后将合成的大文件写到FastDFS中生成大文件索引,最后客户端结合小文件索引和大文件索引生成全文索引,并且利用Mysql的持久性存储特点来进行所有文件名和对应全文索引的存储以及利用Redis内存数据库来暂存近一年的文件和读取文件,同时采取提前读的机制来提前预取相邻时间的文件存放到客户端缓存来减少IO的操作。最后通过实验证明写性能平均提高了7.5%,读性能平均提高了5.0%。(本文来源于《计算机技术与发展》期刊2019年03期)
胡银丰,黄迪[5](2018)在《基于Hash索引的声纳数据分布式存储策略》一文中研究指出本文借鉴大数据中的HDFS分布式文件系统的设计思想,提出一种适用于声纳数据分布式存储策略,该策略将数据分布式存储在多个存储设备上,使得读写速率随设备节点数增加而线性增加,解决了读写速率不足的问题;采用在单个存储节点上将大数据文件分块形式存储,提高单个存储设备的读写速率,同时解决了一写多读的问题;以(本文来源于《电子世界》期刊2018年18期)
白鹏伟[6](2017)在《改进的空间索引算法在海量遥感数据存储平台上的研究与应用》一文中研究指出空间索引是依据空间对象的位置和形状或者空间对象之间的关系按照一定规则进行排序的一种数据结构,空间数据索引技术是提高空间查询性能的关键所在,针对空间数据的特性研究合理高效的空间索引结构早已成为了 GIS(Geographic Information System)领域的研究热点。当前流行的空间索引方式主要有网格索引、KD树、四叉树、R-树等索引算法,在进行空间查询时,这些算法都存在着一定的缺陷,比如网格索引存在着无法高效应对空间数据分布不均匀的情况,KD树适用于点状空间数据,而对于其他的空间数据索引效率低下。四叉树是一种不平衡的树型索引结构,当空间数据分布不均匀时,不同子树深度差异大,影响查询效率。R-树作为当前最流行,使用最广泛的空间索引算法同样存在着中间节点重迭、无效查询路径多、节点空间使用率不高等问题,本文将针对基于R-树的空间索引算法展开研究,并针对其存在的问题进行改进。本文首先详细介绍了 R-树的概念以及基本算法,并且针对基于R-树的空间索引算法索引数据增加时,中间节点重迭快速增加,从而导致无效搜索路径增多、查询效率下降的问题提出一种延迟分裂的算法来改进基于R-树的空间索引的构建过程。该方案在向一个已经饱和的叶子节点中插入数据时,会给该节点创建一个溢出节点用来保存此次及以后向该节点插入的数据,当溢出节点也达到饱和状态时将该节点及其溢出节点分裂成两个饱和的节点。通过仿真实验验证,该算法能够减少R-树构建过程中的分裂次数,提升R-树节点的空间利用率,提升了空间区域查询和k近邻查询的效率。本文将空间索引技术与分布式系统相结合,设计并实现了一个基于Hadoop的分布式空间索引模块,基于以上提出的基于R-树的空间索引算法的改进方案结合MapReduce并行生成分布式空间索引。并编写接口使用生成的索引对空间数据进行并行查询,包括区域查询和k邻近查询。该模块具有为空间数据集并行生成分布式索引、并行区域查询、并行K近邻查询的功能,对于提升海量空间数据的索引构建以及查询效率具有一定的积极意义。(本文来源于《北京邮电大学》期刊2017-12-08)
徐英辉,祝恩国,赵睿,杨挺[7](2017)在《MongoDB索引的用电信息非结构化数据存储方法》一文中研究指出随着用电信息采集系统的健全,双向互动化功能的需求增加,系统所承载的用电信息由最初的规整结构化数据演变成结构化数据和多类型非结构化数据的混杂,且数据量也日益聚增。本文对用电信息采集系统的非结构化数据组成进行了梳理,从数据源角度出发,按照客户用电信息数据和客户数据两大类别,分别对用电信息采集系统涉及的A、B、C、D、E 5类用户进行了非结构化数据特征分析。本文提出采用MongoDB索引Hadoop分布式文件系统的新型用电信息采集系统非结构化数据存储方法,实现对系统中混杂非结构化数据的分类存储和准确实时读写,为双向互动化功能提供了良好底层泛在数据支撑。(本文来源于《电力系统及其自动化学报》期刊2017年09期)
姜伟[8](2017)在《基于压缩位图索引的RDF数据存储与管理》一文中研究指出随着资源描述框架(Resource Description Framework,RDF)在各个领域的广泛应用,如何对海量RDF数据的存储与管理成为近年来的研究热点。现有的RDF数据管理系统大都采用传统的关系型数据库来存储数据,这种方式已难以高效地管理海量数据。如何设计一种高性能、可扩展为分布式的RDF数据存储和管理系统具有重要意义。本文设计了一种基于位图索引的RDF数据存储方案,并实现了基于该存储方案的RDF管理系统,最后通过系统测试验证了该方案的可行性与有效性。本文研究工作主要包括以下几个方面。(1)总结了现有的RDF数据存储方案。分析了当前主流的数据存储技术及RDF数据存储模型的优缺点,并对其进行了简单的分析与总结。(2)提出了一种基于位图索引的高扩展性底层存储方案。该方案在持久层将RDF数据文件分块进行顺序存储,实现了系统的可扩展性;同时为RDF关键词构建基于压缩位图的查询索引,降低了运行时内存资源消耗。(3)设计了基于本方案的数据查询算法。该算法能够充分利用位图索引逻辑计算的性能优势,保证了高效的查询效率。(4)实现了基于本方案的RDF数据存储和查询系统fishdb,并采用测试数据集在单机伪分布式系统环境下对该系统进行了性能测试。与开源RDF管理系统Google Cayley的相比,fishdb能够以较小的内存资源消耗为代价换取较高的查询性能提升,验证了本方案的可行性和有效性。(本文来源于《北京交通大学》期刊2017-06-01)
杨伟杰[9](2017)在《云环境下低存储索引结构的动态可搜索加密机制》一文中研究指出云存储具有高扩展性、无接入限制、廉价及易管理等优点,可使众多中小企业和用户摆脱系统的搭建和维护的麻烦,减轻了用户存储成本,具有广阔的市场前景。它的出现,彻底改变了人们传统的存储观念。用户将大量的数据存储在云服务器上,失去了对数据的绝对控制,云服务器也变得不可信。为了解决云上数据安全性问题,研究人员提出将数据加密之后存放在云上。这种方式在一定程度上保证了数据的安全性,但是会导致数据共享和使用效率的问题。可搜索加密技术就是一种支持密文检索的技术,高效动态的可搜索加密机制正是广大研究者共同追求的目标。Seny Kamara提出的动态可搜索加密机制采用“关键字-文件标识符”的索引结构,通过建立搜索数组和删除数组实现索引的动态更新。该机制在关键字集合较大时,索引空间消耗较高,搜索效率低下;在文件更新时涉及的数据结构较多,更新流程复杂。本文改进了Seny Kamara的动态可搜索加密机制,降低了索引的空间消耗,提高了搜索效率。在改进的机制中,用户上传数据之前首先在本地生成“关键字-比特字符串”的索引结构;然后连同数据文件一同加密上传至云服务器。检索时,用户在本地生成检索令牌并发往云服务器,云服务器收到令牌后在加密索引中进行匹配,找到与令牌对应的文件后发送给用户。更新时,生成对应的添加、删除令牌,云服务器根据给定算法在服务端进行更新操作。该机制采用“关键字-比特字符串”的索引结构,减少了索引的存储空间,提高了搜索效率,并且具有更好的动态性。通过安全性分析和实验,证明了本方案的安全性和可行性。本文同时对多线程方式处理文件加解密进行了研究。结合多线程技术,提高用户上传与下载文件的加解密效率。实验表明多线程处理方式的效率较单线程有了很大提高,并将其应用到云存储系统中。(本文来源于《兰州理工大学》期刊2017-04-16)
徐钊[10](2017)在《分布式多级索引服务存储模型的研究》一文中研究指出近年来,随着信息技术的飞速发展,云计算、物联网以及对等网络等技术也得到充分的了解与研究。这些技术在各种领域的运用,促成了更加便利、快捷的服务供应概念,服务计算因此得到了更大的发展。面向服务的架构方式广泛运用在诸多企业之中,高效的服务发现和组合,以及准确的服务搜索和选择是服务计算的两个重要因素。如何从大规模的服务存储仓库中存储和检索服务成为目前的研究热点,具有一定的理论意义和实用价值。本文对服务计算、对等网络的相关知识进行研究和介绍,在此基础上借鉴已有的研究成果,对服务存储仓库模型以及分布式的哈希表的高效资源发现算法进行较为深入的研究,提出一种分布式的多级索引服务存储模型。本论文的主要研究内容如下:1.本文基于等价理论,提出了一种多级索引服务存储模型,在极大地提高服务发现和组合效率的同时,也最大程度上减少了服务信息的冗余。多级索引服务存储模型基于集合的理论,给出了一些基本的服务检索运算,包括:服务的检索、服务的添加、服务的删除以及服务的替换。本文完善了多级索引服务存储模型的服务检索运算,将服务集合存储和保存于分布式系统的节点中。改进后的服务检索运算能够提供更为强大和全面的服务操作,更加适用于分布式服务存储环境,具有更大的存储容量和更灵活的存储分配方式。2.基于分布式哈希表的高效资源发现算法,可以为分布式的服务存储仓库提供更加高效和有效的服务检索能力。本文对多种基于分布式哈希表的高效资源发现算法进行比较和研究,分析和总结出它们在不同的分布式服务存储环境下的优缺点。通过对等网络协议,本文将分布式系统的节点中的存储结构改进为分布式的服务存储仓库。这样的改进可以消除服务信息的冗余,同时还能在服务存储仓库的架构中,加强服务检索过程的时间管理质量。除此之外,本文提出的分布式多级索引服务存储模型可以根据服务存储仓库的规模,灵活地进行模型架构的部署工作。3.本文通过实验的方式,将分布式的多级索引服务存储模型与倒排索引以及集中式的服务存储模型进行比较和研究,以此来验证多级索引服务存储模型的正确性和准确性。在分布式的存储环境下,影响模型的服务发现和组合效率的因素有很多。本文选取了一些主要的影响因素,通过不断地改变不同的影响因素条件,来对这叁种服务存储模型架构进行深入的分析。分布式多级索引服务存储模型以及对应算法的表现将在分布式的存储环境下评估。实验结果证明了分布式多级索引服务存储模型以及对应的搜索算法是有效的。(本文来源于《江苏大学》期刊2017-04-01)
索引和存储论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对HBase缺乏二级索引的功能,导致在非行键列上的查询需要使用过滤器并配合全表扫描完来完成。在大数据的场景下性能较差的问题,结合HBase表行键的索引结构与关系型数据库的二级索引结构提出了索引列值聚集的二级索引解决方案。此外,还提出二级索引机制的支持联合索引与特殊的索引列值的处理,提高了二级索引的性能并拓宽了二级索引的适用场景。最后,通过构建系统测试证明了二级索引极大地提高了HBase的查询效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
索引和存储论文参考文献
[1].李欣.基于Spark/HBase的交通流数据存储及索引模型探讨[J].地理与地理信息科学.2019
[2].李斌,郭景维,彭骞.面向大数据存储的HBase二级索引设计[J].计算技术与自动化.2019
[3].李雪丽.云计算环境下空间大数据存储索引机制研究[D].江西理工大学.2019
[4].蒋园,阳许军.基于人脸识别的海量图片的存储和索引优化[J].计算机技术与发展.2019
[5].胡银丰,黄迪.基于Hash索引的声纳数据分布式存储策略[J].电子世界.2018
[6].白鹏伟.改进的空间索引算法在海量遥感数据存储平台上的研究与应用[D].北京邮电大学.2017
[7].徐英辉,祝恩国,赵睿,杨挺.MongoDB索引的用电信息非结构化数据存储方法[J].电力系统及其自动化学报.2017
[8].姜伟.基于压缩位图索引的RDF数据存储与管理[D].北京交通大学.2017
[9].杨伟杰.云环境下低存储索引结构的动态可搜索加密机制[D].兰州理工大学.2017
[10].徐钊.分布式多级索引服务存储模型的研究[D].江苏大学.2017