布隆过滤器论文-耿宏,李勇猛

布隆过滤器论文-耿宏,李勇猛

导读:本文包含了布隆过滤器论文开题报告文献综述及选题提纲参考文献,主要关键词:数据分发服务,自动发现算法,分层布隆过滤器,发布,订阅

布隆过滤器论文文献综述

耿宏,李勇猛[1](2019)在《基于分层布隆过滤器的发布订阅自动发现算法》一文中研究指出针对当前简单发现算法(SDP)中线性链表式存储结构对多层节点查找时延偏高和内存占用大的问题,提出一种基于分层布隆过滤器的发布/订阅自动发现算法(HBF_ADA)。使用动态布隆计数树(DBCT)型数据结构,根据添加元素个数动态创建节点,把待查询元素录入为集合,利用集合的相交运算判断元素是否存在于网络;对每个字节增加一个计数器,记录对应字节被置位的次数,解决布隆过滤器元素删除困难的问题。实验结果表明,HBF_ADA算法的时延参数和内存消耗明显低于SDP和BF_SDP,能够删除已存在的节点信息,在允许低误报率的情况下,满足现实应用的需求。(本文来源于《计算机工程与设计》期刊2019年12期)

黄伟庆,张艳芳,曹籽文,王思叶[2](2019)在《基于布隆过滤器的RFID数据冗余处理算法研究》一文中研究指出RFID技术作为物联网领域的关键技术,具有广阔的应用前景。然而RFID设备在读取标签信息时会产生大量冗余数据。因此,RFID数据冗余处理的研究对于减少RFID中间件系统负荷、快速检测出入标签有着重要的意义。之前针对RFID数据冗余过滤的研究往往是单维度、静态场景的简单过滤,无法实现复杂场景下标签的出入检测。因此,本文提出一种名为时间距离布隆过滤器(TDBF)的算法,该算法从时间和空间两个维度进行冗余过滤。与常用的时间布隆过滤器相比,该算法兼顾了RFID标签的读取时间和读取距离,极大的降低了数据的冗余问题。在保证漏读率较低的情况下,极大的降低了数据的误读率。同时该算法支持动态场景中移动标签的冗余过滤,能够较好的满足出入监控需求。(本文来源于《信息安全学报》期刊2019年03期)

李勇,相中启[3](2018)在《基于计数型布隆过滤器的可排序密文检索方法》一文中研究指出云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,实现了按关键词进行密文检索,同时,支持密文检索索引的动态更新。其次,由于计数型布隆过滤器本身不具备语义功能,不能实现按相关度对检索结果排序,引入关键词频率矩阵和词频逆文本频率(TF-IDF)模型计算关键词的相关度分值,以实现按相关度分值对检索结果排序。最后,理论和实验性能分析证明了该方法的安全性、可更新能力、可排序能力和高效性。(本文来源于《计算机应用》期刊2018年09期)

张震,付印金,胡谷雨[4](2018)在《基于布隆过滤器的新型混合内存架构磨损均衡策略》一文中研究指出相变存储器(PCM)凭借低功耗的优势有望成为新一代主存储器,但是耐受性的缺陷成为其广泛应用的重要障碍。现有的随机存取存储器(DRAM)缓存技术和磨损均衡分别从减少PCM写数量以及均匀化写操作分布两个角度延长PCM使用寿命,但前者在写回数据时未考虑数据的读写倾向性,后者在空间局部性较强的应用场景下存在数据交换粒度、空间开销、随机性等诸多问题。因此,设计一种全新的混合存储架构,结合最近最少使用(LRU)算法和带有时间变化的最不经常使用(LFU-Aging)算法提出区分数据读写倾向性的缓存策略,并且基于布隆过滤器(BF)设计针对强空间局部性工作集的动态磨损均衡算法,在有效减少冗余写操作的同时实现低空间开销的组间磨损均衡操作。实验结果表明,该策略能够减少PCM上13.4%~38.6%的写操作,同时有效均匀90%以上分组的写操作分布。(本文来源于《计算机应用》期刊2018年08期)

谢丽霞,胡立杰[5](2018)在《基于动态布隆过滤器的云存储数据持有性验证方法》一文中研究指出针对现有云存储数据持有性验证方法验证效率低的问题,提出一种基于动态布隆过滤器的云存储数据持有性验证方法.首先使用同态哈希函数对云存储数据进行处理,简化客户端计算量;然后第叁方验证平台使用数据块标签构造动态布隆过滤器,支持云存储数据的全动态操作;最后通过随机验证路径生成持有证据,增强云存储数据持有性验证的安全性.实验结果表明该方法可有效减少证明计算开销,提高了验证安全性和验证效率.(本文来源于《大连理工大学学报》期刊2018年02期)

饶文,陈旭[6](2018)在《基于布隆过滤器的海量数据查询技术的优化与应用》一文中研究指出通过一个用户行为数据分析的案例,说明了布隆过滤器的原理和应用场景。在案例中,需要使用MapReduce框架在海量数据中筛选出付费用户相关的数据,布隆过滤器算法提供了一种快速、有效的实现方法。简述了使用MongoDB内存数据库存储付费用户的解决方案,其搜索效率高,但随着数据量的增加,一对多并发查询给服务端带来的压力会越来越大;如果使用分布式缓存的方法,这时为一对一存取,带来的问题是占用内存增大,如果数据结构选择HashSet,存入量大时,则容易使堆内存溢出,故考虑使用自定义数据结构:布隆过滤器,对其原理和误判率进行了分析,并针对其可能产生的错误数据("假阳性")提出消除方案,经实验验证,布隆过滤器占用内存低、查找效率高,解决本类问题极为合适。(本文来源于《微型电脑应用》期刊2018年02期)

饶文[7](2018)在《基于布隆过滤器的海量数据查询技术的优化与应用》一文中研究指出随着信息技术、数据库和数据仓库技术等的飞速发展,每时每刻都会有海量的数据产生,对于这些数据的采集、清洗、存储、查询等一系列问题得到了越来越多学者和公司的重视,由此一些数据处理系统,如海量数据查询系统也就产生出来。在这个系统中,查找就是确定一个具有特定值的元素是不是一个特定集合的成员。分布式环境下,随着数据量的增加,为保证系统性能,元素的表示、查找方法常常需要从空间存储、查找效率及准确性等方面来进行考虑。本文基于一个用户行为数据分析的案例,搭建海量用户行为数据查询系统来进行分析与说明。首先对海量数据查询系统进行了需求分析,为获得清晰的数据血缘关系、减少重复开发,从理论上对系统数据仓库进行了分层,对每一层的特点及功能进行了分析,针对每一层的数据流向,设计并实现了原始数据接入模块、原始数据提取模块、付费用户筛选模块等。在整个系统之中,对输入的原始数据进行了采集清洗存储后,在筛选与付费用户筛选模块中,需要在海量数据中判断某账号是否属于付费用户的数据集,布隆过滤器算法提供了一种快速、有效的实现方法。首先简述了直接使用Hive来级联查询的方案,其操作简洁,但解析HiveQL,调用MapReduce程序的过程耗时较长,然后提出使用MongoDB内存数据库存储付费用户的解决方案,其搜索效率很高;如果使用分布式缓存的方法,把付费用户通过合适的数据结构读入内存,这时需要一对一存取,将不同的数据结构HashSet与布隆过滤器算法的时间复杂度、空间复杂度进行了对比,通过分析及实验知,布隆过滤器占用少量的存储开销、查找时间复杂度为常数,解决本类问题极为合适,针对其可能产生的错误数据(“假阳性”)提出消除方案,并进行了实验验证。(本文来源于《武汉邮电科学研究院》期刊2018-01-01)

车健[8](2017)在《基于布隆过滤器的Parquet优化》一文中研究指出大数据的相关工作,几乎都是与Hadoop生态来紧密联系。有关于Sql查询的,有关于计算层的,还有关于于数据层的工作。Parquet属于大数据存储层使用频率较高的列式存储结构,可用于Spark、Map Reduce以及Tez等许多大数据的计算框架。由于其在压缩以及读取方面高效率的表现,使得Parquet深受业内大数据相关公司所青睐。布隆过滤器(Bloom Filter),是一种能够使用极少的空间,来表示许多数据集合的一种用位数组表示的数据结构。可以利用其能快速判断某值是否在其中这个特性,以达到索引的效果。布隆过滤器并不完美,在判断某值存在时并不能一定保证正确,这种情况我们称其为误判率,可通关对布隆过滤器的调整来尽量降低误判率。本篇将通过其特性,过滤掉部分文件快,从而达到加速Parquet文件读取的效果。通过将Bloom Filter集成进Parquet的索引页,在进行关键词查找时,通过Parquet索引页里的布隆过滤器,迅判断出哪些Block不需扫描,迅速过滤掉不需要扫描的Block,以达到加速Parquet文件扫描的时间。通过对布隆过滤器调整,以针对不同数据类型以及规模,达到最优的效果。(本文来源于《华中科技大学》期刊2017-12-01)

李姿[9](2017)在《一种基于偏移量的布隆过滤器算法》一文中研究指出随着计算机技术的发展,通信时用到的数据集合的尺寸在逐渐增大,涉及到的应用数量也在逐步增加,人们希望能够使用一种更紧凑的数据结构处理海量数据集。在计算机系统和应用中,为人熟知的集合操作正是一种最基础的操作,处理数据集的效率与集合查询的效率紧密相关。在本文中关注的正是如何高效处理集合查询的问题。在集合查询问题中,效率主要集中在叁个方面:内存存取次数,查询时间,正确率。传统处理海量数据集的经典方法之一是布隆过滤器(Bloom Filter)。本文通过对布隆过滤器进行修改,设计并提出了一种新的改进的布隆过滤器ShBF(ShiftingBloomFilter),该算法既可用于存储数据,也可用来进行集合查询。其优势是进行集合查询时,既能够比传统的布隆过滤器的内存使用量和操作时间更少,又不会导致错误率明显上升。为了展示算法的查询效率,本文一共选择了叁种常见的集合查询:元素查询(membership queries),联合查询(association queries)和重复元素查询(multiplicity queries)。ShBF的创新点在于使用偏移量对算法结构进行优化,使得新的算法能够充分利用每次存取得到的数据,以记录更多的信息。因为使用布隆过滤器进行插入与查询时,每次存取的数据数量至少为一个机器字,而实际需要的只是其中一个二进制位。本文中将其余的比特位称为偏移量,ShBF通过使用集合元素自带的偏移量,将更多的信息编码写入其中,从而达到对布隆过滤器进行优化的目的。ShBF和布隆过滤器的主要区别在于如何存储附加信息,所谓附加信息是指元素的存在信息以外的信息。在布隆过滤器中需要应用程序分配更多的内存才能存储更多信息,而ShBF会将这些信息存储到元素的偏移量中。本文针对叁种不同的集合操作,提供了叁种ShBF的设计方案,并选择了经典的布隆过滤器改进算法进行对比。在测试阶段使用模拟产生的一系列数据及真实的网络数据进行评估,在内存使用,计算量,以及正确率多个方面进行评估,验证ShBF的性能优势。(本文来源于《南京大学》期刊2017-05-20)

张笑天[10](2017)在《分布式爬虫应用中布隆过滤器的研究》一文中研究指出随着网络技术的持续发展,互联网范围内存储的信息总量呈几何倍数的增长。互联网上所储存的海量复杂的网络信息给人们提供更多消息来源的同时也增大了人们在海量数据中检索有用信息时的负担,以分布式为核心的云计算技术就是在这一背景下迅速发展起来的。而如何有效的消除检索过程中出现的重复信息提高检索效率,一直是互联网研究的一个重点。目前,在所有的消重检索算法中,布隆过滤器是较为优秀的一种,其实现原理是利用多个哈希函数对相应源数据进行空间映射压缩,并利用位数组简洁地存储与表示一个集合。在查询过程中,仅通过一次Hash映射过程即可判断一个元素是否属于这个集合,具有较少的空间占用率和较高的数据查询效率,其在多个领域都有很好地应用效果。本文研究的目的是降低布隆过滤器在分布式网络爬虫URL去重过滤中的误判率,以及当获取的网页URL链接数据量超过布隆过滤器设计的位数组所能容纳的元素上限时,算法本身能够对过载数据具有一定的容忍能力。因此,本文首先从布隆过滤器工作原理出发,找出布隆过滤器在分布式网络爬虫URL去重应用中存在的缺陷,并分析缺陷产生的原因。其次,通过借鉴布隆过滤器一些改进算法对其改进思路的启发,提出一种更适合于分布式网络爬虫URL消重模块的改进型布隆过滤器算法-K分多映射布隆过滤器算法。最后,通过实现一个简单的基于Hadoop的分布式网络爬虫工具,验证改进型布隆过滤器算法在实际的分布式网络爬虫URL消重应用中的效果,通过对其实际执行效果分析得出结论,为进一步改进布隆过滤器在分布式网络爬虫URL去重中的应用提供参考。(本文来源于《沈阳工业大学》期刊2017-05-18)

布隆过滤器论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

RFID技术作为物联网领域的关键技术,具有广阔的应用前景。然而RFID设备在读取标签信息时会产生大量冗余数据。因此,RFID数据冗余处理的研究对于减少RFID中间件系统负荷、快速检测出入标签有着重要的意义。之前针对RFID数据冗余过滤的研究往往是单维度、静态场景的简单过滤,无法实现复杂场景下标签的出入检测。因此,本文提出一种名为时间距离布隆过滤器(TDBF)的算法,该算法从时间和空间两个维度进行冗余过滤。与常用的时间布隆过滤器相比,该算法兼顾了RFID标签的读取时间和读取距离,极大的降低了数据的冗余问题。在保证漏读率较低的情况下,极大的降低了数据的误读率。同时该算法支持动态场景中移动标签的冗余过滤,能够较好的满足出入监控需求。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

布隆过滤器论文参考文献

[1].耿宏,李勇猛.基于分层布隆过滤器的发布订阅自动发现算法[J].计算机工程与设计.2019

[2].黄伟庆,张艳芳,曹籽文,王思叶.基于布隆过滤器的RFID数据冗余处理算法研究[J].信息安全学报.2019

[3].李勇,相中启.基于计数型布隆过滤器的可排序密文检索方法[J].计算机应用.2018

[4].张震,付印金,胡谷雨.基于布隆过滤器的新型混合内存架构磨损均衡策略[J].计算机应用.2018

[5].谢丽霞,胡立杰.基于动态布隆过滤器的云存储数据持有性验证方法[J].大连理工大学学报.2018

[6].饶文,陈旭.基于布隆过滤器的海量数据查询技术的优化与应用[J].微型电脑应用.2018

[7].饶文.基于布隆过滤器的海量数据查询技术的优化与应用[D].武汉邮电科学研究院.2018

[8].车健.基于布隆过滤器的Parquet优化[D].华中科技大学.2017

[9].李姿.一种基于偏移量的布隆过滤器算法[D].南京大学.2017

[10].张笑天.分布式爬虫应用中布隆过滤器的研究[D].沈阳工业大学.2017

标签:;  ;  ;  ;  ;  

布隆过滤器论文-耿宏,李勇猛
下载Doc文档

猜你喜欢