哈希方法论文-申华磊,邱鹏

哈希方法论文-申华磊,邱鹏

导读:本文包含了哈希方法论文开题报告文献综述及选题提纲参考文献,主要关键词:相关反馈,监督核哈希,肺组织分类,CT影像

哈希方法论文文献综述

申华磊,邱鹏[1](2019)在《CF患者肺组织分类——基于相关反馈的监督核哈希方法》一文中研究指出现有的哈希方法用于CF患者肺组织分类时没有从正负反馈样本挖掘判别信息,分类精度不高.为此,提出一种基于相关反馈的监督核哈希方法.首先,对肺组织进行监督核哈希学习,得到初始哈希函数;其次,使用该初始哈希函数对肺组织进行哈希编码和分类,并得到正负反馈样本;接着,基于正负反馈样本构建新的哈希函数;最后,使用新构建的哈希函数对肺组织再次进行哈希编码和分类.实验结果表明,同现有方法相比,所提出的方法显着提高了CF患者肺组织的分类精度.(本文来源于《河南师范大学学报(自然科学版)》期刊2019年04期)

赵鹏飞[2](2019)在《基于标记信息的跨模态深度哈希方法研究》一文中研究指出互联网技术的飞速成熟和发展,带来的是多媒体数据量的爆炸式增长,这导致很多应用场景都无法通过最近邻检索来降低巨大的计算消耗。因此,近年来,近似最近邻检索越来越受到人们的关注,特别是很多基于哈希的近似最近邻检索。这些哈希方法在保持原始数据相似性的前提下,首先将原始数据映射到海明空间,然后在海明空间进行异或操作。这样可以极其有效地提高效率和降低存储空间的消耗。为充分利用类型丰富的多媒体数据,越来越多的跨模态哈希方法被提出,这些方法可以实现不同模态间多媒体数据的检索,如图像检索文本等任务。根据特征的提取方式,现有的跨模态哈希方法可以分为传统的哈希方法和深度哈希方法。传统的哈希方法提取特征的方式是与数据无关的,具有一定的局限性,因此很难满足现有的需求;相反的,深度哈希方法依靠深度神经网络的强大特征提取能力取得了很好的效果。但现有的深度跨模态哈希方法依然存在一些问题。有的方法一般将图像信息和文本信息同时使用,来学习一致的哈希码和哈希函数。通常,文本信息含有大量的噪音,因此文本信息和图像信息并不具备很好的一致性。用这样的方法学到的哈希码质量并不是太高。而且,这样使用相似行矩阵,会造成信息的流失。为解决这一问题,我们提出了快速语义优先的深度跨模态哈希方法。该方法首先利用图像信息和标记信息生成一致性哈希码和哈希函数,然后再生成文本信息的哈希函数。因为图像信息和标记信息的一致性更高,因此生成的哈希码质量更高。更重要的是,该方法只是用了叁个简单的神经网络实现,因此其运算效率很高。我们在两个数据集上进行实验,也验证了该方法的优越性。另一方面,现有的跨模态深度哈希方法在检索准确率上不断提高,主要归功于深度神经网络的发展和创新的算法架构。但以上两种方式,都是基于现有方法的一个普遍做法:一般是将标记信息和两个模态的原始信息共同使用,将原始数据映射到海明空间,来生成哈希码。由于图像和文本模态均含有噪音,生成的哈希码质量不高。针对这一问题,我们提出了并行语义优先的深度跨模态哈希方法。该方法只用标记信息输入神经网络生成一致性哈希码,然后用哈希码监督各个模态哈希函数的学习。由于各个模态哈希函数的学习可以并行完成,该方法具有很好的多模态扩展性和高效性。之后,我们在两个数据集上进行实验,验证了该方法的优越性。最后,通过扩展实验验证了该方法出发点的正确性。(本文来源于《山东大学》期刊2019-05-20)

肖博文[3](2019)在《中间态相似性保持的监督离散哈希方法的研究》一文中研究指出经过数十年信息技术的发展,当今社会早已经迈进大数据时代。从个体层面来看,现如今我们每个人都无时无刻不在接触各种类型的媒体数据,比方说音频、短讯、图片、视频等;从整体层面来看,当今社会上每天产生的数据量已经超过了旧社会几千年数据量的总和;不仅如此,数据本身也变的越来越复杂,数据的特征维度正迅速增加,数据产生时也往往包含了多种模态。对数据的处理越来越离不开机器学习技术的进步。数据检索一直都是计算机科学范畴的研讨热点。在经典的数据检索任务中,最近邻检索是常被使用的一种办法;然而到了大数据时代,随着数据的存储和检索方面的挑战有增无已,想实现数据的最近邻检索已经不现实。与此同时,由于机器学习方面的进展迅速,特别是以哈希方法为代表的近似近邻检索技术的出现,为人类在大数据时代进行信息检索提供了一种高效的工具。与传统的拿数据特征来直接计算数据相关性的方式不同,哈希方法会把高维数据映射为紧凑的二进制哈希码来表示,同时保持数据之间的相似关系及语义信息;利用哈希码之间的海明距离来表示相似性,可以提升检索的速度;同时用保存哈希码代替原数据也大大节省了所需的存储空间。当今越来越多的数据以多模态的形式出现,这使得实现数据不同模态之间的检索拥有更广阔的应用前景,比如新闻短讯检索音频视频,音频检索相似文本等,跨模态方法应运而生。与单模态的方法相比,跨模态哈希方法在保持数据相似性时,不仅要考虑模态内数据关系,数据模态之间的关系也要考虑。随着对这些方面的研究,近来很多新方法被提出来,然而其中一些问题仍然需要考虑。在保持数据之间的关系时,很多方法拿哈希码来保持相似性,但是由于哈希码的离散约束,这是一个难优化问题;为此有的方法松弛哈希码的二进制约束使得目标函数更易优化,但却会使得量化误差增加,造成方法的效果下降;有的方法把生成哈希码和学习哈希函数分开来完成;也有一些方法提出了较复杂的离散的优化策略,或者复杂的目标函数,这会使得方法的训练效率降低。好的哈希方法应该保持好数据关系的同时尽量避免过大的量化误差,同时其优化过程要高效,便于求解及应用。既然直接由哈希码来保持数据相似性时,有这么多问题难以解决,我们思考能不能学习一个变量来代替哈希码完成以上工作,同时保持其与哈希码的联系,便于统一生成最终的哈希码和哈希码函数。基于此考虑,我们提出一个新的跨模态检索方法--中间态相似性保持哈希。首先,该方法为数据的每个模态引入一个中间态表示,并利用中间态来保持相似性,然后学习转换矩阵把中间态映射成对应的哈希码。通过这样的方式,该方法可以把哈希码和哈希函数的学习过程统一起来,并且不会松弛二进制离散约束,从而能减小量化损失;在本文中,我们也提出了一个优化算法能快速优化目标函数,直接得到所有位哈希码。同时我们在Wiki,MIRFlickr-25k,NUS-WIDE叁个数据集上验证该方法的性能,并和其他最新跨模态方法比较,结果证明了该方法的有效性。(本文来源于《山东大学》期刊2019-05-20)

李传祥[4](2019)在《基于矩阵分解的离散哈希方法研究》一文中研究指出近几年迎来信息爆炸的时代,互联网、电子商务、云计算及移动社交媒体等信息技术的迅速发展使得数据的数量和规模急剧增加,多类型大规模的数据对数据的处理速度及存储能力方面都有更高的需求,不仅要在可接受时间内处理大规模数据,同时数据的存储容量也要限制在可承受范围内,这对于当前大规模多模态数据的检索仍然是一个挑战。为了解决高维大规模数据的近似最近邻检索问题,基于哈希的近似最近邻检索方法应运而生,哈希方法将原始数据用长度固定的二值哈希码来表示,并使得原始特征空间中的语义关系等相似性信息在海明空间中依旧保持。大多数传统的哈希方法主要针对单模态数据,解决的是单个模态内的数据检索问题,而随着信息技术的快速发展导致数据的爆炸性增长,多模态数据越来越多,而对于多个模态之间的数据检索需求场景也日益增多,如以文搜图等,因此跨模态哈希检索成为一种行之有效的解决方案。目前已经出现了多种基于机器学习的跨模态哈希方法,并取得了不错的检索效果,但是仍有几个限制其性能的问题存在:1)由于二值离散优化问题较难解决,一些方法对离散条件进行松弛,首先求出哈希码的实值表示,之后对得到的实值表示进行二值化得到最终的哈希码,然而这种松弛优化方式会产生较大的量化误差,使得最终哈希码的检索效果下降;2)当前也有一些方法直接进行离散优化,但都以牺牲训练时间为代价,导致优化所需时间大大增加;3)在监督信息的选择上,有的方法选择使用n × n的相似性矩阵进行相似性保持,但这会导致其训练的时间复杂度从线性O(n)上升到O(n2),进而增加了其扩展到大规模数据集的难度。综合考虑上述问题之后,本文提出一种有监督哈希方法——基于矩阵分解的可扩展离散哈希,简称为SCRATCH。该方法结合矩阵分解以及标签嵌入来解决相似性保持和可扩展性问题,引入随机正交旋转矩阵来保持优化过程中哈希码的离散特性,从而可快速地完成模型训练并提升检索精度。本文主要贡献总结如下:·提出一种全新的基于矩阵分解的有监督跨模态哈希方法,通过借助协同矩阵分解(CMF)和标签语义嵌入,SCRATCH可充分利用现有的监督语义信息来找到一个公共子空间,使得形态各异的数据之间的隐含语义关联能够被有效地捕捉到,从而尽可能的保持模态间和模态内的语义相似性。· SCRATCH使用标签矩阵而非相似性矩阵,因此其训练的时空复杂度始终与数据集规模保持为线性关系,可方便的扩展到大规模多模态数据集上。·为了避免使用松弛技术解决离散优化问题造成的巨大量化误差,SCRATCH引入随机正交旋转矩阵使得训练过程中始终保持哈希码的离散特性,并结合迭代优化的策略,从而最小化训练过程中的量化误差,而且由于使用的是矩阵优化技术,矩阵的解均可通过求导得出其闭式解,因此避免了其他离散优化技术以增加训练时间为代价的问题。·通过在叁个多模态数据集上进行对比实验,包括检索性能、训练时间以及使用深度网络提取图像模态特征结合SCRATCH的损失函数来与当前先进的深度跨模态哈希方法进行性能对比,可以看到本文方法在各个指标上达到当前卓越的性能的同时,训练时间大大降低,从而可以方便的扩展到大规模数据集上,具有极高的有效性和实用性。(本文来源于《山东大学》期刊2019-05-20)

刘洋[5](2019)在《基于图的哈希方法的多媒体数据检索研究》一文中研究指出爆炸性增长的多媒体数据给当前计算机系统的管理、运算和存储带来了极大的压力。面对海量的多媒体数据,实现对这些数据的有效存储、管理和利用已经成为机器学习和计算机视觉领域亟待解决的重要问题之一。检索是机器学习领域的一个基本应用,海量多媒体数据的高效检索对挖掘和利用多媒体数据资源具有极为重要的意义。面对图像、视频、音频、文本等种类丰富的海量多媒体数据,如何对其进行高效检索,成为了当前学术界和工业界炙手可热的研究内容。针对大规模多媒体数据,利用哈希学习生成哈希编码的数据表示方式能有效减少数据存储和计算过程中的开销,同时降低数据维度,提升大规模数据检索系统的效率。目前哈希学习的方法在多媒体信息检索领域的研究已经取得初步成效,然而哈希学习过程中原始空间样本相似性度量和相似性信息保持的方法仍然有待进一步研究,哈希方法的应用场景仍需要进一步探索。本文对基于图的哈希方法理论和其在多媒体数据检索中的应用展开研究,对有效保持原始空间样本间相似性结构的哈希方法进行了探索,同时对哈希方法的应用场景进行了拓展。本文主要工作如下:(1)对原始空间样本间全局重构相似性进行研究,并利用其构建样本间全局相似性结构图,提出了全局相似性保持的哈希方法。该方法能够有效地挖掘样本间潜在的流形相似性结构,实现对原始空间样本间全局相似性的准确描述。除此之外该方法还提供从原始数据到哈希编码的直接映射,降低“两阶段”哈希编码框架下的降维误差和哈希编码量化损失,有效地将原始空间中样本间的全局相似性保持到汉明空间。实验结果表明,该方法可以有效地描述原始空间样本间的潜在流形相似性结构,并将这种结构保持到汉明空间,生成反映原始空间样本间相似性结构的哈希编码。(2)利用原始空间样本间的局部重构相似性和局部基于距离的几何结构(距离相似性)来实现对原始数据样本间的相似性的准确描述,提出了局部拓扑结构保持的哈希方法。该方法构建的图结构能够有效地提升对原始空间样本的局部相似性描述的准确性。该方法将分类算法引入到哈希映射学习的过程中,将哈希编码学习的过程和分类器训练过程相统一,实现从原始空间到汉明空间的显式映射,有效地将原始空间中样本间的局部相似性结构保持到汉明空间。实验结果证明该方法可以有效地生成保持原始空间样本间相似性结构的哈希编码。(3)对多特征、多模态情景下的哈希方法展开研究,利用监督信息构建样本间的判别相似性结构图,并以此为基础提出了判别比特选择哈希方法。不同于多特征、多模态情景下大部分哈希方法所选择的“融合+编码”的框架,判别比特选择哈希方法利用“编码+选择”的框架充分挖掘不同特征不同模态的数据信息,还有效利用现有的哈希方法,提升现有哈希方法的利用率。判别比特选择哈希方法利用监督信息构建比特选择标准,同时利用ADMM算法克服哈希编码选择过程中离散性约束带来的求解困难问题,提升哈希编码选择的效果,将能够充分保持样本间相似性的编码选取出来。利用哈希编码运算速率快的特性,本文还进一步地提出了面向多模态数据的目标识别框架——“哈希+近似近邻投票”,有效利用样本间的相似性信息进行目标识别,提升多模态数据环境下目标识别的效率。实验结果证明判别比特选择哈希方法能够有效选择保持样本间相似性的哈希编码,“哈希+近似近邻投票”的框架能够实现多模态数据环境下目标的高效准确识别。(4)对基于图的哈希方法在人体运动时间序列的分割和检索中的应用展开研究。人体运动序列作为多媒体数据的集中表现形式之一,对其进行语义化检索的基础任务之一就是进行有效地分割。为了实现人体运动时间序列的高效分割,本文提出了基于哈希方法的层次人体运动序列分割框架。该框架首先对人体运动序列动作变化程度展开研究,实现对人体运动时间序列的初步分割。在此基础上,不仅考虑人体运动时间序列某一时刻动作的变化程度,更对人体运动时间序列动作变化过程展开研究,利用哈希方法将人体运动过程转化为状态变化的过程,并对同一类别动作的内部相关性展开描述,有效减少人体运动序列分割过程中的过度分割。在分割的基础上,本文针对人体运动序列检索展开研究,利用哈希方法实现人体运动序列关键帧的提取,提升基于哈希方法的人体运动序列检索的效果。实验结果证明基于哈希方法的层次人体运动序列分割框架的有效性,及基于哈希方法的人体运动序列检索的效果。综上所述,本文主要针对基于图的哈希方法及其在多媒体数据检索中的应用展开研究,提出3种基于图的哈希方法并对基于图的哈希方法在图像检索、人体运动序列分割与检索等实际应用中的情况进行了研究和分析。实验结果表明本文所提算法的有效性及其对比现有算法的优越性。(本文来源于《大连理工大学》期刊2019-03-15)

王伯伟,聂秀山,马林元,尹义龙[6](2019)在《基于语义相似度的无监督图像哈希方法》一文中研究指出哈希方法作为最近邻搜索中的一个重要算法,具有快速及低内存的优良特性,能够较好地解决现实图像数据库中存在的样本标签信息缺失、人工标注成本过高等问题,因此在图像检索领域得到广泛使用.提出一种基于语义相似度的无监督图像哈希方法.首先对原始图像进行语义聚类,然后基于图像的语义相似性,把原始图像特征映射到汉明空间;同时,为了增强哈希学习的鲁棒性,在所得到的目标函数中,采用了l2,p范数(0<p≤2)来代替l2范数进行哈希学习.通过在两个公共图像检索数据库CIFAR-10和NUS-WIDE的实验结果证明,与现有方法相比,本方法的平均精度均值提升了5%.(本文来源于《南京大学学报(自然科学)》期刊2019年01期)

汪曙光,苏亮亮,王琨,唐俊[7](2018)在《基于多比特量化的哈希方法》一文中研究指出面对爆炸式增长的视频监控数据,传统的检索方法已无法投入实际应用,作为一种有效的替代,基于哈希方法的近似最近邻检索已经在存储空间和时间效率上表现出巨大的优势。然而当前绝大部分哈希方法都集中于投影学习的研究,而忽视了量化编码的重要性。针对这些问题,提出了一种新的多比特量化编码方法,方法基于马修斯相关性系数(MCC)计分和编码一致性约束来构建新的代价函数,利用遗传优化算法获取量化阈值,根据阈值完成投影维的多比特分配。在典型数据集上的实验结果验证了所提出方法优于现有的一些多比特量化方法。(本文来源于《传感器与微系统》期刊2018年12期)

寿震宇,杨安邦,袁明汶[8](2018)在《基于机器学习模型的哈希方法研究进展》一文中研究指出在大数据背景下,相似最近邻查询面临维度灾难、存储代价大、查询效率低叁大难题。经典的哈希方法,如局部敏感哈希(Locality-Sensitive Hashing,LSH),因其数据独立的性质在现实任务中效果一般。基于机器学习模型的哈希方法较好的弥补了这一缺点,成为了目前哈希领域新的研究热点。本文主要从基于无监督模型和基于监督模型的两大类哈希方法进行介绍。无监督哈希方法介绍了K均值聚类哈希、自组织映射哈希、无监督随机森林哈希;监督型哈希方法介绍了神经网络哈希、CNN哈希、隐因子模型哈希。最后对以上哈希方法进行了归纳总结。(本文来源于《无线通信技术》期刊2018年03期)

李丹阳,程晓荣[9](2018)在《一种基于哈希方法的相似性搜索》一文中研究指出本文针对高维数据的相似性搜索问题中,最具代表性的算法是局部敏感哈希算法,提出尝试采用混合索引结构,在数据的搜索和处理过程对数据按出现次数进行分类,过滤无效数据,来提高搜索效率的观点。在计算机信息相似性搜索行业起到提高搜索效率,减少空间消耗的作用。(本文来源于《中国科技信息》期刊2018年13期)

樊花,陈华辉[10](2018)在《基于哈希方法的跨模态检索研究进展》一文中研究指出目前大规模数据集的近邻检索引起广泛关注。早期的近邻检索多为同构数据的检索,如以图像检索图像,文本检索文本。但是随着多媒体的发展,信息表达的多样性,数据跨模态检索成为当前研究热点。跨模态检索指在文档有多种模态描述时可从一个模态检索到另一个模态,如以文本检索图像,以图像检索文本等。由于哈希方法的存储开销低和快速有效的特征,广泛应用在跨模态检索中。本文从有监督、无监督和半监督叁方面介绍了主要的基于哈希跨模态检索方法,分析了其优缺点,并进行了实验比较。(本文来源于《数据通信》期刊2018年03期)

哈希方法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

互联网技术的飞速成熟和发展,带来的是多媒体数据量的爆炸式增长,这导致很多应用场景都无法通过最近邻检索来降低巨大的计算消耗。因此,近年来,近似最近邻检索越来越受到人们的关注,特别是很多基于哈希的近似最近邻检索。这些哈希方法在保持原始数据相似性的前提下,首先将原始数据映射到海明空间,然后在海明空间进行异或操作。这样可以极其有效地提高效率和降低存储空间的消耗。为充分利用类型丰富的多媒体数据,越来越多的跨模态哈希方法被提出,这些方法可以实现不同模态间多媒体数据的检索,如图像检索文本等任务。根据特征的提取方式,现有的跨模态哈希方法可以分为传统的哈希方法和深度哈希方法。传统的哈希方法提取特征的方式是与数据无关的,具有一定的局限性,因此很难满足现有的需求;相反的,深度哈希方法依靠深度神经网络的强大特征提取能力取得了很好的效果。但现有的深度跨模态哈希方法依然存在一些问题。有的方法一般将图像信息和文本信息同时使用,来学习一致的哈希码和哈希函数。通常,文本信息含有大量的噪音,因此文本信息和图像信息并不具备很好的一致性。用这样的方法学到的哈希码质量并不是太高。而且,这样使用相似行矩阵,会造成信息的流失。为解决这一问题,我们提出了快速语义优先的深度跨模态哈希方法。该方法首先利用图像信息和标记信息生成一致性哈希码和哈希函数,然后再生成文本信息的哈希函数。因为图像信息和标记信息的一致性更高,因此生成的哈希码质量更高。更重要的是,该方法只是用了叁个简单的神经网络实现,因此其运算效率很高。我们在两个数据集上进行实验,也验证了该方法的优越性。另一方面,现有的跨模态深度哈希方法在检索准确率上不断提高,主要归功于深度神经网络的发展和创新的算法架构。但以上两种方式,都是基于现有方法的一个普遍做法:一般是将标记信息和两个模态的原始信息共同使用,将原始数据映射到海明空间,来生成哈希码。由于图像和文本模态均含有噪音,生成的哈希码质量不高。针对这一问题,我们提出了并行语义优先的深度跨模态哈希方法。该方法只用标记信息输入神经网络生成一致性哈希码,然后用哈希码监督各个模态哈希函数的学习。由于各个模态哈希函数的学习可以并行完成,该方法具有很好的多模态扩展性和高效性。之后,我们在两个数据集上进行实验,验证了该方法的优越性。最后,通过扩展实验验证了该方法出发点的正确性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

哈希方法论文参考文献

[1].申华磊,邱鹏.CF患者肺组织分类——基于相关反馈的监督核哈希方法[J].河南师范大学学报(自然科学版).2019

[2].赵鹏飞.基于标记信息的跨模态深度哈希方法研究[D].山东大学.2019

[3].肖博文.中间态相似性保持的监督离散哈希方法的研究[D].山东大学.2019

[4].李传祥.基于矩阵分解的离散哈希方法研究[D].山东大学.2019

[5].刘洋.基于图的哈希方法的多媒体数据检索研究[D].大连理工大学.2019

[6].王伯伟,聂秀山,马林元,尹义龙.基于语义相似度的无监督图像哈希方法[J].南京大学学报(自然科学).2019

[7].汪曙光,苏亮亮,王琨,唐俊.基于多比特量化的哈希方法[J].传感器与微系统.2018

[8].寿震宇,杨安邦,袁明汶.基于机器学习模型的哈希方法研究进展[J].无线通信技术.2018

[9].李丹阳,程晓荣.一种基于哈希方法的相似性搜索[J].中国科技信息.2018

[10].樊花,陈华辉.基于哈希方法的跨模态检索研究进展[J].数据通信.2018

标签:;  ;  ;  ;  

哈希方法论文-申华磊,邱鹏
下载Doc文档

猜你喜欢