导读:本文包含了字符串近似查询论文开题报告文献综述及选题提纲参考文献,主要关键词:倒排索引,字符串近似查询,批处理,内存受限
字符串近似查询论文文献综述
周勇伟[1](2018)在《大规模字符串近似查询批处理算法研究》一文中研究指出字符串具有多元化的意义,是计算机领域中重要的研究对象。字符串查询在数据分析、生物序列分析等很多领域有着广泛的应用,然而很多因素导致字符串精确查询面临很大困难甚至不可行。例如由于信息因素、技术因素、流程因素和管理因素等多方面的原因造成数据质量问题,给字符串查询处理带来很多困难,因此需要对字符串进行近似查询。字符串近似查询指的是,在一个字符串数据集中,通过一些字符串相似性函数,寻找与待查询字符串满足相似性条件的字符串集合。近年来,研究人员提出了一些基于q-gram模型和倒排索引的方法来解决字符串近似查询问题。目前字符串近似查询都只针对单个字符串的查询,缺少字符串近似查询批处理方法。批处理可以提高字符串查询效率、提高资源利用效率,因此本文将重点研究字符串近似查询的批处理算法。首先将字符串分割成q-gram集合,为gram建立倒排索引,并在内存中建立Trie树对gram进行管理。采用倒排表组织字符串和gram集合,可以相对减少查询的磁盘随机检索代价,使用Trie树方便了在查询时检索gram对应的倒排表。对于近似查询,本文主要基于过滤-验证框架,通过读取相关倒排表得到候选集合,并利用长度、位置信息增强过滤效果,减少验证代价,最后对候选集合进行验证是否满足相似条件约束。本文建立非对称gram选择代价模型,基于多个查询之间共享部分倒排表的策略,设计了字符串近似查询批处理算法来减少查询代价,并从平均查询时间、平均等待时间、读取倒排表个数等多个维度验证算法的有效性。目前字符串近似查询算法假设候选集合可以完全加载到内存中,没有考虑内存限制的情况。设计内存受限情况下的处理框架有利于在字符串查询任务中减少对内存的消耗,因此本文对内存约束下的字符串近似查询批处理进行了研究。在内存受限情况下,需要对字符串近似查询分批次处理。通过对待查询字符串进行聚类,增加同批次待查询字符串拥有相同gram的概率,进而减少读取倒排表的个数。然后建立字符串查询调度的代价模型,利用动态规划算法进行求解,提出在内存受限情况下的字符串近似查询批处理算法,并保证在查询过程中不会超过内存的约束。最后从平均查询时间等多个性能指标考察了算法的有效性以及内存受限程度等实验参数对性能的影响。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
崔甲,王伟平,陈重韬,孟丹[2](2014)在《基于滑动窗口的数据流字符串近似查询》一文中研究指出针对数据访问模式随着网络技术的发展逐渐从静态磁盘转移到动态数据流的状况,研究了数据流上的字符串近似查询。为了解决数据流的连续性、无边界性、不可预知性和在线计算资源的局限性导致基于静态数据集的近似查询处理方法无法高效地支持数据流的问题,提出了基于滑动窗口数据流的字符串近似查询(AS~3)方法。该方法基于过滤-验证框架和基本窗口索引更新机制,改进并应用非对称特征策略提取数据流和查询关键字的特征,采用了两个新的过滤算法——预剪裁过滤(PPF)算法和流统计(CFS)过滤算法,以及基于矩阵坐标的验证(cV)算法。实验结果表明,As~3方法能够高效地支持基于滑动窗口的数据流字符串近似查询,在保证结果准确率的同时具有较高的实时性及峰值处理能力。(本文来源于《高技术通讯》期刊2014年09期)
刘兵,臧天阳,张晶[3](2013)在《一种中文字符串近似匹配查询技术研究》一文中研究指出字符串匹配是计算机科学中最经典、研究最广泛的问题之一,并且已经被应用到了众多领域当中。近似字符串匹配问题的研究虽然经历了不短的时间历程,但是其中的研究对象绝大多数主要是针对DNA等小型字符集或针对英文等中等大小字符集,而对于汉字乃至亚洲语音等大型字符集的研究却仍然不多。因此,研究高效的近似字符串匹配算法具有重要的理论价值和实际意义。(本文来源于《电脑编程技巧与维护》期刊2013年14期)
佟星[4](2012)在《支持字符串近似查询的索引关键技术的研究》一文中研究指出随着社会信息化的不断普及,字符串处理在当今计算机领域的应用也不断拓展,并凸显出更为重要的意义。一方面,字符串表示的含义更加多元化所以处理的方法也更为宽广,另一方面,数据质量问题的出现使得准确的进行字符串查询处理出现一些困难,所以研究人员不得不对字符串进行近似查询处理。在一个字符串集合中,通过一些字符串的相似性函数寻找与查询字符串相似的字符串集合被称为字符串的近似查找。字符串的近似查询处理面临着度量函数的定义,索引结构的建立,大数据量的处理,考虑字符串权值等诸多挑战,所以字符串近似查询处理成为当下研究领域的重要研究课题。本文分析了已有的字符串近似查询的工作(包括带权值的和不带权值的字符串近似查询),发现当前的字符串近似查询索引结构都普遍存在着一些问题。这些问题主要有索引结构不能够很好地更新,查询效率低,支持查询种类有限,支持的查询字符串长度有限,只适用于固定阈值等等。针对这些问题,本文提出了新的索引结构Fgramtree和Weitree,并基于这两种索引结构给出了新的查询算法。其中,Fgramtree能够将相似的字符串定位到同样的结点中,这样就能显着加快查找的速度。Weitree主要用于带权值的字符串近似查询,实现了字符串与数值类型数据的混合查找。通过在真实数据集上进行的实验,验证了我们提出的索引结构及查询算法的有效性。(本文来源于《哈尔滨工业大学》期刊2012-06-01)
刘兵,扶晓,陈柳巍[5](2012)在《字符串近似匹配查询技术综述》一文中研究指出字符串匹配是计算机科学中最经典、研究最广泛的问题之一,并且已经被应用到了众多领域当中。然而随着计算机和网络技术的飞速发展以及新问题的不断提出,人们逐渐发现在实际应用中有时更需要进行近似字符串匹配。因此,研究高效的近似字符串匹配算法具有重要的理论价值和实际意义。(本文来源于《电脑编程技巧与维护》期刊2012年08期)
袁先平,仲红,黄宏升,易磊[6](2011)在《一种字符串近似匹配的安全查询协议》一文中研究指出数据库中字符串近似匹配查询不能完全保护查询双方的隐私信息。针对该问题,提出一种对数据库中字符串数据的近似匹配查询协议。采用安全计算编辑距离协议、同态加密、茫然传输等安全技术,在有效保护查询双方隐私信息的情况下,实现对字符串近似匹配的查询,并分析该协议的正确性、安全性及复杂性,结果表明,该方案是安全有效的。(本文来源于《计算机工程》期刊2011年20期)
字符串近似查询论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对数据访问模式随着网络技术的发展逐渐从静态磁盘转移到动态数据流的状况,研究了数据流上的字符串近似查询。为了解决数据流的连续性、无边界性、不可预知性和在线计算资源的局限性导致基于静态数据集的近似查询处理方法无法高效地支持数据流的问题,提出了基于滑动窗口数据流的字符串近似查询(AS~3)方法。该方法基于过滤-验证框架和基本窗口索引更新机制,改进并应用非对称特征策略提取数据流和查询关键字的特征,采用了两个新的过滤算法——预剪裁过滤(PPF)算法和流统计(CFS)过滤算法,以及基于矩阵坐标的验证(cV)算法。实验结果表明,As~3方法能够高效地支持基于滑动窗口的数据流字符串近似查询,在保证结果准确率的同时具有较高的实时性及峰值处理能力。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
字符串近似查询论文参考文献
[1].周勇伟.大规模字符串近似查询批处理算法研究[D].哈尔滨工业大学.2018
[2].崔甲,王伟平,陈重韬,孟丹.基于滑动窗口的数据流字符串近似查询[J].高技术通讯.2014
[3].刘兵,臧天阳,张晶.一种中文字符串近似匹配查询技术研究[J].电脑编程技巧与维护.2013
[4].佟星.支持字符串近似查询的索引关键技术的研究[D].哈尔滨工业大学.2012
[5].刘兵,扶晓,陈柳巍.字符串近似匹配查询技术综述[J].电脑编程技巧与维护.2012
[6].袁先平,仲红,黄宏升,易磊.一种字符串近似匹配的安全查询协议[J].计算机工程.2011