相似度比较算法论文-童学杰,彭绪富

相似度比较算法论文-童学杰,彭绪富

导读:本文包含了相似度比较算法论文开题报告文献综述及选题提纲参考文献,主要关键词:局部敏感,哈希,LSH,Simhash

相似度比较算法论文文献综述

童学杰,彭绪富[1](2019)在《局部敏感哈希算法的内容相似度比较》一文中研究指出局部敏感哈希(Locality Sensitive Hashing,LSH)算法,又称局部敏感散列算法,顾名思义,该算法产生的散列值是局部敏感的。对原始内容做微小的修改后,经过LSH算法生成的散列值的变化也是微小的,因此LSH生成的散列值是局部敏感的。这一特性可以运用在论文查重、网页比较、文本比较等需要比较内容相似度的场景上。该文着重研究LSH在文本比较上的实现(Simhash算法)。首先,对给定的文本做分词降噪和加权处理得到带权重的具有给定文本特征的词语,其次,使用哈希算法为每个词语生成对应的哈希值并根据各自的权重形成加权数字串,然后合并所有词语并降维,最后,通过使用海明距离(Hamming Distance)计算生成的两个Simhash的相似度。(本文来源于《电脑知识与技术》期刊2019年10期)

黄嘉恒,李晓伟,陈本辉,杨邓奇[2](2017)在《基于哈希的图像相似度算法比较研究》一文中研究指出对均值哈希、感知哈希和差异值哈希3个基于哈希的图像相似度算法进行深入研究,分析不同图像哈希算法设计原理和优缺点。从理论分析和实验测试两个方面对3个图像哈希算法的效果和性能进行了全面的对比,给出了对应的测试数据,为在不同应用中选择合适的算法提供参考。(本文来源于《大理大学学报》期刊2017年12期)

朱利龙[3](2016)在《相似度算法在源程序比较中的应用》一文中研究指出在计算机程序课的教学过程中,时常需要对学生所提交的源程序进行检查,特别是源程序的重复率检查。纯人工对比不但花费时间长,而且效率低下。因此,本文提出利用文本相似度算法解决源程序对比的方法,并设计出相应的源程序比较系统,来帮助老师从繁重的工作中解脱出来。(本文来源于《电脑知识与技术》期刊2016年21期)

吴宏洲[4](2016)在《句子比较相似度的算法实现》一文中研究指出一种文本句子比较相似度算法,以连续文字串为单元块,相同单元块越大越多越相似,相异部分的单元块越小越少越相似,依此计算相似度值。可用来消除传统相似度取值置信区间中模糊区,精确到一个非此即彼的二元逻辑值。(本文来源于《电脑知识与技术》期刊2016年07期)

陈天,刘文浩[5](2012)在《相似度算法分析与比较研究》一文中研究指出针对RSS阅读器中冗余信息带来的不便,在采用中文分词和TF.IDF算法计算相似度进行预处理后,选取Levenshtein、余弦夹角法、Jaccard这叁种相似度算法进行冗余信息鉴别。详细讨论这些方法的特征,并从实际应用的角度对这些方法的长处和不足做分析与比较,并选择Jaccard算法实现一个数据过滤机制。(本文来源于《现代计算机(专业版)》期刊2012年18期)

柴秀琴[6](2012)在《模体相似度比较算法研究》一文中研究指出转录因子(TF)蛋白质通过序列特异性的形成和非特异性的分子相互作用,可以识别少量的DNA。熟悉了解转录因子DNA结合的参数选择,不仅会有效洞察DNA的识别机制,同时允许更准确地预测基因组调控元件,这些元件是理解细胞基因调控网络的一个主要障碍。对预测出来的转录因子结合位点模体进行比较分析,是生物信息学的一个重要分支,是衡量转录因子结合位点识别算法是否有效的一个重要途径。本文提出了一种转录因子结合位点模体相似度比较的方法,用于对模体数据库进行优化。本文首先介绍了生物信息学及其研究内容,着重介绍了转录因子结合位点模体相似度比较的研究现状及发展方向。然后,对转录因子及其结合位点相关概念作了简要介绍,并对转录因子结合位点的表示模型进行了深入分析。在深入研究国内外各种模体相似度比较算法的基础上,提出一种带伪计数的基于位置频率矩阵的模体相似度比较算法,通过实验分析得出该算法比现有的其他算法能更准确的计算出两个模体之间的相似度,并且依据相似度比较结果可以很好的将相关的模体聚类到一起,表现出更好的生物学意义。本文还对算法做了并行化处理,使运算速度大大提高,这在大规模模体相似度比较时会非常有用。最后,总结性分析了该领域存在的一些问题和今后需要进一步研究的课题。(本文来源于《天津师范大学》期刊2012-05-01)

牛永洁,张成[7](2012)在《多种字符串相似度算法的比较研究》一文中研究指出对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出了算法运行的结果,最后给出每种算法计算相似度的计算公式和算法时间复杂度及应用领域。由于字符串相似度具有广泛的应用领域,对其中经典的几种算法进行总结对比是一件十分有意义的研究工作。(本文来源于《计算机与数字工程》期刊2012年03期)

蔡绍滨,方伟,赵靖,赵蕴龙,高振国[8](2011)在《基于区间的云相似度比较算法的研究》一文中研究指出事物的不确定现象包括模糊性和随机性.云模型通过对二者的结合,建立起定性定量的互换模型.相似云及其度量算法的提出使得云模型具有一定的理论价值和实际意义.然而由于云本身的特性,使得算法的计算精度不高、计算消耗较大.因此提出基于区间的云相似度比较算法,对原云相似性算法进行改进.实验证明,该算法在计算精度以及计算消耗上都有较大的优化.(本文来源于《小型微型计算机系统》期刊2011年12期)

于海英[9](2011)在《字符串相似度度量中LCS和GST算法比较》一文中研究指出就字符串相似度度量算法的LCS和GST在概念、实现、效率方面进行比较分析,简要探讨了两种算法的应用领域。(本文来源于《电子科技》期刊2011年03期)

火善栋[10](2007)在《用N-连字算法实现网页的相似度比较》一文中研究指出提出并实现了一种N-连字算法,用该算法可以较好地实现网页的相似度比较,用本算法来实现网页的"去重",效果尤为明显。(本文来源于《现代计算机(专业版)》期刊2007年09期)

相似度比较算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

对均值哈希、感知哈希和差异值哈希3个基于哈希的图像相似度算法进行深入研究,分析不同图像哈希算法设计原理和优缺点。从理论分析和实验测试两个方面对3个图像哈希算法的效果和性能进行了全面的对比,给出了对应的测试数据,为在不同应用中选择合适的算法提供参考。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

相似度比较算法论文参考文献

[1].童学杰,彭绪富.局部敏感哈希算法的内容相似度比较[J].电脑知识与技术.2019

[2].黄嘉恒,李晓伟,陈本辉,杨邓奇.基于哈希的图像相似度算法比较研究[J].大理大学学报.2017

[3].朱利龙.相似度算法在源程序比较中的应用[J].电脑知识与技术.2016

[4].吴宏洲.句子比较相似度的算法实现[J].电脑知识与技术.2016

[5].陈天,刘文浩.相似度算法分析与比较研究[J].现代计算机(专业版).2012

[6].柴秀琴.模体相似度比较算法研究[D].天津师范大学.2012

[7].牛永洁,张成.多种字符串相似度算法的比较研究[J].计算机与数字工程.2012

[8].蔡绍滨,方伟,赵靖,赵蕴龙,高振国.基于区间的云相似度比较算法的研究[J].小型微型计算机系统.2011

[9].于海英.字符串相似度度量中LCS和GST算法比较[J].电子科技.2011

[10].火善栋.用N-连字算法实现网页的相似度比较[J].现代计算机(专业版).2007

标签:;  ;  ;  ;  

相似度比较算法论文-童学杰,彭绪富
下载Doc文档

猜你喜欢