导读:本文包含了剽窃检测论文开题报告文献综述及选题提纲参考文献,主要关键词:维吾尔语文档,相似度,剽窃检测,文档hash指纹
剽窃检测论文文献综述
亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙[1](2019)在《基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法》一文中研究指出针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于n-gram统计模型实现;然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息;最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。(本文来源于《计算机应用研究》期刊2019年06期)
刘刚,左权,杨倩茹[2](2019)在《一种基于指纹融合的跨语言剽窃检测技术》一文中研究指出跨语言剽窃一直是学术不端现象发生的重灾区,也是极难发现的一种剽窃行为。跨语言剽窃的检测和识别技术是目前最亟待发展的技术,也是反剽窃抄袭领域的最大技术难点。在总结和分析了单语剽窃检测和跨语言剽窃检测国内外研究现状的基础上,针对跨语言剽窃检测存在的问题,提出了一种基于指纹融合的跨语言剽窃检测技术,并将所提出的技术在人工构建的剽窃集上进行实验验证,对实验结果进行详细分析和对比分析,验证了该技术的有效性。(本文来源于《计算机应用研究》期刊2019年01期)
段旭良,杨洋,王曼韬,穆炯[3](2017)在《一种扩展Winnowing剽窃检测算法》一文中研究指出剽窃是目前学术界和教育界面临的普遍问题,成熟的商业化剽窃检测系统运行时间和经济代价高,不适合实时性、轻量级的学生作业等日常检测。对基于文本指纹的Winnowing剽窃检测算法进行扩展,在提取指纹的同时记录文本定位及其长度信息,给出了指纹提取、文本定位、剽窃指纹索引合并等算法,实现了剽窃文本的检测、定位、标记。实验结果及算法在应用系统中实际运行状况表明,算法的扩展对其性能影响不大,普通硬件配置条件下即可满足中小规模应用需求。扩展算法在原算法轻量级、高效率、可靠性和灵活度高等特点基础上,进一步拓展了Winnowing的功能,增强了原算法的适应性和应用价值。(本文来源于《计算机工程与科学》期刊2017年12期)
卫军超[4](2017)在《在线评测系统中代码剽窃检测技术的研究与实现》一文中研究指出为了高效检测程序设计课程中代码剽窃问题,减少或杜绝代码剽窃现象。针对目前已有的代码剽窃检测系统检测结果准确性较差、时间复杂度高等问题,本文提出一套完整的解决方案,并依据该方案构建出剽窃检测系统,用于程序设计课程的代码剽窃检测。主要研究内容如下:(1)针对已有检测系统运行时间复杂度高的问题,提出了一种基于属性计数法和结构度量技术相结合的程序相似度计算方法,通过提取代码属性特征和结构特征方法,降低了检测系统的时间复杂度。实验表明,检测系统的运行时间复杂度与最长公共子序列算法相比降低了15.1%。(2)针对已有检测系统准确性低的问题,通过分析代码剽窃的特点,优化了检测流程:优先使用GST(Greedy String Tilling)算法检测低级的代码剽窃问题,再依据决策函数判断是否采用属性计数法和结构度量技术相结合的方法进一步计算相似度,采用两次检测结果的综合评价得出最终检测结论,实验结果表明,对于构造样本、学生日常作业和上机考试提交的程序代码样本中的低级的剽窃手段,检测结果的准确率达95%;而对于较为高级的检测手段,比如增加冗余、等价结构替换等,本文设计的检测系统比JPlag系统的精度提高了5.6%。(3)实现了程序代码自动化检测系统一套,包括代码预处理、有效选择源程序的特征、高效提取特征元素及相似度检测算法的实现。为了验证本研究方法及构建出一套剽窃检测系统的有效性,选取叁组典型样本在JPlag系统和本研究搭建的剽窃检测系统同时进行检测,最后比较检测结果。综合分析叁组样本中常见的五类剽窃手段的检测结果比JPlag系统的精度提高了7.3%。软件测试表明,该系统能够稳定可靠地工作,较好的实现了设计的目标。(本文来源于《西北农林科技大学》期刊2017-05-01)
李光曦[5](2017)在《基于多特征的跨语言剽窃检测模型构建技术研究》一文中研究指出随着互联网的不断发展,信息共享越来越方便,这就会导致剽窃问题层出不穷。单语剽窃问题在国内发展已较为成熟,但跨语言剽窃却刚处于新兴阶段。所以,研究跨语言剽窃问题是目前反剽窃领域乃至整个学术界都迫切需要解决的重要问题。本文通过构建一种基于多特征的跨语言剽窃检测模型,旨在能够根据从译文挖掘出的多种特征来解决跨语言剽窃问题。本文首先对单双语言剽窃的研究现状进行了分析与总结,给出了一种基于多特征的跨语言剽窃检测模型,该模型包括了基于多特征选择的跨语言剽窃分类和基于多特征对应的跨语言剽窃检测。对于跨语言剽窃分类来说,给出了基于多特征选择的跨语言剽窃分类方法。该方法主要是根据译者在进行翻译时出现的欧化现象挖掘出常见的译文特征,在对特征进行进一步的特征选择和特征权值的计算后,训练分类器,针对是否存在跨语言剽窃行为进行分类。在此过程中,给出了一种新的特征选择方法,该方法结合传统卡方检验方法,并在此基础上又考虑了文本中特征的数量以及在类别中特征的稳定程度两个因素来进行特征选择。对于跨语言剽窃检测来说,提出了基于多特征对应的跨语言剽窃检测新方法。该方法主要是根据译文特征和结构特征的对应来进行两次剽窃结果过滤。所谓译文特征对应,即将选择出来的特征与其英文的表现形式进行对应,提出一种计算段落之间特征距离的算法来比较对应的中英文段落。所谓结构特征对应,即将中英段落的结构进行比较,保留结构相似的段落,过滤结构差别大的段落。最后,用基于WordNet的方法对检测结果进行了相似度计算,最终达到了跨语言检测的目的。本文针对构建的跨语言剽窃模型,通过实验对比和实验分析,分别进行了分类结果和检测结果的验证,证明了所给出的模型的有效性和科学性。(本文来源于《哈尔滨工程大学》期刊2017-01-01)
杨倩茹[6](2016)在《基于指纹融合的跨语言剽窃检测技术研究》一文中研究指出近年来,学术不端的现象频发,这引起了社会的广泛关注。而属于学术不端行为之一的剽窃行为是最常见的,剽窃从语言上可以分为单语言剽窃和跨语言剽窃。单语言剽窃检测已经有了比较成熟的技术,跨语言剽窃检测还处于起步阶段,其由于语言之间的不一致性和句子结构的不同,检测起来比较复杂。本文在总结和分析了单语言剽窃检测和跨语言剽窃检测国内外研究现状的基础上,针对跨语言剽窃检测存在的问题,提出了一种基于指纹融合的跨语言剽窃检测技术。该技术将跨语言剽窃检测分为跨语言文本相似搜索和剽窃检测结果确认两个阶段。首先在详细分析和研究WordNet的名词树形结构基础上,给出了独立于语言的中间指纹编码算法,该算法跨越了语言的障碍,建立了独立于语言的中间层。之后,对文本采用不同的预处理技术,提取出特征词,针对一词多义的现象,给出了基于中间指纹的语义消歧算法,经过基于频率的指纹选取,形成文本各自对应的指纹,运用Dice系数进行跨语言文本相似度计算并进行相似搜索,形成潜在剽窃文档集,该阶段由于都是基于位运算进行的,效率较高;第二阶段详细分析了 SimHash算法和Winnowing算法的优缺点,并把这两种算法融合到一起提出了 SimWin算法用于剽窃检测的结果确认,之后把剽窃片段进行合并,形成最后的剽窃结果,该阶段提高了检测的准确率。最后,本文将所提出的技术在人工构建的剽窃集上进行实验验证,并对实验结果进行详细分析和对比分析,验证了该技术的有效性。(本文来源于《哈尔滨工程大学》期刊2016-05-16)
李香云,葛华[7](2013)在《Winnowing算法在作业剽窃检测中的应用》一文中研究指出本文介绍了文档剽窃检测算法——Winnowing算法。该算法利用划分字符串,哈希每个字符串的值,最后通过一定的选取策略选出某些哈希值作为文档的指纹,通过对指纹的比较判断不同文本间的相似度,并判断文档之间是否存在剽窃现象。(本文来源于《安徽科技学院学报》期刊2013年04期)
校景中,肖丽[8](2011)在《基于函数子串匹配的源码剽窃检测技术研究》一文中研究指出在计算机类课程的教学中,存在部分学生抄袭他人源码的现象。为了能快速准确地判断出源码剽窃行为,大量学者致力于研究和开发用于自动检测源码剽窃行为的系统和技术。本文提出一种基于函数子串匹配的源码剽窃检测模型,这种方法能准确地检测出各种剽窃行为,包括改变了函数声明顺序的剽窃行为。首先将源程序转换为token流的形式;然后将token流进行分割,分割为多个能表示函数的子串;将两个源程序对应的多个函数子串通过RKRGST进行匹配,得到两个程序的相似度。(本文来源于《Proceedings of the 2011 International Conference on Future Computer Science and Application(FCSA 2011 V1)》期刊2011-07-16)
李虎,刘超,刘楠,李晓丽[9](2010)在《Java源代码字节码剽窃检测方法及支持系统》一文中研究指出提出一种Java源代码和字节码都适用的剽窃检测方法并实现了支持系统,该方法以类的Java文件或class文件为比较单元,从中抽取代表程序语法和语义特征的5种特征向量,综合计算产生两个类文件之间的相似度,可用于帮助判断两个类文件之间是否存在全部或部分剽窃现象.在人工修改程序的场景下进行的对比实验结果和剽窃检测实验结果表明,该方法可有效检测程序代码的严格拷贝和近似拷贝,有较高的检测性能,并且能够识别程序剽窃行为中对Java源文件所做的大部分类型的代码变换.(本文来源于《北京航空航天大学学报》期刊2010年04期)
包敬海[10](2009)在《数据挖掘在操作类作业剽窃检测中的应用》一文中研究指出针对操作类电子作业剽窃泛滥的现象,根据数据挖掘原理设计系统,搜集学生作业的相关信息并加以分析,实现快速、准确检测剽窃行为。(本文来源于《科协论坛(下半月)》期刊2009年12期)
剽窃检测论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
跨语言剽窃一直是学术不端现象发生的重灾区,也是极难发现的一种剽窃行为。跨语言剽窃的检测和识别技术是目前最亟待发展的技术,也是反剽窃抄袭领域的最大技术难点。在总结和分析了单语剽窃检测和跨语言剽窃检测国内外研究现状的基础上,针对跨语言剽窃检测存在的问题,提出了一种基于指纹融合的跨语言剽窃检测技术,并将所提出的技术在人工构建的剽窃集上进行实验验证,对实验结果进行详细分析和对比分析,验证了该技术的有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
剽窃检测论文参考文献
[1].亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙.基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法[J].计算机应用研究.2019
[2].刘刚,左权,杨倩茹.一种基于指纹融合的跨语言剽窃检测技术[J].计算机应用研究.2019
[3].段旭良,杨洋,王曼韬,穆炯.一种扩展Winnowing剽窃检测算法[J].计算机工程与科学.2017
[4].卫军超.在线评测系统中代码剽窃检测技术的研究与实现[D].西北农林科技大学.2017
[5].李光曦.基于多特征的跨语言剽窃检测模型构建技术研究[D].哈尔滨工程大学.2017
[6].杨倩茹.基于指纹融合的跨语言剽窃检测技术研究[D].哈尔滨工程大学.2016
[7].李香云,葛华.Winnowing算法在作业剽窃检测中的应用[J].安徽科技学院学报.2013
[8].校景中,肖丽.基于函数子串匹配的源码剽窃检测技术研究[C].Proceedingsofthe2011InternationalConferenceonFutureComputerScienceandApplication(FCSA2011V1).2011
[9].李虎,刘超,刘楠,李晓丽.Java源代码字节码剽窃检测方法及支持系统[J].北京航空航天大学学报.2010
[10].包敬海.数据挖掘在操作类作业剽窃检测中的应用[J].科协论坛(下半月).2009