重复记录论文-魏芳芳,魏顺平,睢世杰

重复记录论文-魏芳芳,魏顺平,睢世杰

导读:本文包含了重复记录论文开题报告文献综述及选题提纲参考文献,主要关键词:文本分析,在线教育,Moodle平台,记录检测

重复记录论文文献综述

魏芳芳,魏顺平,睢世杰[1](2019)在《基于Moodle学习平台的发帖重复记录检测技术研究》一文中研究指出文本作为一种占比80%的信息存储形式,对文本信息中重复数据的识别尤为关键,如何进行文本重复记录检测,检测文本之间是否存在抄袭现象,成为自然语言处理领域研究热点。以国家开放大学Moodle学习平台发帖重复记录检测的数据为依据,研究了文本类重复记录检测方法,通过以今日头条新闻为样本进行重复记录检测,算法准确率为93.1%,召回率为95.9%,验证了该方法的可行性。然后应用于Moodle学习平台发帖数据的平台内部、平台与外部数据重复记录检测,可有效发现重复发帖,为管理者和教师提供了有价值的反馈。(本文来源于《天津电大学报》期刊2019年02期)

陈亮,杜璐,胡康[2](2019)在《基于分块和滑窗技术的相似重复记录检测算法研究》一文中研究指出相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。(本文来源于《计算机应用与软件》期刊2019年04期)

李莉,张晓雯[3](2019)在《基于划分的海量数据相似重复记录检测》一文中研究指出针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.(本文来源于《计算机系统应用》期刊2019年03期)

谢毅[4](2019)在《移动网络相似信息重复记录智能检测仿真》一文中研究指出移动网络相似信息重复记录检测在专利分析系统中具有广泛的应用前景。针对当前方法存在检测耗时较长、查准率和查全率较低等问题,提出一种基于领域本体的移动网络相似信息重复记录智能检测方法,构建了一种叁维的移动网络文本空间表示模型,对移动网络中相似信息重复记录文本集合中的文本向量进行结构化描述。在此基础上,基于领域本体分别对移动网络相似信息重复记录中的词语、句子和文本进行相似度检测,得到移动网络文本中任意两个句子的相似度特征矩阵。对移动网络文本中句子相似度特征矩阵进行遍历,选取其中相似度最大的句子组合,并将该组合所属行列从矩阵中删除,再从剩余矩阵中相似度最大的句子组合筛选出来,以此类推,直到句子中的元素数目变为0,提取获得相似度最大句子组合序列,根据该序列即可实现移动网络相似信息重复记录的智能检测。仿真测试结果表明,上述方法在移动网络相似信息重复记录相似度检测准确性上更具优势,具有较高的查准率和查全率,并且检测效率较高。(本文来源于《计算机仿真》期刊2019年02期)

欧萍,张子砚[5](2019)在《大规模船舶数据库重复记录的智能优化算法》一文中研究指出船舶数据库中的记录具有一定的冗余特性,用于保持数据库的容错性,这样船舶数据库中存在许多重复记录,为数据库查询带来难题。为了减少大规模船舶数据库重复记录,提高数据库记录查询效率,设计了大规模船舶数据库重复记录的智能优化算法。针对大规模船舶数据库重复记录特点,首先对大规模船舶数据库重复记录进行检测,合理删除一些重复记录,然后设计大规模船舶数据库查询的数学模型,并采用智能优化算法对数学模型的最优解进行搜索,得到大规模船舶数据库查询方案,最后采用VC++程序设计语言实现大规模船舶数据库重复记录检测以及查询算法,并采用具体应用实例验证其性能,结果表明,本文算法可以有效检测到大规模船舶数据库中的重复记录,可以有效降低数据库的冗余特征,而且可以查询用户真正需要的记录,查询精度和查询效率均高于对比算法。(本文来源于《舰船科学技术》期刊2019年02期)

王志军[6](2018)在《从多行多列提取不重复记录》一文中研究指出职场实际中,我们经常会遇到从多行多列数据中提取不重复记录的要求,这里介绍几种比较常见的操作方法:方法一:使用公式实现选择E2单元格,在编辑栏输入公式"=INDIREC T(TEXT(MIN((COUNTIF(E$1:E1,$A$2:$C$5)+(A$2:C$5<=""))/1%%+ROW(A$2:C$5)/1%+COLUMN(A$2:C$5)),"r0c00"),)&""",执行之后向下拖曳或双击填充柄,很快就可以看到图1所示的结果。方法二:使用数据透视表首先在源数据前插入一个空白列,按下"Alt+D+P"组合键,调出"数据透视表和数据透视图向导"对话框,选择"多重合并计算数据区域",点击"下一步"按钮,添加数据区域,取默认设置生成透(本文来源于《电脑知识与技术(经验技巧)》期刊2018年10期)

王旭东,段敬,温志坚,楼颖稚,陈伟[7](2018)在《基于相似重复记录的N-Gram算法的改进与应用》一文中研究指出通过研究相似重复记录的数据清洗算法,在对N-Gram算法进行深入分析与研究后,指出其不足之处,并在此基础上进行改进并加以应用。实验结论证明,改进后的N-Gram算法无论是在查全率、查准率,还是运行速率上都得以大幅度提升。(本文来源于《现代计算机(专业版)》期刊2018年25期)

宋人杰,余通[8](2018)在《基于Hadoop的大规模电网数据相似重复记录并行检测策略》一文中研究指出针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。(本文来源于《科技通报》期刊2018年07期)

潘鸣宇,张禄,龙国标,李香龙,马冬雪[9](2018)在《用于重复充电运营记录的基于块采样的高效聚集查询算法》一文中研究指出现有查询分析方法通常将实体识别作为线下预处理过程清洗整个数据集,然而,随着数据规模的不断增大,这种高计算复杂性的线下清洗模式已经很难满足实时性分析应用的需求。针对重复充电运营记录上的聚集查询问题,提出一种将近似聚集查询处理与实体识别相结合的方法。首先,通过基于块的采样策略采集样本;然后,在采集到的样本上利用实体识别方法识别出重复的实体;最后,根据实体识别的结果重构得到聚集结果的无偏估计。所提方法避免了识别全部实体的时间代价,通过识别少量样本数据即可返回满足用户需求的查询结果。真实数据集和合成数据集上的实验结果验证了所提方法的高效性和可靠性。(本文来源于《计算机应用》期刊2018年06期)

张攀[10](2018)在《面向重复记录检测的数据清洗算法的研究》一文中研究指出在现今社会的信息发展过程中,各种来源的数据不断累积,但是原始累积的数据往往含有脏数据,例如错误的、相似重复的和缺失的数据等,对于脏数据进行清洗的一个关键点在于去除数据集中的重复数据。本文主要对相似重复记录检测的相关算法进行了研究与创新。相似重复记录检测是指准确地检测出源数据集中的重复数据,以达到清洗数据的目的。在真实情景中,数据规模庞大,数据来源多样,这都增加了重复数据检测的难度。虽然存在一些解决这类问题的优秀算法,例如近邻排序算法和多趟近邻排序算法等,但是已有的算法在解决实际应用中的重复记录检测问题时,仍存在不足之处。本文首先研究了传统的多趟近邻排序算法,并对该算法的缺点进行改进,提出了优化的多趟近邻排序算法(OMPN),以适用于实际问题;然后,通过研究基于遗传神经网络求解重复检测问题的算法,将OMPN算法与神经网络相结合,得到准确度更高的A-OMPN算法和BP-OMPN算法;最后,将本文提出的OMPN算法应用于“航天情报信息管理系统”的数据清洗模块,该算法在实际应用中得到了较好的效果。本文的主要内容如下:1.优化的多趟近邻排序算法(OMPN)。传统的多趟近邻排序算法首先对数据集中的记录依据预先选取的排序关键字进行排序,使得相似重复记录排序后位置相近,然后使用固定大小的滑动窗口对排序后的数据进行判等。但是,该过程不仅需要依赖专家经验知识进行关键字的选取,而且需要人工选择判等字段,也没有考虑真实数据可能存在数据缺失的问题,同时,固定大小的滑动窗口不仅会导致对重复数据的检测不全面的问题,而且会导致对非重复数据的冗余检测。本文在多趟近邻排序算法的基础上,提出基于字段区分度的关键字选取方法,根据数据的统计特点进行关键字的选取,同时,在判等过程中,同样根据字段区分度为字段赋予不同权值,避免了人为干扰;然后,采用自适应大小的滑动窗口对排序后的记录进行检测,减少了漏检记录数量和冗余操作;最后,对源数据中存在缺失值的记录进行标记和单独检测。通过实验验证,本文所提出的改进的多趟近邻排序算法具有较高的查全率,且更适用于真实问题场景。2.基于神经网络的多趟近邻排序算法(A-OMPN和BP-OMPN)。基于遗传神经网络进行相似重复记录检测的算法效果较好,但是该算法时间复杂度较大,耗时严重。本文将多趟近邻排序算法与遗传神经网络相结合,提出了基于遗传神经网络的增强的多趟近邻排序算法,记作A-OMPN,使得神经网络可以仅对同一个滑动窗口内的记录进行判等,避免了传统的遗传神经网络对数据全集上的任意两个不同的记录进行判等,极大地提高了算法的运行效率。同时,考虑到遗传神经网络训练速度慢的缺点,本文尝试使用单一的神经网络执行判等操作,得到了基于单一神经网络的多趟近邻排序算法,记作BP-OMPN。作为OMPN算法和传统遗传神经网络算法的结合,实验结果表明,A-OMPN算法和BP-OMPN算法能得到比OMPN算法更高的查准率,并且比传统的遗传神经网络算法的运行效率更高。3.本文所提出的OMPN算法在“航天情报信息管理系统”中的应用。本文主要完成了该系统的数据清洗模块和移动端模块的开发。在真实业务场景中,航天情报管理系统的数据清洗模块需要实现对源数据的去重和清洗,因为该系统所使用的数据是真实的不带标签的数据,且数据规模相对较小,所以综合分析OMPN算法、A-OMPN算法与BP-OMPN算法的优势与适用场景,最终采用OMPN算法实现该系统的数据清洗模块。(本文来源于《西安电子科技大学》期刊2018-06-01)

重复记录论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

重复记录论文参考文献

[1].魏芳芳,魏顺平,睢世杰.基于Moodle学习平台的发帖重复记录检测技术研究[J].天津电大学报.2019

[2].陈亮,杜璐,胡康.基于分块和滑窗技术的相似重复记录检测算法研究[J].计算机应用与软件.2019

[3].李莉,张晓雯.基于划分的海量数据相似重复记录检测[J].计算机系统应用.2019

[4].谢毅.移动网络相似信息重复记录智能检测仿真[J].计算机仿真.2019

[5].欧萍,张子砚.大规模船舶数据库重复记录的智能优化算法[J].舰船科学技术.2019

[6].王志军.从多行多列提取不重复记录[J].电脑知识与技术(经验技巧).2018

[7].王旭东,段敬,温志坚,楼颖稚,陈伟.基于相似重复记录的N-Gram算法的改进与应用[J].现代计算机(专业版).2018

[8].宋人杰,余通.基于Hadoop的大规模电网数据相似重复记录并行检测策略[J].科技通报.2018

[9].潘鸣宇,张禄,龙国标,李香龙,马冬雪.用于重复充电运营记录的基于块采样的高效聚集查询算法[J].计算机应用.2018

[10].张攀.面向重复记录检测的数据清洗算法的研究[D].西安电子科技大学.2018

标签:;  ;  ;  ;  

重复记录论文-魏芳芳,魏顺平,睢世杰
下载Doc文档

猜你喜欢