导读:本文包含了频繁项集算法论文开题报告文献综述及选题提纲参考文献,主要关键词:Apriori算法,频繁项集,邻接多重表,动态更新
频繁项集算法论文文献综述
王志华,刘绍廷,罗齐[1](2019)在《基于邻接多重表的动态频繁项集挖掘算法》一文中研究指出为解决传统的Apriori算法多次扫描数据库和多次连接带来的时间开销及加入新事务时未能实时动态更新频繁项集的不足,对传统Apriori挖掘算法和基于矩阵频繁项集动态挖掘算法的执行效率和空间利用情况的问题进行深入分析,提出基于邻接多重表的动态频繁项集挖掘优化算法。将所有事务项映射到带有权值的邻接多重表结构上,通过遍历邻接多重表结构来挖掘频繁项集,在加入新事务时可以动态更新频繁项集。实验结果表明,该算法在执行性能上有一定提升,减少了内存开销,弥补了加入新事务时未能实时动态更新频繁项集的不足。(本文来源于《计算机工程与设计》期刊2019年11期)
顾军华,李如婷,张亚娟,董彦琦[2](2019)在《改进的频繁项集挖掘算法及其应用研究》一文中研究指出频繁模式增长(FP-growth)算法是挖掘频繁项集的经典算法,解决了挖掘频繁项集时需多次扫描数据库且产生大量候选项集的问题,但大多数基于FP-growth思想的算法在生成频繁项集时存在过程复杂、占用空间多的问题。为此,提出一种基于前序完全构造链表(PF-List)的频繁项集挖掘算法(PFLFIM)。该算法使用PF-List表示项集,通过简单比较和连接两个PF-List挖掘频繁项集,避免复杂的连接操作;使用包含索引、提前停止交集和父子等价策略对搜索空间进行优化,减少空间占用。通过实验验证,相比于FIN算法和negFIN算法,该算法在运行时间和内存占用方面具有更好的性能。将该算法应用于高校人力资源管理系统中进行关联规则挖掘,寻找影响人才发展的因素,为高校人才引进和选拔提供决策支持。(本文来源于《计算机应用与软件》期刊2019年09期)
郑英姿,张福泉,李立杰[3](2019)在《基于强化学习的大数据频繁项集挖掘算法》一文中研究指出针对当前大数据集频繁项集挖掘算法处理速度慢的问题,提出一种快速的大数据频繁项集挖掘算法。对多目标强化学习技术进行改进,使其适合频繁项集挖掘的应用场景;将频繁1-项集作为强化学习的初始化空间,解决随机初始化方案性能不稳定的问题;利用频繁项集的递归属性引导项集空间的搜索过程,合理地缩小搜索空间。基于不同规模的会话数据集进行仿真实验,结果表明,该算法对于不同规模的数据集均实现了较高的计算效率,获得了较高的挖掘准确率。(本文来源于《计算机工程与设计》期刊2019年08期)
殷茗,王文杰,张煊宇,姜继娇[4](2019)在《一种基于邻接表的最大频繁项集挖掘算法》一文中研究指出针对Apriori算法与FP-Growth算法在最大频繁项集挖掘过程中存在的运行低效、内存消耗大、难以适应稠密数据集的处理、影响大数据价值挖掘时效等问题,该文提出一种基于邻接表的最大频繁项集挖掘算法。该算法只需遍历数据库一次,同时用哈希表对邻接表进行辅助存储,减小了遍历的空间规模。理论分析与实验结果表明,该算法时间与空间复杂度较低,提高了最大频繁项集挖掘速率,尤其在处理稠密数据集时具有较好的优越性。(本文来源于《电子与信息学报》期刊2019年08期)
杨秋翔,王冠男,王婷[5](2019)在《改进的频繁项集挖掘算法关键技术研究》一文中研究指出为解决在挖掘频繁项集时由忽略项目间重要性差异以及最小支持度频繁变动而导致的挖掘效率低以及利用率低。通过关系矩阵解决数据体量大造成的挖掘效率低的问题;通过加权规则解决不同业务项目间重要性差异问题;通过动态树解决最小支持度变动频繁的问题。本文创新性提出加权矩阵动态树算法WMDT。实验结果表明,WMDT算法较以往算法,精准度和挖掘效率有显着提高同时受最小支持度变动影响较小,是一个高效的频繁项集挖掘算法。(本文来源于《电子设计工程》期刊2019年15期)
丁洁[6](2019)在《一种基于云平台的频繁项集数据挖掘改进算法》一文中研究指出在现如今数据本身十分庞杂和数据处理工作量越来越大的情形下,依然采用串行的算法和单机的处理环境进行数据挖掘已不可想象,在分析传统关联规则算法的基础上,提出了一种利用矩阵描述事务以减少遍历次数的挖掘改进算法,同时该算法基于云平台技术并采用并行方式进行以降低时间复杂度。(本文来源于《自动化技术与应用》期刊2019年07期)
杨秋翔,王婷[7](2019)在《基于动态数据的加权频繁项集挖掘算法》一文中研究指出为解决在挖掘频繁项集过程中,因忽略不同项目间的重要程度而导致的挖掘有效性低以及忽略数据的动态更新而造成的挖掘效率低的问题,通过引入新的加权规则,从权值与频数两方面去体现项目间的重要性差异,并通过引入树形结构与关系矩阵提高数据动态变化时频繁项集的挖掘效率。创新性地提出基于动态数据的加权频繁项集挖掘算法weighted dynamic date mining (WDDM)。实验结果表明,WDDM算法较以往算法挖掘效率与有效性显着提高,有利于发现更多有研究价值的信息。(本文来源于《科学技术与工程》期刊2019年20期)
蒋东洁,李玲娟[8](2019)在《基于单向频繁模式树的频繁项集挖掘算法》一文中研究指出频繁项集挖掘是关联规则挖掘的关键步骤。FP-Growth算法是一种有效的频繁项集挖掘算法,它以自底向上的方式探索频繁模式树FP-tree,由FP-tree产生频繁项集。但是由于需要递归生成大量的条件FP-tree,其时间复杂度和空间复杂度都较高。针对这一问题,设计了一种基于单向频繁模式树的频繁项集挖掘算法UFIM。此算法首先构造一种单向频繁模式树UFP-tree结构,然后在UFP-tree上引入被约束子树,并对指向不同端点和指向相同端点的被约束子树分别采用递归和非递归的方法来挖掘频繁项集。非递归的方法判断端点的支持度计数是否小于最小支持度计数,若小于最小支持度计数则该棵被约束子树无频繁项集,否则其频繁项集是除根节点外的节点的排列组合。在mushroom数据集上的实验结果表明,UFIM算法的运行速度高于同类算法。(本文来源于《计算机技术与发展》期刊2019年10期)
黄奕[9](2019)在《基于频繁项集的流式数据挖掘算法的研究与实现》一文中研究指出数据流是实时、高速、无限的,数据流上的频繁项集挖掘在多个领域得到了广泛的应用,如卫星监测数据分析、Web点击流分析、天气气象数据分析等。挖掘流式数据能够及时得到数据流中隐含的价值信息。由于流式数据的时变性,数据流中隐藏的信息会随着时间的推移而发生改变,这给现有的频繁项集挖掘算法带来了新的挑战。另外,最大频繁项集的项集数目相对较少并且已经包含所有的频繁项集,所以挖掘流式数据上的最大频繁项集具有很好的时空效率并且对进一步的关联规则挖掘具有指导意义。基于上述原因,本文基于滑动窗口模型和频繁项集挖掘算法前缀树实现,研究更加适应数据流时变特征的、高效的流式数据频繁项集挖掘算法,主要研究工作如下:首先,论文基于动态滑动窗口模型提出了一种嵌套窗口模型,用于快速挖掘数据流上的主要频繁项集,以满足数据流中发生的概念变化。并在此基础上提出了基于嵌套窗口模型的数据流频繁项集挖掘算法NWFI,该算法首先给定一个外嵌滑动窗口的大小,当数据流到来时将所有数据项映射到时间轴上,并使用时间衰减模型降低历史事务的权重,并由此来区分近期事务数据与历史事务数据。然后考虑每一个数据项的期望窗口值,来动态调整内嵌的挖掘窗口大小,最后进行频繁项集挖掘。实验结果表明,NWFI算法可以更好地适应流式数据的时变特性,并通过减小用于挖掘的事务数据来显着提高性能。其次,嵌套窗口模型中,计算出的内部挖掘窗口中只包含近期主要频繁项集,不需要进一步对过期数据进行剪枝。因此,论文基于前缀树设计了一个新的树形结构NW-tree,该结构通过操作尾节点队列信息能够快速实现数据的删除和更新。在此基础之上,提出了一种基于NW-tree的嵌套窗口模型最大频繁项集挖掘算法(NW-MFI算法),算法在内存中维持一个尾节点指针队列和保存事务数据的树形结构NW-tree,在挖掘最大频繁项集过程中,从尾节点出发,由下至上沿着路径项集进行最大频繁项集挖掘。最后,实验结果表明NW-MFI算法具有很好的时空效率。研究工作表明,基于嵌套窗口模型的数据流最大频繁项集挖掘算法不仅能够适应数据流的时变特性,也能有效提升流式数据频繁项集的挖掘效率,具有重要的理论价值和实际意义。(本文来源于《重庆邮电大学》期刊2019-06-06)
郭有庆[10](2019)在《基于MapReduce的频繁项集挖掘算法研究》一文中研究指出大数据不仅仅是一大热点问题,也是一种重要的资源。数据在我们的生活中无处不在,如何从数据中获得有用的信息就显得尤为得重要。数据挖掘可以把数据的价值运用到日常的生产生活中,因此,数据挖掘成为处理、分析大数据的重要技术。数据挖掘有分类、关联分析、聚类分析及异常检测等不同的分支,其中关联分析是数据挖掘算法中的一大热点研究课题。本文关于关联分析的主要研究内容如下所示:通过对经典的数据挖掘算法地研究,得出经典的数据挖掘算法普遍都存在效率低、内存损耗大等问题。为此,提出了结合遗传算法的Apriori的改进算法(GNA),这是一种基于新的遗传算法来寻找频繁项集的算法。简单易于实现是Apriori算法的长处,但其候选项集的拼接及生成过程过于复杂,而且Apriori算法对候选项集挖掘一次就要扫描一次数据库,这些缺陷是造成Apriori算法效率低、内存损耗大的主要原因。通过结合遗传算法来优化搜索空间,并采用Apriori的剪枝策略,研究了一种用加约束的交叉、变异算子来简化Apriori算法的候选项集的拼接及生成过程的新算法。传统的数据挖掘算法都是在独立模式下进行挖掘的,其挖掘效率已不适合进行大数据挖掘。因此,将改进Apriori算法与Hadoop进行结合,提出一种基于MapReduce的大数据关联模式并行化挖掘算法(Mr_GNA)。Mr_GNA算法将GNA算法与Hadoop的MapReduce并行化运算框架相结合,实现算法的并行化计算。为了确保Mr_GNA算法能在Hadoop集群下,高效的进行挖掘,采用了合理的负载均衡策略。用库尔钦斯基系数和支持度不平衡比率IR来对频繁模式进行评估。实验结果表明,结合遗传算法的Apriori改进算法相比于Apriori和NSFI算法,在时间复杂度、内存损耗以及挖掘效率上都更具优势。改进的大数据挖掘算法在集群模式下效率更高,并且优于MRApriori和PFP-Growth等并行化大数据挖掘的算法,证明了Mr_GNA算法能有效的挖掘频繁模式,能满足大数据挖掘的需求。(本文来源于《重庆邮电大学》期刊2019-06-03)
频繁项集算法论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
频繁模式增长(FP-growth)算法是挖掘频繁项集的经典算法,解决了挖掘频繁项集时需多次扫描数据库且产生大量候选项集的问题,但大多数基于FP-growth思想的算法在生成频繁项集时存在过程复杂、占用空间多的问题。为此,提出一种基于前序完全构造链表(PF-List)的频繁项集挖掘算法(PFLFIM)。该算法使用PF-List表示项集,通过简单比较和连接两个PF-List挖掘频繁项集,避免复杂的连接操作;使用包含索引、提前停止交集和父子等价策略对搜索空间进行优化,减少空间占用。通过实验验证,相比于FIN算法和negFIN算法,该算法在运行时间和内存占用方面具有更好的性能。将该算法应用于高校人力资源管理系统中进行关联规则挖掘,寻找影响人才发展的因素,为高校人才引进和选拔提供决策支持。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
频繁项集算法论文参考文献
[1].王志华,刘绍廷,罗齐.基于邻接多重表的动态频繁项集挖掘算法[J].计算机工程与设计.2019
[2].顾军华,李如婷,张亚娟,董彦琦.改进的频繁项集挖掘算法及其应用研究[J].计算机应用与软件.2019
[3].郑英姿,张福泉,李立杰.基于强化学习的大数据频繁项集挖掘算法[J].计算机工程与设计.2019
[4].殷茗,王文杰,张煊宇,姜继娇.一种基于邻接表的最大频繁项集挖掘算法[J].电子与信息学报.2019
[5].杨秋翔,王冠男,王婷.改进的频繁项集挖掘算法关键技术研究[J].电子设计工程.2019
[6].丁洁.一种基于云平台的频繁项集数据挖掘改进算法[J].自动化技术与应用.2019
[7].杨秋翔,王婷.基于动态数据的加权频繁项集挖掘算法[J].科学技术与工程.2019
[8].蒋东洁,李玲娟.基于单向频繁模式树的频繁项集挖掘算法[J].计算机技术与发展.2019
[9].黄奕.基于频繁项集的流式数据挖掘算法的研究与实现[D].重庆邮电大学.2019
[10].郭有庆.基于MapReduce的频繁项集挖掘算法研究[D].重庆邮电大学.2019