导读:本文包含了项集相关论文开题报告文献综述及选题提纲参考文献,主要关键词:Apriori算法,频繁集,关联规则,感兴趣度
项集相关论文文献综述
邓涛[1](2009)在《基于USI及项集相关重要性的频繁集挖掘算法》一文中研究指出作为信息科学领域的前沿研究课题之一,数据挖掘技术是解决如何在海量数据中提取有效信息的关键技术。与数据挖掘技术相关的研究与应用已经极大的提高了人们的决策支持能力。本文描述了数据挖掘的概念、功能以及模式的分类,并将文章聚焦在数据挖掘领域中的关联规则挖掘方面。本文的主要内容,先是对Apriori算法的流程思路进行了梳理,然后对目前关于Apriori算法的几种改进思路进行了归纳性总结,最后提出了一种基于用户感兴趣度阈值(USI)和项集重要性的改进型Apriori算法。本文改进算法的思路,是抓住用户对项集感兴趣程度与项集相关重要性两个要素,对Apriori算法进行一种复合式改进:首先从数据库中利用某些用户感兴趣的项从数据库所有项的集合中选择出一个子集作为挖掘对象,然后对数据库进行一次扫描,实现用事务标识号来表示项目集。在产生项目集后,依项集相关重要性原则,对项目集中的元素赋以权值,然后利用引入了权值的支持度函数计算项集的支持度以产生频繁项集,最后从这些频繁项集中产生关联规则。之后,论文以仿真实验将本文提出的改进思路在时间性能、空间性能上分别与FP-growth算法及原始Apriori算法进行了对比,实验结果验证本文提出的改进算法在性能上的优化提高。(本文来源于《天津师范大学》期刊2009-06-01)
刘志军[2](2009)在《基于相关非敏感项集的关联规则隐藏算法研究》一文中研究指出数据挖掘研究的是如何获取海量数据中隐含的信息,这些信息不能通过常规的数据库查询、统计技术获得,由于它发现的是数据中隐含的模式和规律,如运用不当,将会泄露数据拥有者不愿公开的隐私信息。伴随着数据共享,隐私保护和数据挖掘等多重需求的增长,隐私保护数据挖掘(PPDM)的研究应运而生,并且迅速成为数据挖掘领域研究的热点之一。本文首先从隐私保护技术角度对当前较为常见的隐私保护数据挖掘方法进行简单的分析和介绍;然后着重介绍本文研究的重点——关联规则隐藏;最后针对当前关联规则保护数据挖掘研究所存在的问题,提出一种新的关联规则隐藏算法HarRFI。为保护交易数据集中的敏感规则,关联规则隐藏算法通常采用数据清洗方法对交易数据集进行处理。常用的数据清洗方法有:按照不可倒推的方法修改数据为一个新值,称为数据扰乱;用一个未知符号‘?’来代替已存在的值,称为数据阻塞;合并或抽象详细数据为更高层次的数据,以及交换和抽样技术等五种方法;数据扰乱是经常采用的数据清洗方法,但现有基于数据扰乱技术的关联规则隐藏算法,有些只考虑隐藏敏感规则,有些只能在整体上考虑如何降低删除项对非敏感规则的影响。HarRFI算法第一次在隐藏敏感规则之前,明确了哪些非敏感规则在隐藏过程中会受到影响,并且第一次从非敏感规则角度考虑如何隐藏敏感规则。它优先删除敏感交易记录中满足如下条件的项(即牺牲项):1、包含在敏感规则中;2、不包含在非敏感规则中。因为包含同一敏感规则的敏感交易中含有的非敏感规则不可能完全相同,这样使得在包含相同敏感规则的交易记录中可选定不同的牺牲项,确保删除牺牲项对非敏感规则影响最小。实验证明,在交易数据集上,相对于同类算法,如:Na?ve,MinFIA,MaxFIA和IGA,本文提出的HarRFI算法在成功隐藏敏感规则并不引入伪规则的基础上,对原数据集中的非敏感规则的影响最小。(本文来源于《重庆大学》期刊2009-05-01)
田保慧[3](2008)在《正相关频繁项集的挖掘算法》一文中研究指出由频繁项集产生的关联规则往往不能保证规则前、后件中的项是正相关的,因此可能产生无意义的关联规则;当这些关联规则用于分类时,会产生大量无用分类规则,增加了时间开销.因此,基于数学期望提出了正相关的频繁项集的分类算法.该算法在挖掘正相关频繁项集时,利用置信度进行规则选取,生成正相关关联规则组成的分类器对数据集进行分类.实验表明,这种分类算法可以大幅度减少所产生的频繁项集数量,分类准确率达到C4.5和CMAR的水平,且显着减少了算法的时间.(本文来源于《华北水利水电学院学报》期刊2008年04期)
王春凯[4](2007)在《挖掘正相关的频繁项集》一文中研究指出数据挖掘的任务是发现大型数据集中隐藏的、预先未知的知识。关联规则的挖掘是数据挖掘研究的重要问题之一。该问题自1993年被R.Agrawal等人提出以来,一直受到广泛关注和重视。通常,关联规则的挖掘分两步:(1)挖掘所有的频繁项集;(2)由频繁项集产生强关联规则。其中第一步的时间复杂度远高于第二步。从频繁项集产生关联规则的方法是简单的,但是可能导致无意义的关联规则的产生。一些研究者注意到这一问题,提出在产生关联规则时利用提升度判断规则前、后件之间的正相关性,进一步过滤掉一些无意义的规则。但是,这种做法仍然存在两个问题:(1)不能减少挖掘频繁项集的时间开销。(2)不能保证规则前件(后件)中的项是正相关的,当规则的前件或后件内部存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,本文基于数学期望,引进正相关的频繁项集的概念,并给出一种挖掘正相关的频繁项集的算法。本文的算法可以直接在FP-树中挖掘正相关的频繁项集,将正相关性的判断推进到了挖掘频繁项集的过程中。这样,不仅可以大幅度地减少产生频繁项集的数量,显着地提高挖掘频繁项集的效率,而且在由频繁项集产生关联规则时,可以有效地避免产生无意义的关联规则。此外,在挖掘频繁项集时,本文的算法还通过提取公共项,进一步降低了递归地构造条件FP-树的时间开销。在UCI机器学习基准数据集上实验表明,本文算法可以大幅度地减少产生频繁项集的数量,显着地提高挖掘频繁项集的效率,具有很好的性能,对于大型、稠密数据集尤其如此。(本文来源于《郑州大学》期刊2007-05-01)
王春凯,李睿楠,范明[5](2007)在《挖掘正相关的频繁项集》一文中研究指出在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显着地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。(本文来源于《计算机应用》期刊2007年01期)
项集相关论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
数据挖掘研究的是如何获取海量数据中隐含的信息,这些信息不能通过常规的数据库查询、统计技术获得,由于它发现的是数据中隐含的模式和规律,如运用不当,将会泄露数据拥有者不愿公开的隐私信息。伴随着数据共享,隐私保护和数据挖掘等多重需求的增长,隐私保护数据挖掘(PPDM)的研究应运而生,并且迅速成为数据挖掘领域研究的热点之一。本文首先从隐私保护技术角度对当前较为常见的隐私保护数据挖掘方法进行简单的分析和介绍;然后着重介绍本文研究的重点——关联规则隐藏;最后针对当前关联规则保护数据挖掘研究所存在的问题,提出一种新的关联规则隐藏算法HarRFI。为保护交易数据集中的敏感规则,关联规则隐藏算法通常采用数据清洗方法对交易数据集进行处理。常用的数据清洗方法有:按照不可倒推的方法修改数据为一个新值,称为数据扰乱;用一个未知符号‘?’来代替已存在的值,称为数据阻塞;合并或抽象详细数据为更高层次的数据,以及交换和抽样技术等五种方法;数据扰乱是经常采用的数据清洗方法,但现有基于数据扰乱技术的关联规则隐藏算法,有些只考虑隐藏敏感规则,有些只能在整体上考虑如何降低删除项对非敏感规则的影响。HarRFI算法第一次在隐藏敏感规则之前,明确了哪些非敏感规则在隐藏过程中会受到影响,并且第一次从非敏感规则角度考虑如何隐藏敏感规则。它优先删除敏感交易记录中满足如下条件的项(即牺牲项):1、包含在敏感规则中;2、不包含在非敏感规则中。因为包含同一敏感规则的敏感交易中含有的非敏感规则不可能完全相同,这样使得在包含相同敏感规则的交易记录中可选定不同的牺牲项,确保删除牺牲项对非敏感规则影响最小。实验证明,在交易数据集上,相对于同类算法,如:Na?ve,MinFIA,MaxFIA和IGA,本文提出的HarRFI算法在成功隐藏敏感规则并不引入伪规则的基础上,对原数据集中的非敏感规则的影响最小。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
项集相关论文参考文献
[1].邓涛.基于USI及项集相关重要性的频繁集挖掘算法[D].天津师范大学.2009
[2].刘志军.基于相关非敏感项集的关联规则隐藏算法研究[D].重庆大学.2009
[3].田保慧.正相关频繁项集的挖掘算法[J].华北水利水电学院学报.2008
[4].王春凯.挖掘正相关的频繁项集[D].郑州大学.2007
[5].王春凯,李睿楠,范明.挖掘正相关的频繁项集[J].计算机应用.2007