关联分类规则论文-杨光飞,崔雪娇,张翔

关联分类规则论文-杨光飞,崔雪娇,张翔

导读:本文包含了关联分类规则论文开题报告文献综述及选题提纲参考文献,主要关键词:关联分类方法,不平衡数据,关键值抽样法,规则验证法

关联分类规则论文文献综述

杨光飞,崔雪娇,张翔[1](2017)在《基于抽样和规则的不平衡数据关联分类方法》一文中研究指出不平衡数据的出现给传统关联分类算法带来了巨大的挑战.为了提高关联分类方法对不平衡数据集的分类精度,本文分别从数据和规则层次着手,提出了关键值抽样法(key value sampling,KVS)和规则验证法(rule validation,RV).关键值抽样法通过增加与少数类相关性强的数据,减少与多数类相关性弱的数据来达到数据类分布平衡.避免了大量有效信息的流失,并且增强了与少数类相关性强的数据信息.规则验证法对初步生成的分类器进行了规则验证,并对分类性能不好的规则进行调整,从而保证了分类器中规则的质量.实验表明,本文中的研究方法能够有效提高关联分类方法处理不平衡数据的精度.(本文来源于《系统工程理论与实践》期刊2017年04期)

宋航[2](2014)在《基于关联分类的动态关联规则趋势度挖掘方法研究》一文中研究指出数据挖掘是数据库知识发现的一个研究热点。数据挖掘一般是指从大量的数据库或数据仓库中搜索隐藏于其中的有着某种特殊关系性的规则或验证已知的规律。数据挖掘模式大致可分为回归、关联规则、时间序列、聚类和分类等模式。传统的关联规则挖掘只是针对事务数据库的一种静态的挖掘即认为规则不会随着时间而变化。但是从某些实际数据库中挖掘出来的关联规则具有时间特性,因此有必要把时间这一因素添加进来观察关联规则在时间上的变化,即动态关联规则。动态关联规则在挖掘过程中将时间进行等间隔划分,在支持度和置信度的评价体系下进行规则评价。在此基础上,引入趋势度阈值修剪对用户无价值的规则,避免生成无效的动态关联规则来提高挖掘质量,即动态关联规则趋势度挖掘。关联分类是通过引入一个带有类别标示符的训练数据集来建立关联分类器来对未知的数据对象进行预测。关联分类具有较高的分类精度和较强的适应性。但是传统的关联分类方法在算法的执行效率、剪枝的质量和效率以及分类的理解还存在有很多问题。本文在相关理论研究的基础上,将动态关联规则趋势度挖掘和关联分类方法结合起来,提出了基于关联分类的动态关联规则趋势度挖掘方法。在动态关联规则趋势度挖掘的基础上设计了基于优先规则兴趣度剪枝和兼容性特征向量的SVM分类器模型。利用动态关联规则趋势度挖掘方法生成类关联规则集,然后分别通过给定的优先规则兴趣度和兼容性特征向量进行剪枝得到最终的关联规则。算法在数据较少时发挥了关联分类的优势,对于规则的挖掘和预测有着较好的效果。通过实验数据的对比,验证了其在动态关联规则趋势度挖掘上的适用性和较高的精确度。通过数学模型分析规则的变化趋势,一定程度上解决了动态关联规则挖掘过程中如何选取支持度向量的问题。与近几年提出的动态关联规则挖掘方法相比,本文方法挖掘出的规则数目少、精确度高,有效的避免了动态关联规则挖掘的盲目性。挖掘出来的关联规则与传统关联分类方法相比有效的提高了预测精度和预测准确度。(本文来源于《兰州交通大学》期刊2014-06-01)

黄再祥,周忠眉,何田中[3](2014)在《基于相关规则的不平衡数据的关联分类》一文中研究指出许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。(本文来源于《计算机科学》期刊2014年02期)

杜永生[4](2011)在《基于层次频繁模式树的关联分类规则数据挖掘算法》一文中研究指出针对CMAR算法存在的不足,提出了层次频繁模式树的概念,并在此基础上实现了关联分类数据挖掘算法.实验数据表明,该方法比CMAR算法具有更高的效率与数据库覆盖面.(本文来源于《济宁学院学报》期刊2011年06期)

唐竞胜[5](2011)在《基于形式概念分析的类无冗余关联分类规则提取研究》一文中研究指出近年来,随着信息技术的不断发展,人们所面临的数据量越来越庞大,如何从这么丰富的数据中,发现其隐含的有用的价值,便成了人们所关注的焦点。于是数据挖掘技术便诞生了,数据挖掘涉及多学科技术的集成,包括数据库和数据仓库技术、统计学、机器学习、人工智能等。分类是数据挖掘领域中的一个重要课题,是通过训练样本数据集的学习,构造分类规则的过程。概念格是一种强有力的数据分析工具,是一种能够表达数据中各种模式的完备结构,因而是数据挖掘领域的一个热点。概念格中可以提取关联规则、分类规则、蕴含规则等模式,基于概念格的分类规则的研究主要集中在概念格构建的优化、规则求解算法的优化以及规则的优化。本文通过对概念格的构造进行研究,针对分类任务的性质,设计一种适合分类的概念格构造方法,基于此概念格上提取出相应的分类规则。由于基于概念格上提取的分类规则,产生了许多冗余的和冲突的分类规则,然后通过信息熵的性质--信息熵从平均意义上来描述信息源的信息,用来描述信息源提供的平均信息量,也可以描述信息源的平均不确定性,利用信息增益对这些分类规则的重要程度的进行度量。最后将信息增益与传统的冗余分类规则定义相结合,得到了一个类冗余分类规则的定义,根据定义进行类无冗余分类规则的提取,实验证明上述的方法有效。(本文来源于《中央民族大学》期刊2011-05-01)

宋进征[6](2011)在《直接挖掘无冗余规则的关联分类》一文中研究指出分类和关联规则挖掘是数据挖掘中的两个重要研究领域,在实际生活中,它们也都有广泛的应用。分类任务是通过对训练集进行分析,然后构造一个分类模型,再用分类模型预测未知类别的样本。关联规则挖掘主要任务是发现数据库中事物之间的有趣联系,然而,如果关联规则的结论部分是类别标签,那么它完全可以用来指导分类。把关联规则挖掘应用于分类问题开辟了分类的一条新思路。大量实验表明,基于关联规则分类(Associative Classification)比传统分类方法具有高准确率和强适应性的优点。典型的关联分类一般包括叁个步骤:(1)挖掘分类关联规则(CARs)即结论部分是类别标签的特殊关联规则;(2)对规则剪枝并构造分类器;(3)预测未知类别的新数据。其中在第一阶段通常挖掘出的分类关联规则数目非常庞大,而且其中大部分规则存在冗余。这样,不仅挖掘如此大量规则严重影响分类器的构造效率,而且给剪枝、存储、检索这些规则带来极大挑战。特别是在稠密型数据集或最小支持度阀值比较小时,往往导致计算机无法处理如此规模巨大的规则。为解决此问题,本文提出了一种直接挖掘无冗余规则的关联分类算法DRAC: (Directly mining non-redundant Rules for Associative Classification)。该方法对高效频繁无关集挖掘算法GrGrowth进行扩展,在频繁无关集产生的过程中,引入置信度的判断以及冗余检验,直接挖掘出用于构造分类器的无冗余的规则集。同时,在预测新数据的类别属性时,根据匹配规则的期望值来决定新数据的类别,从而避免单一规则预测带来的过度拟合问题。实验表明,DRAC方法分类准确率可以与经典关联分类算法CBA相媲美,而且分类器的构造效率明显提高。(本文来源于《兰州大学》期刊2011-04-01)

胡小春[7](2010)在《一种基于压缩规则的关联分类方法》一文中研究指出目前基于关联分类方法的分类器通常只选取少数高质量的类规则进行分类,使得一部分待分类的数据无法分类。鉴于压缩规则可以表示多条同质量的类规则,且比单一规则具有更好的数据匹配性,提出了以压缩规则为单位构造分类器的方法,实验结果表明,新的方法提高了分类的能力和精度。(本文来源于《信息系统工程》期刊2010年09期)

董杰[8](2009)在《基于位表的关联规则挖掘及关联分类研究》一文中研究指出随着人们利用信息技术生产和搜集数据的能力大幅度提高,数据资料的规模急速膨胀。如何快速有效的从海量数据中发现隐藏的、预先未知的信息和知识显得尤为重要,数据挖掘是解决这一问题的有力工具。关联规则(Association Rules)获取是数据挖掘研究的一个重要领域,从某种意义上来讲,关联规则挖掘就是数据挖掘的本质。近年来相关的研究与应用一直占有重要的比例并得到了迅速发展。研究如何快速有效的从海量数据库中挖掘蕴含其中的关联规则,并将挖掘得到的关联规则合理利用,具有十分重要的理论和实际意义。本文在分析现有挖掘算法中存在问题的基础上,提出基于位表的完全频繁项集和事务间频繁闭项集的挖掘算法,并进一步研究关联规则在分类问题中的应用,利用其解决遥感影像分类问题。本文的研究工作可概括为如下叁个方面的内容:1、研究事务内完全频繁项集的快速挖掘算法。现有的完全频繁项集挖掘算法多基于Apriori算法,称为Apriori类算法。其在生成候选集须逐个比较两个项集的前n-1项,并且在计算支持度需对全部或部分数据库进行逐条扫描,占用大量的计算时间和I/O操作,成为此类算法的主要瓶颈。针对以上问题,本文首先提出了位表(BitTable)数据结构及其相应的二进制操作。利用其对事务数据库进行压缩,同时通过二进制“与”、“或”操作快速计算候选项集的支持度,改善了低效率的数据库扫描操作;利用其对候选项集和频繁项集进行横向压缩,可直接生成候选项集,避免了逐项比较的复杂操作。该数据结构及其操作可以直接应用于现有的Apriori类算法中,有效地改善此类算法的效率问题。在位表数据结构的基础上,本文进一步提出了基于位表的关联规则挖掘算法BitTableFI。对常用数据集的仿真试验表明了该算法的有效性。2、研究事务间频繁闭项集及其快速挖掘算法。相对于事务内频繁项集,事务间频繁项集能够有效的揭示各属性在不同时刻的关联性,是事务内频繁项集的扩展。然而事务间频繁项集的数量随滑动时间窗口的增大而迅速增加,造成挖掘效率降低,利用闭项集来表示事物间频繁项集能够在不丢失信息的情况下有效的减少项集的数量。本文通过分析事务内频繁闭项集和事务间频繁闭项的内在关系,提出了一种利用事务内频繁闭项集生成事务间频繁闭项集的算法。算法采用分割和条件数据库技术,有效的避免了生成庞大的扩展事务数据库,利用扩展的位表结构压缩事务从而提高支持度的计算效率。此外,采用动态排序和哈希技术极大地减少了频繁闭项集的测试次数。该算法为挖掘事物间频繁闭项集提供了一种有效而快速的算法。3、研究模糊关联分类算法,并利用其解决遥感影像分类问题。关联分类将挖掘获取的频繁项集应用于解决分类问题,将关联规则的挖掘和应用问题紧密结合。将模糊方法引入到关联分类问题中,能够较好的解决规则的“尖锐边界“问题。然而,现有的模糊关联分类算法多采用固定模糊隶属度函数对连续型属性进行模糊划分,没有考虑数据本身的特性。基于此,本章提出一种基于自适应区间划分的模糊关联分类算法—FARC(Fuzzy association rules classification),利用模糊c均值聚类算法根据数据本身的特点自适应地建立模糊区间,并在挖掘模糊关联规则时采用了新的剪枝策略,极大地减少了候选集的数量。新的规则权重度量方法能够更好的利用多模糊关联规则进行分类。对UC Irvine Machine Learning Repository测试数据的实验表明,FARC不仅是具有高精度的分类精度,同时具有对训练样本数量的不敏感性,在训练样本减少的情况下仍能保持较好的分类精度,是一种有效的分类方法。同时,本文将模糊关联分类算法引入遥感图像分类问题的研究中,在实际遥感分类问题中,训练样本往往较难获取,训练样本的不足会导致分类精度的下降,本文提出的FARC算法能够较好的适应训练样本较低情况下的分类问题,从而能够很好的应用于实际遥感分类问题。(本文来源于《大连理工大学》期刊2009-06-01)

庄蔚蔚[9](2009)在《基于增量学习关联分类规则的病毒检测方法研究》一文中研究指出病毒检测与防御是计算机安全问题中的一个重要的研究课题。目前,病毒的花样不断的翻新,并大量的使用了多重加密壳、驱动关联壳、变形壳等代码保护机制以及多态和变形等新的技术,使得病毒的爆发可以躲避检测而进行传播,传统恶意代码查杀技术遭到严峻的挑战。关联分类做为数据挖掘研究的热点之一,具有良好的分类准确性,其分类规则更易于理解和重用。关联规则分类方法能够通过对以往的病毒文件和正常文件的学习,提取出它们的特征表征,找出其中的关联规则,进而实现对病毒的检测。传统基于关联规则分类的病毒检测技术中采用重复学习历史规则的方法,容易造成时空开销过大和一次性挖掘大数据量样本引起的频繁集组合爆炸问题。目前对关联分类规则增量学习的研究较少,且多是针对不带类属性的事务数据库所产生的关联规则进行维护的,没有考虑如何同时通过支持度和置信度阈值对关联分类规则进行更新处理。因此需要有一种新的增量学习方法来适应病毒的检测与分类。本文针对以上问题,从PE文本的特征表征、关联规则的提取、裁减和分类方法及关联规则的增量学习几个方面进行研究,提出了ILAC算法,使用增量学习的模式对关联规则进行维护和更新,根据ILAC算法,本文设计并实现了一套基于增量学习关联分类规则的病毒检测系统IAVDM,主要应用于病毒的检测和防御。实验分析证明,该方法能够快速、有效地维护和更新关联规则,避免重复学习历史样本,并保证分类模型的准确性和预测能力。(本文来源于《厦门大学》期刊2009-05-01)

武建华,沈钧毅,方加沛[10](2009)在《提取有效规则的关联分类算法》一文中研究指出针对关联分类算法产生的规则普遍存在分类器分类精度、效率低的问题,提出了一种提取有效规则的关联分类算法———ACDER算法.首先定义了剩余支持度和剩余置信度,然后通过计算规则剩余支持度和剩余置信度建立了分类器并进行剪枝,以达成对分类尽量少且最有效的规则构成分类器,确保分类器中不存在任何冗余规则和冲突规则.在8个数据集上的测试结果表明,所提算法的平均分类精度比关联规则算法提高了4.15%,而在所有数据源分类器上的规则数却减少了54%.(本文来源于《西安交通大学学报》期刊2009年04期)

关联分类规则论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

数据挖掘是数据库知识发现的一个研究热点。数据挖掘一般是指从大量的数据库或数据仓库中搜索隐藏于其中的有着某种特殊关系性的规则或验证已知的规律。数据挖掘模式大致可分为回归、关联规则、时间序列、聚类和分类等模式。传统的关联规则挖掘只是针对事务数据库的一种静态的挖掘即认为规则不会随着时间而变化。但是从某些实际数据库中挖掘出来的关联规则具有时间特性,因此有必要把时间这一因素添加进来观察关联规则在时间上的变化,即动态关联规则。动态关联规则在挖掘过程中将时间进行等间隔划分,在支持度和置信度的评价体系下进行规则评价。在此基础上,引入趋势度阈值修剪对用户无价值的规则,避免生成无效的动态关联规则来提高挖掘质量,即动态关联规则趋势度挖掘。关联分类是通过引入一个带有类别标示符的训练数据集来建立关联分类器来对未知的数据对象进行预测。关联分类具有较高的分类精度和较强的适应性。但是传统的关联分类方法在算法的执行效率、剪枝的质量和效率以及分类的理解还存在有很多问题。本文在相关理论研究的基础上,将动态关联规则趋势度挖掘和关联分类方法结合起来,提出了基于关联分类的动态关联规则趋势度挖掘方法。在动态关联规则趋势度挖掘的基础上设计了基于优先规则兴趣度剪枝和兼容性特征向量的SVM分类器模型。利用动态关联规则趋势度挖掘方法生成类关联规则集,然后分别通过给定的优先规则兴趣度和兼容性特征向量进行剪枝得到最终的关联规则。算法在数据较少时发挥了关联分类的优势,对于规则的挖掘和预测有着较好的效果。通过实验数据的对比,验证了其在动态关联规则趋势度挖掘上的适用性和较高的精确度。通过数学模型分析规则的变化趋势,一定程度上解决了动态关联规则挖掘过程中如何选取支持度向量的问题。与近几年提出的动态关联规则挖掘方法相比,本文方法挖掘出的规则数目少、精确度高,有效的避免了动态关联规则挖掘的盲目性。挖掘出来的关联规则与传统关联分类方法相比有效的提高了预测精度和预测准确度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

关联分类规则论文参考文献

[1].杨光飞,崔雪娇,张翔.基于抽样和规则的不平衡数据关联分类方法[J].系统工程理论与实践.2017

[2].宋航.基于关联分类的动态关联规则趋势度挖掘方法研究[D].兰州交通大学.2014

[3].黄再祥,周忠眉,何田中.基于相关规则的不平衡数据的关联分类[J].计算机科学.2014

[4].杜永生.基于层次频繁模式树的关联分类规则数据挖掘算法[J].济宁学院学报.2011

[5].唐竞胜.基于形式概念分析的类无冗余关联分类规则提取研究[D].中央民族大学.2011

[6].宋进征.直接挖掘无冗余规则的关联分类[D].兰州大学.2011

[7].胡小春.一种基于压缩规则的关联分类方法[J].信息系统工程.2010

[8].董杰.基于位表的关联规则挖掘及关联分类研究[D].大连理工大学.2009

[9].庄蔚蔚.基于增量学习关联分类规则的病毒检测方法研究[D].厦门大学.2009

[10].武建华,沈钧毅,方加沛.提取有效规则的关联分类算法[J].西安交通大学学报.2009

标签:;  ;  ;  ;  

关联分类规则论文-杨光飞,崔雪娇,张翔
下载Doc文档

猜你喜欢