导读:本文包含了不平衡分类问题论文开题报告文献综述及选题提纲参考文献,主要关键词:生成对抗网络,不平衡分类,数据扩充
不平衡分类问题论文文献综述
戚德雄,王强[1](2019)在《基于生成对抗网络的不平衡分类数据扩充问题研究》一文中研究指出不平衡分类问题的本质就是在数据层上出现了某一样或者某几类样本数量远大于其他类样本数量。针对该问题,基于对抗神经网络生成模型解决了数据层上的训练数据倾斜问题,并结合CART算法提出了GAN-CART算法。(本文来源于《电脑编程技巧与维护》期刊2019年08期)
黄庆康,宋恺涛,陆建峰[2](2019)在《应用于不平衡多分类问题的损失平衡函数》一文中研究指出传统分类算法一般要求数据集类别分布平衡,然而在实际情况中往往面临的是不平衡的类别分布。目前存在的数据层面和模型层面算法试图从不同角度解决该问题,但面临着参数选择以及重复采样产生的额外计算等问题。针对此问题,提出了一种在小批量内样本损失自适应均衡化的方法。该算法采用了一种动态学习损失函数的方式,根据小批量内样本标签信息调整各样本损失权重,从而实现在小批量内各类别样本总损失的平衡性。通过在caltech101和ILSVRC2014数据集上的实验表明,该算法能够有效地减少计算成本并提高分类精度,且一定程度上避免了过采样方法所带来的模型过拟合风险。(本文来源于《智能系统学报》期刊2019年05期)
季晨雨[3](2018)在《不平衡数据分类问题解决办法》一文中研究指出不平衡数据分类是指数据集中某一类的样本数量远小于其他类的样本数量。由于传统分类算法在设计时,通常假定用于训练的数据集各类样本数大致相等,所以利用传统的分类方法对数据集进行分类时,会出现少数类的分类准确率较低的问题。因此,如何解决不平衡数据分类问题是数据挖掘研究领域的一个热点和难点。本文对不平衡数据分类问题进行了研究,从数据层面、算法层面、评价指标叁个层面分别对目前存在的各种解决不平衡数据分类问题的方法进行介绍及比较,最后指出了不平衡数据分类在未来研究中的值得关注的一些研究方向。(本文来源于《电子技术与软件工程》期刊2018年15期)
曾广俊[4](2018)在《双层迭自编码特征在不平衡数据分类问题的研究》一文中研究指出随着人工智能研究与应用的快速发展,机器学习越来越广泛地被应用到生活和生产各个领域上,提高了人们生活质量和生产效率。在实际环境的机器学习过程中,经常会遇到数据的不同类别样本分布不均匀的现象,称之为不平衡数据问题。由于样本分布不均匀,在不平衡数据下的分类问题中,分类器以最小平均损失为优化目标,容易造成分类器预测标签倾斜向多数类,从而影响分类器的实际使用价值。目前解决不平衡数据分类问题的方法主要有基于重采样和集成学习、基于代价敏感等方法。基于重采样的方法简单、独立于分类器,但随机性大,容易造成样本重要信息缺失或样本空间重迭造成过拟合。重采样结合集成学习,能降低重采样造成的扰动,提高在不平衡数据上的分类性能。基于代价敏感方法简单直观但难以定义合适的代价损失函数。事实上,分类器在于数据分布边界清晰的不平衡数据也可得到较好的效果,而面对数据样本空间重迭、特征不明显的不平衡数据时,通过特征学习得到的特征,若能够提供清晰的分类边界,那么重采样就不一定是必要的,因而也可以从特征的角度出解决不平衡数据分类问题。本论文从特征的角度去解决不平衡数据的分类问题,提出了双层迭自编码特征,通过两个独立的用不同激活函数激活的层迭自编码器生成两套特征,两套特征由不同激活函数激活的层迭自编码器得到,分别捕获了原数据较为全局、稳定和局部、细节的特征。两套具有不同特性的特征组合起来,具有更好的表达能力。样本经过双层迭自编码器生成的特征,从原来的特征空间转换到新的特征空间进入分类器,分类器从而更容易获得合理的分类边界。四个不同的实验,对比了双层迭自编码特征和使用单一的激活函数的单个层迭自编码器的特征、其他基于重采样和集成学习算法以及特征转换方法在人工数据集的分类边界和14个UCI数据集上的表现,验证了双层迭自编码特征能获得在不平衡数据环境下,获得更优的分类边界和分类性能。(本文来源于《华南理工大学》期刊2018-05-31)
林钊[5](2018)在《针对欺诈网页高度数据不平衡问题的分类检测方法研究》一文中研究指出近年来,互联网技术飞速发展,网络应用深入到了人们生活的方方面面。在互联网技术方便人们生活的同时,也有一些人利用互联网技术方便快捷的特点来谋取私利。于是,网络环境中出现了大量具有欺骗性质,传播不良信息的欺诈网站。欺诈网页传播有害信息,降低搜索引擎的服务质量,严重威胁网络安全。如何快速准确的检测欺诈网页成为web安全研究热点。从分类算法角度研究,网页欺诈检测由于其数据的不平衡性,导致传统分类算法出现分类的偏向性,多表现为多数类检测准确率高,少数类准确率低。本文通过对常用分类算法的比较分析,选取随机森林算法作为基础检测算法,分析数据不平衡对随机森林的具体影响提出基于随机森林的集成学习算法。在集成算法的每个子分类器利用训练数据的数量优势提高少数类检测准确率,而利用样本的相似性保持多数类的检测准确率。实验结果显示该算法提升了少数类的检测准确率,并得到了较为均衡的两类检测准确率。从数据平衡算法角度研究,应对不平衡分类问题最直接的办法就是对数据进行平衡,但仅仅使用过采样增加少数类数量对分类效果提升有限。本文提出了智能混合型数据平衡算法。一方面使用降噪改进的SMOTE过采样增加少数类数量,另一方面通过基于异常点去除和密度削减的级联欠采样算法减少多数类的数量。同时,使用模拟退火算法对各部分采样具体参数进行寻优确定。实验结果显示该算法对数据集的平衡有效增强了实验所用所有传统分类器的性能,并在与随机森林与C4.5的结合使用中均得到了非常好的分类器性能。(本文来源于《西南交通大学》期刊2018-05-22)
尹思文[6](2018)在《基于SMOTEBoosting和多种分类算法的不平衡数据分类问题改进情况的对照分析》一文中研究指出伴随着数据收集技术和互联网科技的不断进步,欺诈交易检测、网络入侵检测、web挖掘、直接营销和医学诊断等领域显现出越来越多的不平衡数据分类问题亟待解决。在本文中,我们着重关注不同分类算法对不平衡数据分类问题的改进情况。针对不平衡数据,在总结以往给训练样本分配不同权重和对原始数据重复采样的两种传统方法的基础上,引入2002年Chawla等人提出的模拟少数样本过抽样算法(SMOTE)及2009年Shengguo Hu等人针对SMOTE提出的改进形式(MSMOTE),以此来对数据类别的平衡性进行预处理;其次选取代表性的分类算法引入Boosting循环,通过增加错分样本再次被抽取的权重的方式来提高少数类样本分类的准确度,并将SMOTEBoosting模型应用于财务预警领域。文中涉及的分类算法从经典的Logistic回归、线性判别分析等传统统计模型延伸到机器学习领域的决策树、K近邻以及近些年新兴的并且备受各界关注的支持向量机和神经网络等算法模型。在模型的对比和评价方面,由于不平衡数据集中多数类数据的数量明显高于少数类,即使分类器把全部样本都标记为多数类也会实现很高的精度,因而使用通常的预测精度这一评价指标并不合适。本文引入针对少数类分类的评价指标:精确率、召回率、F得分以及ROC曲线和AUC数值,对不同分类模型针对不同数据集的分类表现情况进行多角度的对照分析。(本文来源于《厦门大学》期刊2018-04-01)
贾承丰,韩华,吕亚楠,王海军[7](2018)在《利用集成分类器处理链路预测中的分类不平衡问题》一文中研究指出对于现实的复杂网络而言,有连边的节点对数目通常远小于无连边的节点对数目,在链路预测时,不同类别的样本数量不平衡会导致预测的分类结果与真实情况有较大的偏差。针对此问题,提出更优的链路预测算法,先对网络拓扑信息进行特征提取,再设计出一种集成分类器对数据样本进行平衡处理;然后基于网络的拓扑信息改进了分类器的集成规则;最后将训练出的集成分类器同现有的四个针对不平衡分类的链路预测学习算法进行对比研究。通过对四个不同规模的时序网络进行链路预测,结果表明,本链路预测学习算法具有更高的召回率,同时也保证了预测结果的准确性,从而更好地解决了链路预测中因类别不平衡导致的误分类问题。(本文来源于《计算机应用研究》期刊2018年12期)
郭建威[8](2017)在《基于集成学习的不平衡样本分类问题研究》一文中研究指出不平衡数据集是指某一类样本的数量远大于其他类样本的数量,不平衡数据集分类问题在机器学习和模式识别的很多领域中广泛存在。传统的分类算法大都基于各类样本的数量是大致平衡的假设,用于解决不平衡样本分类问题时常常效果不佳。当前许多研究者针对不平衡样本分类问题从数据层面和算法层面提出了解决方案并取得了一定的效果。数据层面的混合采样方法能发挥欠采样和过采样的优势,同时能解决过采样造成的样本入侵到其他类中的问题,因此存在独特的优势。当前对混合采样方法研究还不充分,存在将混合采样过程分别进行、没有关注类内不平衡导致的少数类样本重要性不同、正负样本采样的比例难以确定等问题;集成学习框架被广泛应用于处理不平衡分类问题中,结合混合采样组合的差异性也会对集成学习的效果产生影响。本文针对以上问题,开展了对数据层面的混合采样方法和算法层面结合数据预处理与集成学习方法的研究。本文针对不平衡样本二分类问题的性质和混合采样方法的特点,提出了一种基于混合采样的集成学习方案。针对少数类样本采样时重要性不同的特点及现有的混合采样方法没有将欠采样和过采样在同一个过程中进行考虑的情况,应用进化算法监督混合采样的过程。进化算法的染色体代表了混合采样的组合,使用多位二进制码表示少数类的过采样率,使得欠采样和过采样形成的采样组合作为一个整体用进化算法的适应函数进行评价,同时每个少数类样本的过采样率能够得到优化,形成了基于进化算法的混合采样算法。本论文根据进化算法搜索空间的定义,对该方法在解决少数类样本的噪声样本、边界样本和类内不平衡问题进行分析。集成学习在解决不平衡分类问题时能结合采样技术多次采样来确定不平衡样本的分布,具有独特优势。由于Ada Boost框架对基分类器的差异性敏感,本文在使用进化混合采样方法产生的样本训练基分类器的同时,考虑基分类器训练所使用的混合采样的组合的差异性影响分类效果,并在进化算法的适应函数中考虑这个差异性,提出了基于进化混合采样的集成学习二分类方案。本文经过在16个数据集上的实验,验证了进化混合采样的有效性,并且对比其他解决不平衡样本分类问题的集成算法AUC值,证明了进化混合采样的集成算法的有效性。(本文来源于《哈尔滨工业大学》期刊2017-12-01)
尚旭[9](2017)在《基于采样处理的不平衡数据集问题的分类学习》一文中研究指出在信息时代,数据的分类是一个重要的研究课题,尤其对于不平衡数据集的分类研究来说.在实际生活中存在着大量的不平衡数据集实例,在不平衡数据集中,少数类样本由于数量上较少,分布相对稀少,而且往往被大量多数类样本包围,在分类过程中面临着巨大的挑战.在实际应用中,少数类样本分类错误产生的代价往往更大.因此在不平衡数据集的分类过程中,如何提高少数类样本的分类表现具有重要的意义,也更应该得到关注.在数据处理层面,过采样算法是通过人工合成少数类样本来达到数据集各类别数据样本之间数量上趋于平衡的方法.随机过采样技术通过简单的复制来增加少数类样本的个数,一定程度上提高了少数类的分类准确率,但其并没有增加有效的少数类样本信息,会导致样本的重迭和过拟合现象.2002年Chawla等人提出了一种向上采样合成少数类技术(Synthetic minority over sampling technique)SMOTE算法,基本思想:通过寻找少数类样本的同类k近邻样本,根据采样倍率在k近邻样本中随机选择几个样本,然后在少数类样本间进行线性插值,人工合成少数类样本,改善了样本的重迭和过拟合现象.但SMOTE算法是所有的少数类样本均参与新样本的合成,忽略了边界样本对于分类性能的作用和影响.鉴于此,Han等人在SMOTE算法的基础上提出了Borderline-SMOTE算法,基本思想:仅利用边界上的少数类样本来合成少数类样本,一定程度上提高了少数类样本的分类准确率.但此算法在选择边界样本时是利用k近邻规则,然而k近邻选取的不同,影响着边界样本的选取,存在着一定的局限性.本文提出一种新的边界样本选取方法DBSMOTE算法,并提出新的合成少数类样本规则.DBSMOTE算法的基本思路:首先,计算每个少数类样本与多数类样本间的距离和,并求其平均距离;其次,将距离小于平均距离的少数类样本选为边界样本;再次,利用随机规则合成少数类样本;最后,把合成的新样本和原有的样本合并为新样本集,并采用k近邻分类算法对其建模学习.数据实验结果表明,该算法有效地提高了少数类样本的分类表现.由于数据集中样本较少,过采样方法和欠采样方法都有不足,过采样会使数据集中的少数类样本过拟合,而欠采样方法会丢失许多样本的信息,组合方法能够有效地解决这两种问题;其次,已经有人研究过将这两种采样方法结合,实验结果表现出良好的效果.本文提出一种将过采样Random-SMOTE算法和欠采样算法结合的方法,理论分析和数据实验结果表明,组合算法能有效地提高了少数类样本的分类表现.(本文来源于《浙江师范大学》期刊2017-09-01)
龙浩[10](2017)在《用于不平衡分类问题的自适应加权极限学习机研究》一文中研究指出极限学习机是由新加坡南洋理工大学Huang等人于2006年提出,它是一种单隐层前馈型神经网络(SLFNs)学习算法。这种算法在学习过程中不需要调整网络的输入权值和隐藏层神经元的偏置,只需要设置隐藏层神经元节点的个数。通过使用最小二乘法产生唯一的最优解,极大的提高了SLFNs网络的训练速度,同时在某种程度上降低了过拟合的概率。但是,它依然受到数据分布不平衡的影响。2013年Zong等人在ELM基础上采用加权的方式提出加权极限学习机(WELM)算法,将ELM算法很好的应用在不平衡数据集之上。但是WELM的加权机制是固定的,对于二分类问题,多数类A的样本总数为sumA,少数类B的样本总数为sumB,它选择给A类样本添加1/sumA的权重值,给B类样本添加1/sumB的权重值,这种方式显然不是最优解。本文从叁个方面展开工作:第一,探讨了隐含层输出权重对极限学习机处理非平衡分类问题的影响。为了直观的了解非平衡数据集是如何影响极限学习机性能,我们在多个数据集上,通过逐步增加数据集的不平衡比,从试验中发现,极限学习机正是在数据集平衡时取得最优性能,数据的不平衡度对极限学习机的分类效果有着直接的影响。第二,提出了一种新的自适应式隐含层输出加权策略用以改进加权极限学习机的预测表现。加权极限学习机能够有效的提升极限学习机在不平衡数据集上的分类性能,但是其加权机制过于武断。本文从减小错分样本对分类器的影响入手,提出了自适应加权极速学习机(SawELM),全新设计了计算输出层权重的机制。该机制包括以下两个模块:1.逐步减小错分训练样本的权重2.动态更新错分样本的输出层的值。SawELM的第一个模块减少了错误分类样本在计算输出层权重的影响,第二个模块告知SawELM去调整输出层的权值。对WELM分类错误的样本,一方面,在计算输出层权重时弱化错分实例的影响,另一方面,增大错分样本实例的输出,使得错分样本可以被分类器更好的学习。第叁,给出了充分的实验比较证实自适应加权极限学习机的可行性和有效性。本文从KEEL数据仓库中随机选取了50个二分类不平衡数据集,分别对比了SawELM,ELM以及WELM的叁个指标:准确率、G-mean和F1-measure。实验结果显示新设计的自适应机制是有效的。同时,SawELM显着的提升了WELM的不平衡分类性能。与ELM和WELM相比,SawELM的G-mean,F1-measure二个指标显着提升。与此同时,SawELM的准确率要高于WELM并且与ELM不相上下。(本文来源于《深圳大学》期刊2017-06-30)
不平衡分类问题论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
传统分类算法一般要求数据集类别分布平衡,然而在实际情况中往往面临的是不平衡的类别分布。目前存在的数据层面和模型层面算法试图从不同角度解决该问题,但面临着参数选择以及重复采样产生的额外计算等问题。针对此问题,提出了一种在小批量内样本损失自适应均衡化的方法。该算法采用了一种动态学习损失函数的方式,根据小批量内样本标签信息调整各样本损失权重,从而实现在小批量内各类别样本总损失的平衡性。通过在caltech101和ILSVRC2014数据集上的实验表明,该算法能够有效地减少计算成本并提高分类精度,且一定程度上避免了过采样方法所带来的模型过拟合风险。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
不平衡分类问题论文参考文献
[1].戚德雄,王强.基于生成对抗网络的不平衡分类数据扩充问题研究[J].电脑编程技巧与维护.2019
[2].黄庆康,宋恺涛,陆建峰.应用于不平衡多分类问题的损失平衡函数[J].智能系统学报.2019
[3].季晨雨.不平衡数据分类问题解决办法[J].电子技术与软件工程.2018
[4].曾广俊.双层迭自编码特征在不平衡数据分类问题的研究[D].华南理工大学.2018
[5].林钊.针对欺诈网页高度数据不平衡问题的分类检测方法研究[D].西南交通大学.2018
[6].尹思文.基于SMOTEBoosting和多种分类算法的不平衡数据分类问题改进情况的对照分析[D].厦门大学.2018
[7].贾承丰,韩华,吕亚楠,王海军.利用集成分类器处理链路预测中的分类不平衡问题[J].计算机应用研究.2018
[8].郭建威.基于集成学习的不平衡样本分类问题研究[D].哈尔滨工业大学.2017
[9].尚旭.基于采样处理的不平衡数据集问题的分类学习[D].浙江师范大学.2017
[10].龙浩.用于不平衡分类问题的自适应加权极限学习机研究[D].深圳大学.2017