导读:本文包含了类别不平衡分类论文开题报告文献综述及选题提纲参考文献,主要关键词:不平衡数据,多分类问题,分解策略,集成规则
类别不平衡分类论文文献综述
彭旖旎[1](2017)在《多类别不平衡数据的分类方法研究》一文中研究指出分类问题是数据挖掘领域的重要研究内容之一,传统分类方法是基于二元数据所设计,但大多数实际案例的数据都是多类别的,如网络异常检测、天气预报和石油污染检测等。多类别数据的分类问题相较二元分类问题概念更复杂,因此给传统分类方法的学习带来了新的挑战。实际应用的数据不仅存在类别多样化的问题,而且其类别间样本的分布也非常不平衡,当少数类样本过于稀少时,传统分类方法很难从中学习到有用信息,因而在最后进行分类判决时会倾向于多数类。所以说对多类别不平衡数据的分类方法进行研究十分具有必要性。分类框架是广泛应用于解决多类别不平衡数据分类问题的重要方法,将原问题分解成多个二分类问题后,再采取某种集成规则得到分类结果,其中涵盖了分解策略、不平衡二分类方法和集成规则叁种关键技术,备受研究者们的广泛关注。但是分解框架中依然存在着一些不足,有效的二元分类器的构建比例会随着类别规模的增加而降低,从而严重影响整个多分类方法的分类性能。为解决上述问题,本文在引入核心簇和类间差异度的概念后,将多类别不平衡数据的分类问题映射到一张加权完全图中。在此基础上,提出了一种基于最大生成树的分解策略和基于结点度数的集成规则,选择出最优二元分类器组合的样本用以训练,从而降低不良二元分类器的构造率,然后再以结点度数为权重集成二元分类器返回的类预测值,从而平衡不同类别样本构造次数的不一致。为了验证提出方法的可行性,将本文提出的分解策略和集成规则与现有方法在4组不平衡集成学习方法和2组分类算法上进行对比,实验结果表明该方法能有效提升分类正确率。在优化分类框架的分解策略和集成规则的基础上,本文进一步对现有的不平衡数据二分类方法进行改进,在传统k最近邻算法中针对不平衡数据动态调整测试样本的k邻域,以提升少数类的参与概率。实验表明改进后的k最近邻算法能够在保持总体分类正确率不低的情况下提升少数类的分类正确率。(本文来源于《重庆邮电大学》期刊2017-05-15)
魏勋[2](2017)在《类别不平衡与代价敏感数据的集成分类方法研究》一文中研究指出随着大数据时代的来临,机器学习作为现代数据分析技术的理论基石,发挥了至关重要的作用,同时也面临着大大小小的挑战。分类问题作为机器学习领域最基本最核心的问题之一,持续受到学术界的热切关注。传统的分类算法一般基于两个假设:一是不同类别的样本数量大致相同;二是不同类别的错分代价基本相等。然而在真实世界中,数据集往往存在类别不平衡问题和代价敏感问题,这使得基于准确率的传统分类算法变得不再适用。类别不平衡指的是不同类别的样本数量分布不平衡;代价敏感指的是不同类别的错误分类代价相差很大。在类别不平衡的数据集中,传统分类算法为了获得较高准确率,倾向于错分少数类样本,然而这些少数类样本往往更加重要;在代价敏感的数据集中,传统分类算法对错误分类代价不敏感,无法最小化错误分类总代价。由于类别不平衡问题和代价敏感问题在现实中的普遍性和重要性,国内外学术界对此展开了广泛而深入的研究,并提出了各种各样的解决方法。经过归纳总结,这些方法大致从两个层面来解决问题:一是从数据层面,通过重构训练集改变样本分布,典型的是采用重采样技术;二是从算法层面,通过重新设计现有算法使之适应这两个问题,典型的是代价敏感学习和基于Boosing的方法。在这些方法中,集成学习扮演了举足轻重的角色。经过十几年的研究,该领域已经取得了十分瞩目的成就,但是仍然存在一些问题,比如过拟合,丢失信息等,影响了分类模型的稳定性和可靠性。本文针对类别不平衡问题和代价敏感问题,做了以下两点工作:·提出两种基于重采样的集成分类方法:xEnsemble和RSEnsemble。首先介绍这两种方法的理论基石,然后对现有算法进行改进,最后分别从偏差-方差分解、误差-分歧分解的角度,理论上证明这两种方法的有效性。·将xEnsemble和RSEnsemble方法应用于真实的糖尿病诊断数据集。该数据集规模庞大,高度类别不平衡且代价敏感。首先明确实验的评价标准,然后对该数据集进行预处理,最终实验结果证明:相比其他类似方法,这两种方法能够取得更好的分类效果。(本文来源于《中国科学技术大学》期刊2017-04-01)
施培蓓,刘贵全,汪中,卫兵[3](2015)在《一种基于类别不平衡数据的层次分类模型》一文中研究指出传统的机器学习方法在处理类别不平衡数据时分类性能较低,为此提出一种基于类别不平衡数据的层次分类模型.层次分类模型采用AdaBoost方法为基准分类器,以分类器误报率和特征建立数学模型,并证明层次分类模型的参数可以计算得到.首先以层次分类树为结构建立模型,接着针对层次分类树的结构模型进行分类代价计算,得到模型的代价与每层特征之间的定量数学描述,然后将该分类代价转换为优化问题并给出优化问题的求解过程,同时给出层次分类模型的计算结果.在UCI数据集上进行大量测试,以AUC和F-Measure为评价标准,相比于现有的不平衡分类方法,层次分类模型具有更优的分类性能.(本文来源于《中国科学技术大学学报》期刊2015年01期)
胡艳[4](2013)在《基于邻近样本类别判断的不平衡数据分类算法》一文中研究指出数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。(本文来源于《科技通报》期刊2013年10期)
王瑞[5](2013)在《针对类别不平衡和代价敏感分类问题的特征选择和分类算法》一文中研究指出随着人类社会进入大数据时代,数据分析技术也面临着前所未有的机遇和挑战。机器学习技术作为一种主要的现代数据分析技术也在此过程中得到长足的发展。而分类问题作为机器学习领域中最基本的研究问题之一,几十年来都得到了人们持续的关注和研究。发展出了一整套的学习理论、算法模型、软件实现。并在现实世界中得到了极其广泛的应用,取得了巨大的经济和社会效益。但在此过程中,也出现了一些新问题和挑战。本文研究的第一个问题——不平衡分类问题是近年来出现在机器学习领域中的新问题。其中,不平衡分类问题指训练样本的数目在不同类别上分布的很不均衡时,常用的分类算法大多倾向于把样本数较少类别的样本(称作小类样本)错误的分到样本数较多的类别(大类)中。但在许多现实问题中,正确识别出小类样本往往同样重要甚至更为重要。所以不平衡分类问题的主要研究目标就是在保持大类样本准确分类的前提下,提高小类样本的识别率。在关于二类不平衡分类问题的主要研究工作中,研究者一般使用接收者操作特征曲线下的面积(Area Under the receiver operating characteristic Curve,简称为AUC)来衡量分类系统的性能。因此,对不平衡分类问题的研究又在很大程度上转变为对AUC最大化这个问题的研究。在多类问题中,AUC被扩展成MAUC,多类不平衡问题的研究也相应的转化成了对MAUC的最大化问题的研究。本论文从特征选择和分类算法设计的角度对不平衡问题进行了研究。分别针对二类不平衡问题和多类不平衡问题设计了新的特征选择算法,以最大化分类系统的AUC值和MAUC值。在二类不平衡分类问题中,本文提出使用斯皮尔曼等级相关系数来衡量特征之间的冗余性,并把这个冗余性度量和利用AUC本身作为相关性度量的两项结合起来。得到了能显着提高分类系统AUC的特征选择选择算法。在多类不平衡分类问题中,本文在分析传统特征选择算法和直接使用MAUC法的不足的基础上,提出了一种基于分解MAUC的特征选择算法。它首先在每个“一对一”的二类子问题上利用AUC对特征进行有用性排序,然后随机的选择二类子问题并选择其当前最优的特征。实验表明,此方法在能比其他几种分类算法得到更大的MAUC值。在不平衡问题的分类环节研究方面,本文直接对多类不平衡问题进行了研究。我们首先分析了MAUC的计算结构,发现MAUC可以根据分类器输出矩阵的各个列独立计算得到。这意味着最大化MAUC的问题可以通过解决多个相互独立的二类子问题而解决。进一步的推导发现,每一个二类子问题上的优化任务又可以写成一个特殊的二分排序问题。这可以通过文献中已有的算法较好的解决。此外,虽然MAUC作为AUC的多类扩展,己在多个研究工作被用来衡量分类系统的性能。本文也针对MAUC最大化这个目标设计了一种特征选择算法和一种分类算法。但文献中不存在一种简单的方法可以根据代价矩阵自然的把数值型输出矩阵映射成离散的类别标号,并在此过程中最小化分类错误的总代价,这使得最大化MAUC在这个意义上讲缺乏依据。针对这个问题,本文检验了文献中已有的映射方法,并在此基础上验证了MAUC和分类错误总代价之间的负相关性。本文研究的另外一个问题——代价敏感分类问题和不平衡分类问题密切相关。因为在不平衡分类问题中,小类样本往往会比大类样本更为重要。也就是说,错分一个小类样本的代价会比错分一个大类样本的代价更高。而代价敏感分类的研究显式的考虑了不同类型分类错误的代价,并研究如何最小化分类错误的总代价。由于实际中的几乎每一个分类问题都是代价敏感的,因此代价敏感分类问题的研究有着极其重要的现实意义。在大多数已有的关于代价敏感分类问题的研究工作中,研究者通常会假设分类错误代价矩阵会随着数据一起提供给算法,因此一个代价敏感的分类算法只要针对这个给定的代价矩阵训练一个分类器即可。但在许多实际的代价敏感分类问题中,上述假设常常难以成立。即用户经常无法提供一个准确完整的分类错误代价矩阵。针对这个问题,本文提出了一种在现实中更为易用的不确定代价矩阵条件下的鲁棒代价敏感分类问题。它支持用户同时提供一组可能的代价矩阵。然后,我们根据最小最大化据测准则来建立鲁棒的分类器。(本文来源于《中国科学技术大学》期刊2013-05-01)
王灿伟[6](2012)在《类别不平衡数据的集成分类研究》一文中研究指出分类是近年来机器学习和模式识别领域研究的热点问题之一,在分类问题中存在一类特例:各类别样例在数量上相差悬殊,这类数据集被称为不平衡数据集,其中数量占优的类别被称为多数类,稀疏的类别被称为少数类。传统分类算法在类别平衡的数据集上能有效发挥性能优势,在不平衡数据集上传统分类算法为了追求较高的整体分类精度,将倾向于把少数类样例误分为多数类。而这些数量稀疏的少数类一旦被误分所付出的代价将比误分多数类的代价高很多。提高分类器在类别不平衡的数据集上的分类性能和泛化能力在许多应用领域都具有重要价值和现实意义。如银行信贷风险评估系统中正常借贷交易出现的概率要远高于不良信贷出现的概率,银行工作人员最为关注的正是从众多的正常借贷业务中找出这些极少数的不良交易。文本检测、产品质量检验、垃圾邮件过滤等都是类别不平衡数据集的典型应用背景。为简单起见本文仅考虑二分类问题,多分类问题可转换为若干个二分类问题来解决。为了提高类别不平衡数据集上的分类性能人们在传统的分类算法的基础上提出了很多改进算法。如代价敏感、SMOTE重抽样、改进的SVM、单边选择以及被动学习。这些算法概括起来主要在两个方面做了改进:一是在数据层面通过对多数类的欠抽样和对少数类的过抽样技术人为改变数据集的数据分布使之变得类别间基本平衡,然后再采用传统的分类算法;另一种是保持原有数据集的分布特征,在算法层面入手通过调整各类样例的训练权重以使分类器能更好地照顾少数类。这些方法虽然在不同的角度做了改进但少数类的分类精度仍普遍较低,受Valiant的PAC学习模型的启发很多专家和学者期望通过集成的方式将类别不平衡数据集上的弱学习器组合成可有效提高少数类分类性能的强学习器。然而传统集成算法的gma下限与错误率之间是开口朝上的二次函数关系,单纯地降低不平衡数据集上的错误率并不能有效提高少数类的分类精度。本文首先回顾了集成学习中的基本知识和主流模型,讨论了目前集成学习方法的优势和难点。重点分析了针对类别不平衡数据集的各种改进算法。本文作者从关注错分的少数类样例入手分别在数据层面和算法层面提出了两种改进方案并通过实验验证了前一种算法的有效性。本文的主要研究工作有:1、回顾并总结了基分类器的各种组合形式,阐释了各种选择性集成方式。在已有理论成果的基础上分析了刀切法和自助法两种主流重抽样方法的统计学意义,指出在独立同分布且矩有限的条件下通过若干次的重抽样可得到具有良好收敛性的数据模型。分析了类别不平衡数据集的分布特点,讨论了针对类别不平衡数据集的分类评价标准,归纳了类别不平衡数据集上的改进分类算法。2、基于不平衡数据集上的集成学习方案,作者提出了一种新的适用于不平衡数据集的算法ILAdaboost。该算法利用每一轮学习到的基分类器对原始数据集进行测试评估,并根据评估结果将原始数据集分成四个互不相交的子集,然后在四个子集中重新采样形成平衡的数据集供下一轮基分类器学习。重抽样是在四个互不相交的子集中进行的,因此保证了基分类器之间的错误独立性。而抽样过程中更加倾向于少数类和分错的多数类,故合成分类器的分界面会偏离少数类。在10个UCI数据集及2个仿真数据集上的实验结果证实了该算法的有效性。3、在“最富信息”策略指导下本文作者结合不平衡数据集的特点在算法层面提出了一种改进方案。该方案首先参照类别比例分别给多数类和少数类样例赋以不同的初始权重,每轮基分类器训练完成后对原始数据集进行预测评估,并根据不同的预测结果对下一轮的训练样例更新权重。理论上该方案能合理照顾少数类又不至于导致多数类牺牲太多的分类精度。(本文来源于《山东师范大学》期刊2012-06-15)
唐明珠[7](2011)在《类别不平衡和误分类代价不等的数据集分类方法及应用》一文中研究指出类别不平衡数据集分类是机器学习和模式识别中的一个热点研究问题。类别不平衡数据集存在于许多实际工程领域,如有色冶金过程的故障检测和网络入侵检测等。现有的分类算法大多以误分率最小化为目标,并假设训练数据集类别是平衡的和误分类代价是相等的。当用这些分类算法处理类别不平衡数据集分类问题时,容易对多数类过学习和对少数类欠学习,从而导致分类器性能下降。针对数据集中类别不平衡、误分类代价不等、噪音特征和标注代价昂贵等问题,研究了类别不平衡和误分类代价不等的数据集分类新方法。通过实际有色冶金过程数据集中仿真实验验证了所提方法的有效性和优越性。主要的研究工作和创新性成果如下:第二章研究了有色冶金过程中操作模式集的特点。详细地分析了有色冶金过程操作模式集中的类别不平衡、误分类代价不等、噪音特征、标注代价昂贵等问题。阐述了操作模式分类的假设。最后给出了有色冶金过程的操作模式分类流程图。第叁章针对数据集中相对类别不平衡和误分类代价不等问题,提出了代价敏感概率神经网络方法。分析了在类别不平衡数据集上基于密度核估计的概率神经网络和基于密度函数混合高斯分布的概率神经网络不能有效识别少数类样本的原因,引入代价敏感机制,提出代价敏感概率神经网络。并将其应用于铜闪熔炼过程操作模式集分类。实验结果表明,所提方法提高了故障类和优良类操作模式识别率,并减少了平均误分类代价。第四章针对数据集中极端类别不平衡问题,提出了基于粒子群优化和滑动窗口的支持向量数据描述方法。采用粒子群算法优化支持向量数据描述的核参数。利用滑动窗口的大窗口大小来控制训练集的规模,利用滑动窗口的小窗口大小测试误差来调整大窗口大小,自适应地调整训练集规模。将其应用于铜转炉熔炼过程的操作模式集分类。实验结果表明,所提方法能有效识别故障类操作模式。第五章针对数据集中类别不平衡、误分类代价不等和噪音特征问题,提出了基于粒子群优化的代价敏感支持向量机和基于同步优化的间隔校正的代价敏感支持向量机。首先介绍和比较了标准的支持向量机、代价敏感支持向量机、间隔校正的代价敏感支持向量机,并完整地给出了这3种算法求解方法。然后,利用连续版的粒子群算法优化代价敏感支持向量机的核参数、误分类代价参数和间隔参数;同时利用离散版的粒子群算法优化代价敏感支持向量的特征集。最后,将其应用于人工数据集和氧化铝蒸发过程操作模式集。实验结果表明,所提方法能有效识别氧化铝蒸发过程优良类和故障类操作模式,选择合适的操作模式特征。第六章针对数据集中类别不平衡、误分类代价不等和标注代价昂贵问题,提出基于不确定性采样的自训练代价敏感支持向量机。定义了未标注样本的不确定性,选择不确定性高的未标注样本进行标注利用已标注样本集训练3个代价敏感支持向量机;用其中两个代价敏感支持向量机预测未标注样本,如果这两个代价敏感支持向量机预测的类标一致,则添加到训练集,最终训练出代价敏感支持向量机。并用近似概率正确理论分析自训练方法在主动代价敏感学习中效果。将其应用于铜闪速熔炼过程故障类操作模式检测。实验结果表明,所提方法不仅能减少标注代价而且能减少平均误分类代价。(本文来源于《中南大学》期刊2011-12-01)
邹权,郭茂祖,刘扬,王峻[8](2010)在《类别不平衡的分类方法及在生物信息学中的应用》一文中研究指出提出一种处理正反例不平衡的分类方法,以解决生物信息学中的snoRNA识别、microRNA前体判别、SNP位点的真伪识别等问题.利用集成学习的思想,将反例集均匀分割并依次与正例集组合,得到一组类别平衡的训练集.然后对每个训练集采用不同原理的分类器进行训练,最后投票表决待测样本.为了避免弱分类器影响投票效果,结合AdaBoost思想,将每个分类器训练中产生的错误样本加入到下2个分类器的训练集中,既避免了AdaBoost的反复训练,又有效地利用投票机制遏制了弱分类器的影响.5组UCI测试数据和3组生物信息学实验证明了它在处理类别不平衡分类问题时的优越性.(本文来源于《计算机研究与发展》期刊2010年08期)
刘胥影,吴建鑫,周志华[9](2006)在《一种基于级联模型的类别不平衡数据分类方法》一文中研究指出真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.(本文来源于《南京大学学报(自然科学版)》期刊2006年02期)
类别不平衡分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着大数据时代的来临,机器学习作为现代数据分析技术的理论基石,发挥了至关重要的作用,同时也面临着大大小小的挑战。分类问题作为机器学习领域最基本最核心的问题之一,持续受到学术界的热切关注。传统的分类算法一般基于两个假设:一是不同类别的样本数量大致相同;二是不同类别的错分代价基本相等。然而在真实世界中,数据集往往存在类别不平衡问题和代价敏感问题,这使得基于准确率的传统分类算法变得不再适用。类别不平衡指的是不同类别的样本数量分布不平衡;代价敏感指的是不同类别的错误分类代价相差很大。在类别不平衡的数据集中,传统分类算法为了获得较高准确率,倾向于错分少数类样本,然而这些少数类样本往往更加重要;在代价敏感的数据集中,传统分类算法对错误分类代价不敏感,无法最小化错误分类总代价。由于类别不平衡问题和代价敏感问题在现实中的普遍性和重要性,国内外学术界对此展开了广泛而深入的研究,并提出了各种各样的解决方法。经过归纳总结,这些方法大致从两个层面来解决问题:一是从数据层面,通过重构训练集改变样本分布,典型的是采用重采样技术;二是从算法层面,通过重新设计现有算法使之适应这两个问题,典型的是代价敏感学习和基于Boosing的方法。在这些方法中,集成学习扮演了举足轻重的角色。经过十几年的研究,该领域已经取得了十分瞩目的成就,但是仍然存在一些问题,比如过拟合,丢失信息等,影响了分类模型的稳定性和可靠性。本文针对类别不平衡问题和代价敏感问题,做了以下两点工作:·提出两种基于重采样的集成分类方法:xEnsemble和RSEnsemble。首先介绍这两种方法的理论基石,然后对现有算法进行改进,最后分别从偏差-方差分解、误差-分歧分解的角度,理论上证明这两种方法的有效性。·将xEnsemble和RSEnsemble方法应用于真实的糖尿病诊断数据集。该数据集规模庞大,高度类别不平衡且代价敏感。首先明确实验的评价标准,然后对该数据集进行预处理,最终实验结果证明:相比其他类似方法,这两种方法能够取得更好的分类效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
类别不平衡分类论文参考文献
[1].彭旖旎.多类别不平衡数据的分类方法研究[D].重庆邮电大学.2017
[2].魏勋.类别不平衡与代价敏感数据的集成分类方法研究[D].中国科学技术大学.2017
[3].施培蓓,刘贵全,汪中,卫兵.一种基于类别不平衡数据的层次分类模型[J].中国科学技术大学学报.2015
[4].胡艳.基于邻近样本类别判断的不平衡数据分类算法[J].科技通报.2013
[5].王瑞.针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D].中国科学技术大学.2013
[6].王灿伟.类别不平衡数据的集成分类研究[D].山东师范大学.2012
[7].唐明珠.类别不平衡和误分类代价不等的数据集分类方法及应用[D].中南大学.2011
[8].邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展.2010
[9].刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报(自然科学版).2006