导读:本文包含了不平衡数据学习论文开题报告文献综述及选题提纲参考文献,主要关键词:不平衡数据集,单隐层前馈神经网络,超限学习机,加权超限学习机
不平衡数据学习论文文献综述
梅颖,卢诚波[1](2019)在《面向不平衡数据集的一种改进的加权超限学习机分类算法》一文中研究指出标准的加权超限学习机在训练不平衡数据集时,只对不同类之间赋予类权值而没有对个体的样本赋予不同的权值,忽视了样本个体的差异.针对这种情况,利用标准的超限学习机估算个体样本的权值,并与类权值结合,提出了一种改进的双重加权超限学习机分类算法,算法能很好地处理分类任务中各类训练数据分布不平衡的情形.实验结果表明,双重加权超限学习机分类算法与单重加权超限学习机、无权超限学习机相比较,在提高分类精度方面取得了较好的效果.(本文来源于《数学的实践与认识》期刊2019年19期)
李克文,谢鹏,路慎强[2](2019)在《基于不平衡数据类分布学习的特征选择方法》一文中研究指出在特征选择过程中,传统特征选择方法可能会因数据集分类不平衡而受到影响,论文提出一种基于不平衡数据类分布学习的特征选择方法。首先,该方法的损失函数由累加相对熵变形为连乘相对熵的形式从而将不平衡数据评价引入至损失函数中。然后,对新的损失函数进行变形及梯度求导得出损失函数下降的梯度方向,通过变步长梯度下降法使得损失函数收敛。最后,通过对学习到的类分布进行阈值控制从而筛选特征以达到特征选择的目的。论文采用了逻辑回归、随机森林、支持向量机和梯度提升决策树四种分类器,FSLDL(Feature Selection Method by Label Distribution Learning Based on Imbalanced Data)、PCA、SVM-RFE和F_classify四种特征选择方法,SMOTENN、NearMiss和ADASYN叁种不平衡数据采样方法在NASA故障数据集的KC1数据集上做了对比分析,结果表明论文提出的FSLDL在只进行特征选择的情况下对不平衡数据分类效果优于其他特征选择方法,在与不平衡数据采样方法结合时效果也有提升。(本文来源于《计算机与数字工程》期刊2019年09期)
刘洋[3](2019)在《基于不平衡数据集的机器学习算法研究》一文中研究指出在应用机器学习构建数据模型的过程中,经常会面临类不平衡性的问题,在许多研究中,降低数据集的不平衡性多采用欠抽样法来进行处理,再应用C4.5、NB、LR、RF、KNN等机器学习算法进行数据建模。实验结果往往表明,欠抽样法得到的模型准确度并不尽如人意,原因是这种方法是在牺牲负样本的预测精度前提下来提高整体精度的,因此,文章试图在尽量不减少原数据集中有用信息丢失的前提下采用重复抽样法进行数据处理可以有效弥补欠抽样法所带来的信息损失,进而提高模型精度。(本文来源于《统计与决策》期刊2019年12期)
孙庆帅[4](2019)在《基于不平衡数据分布的加权极限学习机算法研究》一文中研究指出不平衡数据分类问题在数据挖掘领域占有重要的地位,如何有效处理不平衡数据已然成为当前的一个研究热点。采用传统的分类模型时,数据的失衡往往造成分类面的偏倚,导致难以得到令人满意的分类效果。现今,国内外学者相继提出了多种用于解决类不平衡问题的方法,但并没有充分考虑到数据的分布对分类模型性能的影响。针对传统模型出现的偏倚问题,本文基于代价敏感学习的思想,充分讨论了数据分布特性对分类器性能的影响。同时,本文基于样本数据的先验分布特性对数值型数据和图像数据的二分类及多分类不平衡问题分别展开了研究。主要研究工作有以下两方面:(1)数值型数据指经过人工筛选数值化后的数据,可直接用于分类器学习,而传统的分类器容易对多数类产生更大的偏好,造成对少数类的分类准确率下降。对此,本文提出了基于数据分布的加权极限学习机D-WELM(data distribution based weighted extreme learning machine)。该算法基于代价敏感学习,不仅考虑了样本类别数量的影响,还有数据分布的影响,同时,把全局损失考虑在内设计了一个新的加权方案。为了验证D-WELM算法的可行性和有效性,本文在包括二分类和多分类的多个不平衡数据集上进行了对比实验。实验结果表明,DWELM在不平衡分类问题中可以表现出更好的分类性能。(2)图像数据一般呈现规模大、维数高的特点,若是直接运用简单模型则不能得到好的效果,若是运用卷积神经网络CNN,则可以完成对图像特征的有效提取。本文针对图像的不平衡分类问题,提出了基于卷积神经网络和数据分布的加权极限学习机CNN-DWELM。该算法同样基于代价敏感学习,同时结合了CNN对特征提取的优点和ELM训练速度快、分类精度高的优点。通过在3个数据集上的实验对比,结果表明CNN-DWELM具有更好的不平衡图像分类能力。(本文来源于《湘潭大学》期刊2019-06-04)
李刘杰[5](2019)在《基于过采样与集成学习的不平衡数据分类方法研究》一文中研究指出在分类问题中,类别的不平衡性广泛存在于如医疗诊断、垃圾邮件过滤、信用卡防诈骗等领域,有效解决不平衡数据分类可以提前进行预警或预测,具有重要的研究意义和应用价值。传统的分类模型大都采用平衡数据集进行训练,追求整体的分类精度,但对于不平衡数据集,传统的分类模型效果则不尽人意。不平衡数据由数量占优的多数类与数量较少的少数类组成。不平衡数据分类解决方案有数据层面的欠采样方法与过采样方法,算法层面的代价敏感方法与集成学习方法。目前过采样方法存在合成重迭样本与过拟合的问题,而集成学习方法大都采用单层集成结构,且没有根据数据集特征选择合适的分类阈值。针对上述问题,本文首先对数据层面的过采样方法展开研究,提出一种基于层次聚类的加权过采样方法(Weighted Oversampling based on Hierarchical Clustering,WOHC)。该方法首先对少数类进行聚类,并检查聚类后少数类簇的样本组成情况,避免合成重迭或噪声样本,然后根据少数类簇的密集程度确定每个类簇的采样倍率,并根据类簇中少数类样本与多数类边界的距离确定少数类样本的采样权重,最终在各合成区域中完成过采样。该采样方法结合传统分类器在多个真实数据集上进行实验,结果表明可以有效改善传统分类器对不平衡数据的分类效果。在上述过采样方法的基础上,结合集成学习方法,设计一种基于两层集成学习的不平衡数据分类方法。首先利用Adaboost算法作为最外层的集成学习框架,并以随机森林作为Adaboost算法的基分类器,对不平衡数据的训练集进行WOHC采样,利用采样后的数据集对基分类器进行训练。在Adaboost算法每一轮的训练流程中删除被错分的合成样本,并利用WOHC生成对应数量的合成样本,在结果输出阶段,通过OTSU算法自适应地选择Adaboost算法的最佳的分类阈值,最终在多个真实数据集上进行实验,实验结果表明较其他不平衡集成分类算法有一定提升。(本文来源于《重庆邮电大学》期刊2019-05-28)
焦江丽,张雪英,李凤莲,牛壮[6](2019)在《同分布强化学习优化多决策树及其在非平衡数据集中的应用》一文中研究指出针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。(本文来源于《中南大学学报(自然科学版)》期刊2019年05期)
曹雅茜,黄海燕[7](2019)在《基于概率采样和集成学习的不平衡数据分类算法》一文中研究指出集成学习由于泛化能力强,被广泛应用于信息检索、图像处理、生物学等类别不平衡的场景。为了提高算法在不平衡数据上的分类效果,文中提出一种基于采样平衡和特征选择的集成学习算法OBPD-EFSBoost。该算法主要包括3个步骤:首先,依据少数类高斯混合分布得到的概率模型,进行过采样构造平衡数集,扩大少数类的潜在决策域;其次,每轮训练个体分类器时,根据上一轮的错分样本综合考虑样本和特征的加权,过滤冗余噪声特征;最后,通过个体分类器的加权投票得到最终的集成分类器。8组UCI数据分类结果表明,该算法不仅有效提高了少数类的分类精度,同时还弥补了Boosting类算法对噪声特征敏感的缺陷,具有较强的鲁棒性。(本文来源于《计算机科学》期刊2019年05期)
张宗堂,王森,孙世林[8](2019)在《一种针对不平衡数据分类的集成学习算法》一文中研究指出针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法,RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上,RSBoost算法优于AdaBoost算法。(本文来源于《山东大学学报(工学版)》期刊2019年04期)
李晗缦[9](2019)在《超限学习机的改进及其在不平衡数据中的应用》一文中研究指出随着信息时代的发展,爆炸式增长的数据采集、处理和分析对各行业来说都是巨大的挑战。机器学习凭借其对数据内在规律的把握而日益凸显出重要性。其间,也涌现出了很多优秀的机器算法,如人工神经网络、BP神经网络、支持向量机以及超限学习机等。其中,超限学习机是一种基于单隐层前馈神经网络的算法,它随机生成输入权重以及隐层偏差,直接计算得到输出权重,其学习速度相较于基于梯度下降算法的前馈网络学习算法速度快很多倍,并且实现了很好的泛化能力。用超限学习机训练单隐层前馈神经网络,可以同时使训练误差和权值达到最小。在节省训练时间和提高训练精度方面都取得了很好的效果,克服了传统的基于梯度下降算法中反复迭代调整参数以及陷入局部最优的问题,为训练单隐层的前馈神经网络提供了新的思路。然而,超限学习机在一些地方还存在欠缺。因此,本文对超限学习机算法进行了深入的研究,针对其硬件电路实现、随机产生的输入权重不稳定以及单个超限学习机处理不平衡数据分类的问题效果欠佳等方面分别做出了改进。首先推导出了一种基于忆阻器的新型激活函数并应用于超限学习机中。然后,用分段生成随机数的方法代替原来直接随机的方法以增强算法的稳定性。最后,提出一种基于分层交叉验证的集成超限学习机,解决单个超限学习机处理不平衡分类问题的不足。本文的主要研究内容有下面几个部分:(1)将忆阻器反向连接,在忆阻器模型中加入非线性窗函数。利用其忆阻值和电荷的关系实现了一种新的激活函数,也就是忆阻激活函数,并将其应用于超限学习机中。忆阻器作为新兴的非线性纳米器件为超限学习机的电路实现提供了可能,而用其实现激活函数也为忆阻器提供了新的应用思路。(2)改变了传统的直接随机产生输入权重矩阵的方法。随机产生的输入权重不稳定,同时会降低算法的准确率。本文令输入权重分段随机产生,一半矩阵在(0,0.5)随机产生,另一半在(0.5,1)随机产生,再将两个矩阵打乱重组后的矩阵作为输入权重矩阵。用两次随机来增加输入权重的随机性并增强网络的稳定性。并将改进后的算法用于灰度和彩色图像的压缩重建。(3)结合超限学习机算法、分层交叉验证方法和集成学习,提出了一种基于分层交叉验证的集成超限学习机。在网络训练的阶段加入集成算法可以有效改善单个分类器在不平衡分类中的不足。分层交叉验证即按样本比例抽样再进行交叉验证,可以最大化的让算法在训练中学习样本的分布特点。对来自KEEL数据库和加州理工学院数据库的不平衡数据实验表明,改进的算法综合了两种方法的优点,在不平衡数据的分类问题中效果很好,非常快速并且稳定。(本文来源于《西南大学》期刊2019-03-15)
王莉,陈红梅,王生武[10](2019)在《新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost》一文中研究指出现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost (New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。(本文来源于《计算机应用》期刊2019年03期)
不平衡数据学习论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在特征选择过程中,传统特征选择方法可能会因数据集分类不平衡而受到影响,论文提出一种基于不平衡数据类分布学习的特征选择方法。首先,该方法的损失函数由累加相对熵变形为连乘相对熵的形式从而将不平衡数据评价引入至损失函数中。然后,对新的损失函数进行变形及梯度求导得出损失函数下降的梯度方向,通过变步长梯度下降法使得损失函数收敛。最后,通过对学习到的类分布进行阈值控制从而筛选特征以达到特征选择的目的。论文采用了逻辑回归、随机森林、支持向量机和梯度提升决策树四种分类器,FSLDL(Feature Selection Method by Label Distribution Learning Based on Imbalanced Data)、PCA、SVM-RFE和F_classify四种特征选择方法,SMOTENN、NearMiss和ADASYN叁种不平衡数据采样方法在NASA故障数据集的KC1数据集上做了对比分析,结果表明论文提出的FSLDL在只进行特征选择的情况下对不平衡数据分类效果优于其他特征选择方法,在与不平衡数据采样方法结合时效果也有提升。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
不平衡数据学习论文参考文献
[1].梅颖,卢诚波.面向不平衡数据集的一种改进的加权超限学习机分类算法[J].数学的实践与认识.2019
[2].李克文,谢鹏,路慎强.基于不平衡数据类分布学习的特征选择方法[J].计算机与数字工程.2019
[3].刘洋.基于不平衡数据集的机器学习算法研究[J].统计与决策.2019
[4].孙庆帅.基于不平衡数据分布的加权极限学习机算法研究[D].湘潭大学.2019
[5].李刘杰.基于过采样与集成学习的不平衡数据分类方法研究[D].重庆邮电大学.2019
[6].焦江丽,张雪英,李凤莲,牛壮.同分布强化学习优化多决策树及其在非平衡数据集中的应用[J].中南大学学报(自然科学版).2019
[7].曹雅茜,黄海燕.基于概率采样和集成学习的不平衡数据分类算法[J].计算机科学.2019
[8].张宗堂,王森,孙世林.一种针对不平衡数据分类的集成学习算法[J].山东大学学报(工学版).2019
[9].李晗缦.超限学习机的改进及其在不平衡数据中的应用[D].西南大学.2019
[10].王莉,陈红梅,王生武.新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost[J].计算机应用.2019