导读:本文包含了类别均衡论文开题报告文献综述及选题提纲参考文献,主要关键词:不均衡学习,集成学习,欠抽样,特征选择
类别均衡论文文献综述
刘树栋,张可[1](2019)在《类别不均衡学习中的抽样策略研究》一文中研究指出类别不均衡学习在信用评估、客户流失预测、医学诊断、短文本情感分析、标记学习、评分预测等众多领域有广泛的应用,是机器学习研究和应用的热点方向之一,近年来逐渐引起学术界和工业界的广泛关注。目前解决类别不均衡问题主要有叁种方法:数据级解决方法、算法级解决方法和集成解决方法。侧重于对近年来类别不均衡学习中的抽样策略研究进展进行综述,介绍类别不均衡学习的基本框架,对类别不均衡学习中叁种主要的抽样策略(过抽样、欠抽样和混合抽样)相关研究进展进行前沿概括、比较和分析,对类别不均衡学习的抽样策略中有待研究的难点、热点及发展趋势进行展望。(本文来源于《计算机工程与应用》期刊2019年21期)
袁培森,翟肇裕,任守纲,顾兴健,徐焕良[2](2019)在《基于SVC和过采样的类别非均衡农业高光谱数据分类》一文中研究指出系统研究了农业高光谱数据中少数类的分类质量问题。为了提升少数类的分类质量,提出采用过采样SMOTE技术增加少数类新样本,同时研究了SMOTE技术中新样本生成策略和少数类采样倍率对高光谱数据中少数类分类结果的影响,以及不平衡数据集上分类器与模型的匹配度。在新的采样数据集上采用多类分类SVC技术对少数类分类,提升了非均衡高光谱数据集中少数类的分类质量。在真实数据集上进行了试验验证,并对不同的分类方法和系统参数进行了试验对比和分析,结果表明,本文方法能够显着地提高非均衡高光谱数据中少数类分类效果,平均分类精度不小于0. 82,平均召回率提升幅度为11. 11%~26. 15%,F1提升幅度为5. 81%~40. 85%。(本文来源于《农业机械学报》期刊2019年06期)
吴止锾,高永明,李磊,薛俊诗[3](2019)在《类别非均衡遥感图像语义分割的全卷积网络方法》一文中研究指出基于U-Net模型,提出了一个全卷积网络(FCN)模型,用于高分辨率遥感图像语义分割,其中数据预处理采用了数据标准化和数据增强,模型训练过程采用Adam优化器,模型性能评估采用平均Jaccard指数。为提高小类预测的准确率,模型中采用了加权交叉熵损失函数和自适应阈值方法。在DSTL数据集上进行了实验,结果表明所提方法将预测结果的平均Jaccard指数从0.611提升到0.636,可实现对高分辨率遥感图像端到端的精确分类。(本文来源于《光学学报》期刊2019年04期)
邢延,陈嘉锋,贾小彦,汪新[4](2018)在《类别混迭度对非均衡数据分类的有效性分析》一文中研究指出类别混迭度是指不同类别数据之间互相交迭、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易。实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难。本文采用实验研究的方法,验证类别混迭度量化指标指导非均衡数据分类的有效性,以减少甚至避免盲目试错带来的庞大计算开销。首先,针对两类分类问题,设计验证实验,在不同类数据非均衡率,不同别边界形状、不同特征类型、不同概率分布的非均衡仿真数据上研究类别混迭度的有效性。其次,在实验研究的基础上,分析数据的非均衡性对类别混迭度的影响规律,找出类别混迭度指导非均衡分类的有效方法。最后,在真实的非均衡数据上验证类别混迭度指导非均衡分类的实际效果。实验结果表明,对数据的非均衡率具有较强鲁棒性的类别混迭度量化指标可以有效地指导非均衡数据的分类器选择。(本文来源于《数据采集与处理》期刊2018年05期)
蒋欢[5](2018)在《基于医学图像的类别分布不均衡的脑部疾病辅助诊断系统》一文中研究指出脑肿瘤是导致人类死亡率增长最主要的原因之一,目前基于脑部医学图像的诊断主要靠医生肉眼进行阅片分析,当医生进行肉眼分析时,不易发现脑部医学图像中许多微小的纹理变化细节和形态特征,从而会影响病情的早期判断。因此医生需要借助脑部疾病辅助诊断系统提高脑肿瘤诊断的准确率并降低漏诊率。传统的分类算法假设训练样本的数据集是均衡的并且误分类代价是相等的,通常以误分率最小化为目标,但脑部医学图像诊断具有类别分布不均衡和误分类代价不等的特点,因此传统的分类算法在以临床已确诊的MRI脑部医学图像作为训练集构建分类模型时,分类效果不佳并且容易对阳性类不敏感,导致脑部疾病辅助诊断系统很难具有较高的准确性并且泛化能力弱。为了改善脑部疾病辅助诊断系统的性能,本文通过引入代价敏感机制,将传统的代价不敏感的基于密度函数核估计的概率神经网络设计成代价敏感概率神经网络CS-PNN,解决MRI脑部医学图像中类别分布不均衡和误分类代价不等问题,从而开发具有更强泛化能力的脑部疾病辅助诊断系统,以据此提高脑肿瘤诊断的准确率并降低漏诊率。本文开发基于医学图像的类别分布不均衡的脑部疾病辅助诊断系统时,由于中值滤波算法在去除MRI脑部图像噪音的同时不影响图像边缘,首先使用中值滤波算法对DICOM 3.0接口获得的MRI脑部医学图像进行去噪处理;接着使用脉冲耦合神经网络PCNN对去噪处理后的MRI脑部医学图像进行分割,分割后的图像更有利于准确和有效的分类;然后使用离散小波变换DWT从PCNN分割后的MRI脑部图像中提取小波系数作为特征向量,它将作为分类模型的输入和构建分类模型的依据;由于提取的小波系数相互关联并且过多的特征会增加存储空间和计算时间,因此使用主成分分析PCA对DWT提取的小波系数进行降维处理从而获取低维的特征向量;最后将PCA降维处理后的类别分布不均衡的低维特征向量作为训练集,利用本文提出的代价敏感概率神经网络CS-PNN对该训练集构建分类模型,使用已构建的分类模型将未知类别的MRI脑部医学图像分类为正常(即健康)或异常(即患癌症)两类。使用120例MRI脑部医学图像作为实验数据评估本文开发的脑部疾病辅助诊断系统的性能,实验结果表明本文开发的脑部疾病辅助诊断系统不但具有较高的准确性和更强的泛化能力,并且对高代价的阳性类非常敏感。(本文来源于《贵州大学》期刊2018-06-01)
吴铎思[6](2018)在《创业导师不能只见“帽子”不见人》一文中研究指出创业热潮下,创业培训和指导备受创业者追捧。其中,创业节目的火爆便是佐证。灯光、舞台、资本、创业者……不同领域的创业导师凭经验为创业者提供指导,他们中不乏企业家和投资人,甚至一些文体明星也现身为创业者提供建议,他们身兼多职,并非职业化的创业导师。(本文来源于《工人日报》期刊2018-04-24)
龚垒[7](2017)在《基于特征类别均衡的文本分类分类方法》一文中研究指出本文从训练集对文本分类性能影响的角度考虑,通过减小训练集合特征向量的类别资源分布不均衡,提出一种基于特征类别均衡的文本分类分类方法,即对训练集以类为单位的特征向量进行重新组合,达到训练集中特征向量类别均衡分类,以降低在文本分类的训练过程中对小类别的特征向量的不公平待遇。实验结果显示,该方法对于提高文本分类的精度有显着的效果。(本文来源于《电子世界》期刊2017年13期)
赵强利,蒋艳凰[8](2017)在《类别严重不均衡应用的在线数据流学习算法》一文中研究指出集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法。对于类别分布严重不均衡的应用,集成式数据流挖掘中数据块的学习方式导致样本数多的类别的分类精度高,样本数少的类别的分类精度低的问题,现有算法无法满足此类应用的需求。针对上述问题,对基于回忆机制的集成式数据流学习算法MAE(Memorizing based Adaptive Ensemble)进行改进,提出面向类别严重不均衡应用的在线数据流学习算法UMAE(Unbalanced data Learning based on MAE)。UMAE算法为每个类别设置了一个样本滑动窗口,对于新到达的数据块,其样本依据自身的类别分别进入相应的滑动窗口,最后利用各类别滑动窗口内的样本构建用于在线学习的数据块。与5种典型的数据流挖掘算法的比较结果表明,UMAE算法在满足实时性的同时,不仅整体分类精度高,而且对于样本数很少的小类别的分类精度有大幅度提高;对于异常检测等类别分布严重不均衡的应用,UMAE算法的实用性明显优于其他算法。(本文来源于《计算机科学》期刊2017年06期)
肖雨奇[9](2016)在《多标签学习应用于中医诊断帕金森中类别不均衡问题研究》一文中研究指出帕金森病(Parkinson's Disease, PD)是一种在中老年人中常见的慢性中枢神经系统变性疾病。中医对帕金森病的研究源远流长,对帕金森的证型也是众说风云。结合多年的中医诊治经验,现代中医确定了帕金森病的五种证型,并认为帕金森患者最多同时伴有具有主次之分的两个证型。为了规范化帕金森病的中医诊断过程,现代中医提出了涵盖帕金森病相关临床症状的帕金森中医量表。对于如何从量表中的症状推断出具体的证型,中医界依然无法达成共识,诊断仍以经验为主。本文将多标签学习运用到中医诊断帕金森过程中,对证型进行主次分离,利用多标签算法发掘症状与证型中潜藏的相互关系,试图为中医诊断过程提供辅助决策。本文主要工作:1).针对将多标签应用于中医诊断帕金森领域,量表的症状作为特征属性,主次分离后的证型作为标签。根据次证的稀疏性,介绍了帕金森数据集中存在的较为严重的多标签类别不均衡问题。2).针对多标签不均衡中小类样本缺乏数据表示的问题,基于贡献度样本的区分以及异常数据样本过滤的思想,提出了一种适应型小类样本合成算法。算法从数据层面上很好的解决了多标签类别不均衡问题,相比于已有的多标签重采样算法获得了更好的实验结果。3).针对标签相关性对多标签不均衡的影响,基于标签子集构建以及欠采样集成的思想,提出了基于标签子集样本欠采样集成算法。实验结果表明算法相比于已有的多标签算法,在帕金森数据集以及多个公共数据集上能够更好的解决不均衡现象。(本文来源于《南京大学》期刊2016-05-30)
贾小彦[10](2016)在《类别非均衡性对数据混淆度影响的研究》一文中研究指出在模式识别、机器学习以及数据挖掘领域当中的最基础性问题就是数据的分类问题,在日常的工作和生活当中分类问题已经司空见惯。近些年来,越来越多的研究者们开始从事数据分类问题的研究,已有的研究文献显示,各类基础算法以及改进算法包括数据预处理、分类学习等算法层出不穷,特别是90年代初期统计学习理论的问世标志着人们在算法领域的研究已经比较丰富,但是有一个突出的问题逐渐显露出来,那就是在实际的问题当中,当需要对某一个数据集进行分类,究竟应该如何选择这些算法和方法才能使我们的分类过程简化,这是一个日渐引起关注的问题,特别是对于类别分布非均衡性数据的分类问题,算法的选择更加麻烦。本文紧紧围绕数据集的分类问题中有关分类算法的选择问题展开研究,在深入探讨TK Ho等人提出的数据几何复杂度理论的基础上,创造性的提出了基于几何统计理论和信息论两个角度的数据混淆度的衡量指标,并分别在人工生成的类别分布非均衡性仿真数据集和真实数据集当中对这些衡量指标进行实验,得出了一系列适用于类别分布非均衡性数据集的数据混淆度衡量指标的规律和结论,这些规律和结论对于类别分布非均衡性真实数据集的分类器选择问题具有重要的指导意义。主要的研究内容和研究成果如下:首先,阅读和整理了国内外近些年来的参考文献,主要涉及的方面包括分类学习、数据几何复杂度、数据混淆度、类别分布非均衡性数据的分类等等问题,并对这些问题的研究现状进行了总结和分析(详见第一章)。其次,深入讨论数据混淆度和类别分布非均衡性数据的分类问题,在数据复杂度的基础上讨论数据混淆度,同时阐述了数据混淆度与数据复杂度之间的关系。针对类别分布非均衡性的数据分类问题,给出其研究的现状,并讨论了类别分布非均衡性数据集对模式分类的影响等(详见第二章)。再次,为了研究数据混淆度的衡量指标在类别分布非均衡性数据集当中的适应性,需要对数据混淆度的衡量指标进行详细的介绍和说明。提出了基于几何统计理论和信息论两个角度的数据混淆度的衡量指标,重点对这些指标进行改进和推广使其能适应不同类型的数据集,同时对个别指标的改进算法进行对比以选出较优指标(详见第叁章)。然后,为了检验新学习算法或者评估新指标的有效性,需要在人工生成的仿真数据集和真实数据集中进行实验验证。由于仿真数据的可控性和真实数据的可信性,因此本文采用两种数据集相结合的方式进行实验(详见第四章)。最后,将仿真数据集应用在基于两种不同角度的数据混淆度衡量指标的计算方法上,以得出数据混淆度的衡量指标在类别分布非均衡性数据集当中的一些规律和结论,并且利用真实数据集进行实验验证以证明这些规律和结论的正确性,最后的实验结果表明,结论准确有效并且可以利用这些结论和规律对非均衡数据分类时的算法选择环节提供指导信息(详见第五章)。(本文来源于《广东工业大学》期刊2016-05-01)
类别均衡论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
系统研究了农业高光谱数据中少数类的分类质量问题。为了提升少数类的分类质量,提出采用过采样SMOTE技术增加少数类新样本,同时研究了SMOTE技术中新样本生成策略和少数类采样倍率对高光谱数据中少数类分类结果的影响,以及不平衡数据集上分类器与模型的匹配度。在新的采样数据集上采用多类分类SVC技术对少数类分类,提升了非均衡高光谱数据集中少数类的分类质量。在真实数据集上进行了试验验证,并对不同的分类方法和系统参数进行了试验对比和分析,结果表明,本文方法能够显着地提高非均衡高光谱数据中少数类分类效果,平均分类精度不小于0. 82,平均召回率提升幅度为11. 11%~26. 15%,F1提升幅度为5. 81%~40. 85%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
类别均衡论文参考文献
[1].刘树栋,张可.类别不均衡学习中的抽样策略研究[J].计算机工程与应用.2019
[2].袁培森,翟肇裕,任守纲,顾兴健,徐焕良.基于SVC和过采样的类别非均衡农业高光谱数据分类[J].农业机械学报.2019
[3].吴止锾,高永明,李磊,薛俊诗.类别非均衡遥感图像语义分割的全卷积网络方法[J].光学学报.2019
[4].邢延,陈嘉锋,贾小彦,汪新.类别混迭度对非均衡数据分类的有效性分析[J].数据采集与处理.2018
[5].蒋欢.基于医学图像的类别分布不均衡的脑部疾病辅助诊断系统[D].贵州大学.2018
[6].吴铎思.创业导师不能只见“帽子”不见人[N].工人日报.2018
[7].龚垒.基于特征类别均衡的文本分类分类方法[J].电子世界.2017
[8].赵强利,蒋艳凰.类别严重不均衡应用的在线数据流学习算法[J].计算机科学.2017
[9].肖雨奇.多标签学习应用于中医诊断帕金森中类别不均衡问题研究[D].南京大学.2016
[10].贾小彦.类别非均衡性对数据混淆度影响的研究[D].广东工业大学.2016