导读:本文包含了不均衡类样本论文开题报告文献综述及选题提纲参考文献,主要关键词:不均衡数据集,决策边界,分类,少数类细分
不均衡类样本论文文献综述
杨炀[1](2016)在《面向不均衡数据集中少数类样本细分的过采样算法的研究》一文中研究指出在数据挖掘研究中,分类问题一直是备受研究学者关注的方向。传统的分类算法对样本类别分布均衡的数据集进行分类往往能够取得较好的分类效果。但在实际应用中,通常数据集的类别分布不平衡,即当数据集中某一类别样本的数目明显多于其他类别样本时,传统的分类算法往往不能够很好的对这种数据集分类。由于不均衡数据集中,各个少数类样本相对于决策边界的分布各不相同,且越靠近决策边界的样本越易被错分,对分类器而言便更具有学习的价值,因此,本文提出面向少数类样本细分的过采样算法,按照少数类样本相对于决策边界的分布差异,将少数类样本集划分为多个细分,再对不同细分做不同的过采样处理,更加合理有效地达到多数类与少数类均衡的目的。本文学习了已有的经典过采样算,总结分析各自的优点与不足,并以面向少数类样本的细分为基础,提出如下改进:1.少数类样本相对于决策边界的分布具有差异性,经典过采样算法通常并未对它们做区别处理,或者仅处理部分样本的信息。本文按照少数类样本的k近邻分布,将其划分至DANGER、AL_SAFE、SAFE叁个细分中,对不同细分中的样本使用不同的采样策略进行处理,有效的利用不同细分的所有少数类样本信息;2.AL_SAFE细分中样本依然靠近决策边界,但数量较多,因此需要减少在原本少数类样本分布稠密的区域的采样数量,增大稀疏区域采样数量。少数类样本的k近邻中,同类样本数越多,表示其支持度越高,选择概率越小。利用轮盘赌进行选择,使得采样范围分布更加均匀。上述两步称之为SD-ISMOTE算法。3.上述算法在对已有少数类样本细分后,仅从细分级别的粒度进行过采样操作,细分内部样本分布不均衡的情况并未处理。为此,使用K-均值聚类方法对每个细分聚类,形成若干个簇再从簇的级别进行过采样,合理确定每个细分中的每个簇的采样数量,以此解决细分内部样本分布不均衡的问题;4.在对AL_SAFE细分样本处理过程中,由于使用已有的采样策略仅能在初始点间的距离为半径的球体内采样,不能更大限度将决策边界向多数类方向推移。因此,增大采样随机因子,使得新样本的分布范围更靠近决策边界。以上两步称之为SD-ISMOTE2算法。从UCI数据集中选取不均衡数据分类常用的数据集用于实验验证,通过实验结果可以得出,改进的算法能够获得较好的分类性能。(本文来源于《重庆大学》期刊2016-04-01)
杜娟,姜丽丽,陈红丽[2](2009)在《不均衡数据集文本分类中少数类样本生成方法研究》一文中研究指出针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。(本文来源于《计算机应用研究》期刊2009年10期)
不均衡类样本论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
不均衡类样本论文参考文献
[1].杨炀.面向不均衡数据集中少数类样本细分的过采样算法的研究[D].重庆大学.2016
[2].杜娟,姜丽丽,陈红丽.不均衡数据集文本分类中少数类样本生成方法研究[J].计算机应用研究.2009