导读:本文包含了基因微阵列数据论文开题报告文献综述及选题提纲参考文献,主要关键词:机器学习,分类器,基因微阵列,集成特征选择
基因微阵列数据论文文献综述
杨爱华[1](2019)在《集成特征选择的基因微阵列数据分类算法》一文中研究指出多分类器集成是机器学习领域的一个研究热点,基因微阵列技术是多领域综合交叉技术,在医学与生物学上有广泛的应用。但是,基因微阵列数据维度高且样本少等问题使得传统的分类器不能总是取得理想的分类效果。现提出一种基于多目标遗传算法的集成特征选择方法。首先,确定使用基于进化计算的集成特征选择方法进行微阵列数据分析;其次,实现最大化最小边缘的目标设计并不断完善适应值函数;最后,引导算法生成高差异度与精确度的基分类器。在前列腺癌数据集和乳腺癌数据集上与已有方法进行对比,实验表明,提出的方法在对基因微阵列数据进行分类判别方面性能表现良好。(本文来源于《信息记录材料》期刊2019年10期)
高信腾[2](2018)在《基于智能优化算法的基因微阵列数据分类建模与优化研究》一文中研究指出随着基因微阵列技术的发展,如何挖掘基因微阵列数据的研究价值,实现疾病致病基因的发现、基因检测、疾病早发现早治疗、探究疾病基因表达个体差异等应用,成了当下研究的热点。由于基因微阵列数据是典型的高维小样本数据集,传统的机器学习方法对维数灾难、过拟合、局部极值等困境束手无策。支持向量机(SVM)作为统计学习理论的重要成果,将结构风险最小化取代传统的经验风险最小化准则,避免了上述缺点。本文基于支持向量机的两种延伸:最小二乘支持向量机(LSSVM)和相关向量机(RVM),对统计学习理论在基因微阵列的应用展开研究并设计了两种疾病诊断模型。全文工作以及主要贡献如下:1)利用特征选择方法中filter方法与wrapper方法结合的方式选取最优特征子集。利用filter初步过滤,再利用wrapper进行特征排序,结果表明方法是有效的,每个步骤完成后的分类器都使用更少的特征维数获得更高的分类准确率。2)LSSVM将SVM中的二次规划问题转化为线性规划问题,提升了计算效率。由于LSSVM惩罚参数与RBF核宽度需要优化,本文结合了 PSO以及FOA优化方法进行参数寻优。结果分析表明,文章提出的方法在特征维数以及分类准确率上的表现优于对比文献,仅使用4个特征就达到测试集100%准确率。3)RVM是SVM的贝叶斯拓展,由于RVM的解更稀疏,所以比SVM更适合于在线检测。而RVM只需要对超参数进行优化,本文选用了结构简单的DE算法对其进行优化,为了增加种群多样性,在DE算法中利用ACO产生扰动,增加寻找到全局最优的几率。结果分析中,该方法同样优于参考文献结果的同时,最后还进一步比较了本文两种模型在多个数据集下与其他方法的比较,最终在4个数据集中各自3次达到最佳分类准确率。良好的性能表明本文研究成果具备推广性。(本文来源于《浙江大学》期刊2018-03-15)
李小鹏[3](2018)在《基于改进的svm的基因微阵列数据疾病预报》一文中研究指出DNA微阵列又称DNA芯片,是上个世纪生物领域重要的发明之一。他使同时监控成千上万个基因的表达成为了可能。随着现代生活的发展,疾病诊断成为了医学很重要的一部分。本文研究利用DNA微阵列技术来做疾病诊断预测。DNA微阵列数据集有低样本,高维度,高冗余,高噪音的特点,不能直接利用机器学习的算法进行分类。本文首先对数据集进行了预处理,然后利用gs,cho's,svm-rfe等方法进行特征提取,将基因打分,得出特征基因的排序。利用选出的基因再结合数据的特点,本文选择了使用改进的支持向量机,最小二乘向量机进行模型的训练。模型有两个重要参数,参数的选择对分类器的好坏有至关重要的影响。本文使用了遗传算法对参数优化,提高了模型的预报能力。在白血病,胶质癌,弥漫性大b淋巴癌的数据集上进行了预报测试。在白血病的数据中,取得了只用4个基因,预报准确率100%的结果,优于其他方法。本文最后还指出DNA微阵列的特征提取的现实意义,特征提取对生物学和医学的病理上的研究有一定的指导作用。(本文来源于《浙江大学》期刊2018-01-01)
石鑫[4](2016)在《基因微阵列数据分类系统的设计与实现》一文中研究指出基因决定了一切生命从出生到死亡整个生命过程的表现形式。通过基因检测与数据分析可以帮助人们知道人一生的疾病走向与潜在隐患,并引导医学向更准确的治疗方向发展。基因表达数据是通过微阵列技术得到,即DNA微阵列技术,又被成为基因芯片技术。通过基因微阵列技术,人们可以获得大量的基因表达数据。对有着生物信息的癌症基因数据进行分析与研究,将有助于疾病的预测与诊断。然而,如何对有着数据维数高、样本小、相关性大、冗余特征和噪声特征干扰性强等特点的基因微阵列数据进行快速、高效、准确的提取与分类,已经成为当前针对基因微阵列数据研究的重要课题之一。本文在阅读大量国内外相关文献,多次实验的基础上,以癌症基因微阵列数据为研究对象,开发了基因微阵列数据分类系统。本文由基因微阵列数据的特征选择、特征提取、分类等部分组成。在特征选择与特征提取部分,利用小波变换将其快速的降维,减少冗余特征数据对样本分类的影响。鉴于微阵列实验复杂性与环境等因素的影响,以及采集数据对象又存在差异,这使得相同分类器在不同数据集上,表现出不同的学习效果。文本将通过改进Borda融合算法,将多特征选择方法得到的特征排序序列,融合成一个最优的特征排序结果。同时,还研究了用粒子群优化算法对小波系数进行筛选,进而得到最优的特征子集。为了验证本文算法能够有效地实现基因数据分类,并且其系统具有一定的可行性与实用性。本文将在叁个数据集上进行实验,分别是急性白血病数据集、前列腺数据集、肺癌数据集。实验结果表明:本方法能得到较好的微阵列数据分类结果。并且将改进后的算法应用到分类系统中,不仅进一步验证了本文算法的有效性,同时验证了基因微阵列数据分类系统的合理性与可用性。(本文来源于《东北大学》期刊2016-12-01)
孟军,李锐,郝涵[5](2015)在《基于相交邻域粗糙集的基因微阵列数据分类》一文中研究指出在对基因微阵列数据的特征选择和分类的研究中,粗糙集理论是一个可以消除冗余基因的有效工具。但是传统的粗糙集模型不能很好地处理连续型数值数据,而离散化方法可能会导致信息的丢失。为此,提出了一种基于相交邻域粗糙集模型的属性约简算法,即将传统粗糙集中的距离邻域扩展为相交邻域,采用基于集合的方式来定义近似,以此构建粗糙集模型。在癌症数据集上进行实验,结果表明基于集合近似和相交邻域的粗糙集模型可以取得较好的分类效果,并且通过对选择出的基因进行GO术语分析,进一步证明了该模型的有效性。(本文来源于《计算机科学》期刊2015年06期)
王震[6](2015)在《支持向量机在基因微阵列数据处理中的应用和改进》一文中研究指出近年来随着机器学习技术的发展,同时医疗信息系统在各大医院的普及和测量仪器技术的提高使得医疗数据迅速增长。从这些的数据集中运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病研究都是非常有价值和发展前景的。基因微阵列技术能够在基因组水平上一系统全局的角度去研究生命的本质,基因表达数据通常具有维数高、样本小等特点,而支持向量机对于解决高维数据分析问题有着其特有的优势,将支持向量机应用于该种实验数据分析具有重大巨大研究意义。本文首先介绍支持向量机的最新相关应用和所取得的一些成就,并给出了支持向量机应用最广泛的几个领域的最新研究进展。然后由支持向量机和基础的机器学习算法的关系引出支持向量机的基本原理并给予了推导,接着给出了支持向量机的两种实现方法,详细说明了使用SMO算法实现的程序流程并对基因微阵列数据进行分类和回归。本文最后给出了在Spark平台下SVM算法的实现和主要代码及实验结果,实验结果表明在分布式平台下算法的运行速度和回归准确率都有较大提高特别是运行速度明显大大提高。解决了在一般计算机系统中算法运行时间长的难点,提高了一般基于支持向量机算法的研究的效率。(本文来源于《武汉科技大学》期刊2015-05-18)
季星昊[7](2015)在《基因微阵列数据预测算法研究》一文中研究指出基因微阵列数据的应用在目前的疾病预测研究中效果显着,它能帮助提高医疗效率和改善医疗效果。然而伴随着医疗领域信息化发展的不断加快,医疗行业面临到了海量数据以及非结构化数据的挑战。大量纷繁多样的数据使得预测模型难以建立,预测性能不甚理想。本文主要是针对基因微阵列数据进行分析预测,进行了如下研究:(1)本文介绍与讨论了对基因微阵列数据集中的重要属性进行字段筛选的方法。从而提取出非结构化的基因微阵列数据里面的重要属性。并选用了极限学习机算法对筛选出来的样本数据建立预测模型,找出数据中标签与特征之间的映射规则,从而利用训练得到的预测模型进行疾病预测。极限学习机(ELM)是一种速度非常快的数据挖掘算法,该算法利用最小二乘原理建立预测值与实际值之间的关系表达式,再利用广义逆原理求解满足关系式的最小范数最小二乘解即预测模型中的重要系数,建立出最终的预测模型。它的泛化能力和求解速度均优于传统的神经网络算法、决策树、支持向量机(SVM)等预测算法。(2)本文对预测模型进行优化的原因在于,在进行数据采样时,数据维度映射到高维空间后,样本数据集中的某一部分样本数据被误归入了其他分类,因此非结构化的基因微阵列数据样本中存在不同比例的异常值,所以极限学>习机(ELM)算法的泛化能力-与预测精度受到影响。本文对造成极限学习机(ELM)算法性能低下的原因做出分析得出,在进行预测模型建立的时候,训练算法将每个样本都进行了相同的处理,必然存在异常的样本数据影响预测模型的性能,为了减小错误样本数据对预测模型性能的影响,文章可提出了对样本数据的输入进行加权的解决办法,优化出两种算法,分别是加权的极限学习机(WELM)与双加权的极限学习机(BWELM)。(3)本文利用加州大学欧文分校(UCI)机器学习库所提供的4组基因微阵列疾病数据集分别对传统的极限学习机与单、双加权后的极限学习机进行了预测算法分析的实验,实验给出了在不同异常值(异常值比例从0至0.3)时各个算法的预测性能。实验结果分析指出,在存在异常值的情况下,经过加权处理后过的极限学习机算法的预测精度更高。(本文来源于《湖北大学》期刊2015-05-01)
宋创[8](2014)在《基于聚类分析和智能优化特征选择的基因微阵列数据分类》一文中研究指出基因微阵列数据中包含的遗传信息为疾病的预测诊断提供了新的方法,但是其高维度、高噪音、高冗余、小样本的特点,对传统模式识别方法提出了挑战,因此特征选择成为该领域的研究热点,亟待设计新的结合特征选择技术的模式识别方法来分析和处理这类数据。本文针对基因微阵列数据的特征选择进行了研究,提出了一种基于聚类分析和智能优化的混合特征选择方法。首先,对数据进行Filter处理,初步去掉噪声信息;其次,依据相关性测度作为相似度矩阵对基因进行AP聚类,依据一种去冗余算法对聚类结果类内去冗余,将各个类内剩余的基因组合形成基因子集;然后,通过基于粒子群优化的Wrapper特征选择方法在该基因子集空间中进行搜索,选择出优化后的特征基因,最后进行分类。在六个常用的基因微阵列数据集上进行了实验。实验对整个系统内部如何组织、相似性度量的选择及聚类结果的抽取问题进行了探讨,并与常用的方法进行了对比,结果表明了本文所提出方法的有效性。(本文来源于《西安电子科技大学》期刊2014-03-01)
闫娇[9](2014)在《面向基因微阵列数据分类的混合特征选择》一文中研究指出基因微阵列数据有着维数高、样本少、高冗余以及高噪声的特点,使得无法使用传统的模式识别方法对其进行分析。在对基因微阵列数据进行分类预测时,通常会先采用特征选择算法对数据进行去冗余和降维的处理,筛选出对分类有重要贡献的特征,从而有效降低计算复杂度并提高分类预测的准确率。本文针对基因微阵列数据的特征选择和分类进行了研究,主要工作如下:(1)设计了将Filter和Wrapper相结合的混合基因特征选择算法,其中Filter主要以F-score作为评价准则,Wrapper中则以两种不同的方式将SVM-RFE和SVM-RFA相结合,提出SVM-RFEA算法和SVM-DEA算法。由于SVM-RFE和SVM-RFA实质上都是贪心算法,都存在容易陷入局部最优的缺点。但如果将这两种算法结合起来,是可以一定程度上对各自的缺陷有所弥补的,并有效提高预测的准确率。(2)鉴于集成学习在处理高维小样本数据上的天然优势,本文将多分类器集成起来进行基因微阵列数据的分类和预测,采用不同的特征子集分别训练分类器以构造有差异的基分类器,在保证了高效性的前提下,更增加了分类器的稳定性。将所提的特征选择算法在八个公开的基因数据集上进行了实验验证,实验结果证明了其有效性。(本文来源于《西安电子科技大学》期刊2014-01-01)
王蓬[10](2013)在《基于相容粗糙集的基因微阵列数据分类研究》一文中研究指出粗糙集理论是一种分析不精确、不一致、不完备数据的有效工具。然而,等价关系约束下的经典粗糙集模型只能应对离散化形式的数据,具有很大的局限性。基于相容关系知识表示的粗糙集模型,可以方便地处理数值类型数据。面对高通量时代基因微阵列数据的处理需求,迫切需要一种可有效地解决高维度、小样本数据的分类方法。利用粗糙集理论对基因微阵列数据进行分类研究已经成为生物信息学领域的又一研究热点。从近似获取方式的不同和邻域获取方式的不同两个角度构建粗糙集模型,提出一种基于向前删除策略的属性约简算法解决基因选择问题。基于集合的方式定义概念的近似,利用相交邻域定义对象的邻域,而非采用传统方法中基于点的近似和距离邻域的获取方式。这使得对确定概念的近似更加准确,并且对象间在每一维都有很大的相似性。在8个数据集上的实验结果表明,针对不同的数据集应该选择不同的粗糙集模型来构建知识,基于集合近似及相交邻域构建的粗糙集模型可适应大多数基因微阵列数据的基因选择。通过查阅已有基因注解和统计对比进一步说明了本文方法的有效性。利用基于规则的分类器实现基因微阵列数据的分类。首先,采用等频率区间法针对上文基因选择后的数据进行离散化。然后,定义知识粒概念,通过值域相邻区间的对象合并策略构建粒的中心集和邻域集,改变以往仅仅基于中心集或邻域集约束的规则提取模式。最后,利用本文给出的规则归纳算法提取规则并构建分类器。实验结果表明,提出的基于双重验证的规则归纳算法,不仅可以提取出错误率低的规则集,而且使得构建的分类器具有更高的准确率。总之,本文成功地利用基于相容关系的粗糙集模型及相关算法解决了基因微阵列数据的分类问题。在动、植物和模拟数据上的实验分析表明,无论是从选择的基因质量还是构建的分类器分类能力来看,效果都得到了一定的提高。(本文来源于《大连理工大学》期刊2013-04-30)
基因微阵列数据论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着基因微阵列技术的发展,如何挖掘基因微阵列数据的研究价值,实现疾病致病基因的发现、基因检测、疾病早发现早治疗、探究疾病基因表达个体差异等应用,成了当下研究的热点。由于基因微阵列数据是典型的高维小样本数据集,传统的机器学习方法对维数灾难、过拟合、局部极值等困境束手无策。支持向量机(SVM)作为统计学习理论的重要成果,将结构风险最小化取代传统的经验风险最小化准则,避免了上述缺点。本文基于支持向量机的两种延伸:最小二乘支持向量机(LSSVM)和相关向量机(RVM),对统计学习理论在基因微阵列的应用展开研究并设计了两种疾病诊断模型。全文工作以及主要贡献如下:1)利用特征选择方法中filter方法与wrapper方法结合的方式选取最优特征子集。利用filter初步过滤,再利用wrapper进行特征排序,结果表明方法是有效的,每个步骤完成后的分类器都使用更少的特征维数获得更高的分类准确率。2)LSSVM将SVM中的二次规划问题转化为线性规划问题,提升了计算效率。由于LSSVM惩罚参数与RBF核宽度需要优化,本文结合了 PSO以及FOA优化方法进行参数寻优。结果分析表明,文章提出的方法在特征维数以及分类准确率上的表现优于对比文献,仅使用4个特征就达到测试集100%准确率。3)RVM是SVM的贝叶斯拓展,由于RVM的解更稀疏,所以比SVM更适合于在线检测。而RVM只需要对超参数进行优化,本文选用了结构简单的DE算法对其进行优化,为了增加种群多样性,在DE算法中利用ACO产生扰动,增加寻找到全局最优的几率。结果分析中,该方法同样优于参考文献结果的同时,最后还进一步比较了本文两种模型在多个数据集下与其他方法的比较,最终在4个数据集中各自3次达到最佳分类准确率。良好的性能表明本文研究成果具备推广性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
基因微阵列数据论文参考文献
[1].杨爱华.集成特征选择的基因微阵列数据分类算法[J].信息记录材料.2019
[2].高信腾.基于智能优化算法的基因微阵列数据分类建模与优化研究[D].浙江大学.2018
[3].李小鹏.基于改进的svm的基因微阵列数据疾病预报[D].浙江大学.2018
[4].石鑫.基因微阵列数据分类系统的设计与实现[D].东北大学.2016
[5].孟军,李锐,郝涵.基于相交邻域粗糙集的基因微阵列数据分类[J].计算机科学.2015
[6].王震.支持向量机在基因微阵列数据处理中的应用和改进[D].武汉科技大学.2015
[7].季星昊.基因微阵列数据预测算法研究[D].湖北大学.2015
[8].宋创.基于聚类分析和智能优化特征选择的基因微阵列数据分类[D].西安电子科技大学.2014
[9].闫娇.面向基因微阵列数据分类的混合特征选择[D].西安电子科技大学.2014
[10].王蓬.基于相容粗糙集的基因微阵列数据分类研究[D].大连理工大学.2013