导读:本文包含了生物特征选择论文开题报告文献综述及选题提纲参考文献,主要关键词:森林生物量估测,线性回归模型,变量选择,遥感模型
生物特征选择论文文献综述
于晓辉[1](2019)在《森林生物量遥感估测模型构建中的特征选择方法对比研究》一文中研究指出在森林生物量定量遥感领域,一个越来越突出的现象是解释变量越来越多,如何有效地选择解释变量成了一个重要的问题。线性回归模型是常用的遥感模型之一,在线性回归模型建立过程中一个非常重要的步骤是选择解释变量。本文针对亚热带森林生物量遥感估测模型构建中的变量选择、模型稳定性等问题,对SR(Stepwise Regression Method)、BIC准则(Criterions Based on The Bayes Method)、AIC准则(Criterions Based on Information Theory)、Cp准则(Criterions Based on Prediction Error)、LASSO(Least Absolute Shrinkage and Selection Operator)、ADALASSO(Adaptive Lasso)、SCAD(Smoothly Clipped Absolute Deviation)、NNG(Non-negative garrote)等8种具有变量选择能力的方法重点进行了对比研究,出于比较的目的,将OLS、RR这2个一般认为不具有变量选择能力的方法也进行了对比讨论。对比考虑了下列因素:(1)决定系数等常用指标、预测误差、模型误差等精度指标;(2)决定系数差异显着性;(3)模型参数稳定性;(4)变量选择稳定性;(5)变量选择能力。试验的方法是十折交叉检验,且重复了5次。有些评价指标分别考虑自由度和不考虑自由度进行了计算。研究结果表明:综合评价,BIC表现最好,NNG、Cp、AIC整体较差。其他方法则在各指标上的表现差异较大。SR在变量选择方面的能力较强,虽在常用指标上较差。短波红外波段及由其派生的纹理特征被各方法选中的次数最大,表明这些变量在森林生物量估测中具有重要作用。本次研究通过对比各种具有变量选择能力的方法在遥感森林生物量特征变量选择方面的表现,为亚热带森林生物量遥感特征变量的选择和估测提供了新的方法和参考。本文所用的研究方法很可能会随着研究对象的改变而改变,因此针对具体问题需要具体分析。(本文来源于《浙江农林大学》期刊2019-06-06)
郑金格[2](2019)在《基于改进蜻蜓算法的生物医学数据特征选择方法研究》一文中研究指出随着人类社会的不断进步,生命健康逐渐成为了人类生存发展的重要需求。而各种类型的疾病是影响人类生命健康的首要因素。随着基因组测序技术的日渐完善,大量有价值数据被积累下来。对这些数据的有效挖掘与分析,可有效推动临床诊断工作的进一步发展。基因表达数据通常拥有少量的数据样本,但却包含着大量的冗余信息。面对如此大规模数据,不仅医疗人员很难在短时间内对数据进行有效分析,即使通过数据分析算法对数据进行处理,过多冗余信息也容易导致算法产生过度拟合,从而误导医疗人员的诊断。特征选择方法作为数据预处理的有效方法,被广泛应用到医学数据的处理工作当中。作为一种高效的数据降维技术,特征选择在医学领域获得了广泛关注,已被成功的应用到疾病数据诊断工作当中。其中,基于Wrapper的特征选择方法因为具有更高的分类精度和灵活性成为了研究的热点内容。该方法的性能主要受到搜索算法的影响,不同的搜索算法对结果的影响也有所不同。蜻蜓算法作为一种新兴的搜索算法,已经被广泛应用到参数优化、全局寻优等问题当中。本文对蜻蜓算法的特征选择策略进行了改进,并将其应用到帕金森、肺癌、白血病等疾病数据的预测诊断工作当中,主要研究成果如下:(1)提出了一种基于改进蜻蜓算法的帕金森疾病特征选择策略。针对目前已经累积的帕金森疾病的相关数据,本文提出了一种基于改进蜻蜓算法(Improve Binary Dragonfly Algorithm,IBDA)的特征选择策略。通过该方法对帕金森数据的特征进行分析和筛选,有助于对潜在帕金森病人的快速诊断和治疗。该方法首先利用DE算法对Logical回归序列产生的初始种群进行更新,选取最佳个体作为BDA更新的初始种群,通过BDA算法的平行、聚合、分离、觅食和避敌五种行为来进一步求解。此外,在迭代过程中采取精英策略来保持种群的优良性,利用Levy飞行避免求解陷入局部最优。实验数据来自UCI上公开的帕金森数据集,并从多个指标比较了IBDA、WOA、BALO和GA等其他特征选择算法的性能,实验结果表明提出的IBDA算法在帕金森疾病特征选择上具有更好的性能。(2)提出了一种基于优化蜻蜓算法的高维疾病数据特征选择策略。高维疾病数据的冗余问题一直是医疗诊断工作中亟待解决的重要问题之一,但通过特征选择技术可有效处理该问题。本文主要针对白血病、肺癌等高危疾病进行特征选择操作,通过选取有效的疾病特征来帮助医疗人员进行早期的诊断工作。该方法主要在蜻蜓算法的基础上加入精英策略保证最优解传递的同时,又加入了模拟退火算法,有效提高了算法的收敛速度和预测精度,增强了算法的搜索性能。本次实验将该方法与一些经典的方法,如信息增益、卡方检测、Relief、GA算法和MPSO算法分别进行了大量的比较实验,实验结果表明,该方法在高维数据处理工作中具有一定的参考意义。(本文来源于《河南大学》期刊2019-06-01)
马敬敬[3](2019)在《基于智能算法的高维生物医学数据集的特征选择策略研究》一文中研究指出随着基因芯片技术在医学领域被广泛应用,大量微阵列数据被迅速积累,通过对这些数据进行分析并构建有效的分类模型,对一些潜在病患的早期诊断和临床治疗具有重要的研究意义和应用价值。然而,基因微阵列数据具有“高维小样本”的特点,如结肠微阵列数据集包含了两千多个基因特征。面对如此大规模的微阵列数据集,专家在短时间内不能直接进行分析和诊断治疗。此外,大多基因数据通常含有一些冗余或噪声数据,可能会导致疾病诊断算法的建模和训练时间过长时的过度拟合而误导,从而导致错误的医疗诊断。作为一种有效的降维方式,特征选择在生物医学领域已经引起广泛的关注并成为近年来生物信息学领域的研究热点。特征选择技术是对微阵列基因数据进行适当分析和分类的关键步骤,如果没有合适的特征选择方法,现有的模型很难准确捕获重要信息。本质上,特征选择问题可以被视为一个双目标优化问题,即在保持或提高预测精度的同时优化特征子集。目前已经存在一些针对微阵列生物医学数据的特征选择方法。其中,基于Wrapper的特征选择方法在搜索过程中旨在获得较高的分类精度而吸引了越来越多研究学者的注意。搜索策略是Wrapper方法中最重要的步骤,基于种群机制的元启发式搜索通常用于Wrapper方法寻找最佳特征子集提高分类性能。本文从提高Wrapper方法的搜索性能入手通过对不同类型的智能算法进行改进来对高维生物医学数据集进行特征选择。主要研究如下:1、提出了一种基于改进克隆花授粉的特征选择策略(IBCFPA)。克隆花授粉算法CFPA是通过Levy飞行公式和自花授粉交替来更新解。为了进一步提高CFPA的搜索性能,引入绝对平衡分组策略,将克隆花授粉算法搜索出的当前最优解进行克隆操作形成新的种群并分组,首先进行组内的局部更新,再进行组间的全局更新。通过自适应高斯突变操作来改善当前最优解,设置一个监管机制来判断搜索到的最优解是否陷入局部最优。实验结果表明,与其他智能算法相比,该方法IBCFPA可以高效选出最佳的特征基因获得更高的分类精确度。2、提出了一种基于改进珊瑚礁优化算法的特征选择策略(BCROSAT)。珊瑚礁优化算法CRO是通过模拟珊瑚礁幼虫的繁殖和进化过程更新个体的群体智能算法。在初始化过程将每个珊瑚幼虫模拟成一个二维向量,构建珊瑚初始种群。通过锦标赛选择策略从所有珊瑚虫中按一定的概率选择一个解来替换初始种群中最差解,不仅增强初始化种群的多样性,而且提高了初始解的质量。为了增强CRO算法的局部搜索能力,将模拟退火算法SA作为CRO算法的局部搜索算子。实验结果表明,BCROSAT算法的搜索性能优于IGA和MPSO等。为了验证BCROSAT算法的性能,使用不同的分类算法KNN,SVM和ELM结合10-折交叉验证来评估该算法的分类精确度。3、提出了基于增强的Wrapper模式的特征选择策略。鉴于Filter方法能够高效地对高维数据进行过滤,提出结合Filter和Wrapper模式的特征选择策略以提高分类的性能。在对基于花授粉算法和珊瑚礁算法的特征选择研究基础上,进一步结合卡方检测,分别提出了基于卡方和花授粉的特征选择策略Chi-IBCFPA和基于卡方和珊瑚礁的特征选择策略Chi-BCROSAT。在初始化过程构建双种群初始化策略,将一部分初始种群个体通过卡方检测来进行预处理,另一部分种群个体通过随机初始化设置。实验结果表明,提出的结合算法Chi-IBCFPA和Chi-BCROSAT的性能明显优于近年来提出混合模式IGGA和IG-PSO,结合后的Wrapper算法能够更高效的搜索出最佳特征子集达到较优的分类性能。(本文来源于《河南大学》期刊2019-06-01)
徐开琨,韩明飞,黄传玺,常乘,朱云平[4](2019)在《基于质谱的蛋白质生物标志物发现中的特征选择与机器学习方法研究进展》一文中研究指出随着质谱技术的进步以及生物信息学与统计学算法的发展,以疾病研究为主要目的之一的人类蛋白质组计划正快速推进。蛋白质生物标志物在疾病早期诊断和临床治疗等方面有着非常重要的意义,其发现策略和方法的研究已成为一个重要的热点领域。特征选择与机器学习对于解决蛋白质组数据"高维度"及"稀疏性"问题有较好的效果,因而逐渐被广泛地应用于发现蛋白质生物标志物的研究中。文中主要阐述蛋白质生物标志物的发现策略以及其中特征选择与机器学习方法的原理、应用实例和适用范围,并讨论深度学习方法在本领域的应用前景及局限性,以期为相关研究提供参考。(本文来源于《生物工程学报》期刊2019年09期)
李飞[5](2019)在《基于层次聚类的生物数据特征选择算法的研究与实现》一文中研究指出随着医疗技术,计算机技术以及高通量数据存储技术的飞速发展,生物医疗数据每年都会大量的产生,在疾病研究领域内,如何从海量的疾病数据中找到有价值的信息一直都是数据挖掘和机器学习领域内的热点研究问题。随着微芯片技术的成熟,人们可以方便的提取到生物样本中所有基因的表达量,即基因表达谱数据,基因表达谱数据中蕴含着大量的基因相关信息,如果能从中找到与所研究疾病有重要联系的生物标志物,不仅能促进相关疾病研究的发展,并且有可能为相关疾病的诊治提供新的思路。而这些生物标志物,往往在疾病样本和对照组样本中存在差异表达,通过结合数据挖掘和机器学习中的学习器,学习样本特征,并进行预测分析,是寻找这些有生物医学价值的生物标志物的一种有效且重要的途径。人体有成千上万个基因,从系统生物学的角度来看,表达模式相似的基因,功能也相似,这些功能相似的基因一起协同工作,构成了一个基因功能子系统,并且在功能子系统中,少数基因起关键调控作用,大部分基因起协助作用。这些起关键调控作用的基因是具有重要研究价值的生物标志物中的一种,但是怎么有效的使用机器学习和数据挖掘的技术去挖掘出这些在疾病病理过程中起关键作用的基因仍然是一个挑战。另一方面,基因表达谱数据中有些特定疾病类别的样本收集起来可能比较困难,这很容易造成类别不均衡问题;而且基因表达谱数据的样本数往往远小于基因数,这将导致“小n大p”问题。这些因素,导致在应用机器学习分类器时,分类器的性能遇到了较大的干扰。相较于类别均衡的数据,类别不均衡的数据想要学习出性能好的分类器更加困难。如果在特征不加以筛选降维的情况下而直接用于模型训练,不仅会导致模型复杂度过高,性能低下,而且还会导致过拟合问题。而特征选择技术则是这些问题的一种重要解决途径之一。特征选择算法可以对特征集合中的特征进行甄别,过滤掉无用特征和冗余特征,在降低特征维度的同时,提升预测模型的性能。针对以上这些问题,本文提出了一种结合了系统生物学的观点,使用层次聚类将表达模式相近的基因归类,并通过动态剪枝挑选出合适的簇,依据与类别的相关性排名来挑选初始特征子集,能极大的降低特征维度,同时针对初始特征子集进行同簇特征替换,递归特征消除,在内嵌分类器的协助下能筛选出性能相对不错的特征子集。实验结果显示,该算法能使用较少的特征达到相对不错的分类性能,并且通过与同类算法对比发现,该算法有相对不错的稳定性。该算法在银屑病上获取的特征中,一部分特征被已有文献证实与银屑病有紧密的联系,而另外一些暂时没有相关文献证实的特征,很可能对相关医学研究具有重要的参考价值。(本文来源于《吉林大学》期刊2019-05-01)
杨峻山[6](2017)在《生物组学数据的集成特征选择研究》一文中研究指出高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从生物组学数据中发现和提炼与疾病相关的信息一直是生物信息学领域的热点问题。通过模式识别中的特征选择和分类技术,对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类是分析生物组学数据的常用方法。生物组学数据具有的高维小样本、多类间样本分布不平衡等多种特征和样本统计分布特性,对特征选择算法在分类泛化性和稳定性等方面的表现提出巨大挑战,为了精确和稳定地提取与分类目标高度相关的特征子集,需要我们深入地研究和设计针对生物组学数据特征选择问题的新方法。本文针对生物组学数据的不同特性,提出了一系列集成特征选择算法,主要工作概括如下:1.在研究多种特征相关性度量的基础上,提出一种基于多种相关性度量的集成最大相关最小冗余(maximum Relevance and Minimum Redundancy,mRMR)特征选择算法。我们分析了最大信息系数、皮尔逊相关系数和互信息量在特征相关性度量方面的差异,并对前向搜索算法进行改进,增加可以设置所选择特征个数和搜索范围的机制,基于3种特征相关性度量和改进的搜索算法获得叁组最优特征子集并进行集成分类学习。对不同类型的多组生物组学数据集的分类对比实验结果表明,集成m RMR特征选择算法能够针对各种类型的生物组学数据有效地选择最优特征子集,并有助于分类算法获得良好的识别性能。2.针对生物组学数据普遍存在多个最优或次优特征子集的情况,提出基于小生境二进制粒子群优化的集成特征选择算法。基于单一特征子集构建的分类模型在小样本生物组学数据上容易产生过拟合而影响分类泛化性能。为了尽量避免该问题,本文通过小生境二进制粒子群优化算法作为特征子集搜索算法,获得多个差异度最大且分类性能最优的特征子集并进行集成分类学习,由投票技术所集成的强分类器体现出优良的稳定性和泛化性。3.为了克服生物组学数据类间样本不平衡特性对特征选择和分类过程的影响,本文提出一种迭代式集成特征选择算法。该算法利用2种样本平衡预处理方法和3种过滤式生物组学数据特征选择算法,通过样本平衡和特征选择不断迭代的方式,使特征选择在一个趋于平衡的样本分布中迭代完成。对多组具有类间样本不平衡特性的生物组学数据进行分类实验,结果表明,由于克服了样本不平衡特性对特征选择的影响,所设计的迭代集成特征选择算法可以进一步提高分类性能。4.针对迭代集成特征选择所具有的局限性,本文提出一种基于粒子群优化的集成特征和模型选择算法。该算法将候选样本平衡模型、特征选择模型和分类模型的选择以及相应模型的超参数编码到粒子中。通过粒子种群的优化,自适应搜索具有最优分类性能的模型组合以及对应模型的超参数设置。实验结果表明,基于粒子群优化的集成特征和模型选择算法能够根据不同生物组学数据的样本和特征分布特性,自适应选择样本平衡模型和特征选择模型的最优组合,避免人为选择和设置模型所引入的主观偏差。本文所提出的一系列集成特征选择算法有助于解决生物组学数据复杂的样本和特征分布特性对特征选择和分类所造成的困难,所使用的集成特征选择思路可为后续相关生物组学数据分析提供借鉴。(本文来源于《深圳大学》期刊2017-06-30)
陈友兵[7](2017)在《基于mRMR结合SVM-forward特征选择的蛋白质界面上热点残基预测及其生物上的应用》一文中研究指出近几年生命科学的研究方向随着基因工程的工作步入尾声之后开始逐渐转向基因的功能,又因为基因的功能在细胞水平上所呈现的全部生命活动都是通过蛋白质之间相互作用方式直接或间接地实现,例如:DNA复制、信号传导、调节机制、DNA转录和基因翻译等活体细胞各个水平上的必不可少活动,所以在后基因组时代中蛋白质之间的相互作用已然成为关键研究方向之一。大量研究证明在蛋白质相互作用网络中只有极少数残基在它形成过程中释放出比较多能量,对于其他大部分残基而言,那些少量残基是在蛋白质结合过程中所产生自由能的主要提供者,后来研究人员将这些主要贡献的残基定义为热点残基(Hot Spots)。热点残基其实是位于蛋白质结合界面上的一小簇残基团,它们是以聚集形式分布在蛋白质界面上,并不是以均匀方式存在。热点残基虽然占据的蛋白表面面积非常小,但是它们在蛋白质-蛋白质的自由结合中充当非常重要的角色。热点残基深刻地影响着蛋白质功能的发挥并且对维护蛋白质结合界面的稳定性有着十分关键的作用。虽然目前通过生物实验技术可以发现蛋白质-蛋白质结合界面上的热点残基,但是这个方法复杂,并且由于昂贵和耗时等原因而不能被广泛的应用。所以很多研究者尝试使用其它预测的方法比如基于计算预测,其中主要包括基于经验公式和机器学习进行热点残基预测,这些方法虽然取得一些成果,依然存在很大提升空间。本文采用机器学习方法进行热点残基的预测,我们从氨基酸理化、蛋白质序列、结构和蛋白质的相互作用等方面上提取了 143个特征,之后,我们采用最小冗余特征选择算法结合前向支持向量机算法从中筛选出41个特征,并且利用随机森林算法构建模型,和其他文章方法相比之下,本文在独立测试集上的预测指标F1和MCC分别达到了 0.625和0.518。我们称这种方法为HPcms。并且经过特征筛选后,本文的新特征依然是预测结果的重要特征。最后,本文将很多热点残基预测工具集成并进行生物上的应用:预测抗体-抗原(抗原是蛋白质情况下)结合中表位上的热点残基,之后使用开源软件RosettaMultigraft模块以计算机模拟方式对我们实验室的蛋白质结构3ztn.pdb上两段表位移植到其他蛋白质支架上,经过计算机层面上的筛选后,进行生物实验。通过生物实验对比和结果上分析,本文提出的集成热点残基预测方法对于抗体-抗原上表位上的热点残基预测和表位移植发挥重要作用。(本文来源于《厦门大学》期刊2017-06-30)
单光宇[8](2017)在《基于TCGA和PubMed数据库的高维生物医学数据的数据挖掘和特征选择研究》一文中研究指出随着生命科学领域技术的飞速发展,尤其是测序技术的发展,使得生物医学数据呈现出急剧膨胀的态势。生物医学数据不但数据量巨大,而且具有高维度的特点,特征数量远大于观测量(样本量)的情况非常普遍。因此,这些数据的出现不仅为研究人员带来了新的机遇,更带来了新的挑战。如何挖掘出海量数据的关系链成为了研究工作的重点所在。特征选择指的是从原始数据中选择出一个子集代表原始数据的特征,精心设计的特征选择方法使得这些特征能够用于后续的数据挖掘工作。毫不夸张地说,特征选择之于数据挖掘便如同黄沙取金,几乎任何一个完整的数据挖掘工作都避不开这个步骤。所以,本文以特征选择技术作为突破点,以两个重要生物医学问题作为载体,对高维生物医学数据相关的生物信息学研究方法进行了探索。通过本研究,我们将从多个层面提出不同的特征提取策略,并进一步研究这些策略在实际生物医学问题中的表征效果与预测能力。本文中发展的特征选择方法和结果能够为高维生物医学数据的处理与分析提供重要参考。特征选择主要出现在机器学习和统计学领域,指的是从大量变量中筛选出密切相关变量用于模型构建。特征选择有叁个主要优势:简化模型使之更加易于理解、缩短模型训练时间以及通过减少过拟合来增加模型泛化能力。在实际的研究问题中,变量集合中的大部分变量相对研究问题是属于冗余信息,删除它们并不会导致信息量的丢失。所以,对于处理海量高维生物医学数据,特征选择便是不可缺少的一步。正如14世纪的哲学家Willian所提出的“奥卡姆剃刀”定律:如无必要,勿增实体。可以说,特征筛选,简化模型乃是海量数据处理的灵魂所在。因此,特征选择对于海量生物医学数据的处理是极为关键的一步,也是本文的出发点所在。目前来说,特征选择主要有两类方法,一类是利用数据本身的拓扑结构、统计学信号进行筛选,而另一类则是引入外部知识,例如一些特定领域的背景知识。本文使用TCGA (The Cancer Genome Atlas)数据库中的数据综合尝试了这两种方法,用于预测肿瘤预后表现的研究。首先,在利用数据本身拓扑结构方面,我们重点关注肝细胞癌的基因和微小RNA诊断标志物的筛选和发现。在一个网络中,度相对较高的节点称为“集线器(Hub)”,我们在结合生存分析技术并研究预后生存率相关分子的拓扑特性后发现,这些Hub节点中与肝癌预后生存相关的基因更为富集,表明复杂分子网络中的这些Hub节点更倾向作为判断肝癌预后表现的潜在特征,即分子标志物。其次,在引入领域内知识方面,我们重点关注多种肿瘤化疗干预后药物反应的预测。肿瘤化疗失败的主要原因常常是由于机体内发生肿瘤多药耐受(Multiple Drug Resistance, MDR)。耐药性是一个相对复杂的过程,通常是由于过度表达耐药基因编码的相关蛋白,通过能量依赖性洗脱泵的作用将化疗药物泵出胞外,从而减弱化疗药物在细胞内的聚集作用,导致了机体的耐药发生。为此,我们以基因突变为暴露因素,肿瘤耐药为暴露结果,利用相对风险率(Relative Risk, RR)和统计显着性P-value联合筛选,得到八种肿瘤的耐药相关的突变基因作为预后预测模型的特征集。利用该特征集,我们分别使用叁种机器学习方法对八类肿瘤样本的耐药性进行预测,表现良好。尤其是在头颈鳞癌(Head and Neck Squamous Cell Carcinoma,HNSC)中 ROC 曲线下面积(Area Under the Curve,AUC)能够达到0.980,表明能够经过领域内知识进行特征筛选后的模型可以很好地区分药物干预以后发生耐药的患者和药物敏感的患者,为帮助患者选择合适的治疗方式提供重要参考。除药物干预之外,越来越多的研究表明,通过饮食干预也是调节人体健康的重要手段,因此,除研究肿瘤治疗预后之外,我们还尝试基于PubMed数据库的海量文本数据对潜在的对人体健康有益的碳水化合物(又称为益生元)进行预测。我们从PubMed数据库中下载15例已知益生元的所有研究文献,并对其进行特征抽取,用该特征集对待预测碳水化合物进行建模分析,计算出潜在的益生元名称列表,这个挖掘方法不仅能够为其他数据挖掘学者提供参考,预测出的潜在益生元亦可为研究益生元的学者们提供一个重要参考清单。随着生物医学领域大数据大幕的拉开,数据挖掘显得愈发重要。数据挖掘方法有助于从系统水平理解生命,是研究生命科学的重要方法,特征选择则是数据挖掘的灵魂。在此基础上,我们将在以后的研究中考虑整合文本数据、生物表达数据进行模拟和分析,为最终改善人类的健康做一些有意义的尝试。(本文来源于《中国人民解放军军事医学科学院》期刊2017-06-05)
杨峻山,周家锐,朱泽轩,纪震[9](2016)在《带约束小生境二进制粒子群优化的生物组学数据集成特征选择》一文中研究指出针对生物组学数据高维小样本的特点而引起的分类误差较大的问题,提出了一种带约束小生境二进制粒子群优化的集成特征选择方法。该方法利用二进制粒子群优化算法搜索分类准确率最高的特征子集,通过约束粒子编码的置位个数以限制选择特征个数,并加入多模优化中的小生境技术使算法能够一次获得多个差异度较大的特征子集,最后采用集成学习技术将基于多特征子集建立的基分类器集成为强分类器并对数据进行分类学习。实验结果表明,该特征选择方法在生物组学数据上能够稳定选择较少特征并获得较好分类性能。(本文来源于《信号处理》期刊2016年07期)
刘笑笑[10](2016)在《基于RF-RFE算法的森林生物量遥感特征选择方法研究》一文中研究指出森林生物量的估算对于全球碳平衡和环境保护至关重要。通过遥感等手段提取与森林生物量相关的单波段特征、植被指数、纹理特征、地形因子等特征参数,特征数量往往较多,影响预测精度。通过特征选择,可以有效的较少遥感估测森林生物量过程中的特征冗余,在一定程度上较少了误差的传递,为遥感反演提供一定的借鉴意义。本文提出了一种后向迭代的随机森林(RF-RFE)特征选择方法,即利用随机森林算法计算特征重要度,采用后向迭代的方法逐步简化特征参数。本文以内蒙古大兴安岭地区的激流河林场为研究区域,以实验区2012年资源叁号遥感影像和森林资源叁类调查的样地数据为数据源,对数据进行预处理后,实现了森林类型的识别,然后使用RF-RFE算法分别对未分类和分类后的数据进行特征选择分析,与逐步回归分析、支持向量机等常见模型进行对比分析和精度评估。主要研究内容及结果如下:(1)内蒙古大兴安岭激流河林场样地生物量的计算利用2012年12月的大兴安岭叁类调查数据中的林种,树种组成,公顷蓄积,小班面积等数据,通过查阅相关文献使用生物量转换因子连续函数法计算,最终获取87样地的生物量真实值。(2)结合纹理特征的森林类型识别结合纹理特征利用支持向量机的监督分类的方法,完成森林的识别,最终结果是落叶松、白桦和混合林的占比分别为9.78%、28.66%和32.16%。(3)基于RF-RFE算法的遥感生物量特征选择对大兴安岭叁类调查数据中的87个样地生物量数据和经过处理的资源叁号遥感影像进行分析,采用RF-RFE算法对激流河林场87个样地的49个特征进行特征选择,根据R2和RMSE的大小最终选择分类后的特征选择结果。未分类时,特征选择之后剩余特征数为10,分类后,样地是落叶松、白桦和混合林的结果分别是6、5、7。(4)模型对比分析采用逐步回归模型和支持向量机等模型分别对研究区的森林生物量遥感特征进行特征选择,并与本文中提出的算法进行对比分析,结果表明,本文提出的算法更有效,通用性更好。(本文来源于《山东农业大学》期刊2016-05-25)
生物特征选择论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着人类社会的不断进步,生命健康逐渐成为了人类生存发展的重要需求。而各种类型的疾病是影响人类生命健康的首要因素。随着基因组测序技术的日渐完善,大量有价值数据被积累下来。对这些数据的有效挖掘与分析,可有效推动临床诊断工作的进一步发展。基因表达数据通常拥有少量的数据样本,但却包含着大量的冗余信息。面对如此大规模数据,不仅医疗人员很难在短时间内对数据进行有效分析,即使通过数据分析算法对数据进行处理,过多冗余信息也容易导致算法产生过度拟合,从而误导医疗人员的诊断。特征选择方法作为数据预处理的有效方法,被广泛应用到医学数据的处理工作当中。作为一种高效的数据降维技术,特征选择在医学领域获得了广泛关注,已被成功的应用到疾病数据诊断工作当中。其中,基于Wrapper的特征选择方法因为具有更高的分类精度和灵活性成为了研究的热点内容。该方法的性能主要受到搜索算法的影响,不同的搜索算法对结果的影响也有所不同。蜻蜓算法作为一种新兴的搜索算法,已经被广泛应用到参数优化、全局寻优等问题当中。本文对蜻蜓算法的特征选择策略进行了改进,并将其应用到帕金森、肺癌、白血病等疾病数据的预测诊断工作当中,主要研究成果如下:(1)提出了一种基于改进蜻蜓算法的帕金森疾病特征选择策略。针对目前已经累积的帕金森疾病的相关数据,本文提出了一种基于改进蜻蜓算法(Improve Binary Dragonfly Algorithm,IBDA)的特征选择策略。通过该方法对帕金森数据的特征进行分析和筛选,有助于对潜在帕金森病人的快速诊断和治疗。该方法首先利用DE算法对Logical回归序列产生的初始种群进行更新,选取最佳个体作为BDA更新的初始种群,通过BDA算法的平行、聚合、分离、觅食和避敌五种行为来进一步求解。此外,在迭代过程中采取精英策略来保持种群的优良性,利用Levy飞行避免求解陷入局部最优。实验数据来自UCI上公开的帕金森数据集,并从多个指标比较了IBDA、WOA、BALO和GA等其他特征选择算法的性能,实验结果表明提出的IBDA算法在帕金森疾病特征选择上具有更好的性能。(2)提出了一种基于优化蜻蜓算法的高维疾病数据特征选择策略。高维疾病数据的冗余问题一直是医疗诊断工作中亟待解决的重要问题之一,但通过特征选择技术可有效处理该问题。本文主要针对白血病、肺癌等高危疾病进行特征选择操作,通过选取有效的疾病特征来帮助医疗人员进行早期的诊断工作。该方法主要在蜻蜓算法的基础上加入精英策略保证最优解传递的同时,又加入了模拟退火算法,有效提高了算法的收敛速度和预测精度,增强了算法的搜索性能。本次实验将该方法与一些经典的方法,如信息增益、卡方检测、Relief、GA算法和MPSO算法分别进行了大量的比较实验,实验结果表明,该方法在高维数据处理工作中具有一定的参考意义。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
生物特征选择论文参考文献
[1].于晓辉.森林生物量遥感估测模型构建中的特征选择方法对比研究[D].浙江农林大学.2019
[2].郑金格.基于改进蜻蜓算法的生物医学数据特征选择方法研究[D].河南大学.2019
[3].马敬敬.基于智能算法的高维生物医学数据集的特征选择策略研究[D].河南大学.2019
[4].徐开琨,韩明飞,黄传玺,常乘,朱云平.基于质谱的蛋白质生物标志物发现中的特征选择与机器学习方法研究进展[J].生物工程学报.2019
[5].李飞.基于层次聚类的生物数据特征选择算法的研究与实现[D].吉林大学.2019
[6].杨峻山.生物组学数据的集成特征选择研究[D].深圳大学.2017
[7].陈友兵.基于mRMR结合SVM-forward特征选择的蛋白质界面上热点残基预测及其生物上的应用[D].厦门大学.2017
[8].单光宇.基于TCGA和PubMed数据库的高维生物医学数据的数据挖掘和特征选择研究[D].中国人民解放军军事医学科学院.2017
[9].杨峻山,周家锐,朱泽轩,纪震.带约束小生境二进制粒子群优化的生物组学数据集成特征选择[J].信号处理.2016
[10].刘笑笑.基于RF-RFE算法的森林生物量遥感特征选择方法研究[D].山东农业大学.2016