基因聚类算法论文-丁一

基因聚类算法论文-丁一

导读:本文包含了基因聚类算法论文开题报告文献综述及选题提纲参考文献,主要关键词:微阵列,基因聚类,粒子对算法,和声算法

基因聚类算法论文文献综述

丁一[1](2016)在《粒子对与和声搜索混合算法在基因聚类的应用研究》一文中研究指出随着生命科学研究的不断深入,人类对于生命起源,物种进化等领域的探索受到越来越多学者的关注。面对繁绪复杂的数据分析,统计和运算,使得集成生物科学,数学计算,计算机科学,化学分析研究等领域于一体的生物信息学应运而生。这也标志着人类基因组计划已步入后基因组时代。在后基因组时代,关于基因组研究的重点也由基因组测序转变为:确定生物体中每条基因在生命过程中所起到的功能,以及不同基因之间相互协调和相互引导的关系上。由于研究重点的转变,传统的实验技术和实验方法对于海量基因组序列数据的处理显得越来越乏力。随着人工智能的迅猛发展和生命科学的兴旺,人们迫切需要寻求更为高效便捷的基因表达处理方法。而要揭示生命科学的本源,就要对海量基因组进行精确测序和统计分析,微阵列技术在这种研究背景下应运而生。微阵列(microarray)技术,常被称为芯片技术,是由“人类基因组计划”的发展而兴起的一项新技术,广泛应用于基因序列分析、基因突变检测和多态性分析以及疾病的基因诊断等诸多领域。聚类分析是微阵列数据分析中广泛使用的方法之一,具有较高的研究价值。原有的聚类算法虽然顺利的攻克了低维,数据量小的聚类难关。但由于规模和交互程度的不断扩张,以及分析探索的不断深入,现有的算法通常不能取得理想的聚类效果,也很难满足人们对于数据分析效率和准确性的要求。随着人们对算法效率的要求不断攀升,群智能算法的兴起(如遗传算法、粒子群优化算法(PSO)、粒子对算法、免疫算法、人工蜂群算法等)为数据分析提供了新方向。群智能算法具有模拟生物群体进化学习的特性,在解决复杂优化问题方面显示出了其独有的优势,已在社会科学、自然科学、经济管理学、医学、生物学、计算机等众多领域得到了成功的应用。基因表达数据聚类算法的研究还处在不断研究和探索中,作为目前比较新颖的基因聚类算法——粒子对算法(PPO),具有群体规模小,便于协调粒子之间的位置关系,能获得较好的聚类效果等优势,是目前广泛使用且效果较好的基因聚类算法之一。但同样PPO算法也存在着过早陷入局部最优、全局搜索能力不强等缺点,针对PPO算法的这些不足,本文建议了一种新的基于PPO优化算法与和声算法(HS)的混合算法(DPPO-HS)。在算法初代形成精英粒子对的迭代过程中,引入PSO算法对其中一个精英粒子进行一次快速初始化,而另外一个精英粒子则沿用标准PPO聚类算法进行初始化,通过将两个不同初始化的粒子组成精英粒子对,增强了精英粒子对间的交流学习能力,在一定程度上改善了精英粒子对的解质量和搜优能力。混合算法在获得精英粒子对后,针对PPO算法易陷入局部最优解的不足,在第二阶段的迭代过程中,尝试引入以信息熵动态调整HS算法微调概率的和声优化算法,提高混合算法的全局搜索能力和跳出局部最优区域的能力。在此思路的基础上,通过四组不同的国际通用标准基因表达数据集,以MSE均方差函数,D1类内紧致度,D2类间分离度为检测指标,将本文的混合算法DPPO-HS与当前较为流行K-Means算法,标准PPO粒子对聚类算法,DPPO算法,以及聚类效果较好的PPO-DE混合算法做了详尽的实验对比分析,将五种算法通过四组不同数据集的叁项检测指标,进行了较为详尽的对比试验。实验结果表明,本文的混合算法DPPO-HS与其他四种对比算法相比,取得了较好的聚类精度、类内紧致度和类间分离度,证明本文提出的混合算法是有效的。(本文来源于《广西师范大学》期刊2016-05-01)

李樟[2](2015)在《基于CUDA的元胞粒子对和萤火虫算法的基因聚类算法研究》一文中研究指出随着生命科学研究的不断深入,生物信息学所涉及的研究范畴也在不断地扩展。微阵列(microarray)技术作为生物信息学中极具发展前景的技术之一,得到了学者们的关注和普及,该技术能同时检测成千上万个基因的表达水平,从而产生了大量蕴含基因信息的基因表达数据。如何高效分析海量的基因数据,从中获得对人类有意义的信息是现今生物信息学亟待解决的热点问题,其中聚类分析则是微阵列数据分析中应用最为广泛的方法,具有较高的研究价值。在微阵列数据基因聚类分析上,现代智能仿生算法日益受到关注。粒子群优化算法、遗传算法等都已成功地应用于基因聚类中,并获得了不错的聚类效果。近年来的研究表明,采用单一算法已很难获得较好的聚类结果,于是众多学者开始从各方面入手研究各类算法的改进,并取得了显着的成果。其中,混合算法由于结合了多种算法的优势,因而可能克服单一算法的局限性以及各自的缺点。许多近期发展起来的混合算法在基因表达聚类分析中也取得了较满意的效果。随着微阵列技术的迅猛发展,数据规模越来越大,计算强度和复杂度已经远远超过个人计算机所能处理的范围。一种已经出现且迅速崛起的高性能计算技术CUDA(统一计算架构),打破了传统GPU上仅适应图形语言的局限,使得应用个人PC机执行高性能并行计算成为现实,为推进和普及包括大规模数据处理和密集型计算在内的科学研究与应用开辟了新的途经。基因表达数据聚类算法尚处在不断研究和探索之中,作为比较新颖的基因聚类算法——粒子对算法(PPO),具有群体规模小,便于协调粒子之间的位置关系,能获得较好的聚类效果等优势,是目前较为广泛使用的基因聚类算法。然而,PPO算法中由于粒子的交流较少,也存在容易过早陷入局部最优、全局搜索能力不强等缺点。合理地利用元胞自动机(CA)中的元胞规则,可以让邻域元胞间具有较强的交流传播能力,如果通过科学、合理地设计,使PPO和CA算法相互融合,并协同完成进化过程,则可充分地利用CA的优势来改进PPO过早陷入局部最优而导致精度不高的缺点。此外,萤火虫算法(FA)在位置更新的过程中使用了扰动因子,在避免过早陷入局部最优上有其自身的优势,同时其在解决复杂优化问题的效率上也是目前比较好的算法之一。鉴于此,本文建议了一种新的基于元胞粒子对(PPO(CA))和萤火虫算法(FA)的混合算法(PPO(CA)-FA)。该算法在PPO算法的第一阶段迭代过程中引入元胞自动机,利用相应元胞规则来更新粒子的个体历史最优适应值和历史最优位置,同时元胞自动机强大的邻域交流能力克服了PPO算法易于陷入局部最优的缺点。元胞自动机的加入,需要适当的增加算法中粒子的数量,这样既提高了粒子全局最优值在种群中的传播速度,也使得新混合算法能对邻域进行充分搜索的同时获得较好的精度。在PPO(CA)的基础上,为更好地避免陷入局部最优,若在第二阶段的迭代过程中连续多次解的最小误差在指定范围时,则引入FA算法,充分利用萤火虫算法可以高效的搜索解空间的优点,获得更有效的基因聚类结果。为了验证混合算法的有效性,将PPO(CA)、PPO(CA)-FA与PPO算法进行比较。将该四种算法运行在四组常用标准数据集CellCycle_384、 histone.pcl、6400和i2282.pc1上,实验结果显示,PPO(CA)-FA能获得更好的聚类精准度和聚类效果,在均方差、类内紧致度和类间分离度方面都有改进。为了验证CA融入的效应,将PPO(CA)与只扩大了种群没有加入CA的混合算法(PPO(noCA))进行比较,实验结果说明CA的加入增加了混合算法在均方差上稳定性,改善了聚类效果以及PPO算法易于陷入局部最优的缺点。而PPO(CA)与FA的融合,使得混合算法PPO(CA)的全局搜索能力增强,让算法结果更加靠近最优聚类结果。PPO(CA)-FA算法在处理高通量、大密度数据的等问题时,存在计算时间过长、效率低的缺点。为了将算法更好的应用于实际,本文在CUDA架构下设计并实现了一种并行的PPO(CA)-FA算法,且对并行算法进行了优化,提高了混合算法的运行效率,同时保证了算法的准确率。根据并行层次的不同,本文提出了两种优化方案。在5种数据集上的实验结果表明,并行优化后的混合算法在实验数据集中取得比较可观的性能加速,优化方案二在标准数据集histone.pcl上获得的加速比最高达16.9。与近几年出现的并行算法比较结果显示,除去算法在不同硬件环境下的影响,在相近的数据规模下,使用方案二并行优化后的PPO(CA)-FA的加速效果最优。(本文来源于《广西师范大学》期刊2015-05-01)

周文刚,赵宇,王峰,朱海[3](2014)在《具有完全学习策略的量子行为粒子群癌症基因聚类算法》一文中研究指出为提高癌症基因表达数据聚类的准确性和效率,对具有完全学习策略的量子行为粒子群优化(CLQPSO)算法和广义回归神经网络(GRNN)进行了研究,实现了一种CLQPSO癌症基因聚类算法.GRNN能充分利用多条相似基因隐含的规律,对基因表达缺失值的预测有较高的可信度;CLQPSO算法在迭代更新时能充分利用各粒子当前最佳位置和粒子群所提供的社会合作信息,避免过早收敛于局部最优解.实验结果表明,综合使用GRNN和CLQPSO算法对癌症基因表达数据进行聚类,比K-Means、谱聚类、离散粒子群算法具有更好的聚类性能和全局收敛性.(本文来源于《北京邮电大学学报》期刊2014年04期)

禤世丽[4](2012)在《基于粒子对和差分进化的基因聚类混合算法研究》一文中研究指出生物信息学是一门新兴的交叉学科,随着各种基因组计划的完成,生物信息学迅速发展,因此产生了大量的生物信息数据。数据库以及信息的增加,使得理解它们已经远远超出了人们的能力范围,导致收集在数据库中的数据信息变成了“数据坟墓”,但是猛增的数据背后隐藏着大量重要有价值的信息,如何从海量数据中挖掘出有用的信息已成为生物信息学迫切需要解决的问题。随着过去几年基因芯片技术的快速发展,使得同时操控成千上万基因的表达成为了可能。在这种情况下,产生了大量的基因芯片数据(基因表达数据)。从基因表达数据中找出具有相似表达的基因对人们的生活和研究都具有极为重要的意义。目前,聚类分析方法是对基因表达数据进行研究和处理的主要技术之一。通过对基因表达数据进行聚类分析,人们能够将表达模式相近或相同的基因归纳成一类,有助于对基因的表达功能、基因调控、细胞过程、细胞亚型等进行综合的研究,在补充未知基因生物学功能注释、临床诊断治疗等方面具有现实的意义。因此,已有大量国内外学者陆续提出了应用到基因表达数据聚类分析中的各种聚类算法。在早期基因表达数据聚类分析中最常用的方法是K-means聚类、分层聚类和自组织映射(self-organzing map, SOM)神经网络等。其中K-means聚类简单快速,但待聚类数目、初始聚类中心的选择、基因排列顺序以及基因表达谱数据的分布都会影响聚类结果。分层聚类容易实现,所得结果可以直接地观察基因之间的相互关系,但是分层聚类结果的后续分析复杂,并且聚类过程的合并选择带有主观性,计算量大,效率较低,而自组织映射能够自动提取样本数据的信息,是一种全局决策方法,但需人为设定聚类数目与学习参数,学习时间较长。由于这些聚类算法都各有优点和不足,面对指数增长的基因表达数据分析问题,人们迫切需要探寻高效和准确的聚类分析方法。而基于自然界生物特征开发出的计算智能方法已成为数据分析技术的新热点,将计算智能技术应用于生物基因数据聚类分析将为生物信息领域开辟新道路,鉴于目前基因表达数据聚类分析的缺点,2006年纪震等提出了基于标准粒子群算法(PSO)的粒子对算法(Particle-Pair Optimization,简称PPO),该算法在一些基因表达数据集中获得了较好的聚类效果,但也存在一些有待解决的问题。本文就是围绕如何进一步提高基因聚类算法的聚类效果展开研究,针对现有的PPO算法存在的缺陷进行改进研究,以取得更好的基因聚类效果,主要做的相关研究工作如下:(1) K-means是较早应用于基因聚类的算法,该算法运行速度快,原理简单,运算效率校高,但是对初始聚类中心较为敏感且需要预先设定待聚类数目,这对于一些未知的待聚类数聚类分析是不方便和不合理的。另外一种常应用在基因聚类分析中的算法是粒子群算法(PSO),粒子群算法是一种智能优化算法,该算法是模拟鸟类群体的行为,使得每个个体能够通过一定规则估计自身位置的适应值,每个个体能够记住自己当前所找到的最好位置和所有群体中找到的最好位置,使得个体在某种程度上朝这些方向靠近。粒子群算法在基因聚类分析中也取得了较好的聚类效果,但该方法也存在着容易陷入局部最优的缺陷。在传统粒子群优化算法的基础上,2006年纪震等提出了一种新的图像矢量量化码书的优化设计方法——粒子对算法(PPO),该算法用两个粒子构成了群体规模较小的粒子对,在解空间中搜索。在每次迭代运算中,粒子对先后按顺序执行粒子群算法中的速度、位置更新操作和标准K-means操作。PPO算法同样也可以应用于基因聚类中,应用到基因聚类中的实验结果表明,与K-means和FKM相比,聚类效果得到了改善。本文通过对最近提出的PPO基因聚类算法进行了较为深入的研究,分析了PPO基因聚类算法存在的一些不足之处,由于PPO算法采用的是随机初始化,如果初始化的粒子离最优粒子解距离较远,这就会影响聚类结果的精度。K-means和PSO是两种常用于基因聚类中的聚类算法,K-means聚类快速,但精度不是太高,而PSO聚类取得的聚类精度较好,但是时间开销较大。鉴于此基础,本文提出了对PPO算法的两种初始化的改进思路:①首先使用K-means算法快速聚类初始粒子,使得初始粒子更接近最优解,然后再进行PPO算法演化迭代,把该改进初始化算法命名为KPPO算法;②先用PSO算法寻找最优的K个初始聚类中心,即使用PSO聚类结果作为初始粒子,然后再进行PPO算法的迭代运算,将该改进初始化算法命名为SPPO算法。为了验证改进初始化思路的有效性和可比性,文章采用了数据库中与PPO算法基因聚类相同的数据集进行了聚类实验。实验结果表明,与K-means、基本PPO算法相比,采用的改进初始化思路在一些基因表达数据集中获得了较好初始粒子质量,与K-means和PPO聚类算法的聚类效果相比,聚类结果有了改善和提高。(2)PPO算法由于仍然采用PSO算法的速度和位置更新公式,所以难以避免还会带入PSO算法易陷入局部最优的缺陷,而差分进化算法是一种具有较好全局搜索能力的智能算法。本文在对标准差分进化算法(DE)的原理、特点进行分析的基础上,结合PPO和DE算法的优点,采用前面介绍的初始化改进方法提出了两种新的基因聚类混合算法KPPO-DE和SPPO-DE算法。混合算法在PPO算法的第二阶段精英粒子对的迭代过程中根据一定的迭代次数将DE算法引入到PPO算法中,利用DE算法的全局搜索能力特点,使得个体朝着最优解靠近,并逐步逼近最优解,可以改善PPO聚类算法易陷入局部最优解的缺点,发挥二者的优势完成基因聚类,以提高聚类结果精度。为评价混合算法的聚类效果,本文对基因表达数据集进行了聚类分析实验。实验结果表明,混合算法KPPP-DE和SPPO-DE在一些基因表达数据的聚类评价指标均方差函数、类内紧致性和类间分离度上都获得了比K-means算法、PPO算法更好的聚类结果。(本文来源于《广西师范大学》期刊2012-04-01)

禤浚波,吴小霞,王珍珍,张超英[5](2011)在《基于粒子对和极值优化的基因聚类混合算法研究》一文中研究指出针对粒子对算法存在过早陷入局部最优导致精度不是很高的问题,建议了一种新的基于粒子对(PPO)与极值优化(EO)混合算法。该算法利用PPO和EO的优点,借助K-means快速聚类的结果初始化其中一个粒子,并根据一定迭代次数在精英粒子对的迭代过程中引入EO算法,在保证算法收敛的同时避免后期过早陷入局部最优,从而提高聚类结果的精度。将混合算法应用于真实的基因表达数据。实验结果表明,混合算法比K-means和粒子对算法具有更好的聚类精度和稳定性。(本文来源于《计算机应用研究》期刊2011年10期)

禤浚波[6](2011)在《基于粒子对和极值优化的基因聚类混合算法研究》一文中研究指出随着人类基因组计划的完成,生命科学的研究进入到后基因组时代,研究的重点已变为确定每条基因在生物体中的功能以及基因之间相互作用和调控的关系。作为后基因组时代功能基因组研究最基本的实验手段,基因芯片一次实验可以同时观测成千上万条基因在不同实验条件下的表达情况,从而产生了大量蕴含着基因活动信息的基因表达数据。如何分析和处理这些基因表达数据,以提取出对人类有意义的生物、医学信息,已成为后基因组时代人们关注和研究的热点。目前,聚类方法是对基因表达数据进行分析和处理的主要计算技术之一。通过对基因表达数据进行聚类,能够将表达模式相似或相同的基因归纳成类,有助于对基因功能、基因调控、细胞过程、细胞亚型等进行综合的研究,在补充未知基因的生物学功能注释、临床诊断治疗等方面具有重要的现实意义。因此,已有大量国内外学者提出了应用到基因表达数据聚类分析中的各种聚类算法。作为一种较新颖的基因聚类算法,粒子对算法(PPO)在一些基因表达数据集中获得了较好的聚类效果,但也存在着一些有待解决的问题。本文就是围绕着如何进一步提高PPO算法的聚类效果开展研究,主要做的相关研究工作如下:(1)对生物信息学的相关基础知识进行了简单介绍,接着对基因表达数据的获得、表示、预处理、聚类分析原理和聚类结果评价进行了较为详细的分析,最后获取了本文进行聚类分析实验所用到的两组基因表达数据集。(2)对K-means、层次聚类这两种传统的基因聚类算法的原理进行了简单分析,接着介绍了标准粒子群优化算法(PSO)的原理,并分析了粒子群聚类算法的原理和优缺点,最后对基本PPO算法的原理、聚类流程和特点进行了较为详细的阐述。(3)对基本PPO算法进行了较为深入的研究,分析了PPO算法存在着有待解决的3个问题,并相应提出了3种改进思路:用K-means快速聚类结果初始化一个粒子、为初始粒子对之间引入一种最优信息共享策略、根据粒子对的统计信息对属于不同类别的粒子采用不同的速度进化公式,由此得到了一种新的改进粒子对算法ImPPO。为验证改进思路和改进算法ImPPO的有效性,采用了叁个基因表达数据集进行聚类分析实验。实验结果表明,与K-means、基本PPO算法相比,提出的改进思路和改进算法ImPPO在一些基因表达数据集中获得了较好的聚类效果,并且再一次说明了对于不同的聚类算法,甚至同一聚类算法使用不同的参数,应用到同一基因表达数据集中可能会得到不同的聚类结果。(4)在对基本极值优化算法(EO)的原理、特点进行分析的基础上,结合PPO和EO算法的优点,提出了一种新的基因聚类混合算法PPO-EO。混合算法PPO-EO在精英粒子对的迭代过程中根据一定的迭代次数将EO算法引入到PPO算法中,一方面利用EO算法强大的局部搜索能力的优点克服PPO算法后期可能过早陷入局部最优的缺点,另一方面利用PPO算法能够保证全局收敛的优点克服EO算法不能保证收敛的缺点,发挥二者的优势完成基因聚类,以提高基因聚类结果的精度。为评价混合算法的聚类效果,通过采用另外叁个基因表达数据集进行了聚类分析实验。实验结果表明,混合算法PPO-EO在叁个聚类评价指标均方差函数、类内紧致性和类间分离度方面获得了比K-means、PPO算法更好的聚类结果精度。(本文来源于《广西师范大学》期刊2011-04-01)

高倩倩,须文波,孙俊[7](2010)在《量子行为粒子群算法在基因聚类中的应用》一文中研究指出在PSO算法的基础上提出的基于量子行为的QPSO算法,并将其应用到基因表达数据集上。QPSO基因聚类算法是将N条基因根据使TWCV(Total Within-Cluster Variation)函数值达到最小分到由用户指定的K个聚类中。根据K-means算法的优点,利用K-means聚类的结果重新初始化粒子群,结合QPSO和PSO的聚类算法提出了KQPSO和KPSO算法。通过在4个实验数据集上利用K-means、PSO、QPSO、KPSO、KQPSO5个聚类算法得出的结果比较显示QPSO算法在基因表达数据分析上具有良好的性能。(本文来源于《计算机工程与应用》期刊2010年21期)

赵宇海,乔百友,林天亮,王国仁[8](2009)在《一种基于广义相似性的共调控基因聚类算法》一文中研究指出针对共调控基因的特殊性质和现有共调控基因聚类算法存在的不足,提出了基于广义相似性的聚类模型g-Cluster.正负共调控基因因具有相同的编码而被聚集到同一个共调控基因簇中.进一步提出了一种基于树结构的聚类算法FBTD,采用先宽度优先后深度优先的搜索策略,挖掘所有符合条件的最大g-Cluster,同时应用了高效的削减规则和优化策略.将该算法用于真实数据集.理论分析和实验结果都表明,该算法是实用和有效的.(本文来源于《东北大学学报(自然科学版)》期刊2009年11期)

王镠璞[9](2006)在《双聚类算法用于基因组序列直系同源基因聚类的研究》一文中研究指出随着人类基因密码解读完成,伴随而来的大量DNA序列资料,生物信息学领域产生了基因表达谱分析这个热门课题。基因表达谱分析的分析任务是从数据矩阵M中找出显着性结构。聚类方法是研究基因表达谱的一种有力工具。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。通过基因聚类,可以得到一组或多组共表达的基因,在每组内,基因的表达谱非常类似,具有相似的表达模式。双聚类算法是近年来新出现的一种聚类方法,这种算法强调基因和条件同时聚类,从算法思想上有别于传统的聚类算法。其中Cheng &Church算法是现有几种算法中很主要的一种,它的思想是其它算法变化的原理。本文在分析Cheng & Church算法的基础上,对该算法做了具体的实现。本文的另一项重要工作是将双聚类算法应用于基因组序列中的直系同源基因上,设计了一种较新的建立物种进化系统发生树的方法,并使用公共数据库数据集进行了测试,与已有的物种进化树进行了比较。结果表明,新方法相对于全基因序列或者其它的建立系统发生树的方法干扰更小。新方法达到了预期的设计要求。(本文来源于《吉林大学》期刊2006-04-28)

基因聚类算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着生命科学研究的不断深入,生物信息学所涉及的研究范畴也在不断地扩展。微阵列(microarray)技术作为生物信息学中极具发展前景的技术之一,得到了学者们的关注和普及,该技术能同时检测成千上万个基因的表达水平,从而产生了大量蕴含基因信息的基因表达数据。如何高效分析海量的基因数据,从中获得对人类有意义的信息是现今生物信息学亟待解决的热点问题,其中聚类分析则是微阵列数据分析中应用最为广泛的方法,具有较高的研究价值。在微阵列数据基因聚类分析上,现代智能仿生算法日益受到关注。粒子群优化算法、遗传算法等都已成功地应用于基因聚类中,并获得了不错的聚类效果。近年来的研究表明,采用单一算法已很难获得较好的聚类结果,于是众多学者开始从各方面入手研究各类算法的改进,并取得了显着的成果。其中,混合算法由于结合了多种算法的优势,因而可能克服单一算法的局限性以及各自的缺点。许多近期发展起来的混合算法在基因表达聚类分析中也取得了较满意的效果。随着微阵列技术的迅猛发展,数据规模越来越大,计算强度和复杂度已经远远超过个人计算机所能处理的范围。一种已经出现且迅速崛起的高性能计算技术CUDA(统一计算架构),打破了传统GPU上仅适应图形语言的局限,使得应用个人PC机执行高性能并行计算成为现实,为推进和普及包括大规模数据处理和密集型计算在内的科学研究与应用开辟了新的途经。基因表达数据聚类算法尚处在不断研究和探索之中,作为比较新颖的基因聚类算法——粒子对算法(PPO),具有群体规模小,便于协调粒子之间的位置关系,能获得较好的聚类效果等优势,是目前较为广泛使用的基因聚类算法。然而,PPO算法中由于粒子的交流较少,也存在容易过早陷入局部最优、全局搜索能力不强等缺点。合理地利用元胞自动机(CA)中的元胞规则,可以让邻域元胞间具有较强的交流传播能力,如果通过科学、合理地设计,使PPO和CA算法相互融合,并协同完成进化过程,则可充分地利用CA的优势来改进PPO过早陷入局部最优而导致精度不高的缺点。此外,萤火虫算法(FA)在位置更新的过程中使用了扰动因子,在避免过早陷入局部最优上有其自身的优势,同时其在解决复杂优化问题的效率上也是目前比较好的算法之一。鉴于此,本文建议了一种新的基于元胞粒子对(PPO(CA))和萤火虫算法(FA)的混合算法(PPO(CA)-FA)。该算法在PPO算法的第一阶段迭代过程中引入元胞自动机,利用相应元胞规则来更新粒子的个体历史最优适应值和历史最优位置,同时元胞自动机强大的邻域交流能力克服了PPO算法易于陷入局部最优的缺点。元胞自动机的加入,需要适当的增加算法中粒子的数量,这样既提高了粒子全局最优值在种群中的传播速度,也使得新混合算法能对邻域进行充分搜索的同时获得较好的精度。在PPO(CA)的基础上,为更好地避免陷入局部最优,若在第二阶段的迭代过程中连续多次解的最小误差在指定范围时,则引入FA算法,充分利用萤火虫算法可以高效的搜索解空间的优点,获得更有效的基因聚类结果。为了验证混合算法的有效性,将PPO(CA)、PPO(CA)-FA与PPO算法进行比较。将该四种算法运行在四组常用标准数据集CellCycle_384、 histone.pcl、6400和i2282.pc1上,实验结果显示,PPO(CA)-FA能获得更好的聚类精准度和聚类效果,在均方差、类内紧致度和类间分离度方面都有改进。为了验证CA融入的效应,将PPO(CA)与只扩大了种群没有加入CA的混合算法(PPO(noCA))进行比较,实验结果说明CA的加入增加了混合算法在均方差上稳定性,改善了聚类效果以及PPO算法易于陷入局部最优的缺点。而PPO(CA)与FA的融合,使得混合算法PPO(CA)的全局搜索能力增强,让算法结果更加靠近最优聚类结果。PPO(CA)-FA算法在处理高通量、大密度数据的等问题时,存在计算时间过长、效率低的缺点。为了将算法更好的应用于实际,本文在CUDA架构下设计并实现了一种并行的PPO(CA)-FA算法,且对并行算法进行了优化,提高了混合算法的运行效率,同时保证了算法的准确率。根据并行层次的不同,本文提出了两种优化方案。在5种数据集上的实验结果表明,并行优化后的混合算法在实验数据集中取得比较可观的性能加速,优化方案二在标准数据集histone.pcl上获得的加速比最高达16.9。与近几年出现的并行算法比较结果显示,除去算法在不同硬件环境下的影响,在相近的数据规模下,使用方案二并行优化后的PPO(CA)-FA的加速效果最优。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

基因聚类算法论文参考文献

[1].丁一.粒子对与和声搜索混合算法在基因聚类的应用研究[D].广西师范大学.2016

[2].李樟.基于CUDA的元胞粒子对和萤火虫算法的基因聚类算法研究[D].广西师范大学.2015

[3].周文刚,赵宇,王峰,朱海.具有完全学习策略的量子行为粒子群癌症基因聚类算法[J].北京邮电大学学报.2014

[4].禤世丽.基于粒子对和差分进化的基因聚类混合算法研究[D].广西师范大学.2012

[5].禤浚波,吴小霞,王珍珍,张超英.基于粒子对和极值优化的基因聚类混合算法研究[J].计算机应用研究.2011

[6].禤浚波.基于粒子对和极值优化的基因聚类混合算法研究[D].广西师范大学.2011

[7].高倩倩,须文波,孙俊.量子行为粒子群算法在基因聚类中的应用[J].计算机工程与应用.2010

[8].赵宇海,乔百友,林天亮,王国仁.一种基于广义相似性的共调控基因聚类算法[J].东北大学学报(自然科学版).2009

[9].王镠璞.双聚类算法用于基因组序列直系同源基因聚类的研究[D].吉林大学.2006

标签:;  ;  ;  ;  

基因聚类算法论文-丁一
下载Doc文档

猜你喜欢