导读:本文包含了启动子识别算法论文开题报告文献综述及选题提纲参考文献,主要关键词:启动子,高通量测序,Weka,分类算法
启动子识别算法论文文献综述
蒋璐凯[1](2018)在《基于Weka平台的分类算法在启动子识别中的应用》一文中研究指出在"后基因组"时代,对于DNA功能元件的注释,尤其是启动子这类关键的调控元件的鉴定是进一步理解人类基因组繁杂调控网络的重要研究内容。本文基于高通量测序数据对细胞系H1-hesc中的基因启动子进行识别分类,利用数据挖掘软件Weka基于启动子组蛋白修饰特征建立分类模型,比较各分类算法性能优劣,以期应用最佳分类器在其它细胞系中识别分类启动子。(本文来源于《智能计算机与应用》期刊2018年02期)
张文,骈聪,陈园园,张瑾,李琴[2](2015)在《应用基于粒子群优化的支持向量机算法识别真核生物基因的RNA聚合酶II启动子序列》一文中研究指出启动子是调节基因表达的重要元件,对其的研究对于阐明基因转录调控机制具有重要意义。作者依据RNA聚合酶Ⅱ启动子序列特性选取高效的特征提取方法,构建了基于粒子群优化的支持向量机(particle swarm optimization-support vector machine,PSO-SVM)新方法,用以识别真核生物基因RNA聚合酶Ⅱ启动子。结合5-折交叉检验方法,得到启动子-外显子、启动子-内含子和启动子-基因间序列的分类准确率分别为97.1%、96.7%和98.8%,其马修斯相关系数分别为0.962、0.934和0.976。结果说明,对比其它启动子识别方法,PSO-SVM方法更能有效地识别真核生物基因启动子。(本文来源于《生物物理学报》期刊2015年02期)
张文,陈园园,张瑾,骈聪,李琴[3](2015)在《基于粒子群优化的支持向量机算法识别人类基因启动子》一文中研究指出人类基因启动子识别是医学研究的基本需要。提取DNA序列碱基的PZ曲线特征、二核苷酸空间结构特征、保守信号似然得分,以及K联体似然得分,结合GC含量变化和非均匀指数,构建基于粒子群优化的支持向量机算法来识别人类基因启动子。利用粒子群优化支持向量机参数进行优化避免了人为选择的随机性,并且在分类问题中表现出较好的稳健性。对测试集的10-折交叉检验结果为:敏感性为92%,特异性为91%,马修斯关联系数为0.83。该结果表明,基于粒子群优化的支持向量机算法能有效识别启动子序列。(本文来源于《安徽农业大学学报》期刊2015年02期)
蒙冰,钟诚,何勇强,刘伟,王志强[4](2014)在《基于非支配排序遗传算法求解启动子识别问题》一文中研究指出启动子识别问题是生物信息学中重要研究问题之一。由于生物序列的复杂性和特殊性,研究更符合生物学数据特征的启动子发现方法具有重要意义。十字花科黑腐病菌是一种能引起所有十字花科植物黑腐病的重要病原细菌。本文建立3目标的优化计算模型,运用基于带精英策略的非支配排序遗传算法设计启动子识别算法对十字花科黑腐病菌数据集中的保守片段(Motif)进行挖掘。实验结果表明,与已有的相关算法相比,本文给出的算法无须指定候选启动子序列长度,获得了多组不同支持度的候选启动子序列供决策者选择,算法高效、扩展性好,可以适用于求解多种不同长度序列数据的启动子识别问题。(本文来源于《基因组学与应用生物学》期刊2014年06期)
刘锦[5](2013)在《基于特征融合的植物启动子识别算法研究》一文中研究指出基因序列识别作为生物信息学中一个重要的研究领域,主要应用计算机仿真技术模拟实验进行判别。启动子作为基因序列的重要调控元件,主要调节转录和翻译。因此,启动子识别是基因序列识别中的一个重要研究内容,具有十分重要的理论研究意义。长期以来,启动子识别主要集中于真核启动子的识别,尤其集中在哺乳动物启动子(尤其是人类启动子)的识别研究上,而对于真核启动子的另一个重要组成部分—植物启动子的识别研究相对较少。而近年来,随着植物启动子数据的日益丰富,植物启动子识别成为了一个研究热点。但是在其识别过程中,一般存在假阳性高等问题,所以降低假阳性成为目前识别的难点之一。在查阅了大量相关文献的基础上,本文对植物启动子识别算法进行了充分研究,提出了两种改进的植物启动子的识别算法。基于粗糙集和DNA双链特征的植物启动子识别算法。该算法集合了粗糙集提取主要特征的优势和SVM的良好分类性能。其主要步骤是首先提取启动子和非启动子的内容特征和结构特征,利用粗糙集进行特征筛选,从而得到区分启动子和非启动子的主要结构特征和主要内容特征,并将其与DNA双链特征相融合作为输入向量输入SVM,达到利用SVM分类的目的。此算法的SVM分类器由五个成分分类器构成,分别是3’UTR—启动子成分分类器,5’UTR—启动子成分分类器,Intergenic—启动子成分分类器,CDS—启动子成分分类器和Exon—启动子成分分类器。最后综合五个成分分类器的结果进行判断。基于TATA-box和GC偏好特征的植物启动子识别算法。该算法是利用GC偏好特征和TATA-box启动子和TATA-less启动子的结构特征差异的特点,先将启动子分为TATA-box启动子和TATA-less启动子,再将两类启动子分别与非启动子分为GC偏好序列和非GC偏好序列,然后提取用于分类的结构特征,最后应用SVM分类器进行启动子识别。实验结果表明,上述两种算法都取得了较好的植物启动子识别效果。(本文来源于《辽宁师范大学》期刊2013-04-01)
寇秋波[6](2012)在《植物启动子识别算法研究》一文中研究指出随着人类基因草图的绘制完成,基因组学研究已进入了“功能基因组学"时代,如何在海量的序列数据中确定基因及它们的调控网络已经成为目前最具挑战性的任务。启动子作为控制基因转录起始和转录频率的重要元件,在基因表达调控机制中具有非常重要的作用。启动子识别是确定基因的关键问题之一。由于真核启动子与人类及人类的生产生活密切相关,真核启动子识别已成为一个热点研究领域。在真核启动子识别技术中,哺乳动物(人类和小鼠)启动子识别取得了许多重要成果,而对于真核启动子中的另一个重要分类——植物启动子识别的研究还处于起步阶段,关于植物启动子识别方法的研究论文较少,其中缺乏实验证实的启动子数据是制约其快速发展的原因之一。近年来随着植物数据库的完善,植物启动子识别逐渐成为生物信息学的一个研究热点,其中,特异性较低是有待解决的难题之一。在阅读了大量国内外文献的基础上,对植物启动子识别算法进行了深入分析与研究,并针对现有植物启动子识别算法中假阳性高的问题,提出了两种新的植物启动子识别算法。提出了基于GC偏好和支持向量机(SVM)的植物启动子识别算法。其特点是充分利用了植物启动子的GC偏好特性和SVM分类器的优秀分类性能。该算法首先通过对GC含量的分析将DNA序列分类为GC偏好序列和非GC偏好序列,然后进行结构特征和信号特征的提取,最后通过SVM分类器进行植物启动子识别。SVM分类器由四个SVM子分类器组成,每个子分类器专门针对启动子和四种非启动子中的一类进行区分。四个子分类器分别是启动子——3'UTR子分类器,启动子—5'UTR子分类器,启动子—Intergenic子分类器和启动子—CDS子分类器,综合四个子分类器的结果来识别植物启动子序列。提出了基于GC偏好和DNA双链特征的植物启动子识别算法。该算法的系统结构与第一个算法基本相同,其特点在于,将GC偏好特征和DNA双链特征相结合,提取的特征更具有分辩力。实验结果表明,所提出的两种植物启动子识别算法是有效的,具有较高的特异性。(本文来源于《辽宁师范大学》期刊2012-04-01)
信润海[7](2011)在《真核启动子识别算法研究》一文中研究指出随着人类基因组计划的实施及基因草图的完成,生物科学与技术得到了迅猛发展,同时积累了大量的相关数据,并且这些数据的增长速度已经远远超出了人们的想象。面对如此海量的数据,如何能够找到我们所需的信息成为了一项重要而又艰巨的工作。启动子作为调控基因转录的重要调控元件,在构建基因转录调控网络方面起着尤为重要的作用,加之真核启动子与原核启动子相比有着更为复杂的结构,故此真核启动子识别已成为当前基因组研究工作中的热点及难点。目前在启动子识别方面已经提出了许多算法,但都普遍存在假阳性较高的问题。为了改进现有启动子识别算法存在的不足,进一步提高算法的启动子识别性能,本文将Z曲线理论及启动子的结构特征应用到启动子预测的研究中来,提出了基于结构特征及Z曲线特征的真核启动子识别算法。所选取的6类结构特征能够较好地描述基因序列的空间形态,所选取的Z曲线特征能够从序列的全局角度描述序列中碱基及强氢键、弱氢键的分布情况,从而达到了从基因序列局部弯曲度及序列的双链的稳定性的角度来区分启动子序列与非启动子序列。首先提取训练集数据中的启动子及非启动子的结构特征、Z曲线特征;然后基于马氏距离构建结构特征分类器,基于Fisher准则构建Z曲线特征分类器。每个分类器由叁个分类子模块组成,即启动子-外显子、启动子-内含子、启动子-3’UTR子分类模块,各分类子模块根据所属分类器的特征进行启动子预测;最后分类器将子分类模块的分类结果传递给综合评分模块进行综合评分并做出最终的判定。为了评价本文算法的预测能力,对登录号为L44140、D87675、AF017257、AFl46793、AC002368、AC002397的长基因进行了测试,测试结果为:敏感性71.92%,特异性55.56%,准确性63.47%。实验结果表明,本文算法具有更好的启动子识别性能。(本文来源于《辽宁师范大学》期刊2011-04-01)
秦洋,王立宏,武栓虎,宋宜斌[8](2010)在《启动子的潜在语义索引差异识别算法》一文中研究指出启动子是基因前面的一个短序列,定位启动子即能找到基因,因此启动子的识别具有重要意义.潜在语义索引差异模型(DLSI)能够扩大类间的差异,降低噪声的干扰,从而提高识别的精度.本文提出基于DLSI的启动子识别算法,利用潜在语义索引差异模型进行特征词选择,通过将样本变换到潜在语义空间中实现降维,建立了启动子-外显子、启动子-内含子分类器,把两分类器的串联结果作为最终的分类结果.实验验证了算法的有效性.(本文来源于《烟台大学学报(自然科学与工程版)》期刊2010年03期)
梅丽[9](2010)在《人类启动子识别算法研究》一文中研究指出人类基因草图完成后,确定基因和它们的调控网络成为一个具有挑战性的任务。启动子是基因表达调控的重要元件,在基因识别中具有关键作用。人类启动子识别技术已成为目前的热点研究领域,具有十分重要的理论意义与应用价值。在阅读大量文献的基础上,本文对人类启动子识别技术进行了研究,提出了两种新的人类启动子识别算法。提出了基于KL散度和BP神经网络的人类启动子识别算法。该算法首先应用KL散度提取分辨力最强的六联体,将其出现频率作为组成成分特征;然后提取CpG岛特征,并将其与组成成分特征相结合作为区分启动子和非启动子区域的特征向量;最后应用BP神经网络技术设计启动子分类器。该分类器由启动子-外显子分类器,启动子-内含子分类器和启动子-3’-UTR分类器组成,每个分类器都是一个BP神经网络,综合叁个分类器的结果来识别启动子序列。提出了基于两级SVM分类器的人类启动子识别算法。该算法应用支持向量机技术设计一个两级SVM分类器。第一级SVM分类器根据CpG岛特征对DNA序列进行分类,判别为非启动子的序列则送入第二级SVM分类器作进一步识别。第二级SVM分类器由叁个SVM子分类器组成,即启动子-外显子SVM子分类器,启动子-内含子SVM子分类器和启动子-3'-UTR SVM子分类器,各子分类器根据组成成分特征识别启动子,通过叁个子分类器的结果来综合预测启动子序列。最后将两级SVM分类器识别出的所有启动子序列作为最终的实验结果。实验结果表明,本文提出的上述算法是有效的,具有较高的敏感性和特异性。(本文来源于《辽宁师范大学》期刊2010-04-01)
罗泽举,宋丽红,陆胜[10](2008)在《启动子序列的非均衡检测识别算法》一文中研究指出通过改进Hessian矩阵对角参数,调整支持向量机中超平面的位移,将数据量少的样本从两类非均衡样本中进行分离,结合隐马尔可夫随机迭代,实验发现,不能简单固定Hessian矩阵的对角参数,而必须加之以可调整的权系数才能控制错分的样本数.对启动子序列进行识别,平均识别率达到92.8%。(本文来源于《计算机应用》期刊2008年08期)
启动子识别算法论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
启动子是调节基因表达的重要元件,对其的研究对于阐明基因转录调控机制具有重要意义。作者依据RNA聚合酶Ⅱ启动子序列特性选取高效的特征提取方法,构建了基于粒子群优化的支持向量机(particle swarm optimization-support vector machine,PSO-SVM)新方法,用以识别真核生物基因RNA聚合酶Ⅱ启动子。结合5-折交叉检验方法,得到启动子-外显子、启动子-内含子和启动子-基因间序列的分类准确率分别为97.1%、96.7%和98.8%,其马修斯相关系数分别为0.962、0.934和0.976。结果说明,对比其它启动子识别方法,PSO-SVM方法更能有效地识别真核生物基因启动子。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
启动子识别算法论文参考文献
[1].蒋璐凯.基于Weka平台的分类算法在启动子识别中的应用[J].智能计算机与应用.2018
[2].张文,骈聪,陈园园,张瑾,李琴.应用基于粒子群优化的支持向量机算法识别真核生物基因的RNA聚合酶II启动子序列[J].生物物理学报.2015
[3].张文,陈园园,张瑾,骈聪,李琴.基于粒子群优化的支持向量机算法识别人类基因启动子[J].安徽农业大学学报.2015
[4].蒙冰,钟诚,何勇强,刘伟,王志强.基于非支配排序遗传算法求解启动子识别问题[J].基因组学与应用生物学.2014
[5].刘锦.基于特征融合的植物启动子识别算法研究[D].辽宁师范大学.2013
[6].寇秋波.植物启动子识别算法研究[D].辽宁师范大学.2012
[7].信润海.真核启动子识别算法研究[D].辽宁师范大学.2011
[8].秦洋,王立宏,武栓虎,宋宜斌.启动子的潜在语义索引差异识别算法[J].烟台大学学报(自然科学与工程版).2010
[9].梅丽.人类启动子识别算法研究[D].辽宁师范大学.2010
[10].罗泽举,宋丽红,陆胜.启动子序列的非均衡检测识别算法[J].计算机应用.2008