蛋白质序列分类论文-夏瑀

蛋白质序列分类论文-夏瑀

导读:本文包含了蛋白质序列分类论文开题报告文献综述及选题提纲参考文献,主要关键词:泛素化预测,蛋白质分类,卷积神经网络,在线预测平台

蛋白质序列分类论文文献综述

夏瑀[1](2019)在《基于卷积神经网络的蛋白质序列泛素化分类算法的研究与应用》一文中研究指出蛋白质的分类预测问题是生物信息学中一类比较重要的问题。以蛋白质的泛素化为例,这是一种与各类生命活动有着重要关联的特异性修饰的过程。泛素化在蛋白质的定位、代谢、调节和降解中都起着十分重要的作用。传统的生物实验的方法来判断泛素化蛋白并检测泛素化位点需要大量的人力物力,若能使用其它方法事先筛选出可能表现出泛素化的蛋白质,再进行生物学实验,就能节省大量的成本,产生巨大的价值。而目前的相关研究主要是基于传统机器学习算法的预测模型,大都集中在泛素化位点的预测上而不能判断未知蛋白能否被泛素化,并且还存在着准确率低,模型检验不合理等问题。同时,这类算法还需要大量人为标注的额外属性信息,无法适用于那些属性不全或者全新的蛋白。而深度学习是机器学习的一个重要分支,神经网络模型又是深度学习中的主要模型之一。这类相关方法是当前利用计算机来研究医学和生物信息学的重点方法,并在多个相关领域都获得到巨大突破。本文从大量的蛋白质序列样本中筛选出正负样本,并对正样本进行扩征。根据蛋白质的性质和生物信息学相关工具,对蛋白质的序列进行了预处理,让其能够分割成等长的部分。并且在不影响未知蛋白预测的前提下,在判别标签中加入了可泛素化位点信息。结合独热编码和AAindex蛋白质信息库对序列数据进行编码。基于这类问题的特殊性和深度学习的空前成就,本文结合卷积神经网络的相关结构和特点,设计了一种仅使用蛋白质序列信息的分类预测模型。此外,还实现了基于循环神经网络的预测算法,并将其和本文提出的模型进行了比较与分析。在实现了多种数据处理方法和深度学习模型之后,本文提出了一种用于蛋白质序列分类的通用流程。在面对其它蛋白质性质时,只需要根据这类性质的特点对输入的数据做一些简单的改动,就能将该模型整体迁移到新的问题上来。最后,为了广大研究者可以便利地使用本文产出的成果,设计并实现了使用本文模型构建的蛋白质序列泛素化在线分类预测网页平台。根据可能的使用场景,对该平台进行了优化,并进行了相关的压力测试。在蛋白质的泛素化预测这一具体的问题上,和传统的机器学习方法相比,在数据的复杂性上有了明显的下降,数据处理的难度的变得更加简单。在各个模型都使用了各自的全量数据时,本文提出的模型和最好的SVM算法在准确率上接近,明显优于其它机器学习模型。在数据信息量接近时,本文提出的方法在准确率等各项指标上均优于现阶段的传统机器学习方法。(本文来源于《吉林大学》期刊2019-04-01)

赵欣[2](2018)在《基于集成学习的蛋白质序列分类问题的研究》一文中研究指出随着信息技术的蓬勃发展,计算机科学逐渐渗透到生物信息的各个领域,催生了一种新的学科——生物信息学。蛋白质作为人体生命活动的主要承担者,对它的研究能使我们对疾病的机理更加了解,同时对药物的设计也有促进作用。目前生物信息学正处于后基因组时代,大量的蛋白质序列被测定,提供给研究人员的实验数据和可利用信息急剧增加,传统的生物学研究方法无法及时消化新的数据,并把其转化为相应的科学知识。因此,开发可靠的计算方法,快速精确地预测蛋白质的功能尤其重要。基于集成学习,本论文对蛋白质序列的分类预测进行了深入研究,具体的研究内容如下:1)为了更加有效地挖掘蛋白质序列中所包含的信息,本文使用了一种基于g-gap叁肽组成的蛋白质序列特征提取方法,利用不同间隔的叁个氨基酸残基的组成在蛋白质序列中出现的频率构成特征向量,进而建模分类;此外,本文还提出了一种基于特殊功能区思想的特征离散化方法。这两种方法构成的特征向量所构建的模型,均在噬菌体病毒蛋白数据集上取得了较好的分类结果,说明了特征提取方法的有效性。此外,本文将二肽不同间隔的特征进行融合,使特征之间的信息互补,也取得了较好的分类效果。2)提出了一种基于机器学习方法的集成学习方法,该方法对多特征空间构造多种基分类器,并使用逻辑斯蒂回归或决策树的方式对基分类器结果进行集成。生物信息学中所采用的集成方法,大都是针对单一特征空间构造多种不同的基分类器,或对多种特征空间构造同种分类器,利用简单投票的方式进行集成。为了充分利用不同算法从不同的数据空间角度对数据的不同观测,使模型之间能够充分的取长补短,我们对多特征空间构造了多种不同的基分类器,并利用逻辑斯蒂回归等机器学习方法对结果进行集成。3)提出了一种新的基于逻辑运算的集成学习方法。该方法思想简单,仅采用了与、与非、或、或非四种运算,且摆脱了传统集成学习方法对基分类器的差异性的要求,即便是对于相似的基分类器,也能取得较好的集成效果,并在噬菌体病毒蛋白数据集上得到了验证。(本文来源于《电子科技大学》期刊2018-03-23)

邵丽芬[3](2018)在《基于深度学习的蛋白质序列分类问题的研究与应用》一文中研究指出抗氧化蛋白质能修复人类的DNA损伤,在癌症治疗等方面发挥巨大的作用,因此抗氧化蛋白质序列的分类预测在药物学中至关重要。蛋白质分类问题已成为蛋白质组学研究中的一个重要分支,自实施人类基因组计划至今,各种不同类型的生物数据数量迅猛增长,通过生物化学实验的方法鉴定蛋白质序列的类别十分耗时耗力,因此生物信息学对蛋白质信息的鉴别迫切需要从自动化的计算方法中获得支持。数据挖掘作为一种融合了统计学和数据库知识等新发展的技术,为生物研究者在数据分析和信息挖掘方面提供了便利,为识别和挖掘蛋白质信息等提供了便捷的方法。本文主要研究了数据挖掘中兴起的深度学习方法在蛋白质序列分类中的应用,主要内容如下:1.介绍了蛋白质一级序列的特征提取和分类方法。蛋白质一级序列包含足够的信息来预测蛋白质分子的生物功能,从其中提取的特征决定了后续分类器能达到的最佳性能。本文中应用生物中广泛使用的二肽组成来描述蛋白质序列信息,该特征提取方法无需借助其他任何信息,具有计算简单、快速的优点,对后续构建的分类器的性能好坏有决定性作用。2.提出了基于深度学习的蛋白质序列分类模型。较于依靠人工工程构造特征提取器的传统机器学习方法,深度学习本质是一种特征学习方法。深度学习将原始数据通过非线性的模型转变成为和分类有强关联性的抽象表示。本文的模型首先通过由编码器和全连接网络组成的特征学习网络,从原始特征向量学习到压缩的抽象特征,再使用t-SNE方法将抽象特征降维到二维空间中,最后放入分类器SVM对蛋白质序列进行识别。实验表明该模型其有较高的抗氧化蛋白质的识别效果,在本文的实验数据上达到F1值0.8842,MCC值0.7409,准确率97.05%,召回率81.27%,优于传统的机器学习方法。3.基于文中提出的模型,开发了在线抗氧化蛋白质识别web服务。该服务具有在线预测用户提交的蛋白质序列是否为抗氧化蛋白质的功能,此外还提供本文所用到数据集下载,方便用户使用与研究。(本文来源于《电子科技大学》期刊2018-03-22)

田昆[4](2017)在《基因序列和蛋白质序列分类问题研究》一文中研究指出随着人类获取生物序列手段的增多,序列比对已经成为生物信息学中最活跃、最重要的领域之一。从大量的基因和蛋白质序列出发,分析它们的形态结构功能等信息,获取不同物种的同源性、进化关系和演化历史等信息,推断其发育祖先,已经成为重要课题。利用已知序列的信息研究未知新序列,对其性质进行推断和预测,为进一步研究它们提供了重要的参考依据。然而,由于数据巨大的规模和极高的复杂性,如果没有有效的算法,就会导致求解过程花费大量时间,甚至成为无法解决的难题。本文提出两种新方法解决上述问题。本文第一部分介绍自然向量法,它是一种全基因组的、非比对的、非参数的快速序列表示法,是进化分析的一种十分强有力的工具。自然向量法反应了核苷酸或氨基酸在基因序列或蛋白质序列中的分布情况,其中包含了核苷酸或氨基酸的数目、平均位置以及高阶中心化矩,并且每个序列与自然向量存在一一对应关系。相比于现有方法,自然向量法计算复杂性低,运算时间短,不依赖于任何进化模型。此方法已应用于建立多种基因组数据库,并快速准确地对未知序列进行分类预测研究,更准确地说明物种之间的进化关系。第二部分介绍Yau-Hausdorff方法,它在考虑所有可能的平移和旋转的条件下来完成对两条基因或蛋白质序列图形表示的最优匹配。这种方法的复杂度比目前所有其它的二维最小Hausdorff距离算法的复杂度都低。基于以下两个重要工具,Yau-Hausdorff方法可以用于测定基因序列或蛋白质序列的相似性:Yau-Hausdorff距离和序列的图形表示。这种序列的图形表示方法保存了序列所有的信息,并且Yau-Hausdorff距离可以严格证明它的确是一个度量,所以Yau-Hausdorff方法能够精确地度量序列之间的差异。结合大量实例计算做出的系统发生树,可以验证我们的方法的极高准确性和稳定性。(本文来源于《清华大学》期刊2017-05-01)

张毅[5](2012)在《基于神经网络的蛋白质序列分类算法研究》一文中研究指出针对蛋白质序列难以分类的问题,提出了基于神经网络的蛋白质序列分类算法,通过采用基于频繁模式扫描的蛋白质序列特征抽取技术,采集得到了蛋白质序列的特征参数。在此基础上,构建了叁层的神经网络,用于蛋白质序列的分类,经过大量数据对神经网络的训练,经测试表明,文章所设计的蛋白质序列分类算法,其精度达到了98%,尤其是对于一些新出现的蛋白质序列分类效果更好。(本文来源于《计算机与数字工程》期刊2012年06期)

张毅,梅挺[6](2012)在《基于加权决策树的蛋白质序列分类算法研究》一文中研究指出针对蛋白质序列分类的需求,深入研究了蛋白质序列分类算法。对蛋白质序列的特征属性进行了大量的分析和研究,给出了蛋白质序列特征属性的描述形式。在此基础上设计了一种基于加权决策树的蛋白质序列分类算法,详细阐述了加权决策树的构造过程以及决策树的主要参数计算方法,而且根据蛋白质序列的特征,对决策树进行了改进,给出了加权决策树的实现方法。测试结果表明:设计的蛋白质序列分类算法具有较高的分类精度和较快的执行速度。(本文来源于《计算机与数字工程》期刊2012年05期)

肖纯材[7](2011)在《基于伪氨基酸成分的蛋白质序列分类研究》一文中研究指出理解大量生物学数据所包含的生物学意义已成为后基因组时代极其重要的课题,生物信息学的作用将日益重要。面对海量的蛋白质序列数据,引入智能算法对其进行处理,这对研究蛋白质结构和功能具有重要意义。由于蛋白质结构和功能具有高度的复杂性。采用常用实验的方法对有些蛋白质(如很难结晶或巨分子蛋白)很难得到其叁维结构,且实验方法成本高,耗时间。通过计算机进行模拟,采用智能算法对蛋白质结构和功能进行预测,近年来受到研究者们越来越多的关注。本文提出了一种新的蛋白质序列可视化方法,并在标准数据集上与其他方法进行了比较并验证了其有效性。本文的创新之处概括如下:(1)本文提出一种蛋白质序列新的可视化方法——距离矩阵图。蛋白质序列的氨基酸的疏水性(hydrophobicity)值、亲水性(hydrophilicity)值、侧链分子量(side-chain mass)值作为此氨基酸的空间坐标,通过空间坐标计算序列中各个氨基酸之间的距离,将距离矩阵视作一种纹理图像,即将每一个矩阵元素对应为一个图像像素,每个元素值被映像为对应像素的灰度值,得到蛋白质距离矩阵图,此图能反映蛋白质序列的总体特征。(2)构造出一种新的伪氨基酸成分。将距离矩阵图的几何矩作为伪氨基酸成分,此伪氨基酸成分能很好的反映蛋白质序列特征。(3)基于所提出的蛋白质距离矩阵图设计了多个蛋白质序列分类预测器(HPVs(人类乳头瘤病毒)风险类型、蛋白质二级结构类型预测、GPCR类型预测),这些预测器与现有预测器相比,预测成功率都有提高。(4)基于氨基酸数字编码模型,针对氨基酸成分法的不足,构造出一种十进制数字编码模型,通过对核受体(Nuclear receptor)分类显示,其结果高于氨基酸成分法。(本文来源于《景德镇陶瓷学院》期刊2011-05-01)

徐培杰[8](2011)在《基于哈斯矩阵图的蛋白质序列分类及可视化方法研究》一文中研究指出蛋白质序列的分类及可视化一直是蛋白质组学研究的重要组成部分,掌握蛋白质的组成结构与具体功能的前提和基础就是要把大量的蛋白质序列进行分类,而可视化方法使整个研究变得非常直观。本文详细分析研究了蛋白质序列可视化方法及其特征提取,提出了一种新颖的可视化方法来描述蛋白质序列,并基于这种可视化方法对蛋白质序列进行分类,如蛋白质二级结构类型分类,分泌蛋白分类,G蛋白偶联受体分类等,预测成功率比现有预测器都有提高。利用氨基酸物理化学性质的数字编码模型,基于偏序理论,对每条氨基酸序列构建了一个改进的哈斯矩阵,为了能够更直观的分析,我们用彩色图像来使矩阵可视化。此外,为了作定量分析,我们把哈斯矩阵转化为灰度共生矩阵,然后对不同序列的相似度进行比较。本文的主要工作概括如下:1)利用氨基酸数字编码模型,把氨基酸的物理化学性质加入到数字序列中通过反映氨基酸亲水性、疏水性和侧链分子量的数字编码模型,将一条蛋白质序列转换成叁条不同的数字序列。2)把偏序理论与哈斯矩阵运用到生物信息学当中基于偏序理论构建改进的哈斯矩阵:对蛋白质序列中不同位置上的氨基酸,根据不同物理化学特性进行两两比较,可以构成叁个哈斯矩阵,基于所得叁个哈斯矩阵可得到反映序列全特性的改进的哈斯矩阵。3)提出一种简单新颖的可视化技术并运用到生物信息学中改进的哈斯矩阵元素由“0”到“7”这8个数字构成,通过可视化技术将八个数字“0”表示黑色,“1”表示蓝色,“2”表示绿色,“3”表示蓝绿色,“4”表示红色,“5”表示杨红色,“6”表示黄色,“7”表示白色,得到具有蛋白质全序列特征的可视化图像。4)利用改进的哈斯矩阵图方法并通过图像模式识别方法对蛋白质二级结构、分泌蛋白、G蛋白偶联受进行分类预测,效果都非常理想。(本文来源于《景德镇陶瓷学院》期刊2011-05-01)

王栋[9](2010)在《蛋白质序列的并行分类方法研究》一文中研究指出本论文的主要研究对象是生物信息学中的蛋白质序列分类问题。利用计算的方法,从蛋白质的一级序列决定了其叁维结构的角度出发,针对氨基酸序列建立数学模型进行蛋白质结构分类,并引入并行计算的思想提高分类器性能。用并行计算方法进行蛋白质序列的结构分类减少了昂贵且非常耗时的实验次数,提高了分类效率,促进了对复杂的生物规律的分析和对有用生物信息的提取。本文在当前准确性最高的基于判别模型的蛋白质远同源检测算法的基础上,结合基于统计剖面的生成模型方法,设计了基于统计剖面的核函数。并通过半监督学习的方法提高了远同源检测算法的准确性。针对蛋白质序列分类中正样本数远小于负样本数,造成支持向量机训练不平衡的问题,本文提出了优化支持向量机算法,对正类样本集和负类样本集应用不同的惩罚参数,平衡了正负样本。对给定测试集进行的预测实验结果表明本文的算法取得了优于其它远同源检测算法的预测效果。针对标准支持向量机算法只能分别对每一个蛋白质结构类进行二元判别的问题,本文引入了多类支持向量机对标准二元SVM分类器的判别结果进行综合,输出唯一的蛋白质结构类预测结果,提高了基于支持向量机的蛋白质序列分类的可用性。多类支持向量机需要复杂的计算完成支持向量机训练,可以说是用大量计算为代价提升算法的准确性。为降低算法的时间复杂性,本文引入并行计算思想,设计了基于主从模型的蛋白质并行多类分类算法,在基于共享内存和基于消息传递的并行模式下都取得了很好的加速效果。所有基于支持向量机的算法都需要一定数量的样本进行训练建模,由于样本数不足造成支持向量机算法仅能覆盖部分蛋白质结构类。本文通过将高准确率的支持向量机算法与全覆盖的双序列比对算法结合,构成组合分类器进行蛋白质序列分类。在基准数据集上的实验表明,组合分类器不仅实现了对数据集的全覆盖而且综合性能也优于单独的任何一种预测算法。为提高组合分类效率,本文设计了基于两级任务池模型的蛋白质并行多类分类算法,有效降低了通讯等待时间,提升了并行的性能。(本文来源于《天津大学》期刊2010-08-01)

王普[10](2009)在《基于伪氨基酸成分和功能域的蛋白质序列分类研究》一文中研究指出人类基因组计划启动以来,蛋白质数据库中储存了海量的序列信息,但是对蛋白质结构与功能的认识却严重滞后。在这种情况下,探索理论和计算的方法就显得尤为重要,它将对认识蛋白质结构和功能起到重要的辅助作用。蛋白质分类问题作为蛋白质组学研究的一个分支,近年来受到研究者们的关注越来越多。蛋白质分类研究是全面掌握蛋白质结构与功能的前提和基础,在细胞生物学、分子生物学、医学和药理学中扮演着非常重要的角色。在构建蛋白质分类计算模型的过程中,特征提取算法是最为基本的问题,有时甚至成为关系分类质量好坏的关键所在。本文详细分析并研究了此问题,提出了基于元胞自动机图像参数的伪氨基酸成分和SMART功能域表示法,在标准数据集上进行了测试验证,大大提高了分类预测率。本文的主要工作和创新之处概括如下:(1)本文利用氨基酸数字编码模型生成蛋白质序列的元胞自动机图,提出了一种基于纹理图像特征的伪氨基酸成分表示法。用扩大的协方差算法对蛋白质二级结构类型进行预测,仿真结果显示有较好的分类效果。(2)本文提出了一种新的蛋白质序列特征杂交表示法——SMART功能域成分结合伪氨基酸成分。要理解一条蛋白质序列的结构和功能,一个重要的前提任务就是辨别一个新的多酞链的四级结构类型。本文采用最近邻居算法对七类同源寡聚体蛋白的分类问题进行了探讨。实验结果表明,该方法计算简单、分类性能好;另外拓展了蛋白质序列四级结构分类,构建了四级结构超家族数据集,并用功能域和伪氨基酸方法对其分类进行了研究。(3)设计了G蛋白偶联受体的两级分类器,对序列的元胞自动机图像纹理特征和功能域分布状况进行了较为深入的分析。(本文来源于《景德镇陶瓷学院》期刊2009-04-20)

蛋白质序列分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息技术的蓬勃发展,计算机科学逐渐渗透到生物信息的各个领域,催生了一种新的学科——生物信息学。蛋白质作为人体生命活动的主要承担者,对它的研究能使我们对疾病的机理更加了解,同时对药物的设计也有促进作用。目前生物信息学正处于后基因组时代,大量的蛋白质序列被测定,提供给研究人员的实验数据和可利用信息急剧增加,传统的生物学研究方法无法及时消化新的数据,并把其转化为相应的科学知识。因此,开发可靠的计算方法,快速精确地预测蛋白质的功能尤其重要。基于集成学习,本论文对蛋白质序列的分类预测进行了深入研究,具体的研究内容如下:1)为了更加有效地挖掘蛋白质序列中所包含的信息,本文使用了一种基于g-gap叁肽组成的蛋白质序列特征提取方法,利用不同间隔的叁个氨基酸残基的组成在蛋白质序列中出现的频率构成特征向量,进而建模分类;此外,本文还提出了一种基于特殊功能区思想的特征离散化方法。这两种方法构成的特征向量所构建的模型,均在噬菌体病毒蛋白数据集上取得了较好的分类结果,说明了特征提取方法的有效性。此外,本文将二肽不同间隔的特征进行融合,使特征之间的信息互补,也取得了较好的分类效果。2)提出了一种基于机器学习方法的集成学习方法,该方法对多特征空间构造多种基分类器,并使用逻辑斯蒂回归或决策树的方式对基分类器结果进行集成。生物信息学中所采用的集成方法,大都是针对单一特征空间构造多种不同的基分类器,或对多种特征空间构造同种分类器,利用简单投票的方式进行集成。为了充分利用不同算法从不同的数据空间角度对数据的不同观测,使模型之间能够充分的取长补短,我们对多特征空间构造了多种不同的基分类器,并利用逻辑斯蒂回归等机器学习方法对结果进行集成。3)提出了一种新的基于逻辑运算的集成学习方法。该方法思想简单,仅采用了与、与非、或、或非四种运算,且摆脱了传统集成学习方法对基分类器的差异性的要求,即便是对于相似的基分类器,也能取得较好的集成效果,并在噬菌体病毒蛋白数据集上得到了验证。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

蛋白质序列分类论文参考文献

[1].夏瑀.基于卷积神经网络的蛋白质序列泛素化分类算法的研究与应用[D].吉林大学.2019

[2].赵欣.基于集成学习的蛋白质序列分类问题的研究[D].电子科技大学.2018

[3].邵丽芬.基于深度学习的蛋白质序列分类问题的研究与应用[D].电子科技大学.2018

[4].田昆.基因序列和蛋白质序列分类问题研究[D].清华大学.2017

[5].张毅.基于神经网络的蛋白质序列分类算法研究[J].计算机与数字工程.2012

[6].张毅,梅挺.基于加权决策树的蛋白质序列分类算法研究[J].计算机与数字工程.2012

[7].肖纯材.基于伪氨基酸成分的蛋白质序列分类研究[D].景德镇陶瓷学院.2011

[8].徐培杰.基于哈斯矩阵图的蛋白质序列分类及可视化方法研究[D].景德镇陶瓷学院.2011

[9].王栋.蛋白质序列的并行分类方法研究[D].天津大学.2010

[10].王普.基于伪氨基酸成分和功能域的蛋白质序列分类研究[D].景德镇陶瓷学院.2009

标签:;  ;  ;  ;  

蛋白质序列分类论文-夏瑀
下载Doc文档

猜你喜欢