导读:本文包含了残基深度论文开题报告文献综述及选题提纲参考文献,主要关键词:蛋白质,配体,结合残基,长距离依赖
残基深度论文文献综述
崔屹峰[1](2019)在《基于深度学习的蛋白质—配体结合残基预测》一文中研究指出随着人类基因组计划测序工作完成,蛋白质的相关研究已成为当今生命科学的主要研究内容之一。配体结合蛋白在诸多生物过程中发挥关键作用。蛋白质-配体结合残基的识别对于理解蛋白质功能有重要意义。由于传统测定方法的技术细节复杂且成本高昂,处理海量的蛋白质需要计算方法的参与。已知的计算方法均基于传统机器学习,可被粗略地分为基于序列的方法和基于叁维结构的方法,两者的根本区别在于是否使用叁维结构,前者已在一系列结合残基预测任务中胜过后者。然而,已知的蛋白质序列在数量上远远超过已知的蛋白质叁维结构,随着深度学习技术的发展,基于序列的方法有相当可观的提升空间。因此,有必要对基于深度学习的蛋白质-配体结合残基预测开展研究。本文的主要工作及贡献如下:·提出了一种基于深度学习的蛋白质-配体结合残基预测方法。该方法(Deepsi)仅使用了序列信息,所用特征共计7类,分别为位置特异性打分矩阵、溶剂可及性、蛋白质二级结构、二面角、保守性、残基氨基酸类型和位置编码。Deepsi可处理变长序列,其深度网络采用了全卷积架构,主要由不同规格的卷积层堆迭而成,特征最终由一组1×1卷积核整合并由softmax归一化得到所有残基关于结合残基的概率分布。隐层表示的有效上下文范围随层数的增长而扩大,大范围有效上下文能够捕捉两个残基之间的长距离依赖,通过调整层数和卷积核大小可精确控制依赖的最大距离。目前已知的最优方法COACH及其部分子方法被选为实验基准。测试实验在一个基本测试集和叁个扩展测试集上进行,其中基本测试集包含151条非冗余蛋白质。实验表明Deepsi无需依赖任何采样手段即可在严重倾斜的训练集上正常拟合并获取良好的泛化性能,其MCC和精确率相对于基准模型的提升分别不低于0.05和16%。·在结合残基聚集性的基础上提出了另一种基于深度学习的蛋白质-配体结合残基预测方法。该方法(i Deepsi)使用的特征与Deepsi相同。由于结合残基的位置分布表现出聚集性,i Deepsi在原有深度网络中增加了新模块,从上下文标签或预测结果中提取特征。i Deepsi通过改变其深度网络的前向传播机制提高了其在测试过程和生产环境中的并行度。i Deepsi与Deepsi共用所有数据集,同样可在严重倾斜的训练集上正常拟合。实验表明i Deepsi相对于基准模型在MCC和精确率方面的提升分别不低于0.07和19%。在不使用包括叁维结构在内的任何模板的前提下,Deepsi和i Deepsi在性能上相对于已提出的各类方法均有显着提升,包括最具代表性的COACH。此外,本文还讨论了一种训练集增量化方案,其略微提高了预测性能。(本文来源于《华东师范大学》期刊2019-03-01)
熊大鹏[2](2017)在《基于深度学习架构的蛋白质远程残基接触预测研究》一文中研究指出合适的残基与残基接触被认为在维持蛋白质的天然构象和指导蛋白质折迭方面发挥着关键作用。实际上,蛋白质残基接触预测能够为蛋白质结构预测提供非常有价值的信息,因为残基接触信息,特别是远程残基接触信息,能够被用来直接指导蛋白质叁维结构的重构、通过改善能量函数的最小能量面以有效缩小构象搜索空间,和通过构建打分函数来进行模型评价和选择。此外,它的应用还被扩展到合理的药物设计。尽管近年来对蛋白质残基接触预测有了较为深入的研究,并且CASP国际竞赛也极大地推动了这一领域的发展,但预测准确性仍然较低,因此也得到了越来越多的关注。目前,蛋白质残基接触的预测主要分为基于模板的方法和基于序列的方法。前者基于同源模板来进行预测,因而限制了它的使用。相反,后者仅仅基于氨基酸序列来进行预测,因而更具有研究价值,也获得了更多的研究热情。基于序列的方法大体上主要包括基于机器学习的方法和基于共进化信息的方法,前者主要通过检索结构数据库中的统计信息来构建各种各样的机器学习模型,而后者主要使用蛋白质非冗余的同源序列的多重序列比对得到的共进化信息。已有研究表明,以上两种方法的结合能够有效提高残基接触预测的准确性。本研究中,我们提出了DeepConPred方法,包含两个基于深度学习的模型(DeepCCon和DeepRCon)和一个优化过程,通过有效结合结构数据库中的统计信息和序列数据库中的共进化信息来提高远程残基接触预测。DeepConPred使用一个层次架构,通过在第一阶段DeepCCon的预测结果来进一步促进DeepRCon的远程残基接触预测。对这两种方法,我们设计了一些新颖的特征,通过结合已有的有效特征对蛋白质结构性质进行更全面的描述。进而我们使用特征选择技术选取最具辨别能力的特征子集,使用深度学习技术构建模型,有效提高对蛋白质二级结构片段接触和远程残基接触的预测准确性。特别地,DeepCCon和DeepRCon通过使用有限的非冗余同源序列得到的共进化信息来进行模型训练,以确保对小家族蛋白具有鲁棒性。因此,随后的优化步骤被用来综合所有的非冗余同源序列得到的全面的共进化信息来提高大家族蛋白的预测准确性。广泛的实验表明DeepConPred能有效提高蛋白质远程残基接触预测的准确性,能被认为是一种极具竞争力的方法。(本文来源于《清华大学》期刊2017-05-01)
曹成远[3](2016)在《基于深度学习的蛋白质残基相互作用预测》一文中研究指出残基对的相互作用描述了蛋白质叁维结构中一对残基的空间距离关系,相互作用的残基对对维护蛋白质结构的稳定起着重要作用。蛋白质中所有残基对的相互作用关系确定了蛋白质叁维结构的二维拓扑,所以得到准确的残基对相互作用关系对蛋白质叁维结构预测有重要意义。残基对相互作用预测,特别是长范围残基对相互作用预测的准确率一直很低。这主要是因为残基对特征与残基对相互作用的高度非线性,另外残基对正负样本比例的严重失调也降低了模型的泛化能力。本文研究了基于双向递归神经网络的深度序列模型以及减轻样本比例失调影响的训练算法。双向递归神经网络模型不仅可以接收变长的蛋白质序列特征,而且它在处理残基特征的时候也不需要指定滑动窗口大小,但滑动窗口却是普通浅学习方法所需要的。本文的训练算法在控制正负样本比例的同时,动态地选择输入给分类模型的样本。深度神经网络通过大量非线性变换把原始特征转换为高级特征,这种变换很适合残基相互作用预测这样的应用问题,但深度神经网络由于包含多层神经网络又会使超参数的选择成为难题。本文基于Hyperopt超参数优化框架实现了深度序列模型的并行超参数优化。通过快速的并行搜索,我们找到了一个与人工花费大量时间搜索到的模型不相上下的模型。这个模型在多个测试集上获得的中范围残基相互作用预测准确率超过其它方法10%以上,在长范围残基相互作用上的预测结果和当前流行方法不相上下。(本文来源于《苏州大学》期刊2016-05-01)
张华[4](2009)在《蛋白质残基深度、柔性和功能的预测与分析》一文中研究指出了解蛋白质的空间结构、功能、动力学以及解析它们之间的关系对生物学研究来讲非常的重要。蛋白质序列数据库的数据积累速度非常快,而实验测定的已知结构蛋白质的数目相对比较少。蛋白质数量和已测定结构之间的差距正在加大。为不依赖于实验技术而可以获得高通量的结构分析,依据序列决定结构的原理,从序列出发预测结构可以弥补这个差距,然而目前叁级结构的预测仍然是个极具挑战性的问题。有不少研究者采取中间步策略,就是先预测结构的低维数据(如残基深度、溶剂可及性、二级结构、接触图等),然后用这些预测得到精度较高的低维数据去预测叁级结构,以期达到更高精度的叁级结构预测。虽说一级序列决定叁级结构,但在不同的环境下蛋白质结构是可变的。事实上,蛋白质分子中的原子始终处于不停的热涨落,使蛋白质在不同区域具有不同程度的柔性,以适应实现其多样的功能。研究蛋白质的柔性或动力学有实验手段如X衍射结晶学和多维核磁共振技术,也出现了大量的计算方法,如分子动力学模拟、正则模分析、弹性网络模型、加权接触数以及基于机器学习的预测方法,它们都存在各自的优缺点。发展新方法可以使得人们从不同的视角去分析和理解蛋白质的柔性和动力学,在功能分析上提供更全面的信息。本文的工作主要由叁部分构成:1.以预测结构的一维描述量-残基深度为目标,提出了一种新的预测优化方法。运用支持向量回归方法(SVR),将PSI-BLAST生成的位置特异性打分矩阵、蛋白质大小、预测的二级结构信息以及残基的位置信息作为输入特征,并通过精细设计,运用特征选择方法和细致的SVR参数优化,获得了与当前存在的另一个算法相比更高的预测精度。其中,预测的相关系数与平均绝对误差分别为0.67与0.56(?)。另外,本研究还首次对当前存在的定义不同的残基深度指标进行了预测,并作了详细的分析比较,可供其它蛋白质结构预测者参考与选择。2.为更好的理解蛋白质的功能,分析研究蛋白质的柔性显得越来越重要。本文在不同层次上详细地分析了由B因子度量的蛋白质柔性与溶剂可及性之间的关系,其中这些层次包括氨基酸、二级结构类型、叁肽的暴露模式以及局部序列窗口。发现的结论有:1)氨基酸的柔性-暴露相关指标与反映折迭稳定性的平均贡献的稳定性指标有很强的相关性;2)两个相邻残基处在内部的表面中心残基相比于两个相邻残基处在表面的内部中心残基具有更低的平均B′-因子;3)利用线性回归模型可得,使用局部溶剂可及性信息能够显着地提升它和B′-因子之间的关系。另外也对比了溶剂可及性和柔性之间的关系与基于距离/体积的残基深度和柔性之间的关系。当仅仅考虑单个残基,基于体积的深度与柔性具有最强的相关性。但是当包含入局部信息时,局部溶剂可及性的相关性显着地增长,最终超过了深度与B′-因子之间的相关性。进一步,发现利用基于序列B′-因子预测,从序列出发预测而得的RSA值可以用来识别无序和有序区域。结果表明,从局部溶剂可及性出发预测的B因子即可以用来识别柔性和刚性区域,也可以用来发现无序区域。相比于其它存在的预测柔性的方法,基于局部真实RSA和局部预测RSA开发出来的预测模型在B′-因子预测或无序/有序残基识别上都具有相似或更好的结果,这些结果在叁个较大的标准数据集和叁个案例得到了充分的验证。而且,提出的线性回归模型能够在分析结构-柔性关系和序列-柔性关系上提供非常有意义的解释,并且两者都能应用到结构/序列-柔性-功能关系探索。3.任何叁级结构的低维描述量总是不能够抓住蛋白质的完整结构信息的,因此,提出新的指标将有助于蛋白质结构的研究和分析。基于文献[138]中提出的一种称为残基的Gamma半径,利用Delaunay剖分和动态规划算法给出了Gamma半径的有效计算算法。此度量将有助于研究蛋白质的功能“口袋”,可用来描述配体的结合位点。(本文来源于《南开大学》期刊2009-04-01)
残基深度论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
合适的残基与残基接触被认为在维持蛋白质的天然构象和指导蛋白质折迭方面发挥着关键作用。实际上,蛋白质残基接触预测能够为蛋白质结构预测提供非常有价值的信息,因为残基接触信息,特别是远程残基接触信息,能够被用来直接指导蛋白质叁维结构的重构、通过改善能量函数的最小能量面以有效缩小构象搜索空间,和通过构建打分函数来进行模型评价和选择。此外,它的应用还被扩展到合理的药物设计。尽管近年来对蛋白质残基接触预测有了较为深入的研究,并且CASP国际竞赛也极大地推动了这一领域的发展,但预测准确性仍然较低,因此也得到了越来越多的关注。目前,蛋白质残基接触的预测主要分为基于模板的方法和基于序列的方法。前者基于同源模板来进行预测,因而限制了它的使用。相反,后者仅仅基于氨基酸序列来进行预测,因而更具有研究价值,也获得了更多的研究热情。基于序列的方法大体上主要包括基于机器学习的方法和基于共进化信息的方法,前者主要通过检索结构数据库中的统计信息来构建各种各样的机器学习模型,而后者主要使用蛋白质非冗余的同源序列的多重序列比对得到的共进化信息。已有研究表明,以上两种方法的结合能够有效提高残基接触预测的准确性。本研究中,我们提出了DeepConPred方法,包含两个基于深度学习的模型(DeepCCon和DeepRCon)和一个优化过程,通过有效结合结构数据库中的统计信息和序列数据库中的共进化信息来提高远程残基接触预测。DeepConPred使用一个层次架构,通过在第一阶段DeepCCon的预测结果来进一步促进DeepRCon的远程残基接触预测。对这两种方法,我们设计了一些新颖的特征,通过结合已有的有效特征对蛋白质结构性质进行更全面的描述。进而我们使用特征选择技术选取最具辨别能力的特征子集,使用深度学习技术构建模型,有效提高对蛋白质二级结构片段接触和远程残基接触的预测准确性。特别地,DeepCCon和DeepRCon通过使用有限的非冗余同源序列得到的共进化信息来进行模型训练,以确保对小家族蛋白具有鲁棒性。因此,随后的优化步骤被用来综合所有的非冗余同源序列得到的全面的共进化信息来提高大家族蛋白的预测准确性。广泛的实验表明DeepConPred能有效提高蛋白质远程残基接触预测的准确性,能被认为是一种极具竞争力的方法。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
残基深度论文参考文献
[1].崔屹峰.基于深度学习的蛋白质—配体结合残基预测[D].华东师范大学.2019
[2].熊大鹏.基于深度学习架构的蛋白质远程残基接触预测研究[D].清华大学.2017
[3].曹成远.基于深度学习的蛋白质残基相互作用预测[D].苏州大学.2016
[4].张华.蛋白质残基深度、柔性和功能的预测与分析[D].南开大学.2009