导读:本文包含了蛋白质结构模型论文开题报告文献综述及选题提纲参考文献,主要关键词:蛋白质结构预测,能量函数,统计势,原子对
蛋白质结构模型论文文献综述
余忠望[1](2019)在《基于蛋白质原子距离及方位角的统计势及其在结构模型评估中的应用》一文中研究指出蛋白质叁维结构预测是当前计算生物学和生物信息学领域最具代表性和挑战性的课题之一。随着计算机技术的快速发展,过去二十余年里不断涌现出各类结构预测方法。而自1994年起,每两年一届的蛋白质结构预测大赛(CASP)更是吸引了世界范围内不同背景科学家的参与,极大促进了结构预测的发展,它被誉为结构预测领域的奥林匹克竞赛。根据是否使用已知的结构为模板,预测方法通常可分为基于模板的方法和免模板(或从头预测)的方法两大类。无论是哪一类,蛋白质能量函数的设计开发都是事关预测方法成败的核心挑战。本文聚焦于结构预测领域应用最广的基于知识的能量函数——统计势,详细设计构建了新的基于“原子对”距离和方位角统计信息的高性能势能函数。在前期大量测试研究的基础上,我们找到了“原子对”截断距离这一关键参数,针对统计势的天然结构识别能力和假构象排序能力,采用不同的截断距离进行优化,使两方面性能都获得了显着提升。于此同时,我们还根据不同筛选条件构建了若干不同的非冗余结构数据集,分别以这些数据集为统计对象构建统计势,研究了数据集大小、类型对统计势性能的影响。通过将统计势应用于632个蛋白质假构象集,并与若干现有能量函数进行对比评估,讨论确认了本文新开发的统计势在蛋白质天然结构识别和假构象排序两方面的性能优势。(本文来源于《华中农业大学》期刊2019-06-01)
常菁[2](2018)在《用于蛋白质二级结构设计的深度生成模型的研究与应用》一文中研究指出目前国内外对蛋白质二级结构的研究方向主要是预测,即给定蛋白质的一级结构序列来预测其所属的二级结构。本课题提出了一种新的研究思路——生成特定的蛋白质二级结构。从预测到生成,这对蛋白质二级结构的研究是一种理论上的创新,同时也为生物工程和生物制药等提供了便利,具有实际意义。另一方面,深度生成模型在图像、文本等方面的已经取得了一定的成果,而在生物序列方面的研究较少。本课题在生成蛋白质二级结构的研究中选择使用深度生成模型,这也是深度学习方法在生物序列生成中的尝试与应用。为了实现蛋白质二级结构的生成,本课题做出以下几个贡献:(1)构建了完备的蛋白质二级结构数据集。在PDB数据库中下载蛋白质数据文件,并提取出其中的二级结构数据,同时,针对不同的模型进行不同的数据预处理与编码,最终得到适用于模型的训练集;(2)验证了一般性的LSTM网络不适用于蛋白质二级序列的合成。本课题构建了一个LSTM网络,通过生成二级结构序列作为对比,我们在实验中发现LSTM生成的样本重复率高、多样性差,精确率的均值较低、标准差较高。该实验结果表明一般性的LSTM网络不适用于蛋白质二级结构的生成,因此本课题还需要设计更好的蛋白质二级结构序列生成模型;(3)提出了一个新的算法ssp-SeqGAN,用于生成高精度的蛋白质二级结构序列。和SeqGAN方法类似,我们采用了基于强化学习结合GAN的方法。SeqGAN是生成离散序列的一般性算法,它不适用于直接生成高精度的蛋白质二级结构序列。为了解决这个问题,首先,我们重新设计了判别器D的网络结构,在CNN的池化层之前与全连接层之前分别加了 BN层,得到模型SeqGAN-BN;第二,我们在SeqGAN-BN的基础上改进了模型的预训练方式,得到新的模型ssp-SeqGAN。ssp-SeqGAN的主要贡献是提出了新的具有更高多样性与对抗性的负样本的构造方式,有效的提升了预训练的结果。实验结果表明一般性的LSTM生成序列的精确率仅略高于随机生成的序列,其不适用于蛋白质二级结构的设计。我们提出的新模型ssp-SeqGAN生成序列的精确率比SeqGAN有了显着的提升,并且其精确率的标准差较低,证明了 ssp-SeqGAN可以稳定地生成具有较高精确率的样本。综上,本课题提出了一个用于设计蛋白质二级结构序列的深度生成式模型ssp-SeqGAN。在生成蛋白质二级结构序列的研究中,ssp-SeqGAN比现有常规序列模型LSTM以及用于生成离散序列的模型SeqGAN相比均有更好的效果。(本文来源于《北京交通大学》期刊2018-06-01)
包玲玲[3](2018)在《基于多模型深层结构的大规模蛋白质泛素化位点预测》一文中研究指出蛋白质翻译后修饰是重要的化学修饰,而不仅仅是“装饰”,其通过蛋白质水解裂解或者将修饰基团添加到一个或多个氨基酸上以改变蛋白质的性质。在1975年,Goldstein等人最先发现了泛素,是一种约8.5千道尔顿的小蛋白质,由76个氨基酸组成。在蛋白质的特定赖氨酸上附着单泛素或聚泛素链是一种重要的翻译后修饰,即为泛素化。对蛋白质泛素化的研究和学习,将对细胞遗传信息的表达调控和多种疾病的理解有重要意义。现存的方法主要分为基于生物实验和基于计算方法。基于生物实验的有质谱法、CHIP-CHIP分析法等,这种传统的实验方法,耗费大量的时间和精力,同时在仪器的购买上,也是昂贵的。因此,基于计算的方法应运而生,可以很好的解决此类问题,也是现今比较热门的方法。主要以特征为核心,前期特征提取和选择的好坏严重影响了模型的性能,特征的缺失或冗余,都会导致结果的偏差和模型的判别能力,因此对人为筛选特征要求很高,而大量的生物特征,无法轻易的判断哪些特征或特征组合会对模型有帮助。基于此,深度学习渐渐引起人们的重视,其提供了多层神经网络和非线性映射操作以挖掘潜在的特征信息,特别是对于大规模的数据集,可以根据原始的数据模式,充分挖掘出潜在的特征信息。本文提出了多模型深层网络结构用于泛素化位点的预测。首先,采用蛋白质赖氨酸修饰数据库(PLMD)作为底层数据库,其涵盖了迄今为止最全的泛素化数据,本文从PLMD中选取全部蛋白质泛素化位点数据,并将数据划分成训练集、测试集和验证集,为了保证结果的准确性,训练集和测试集均采用随机划分的方法,而验证集是选取训练集的30%。接着,针对这个数据集并结合泛素化位点的特性,从叁个方面分别提取了不同的数据模式,即蛋白质序列信息(One-ofkey),理化属性(Physico-chemical properties)和进化保守性信息(Position-specific scoring matrix),同时采用滑动窗口技术。然后,采用bootstrap策略用于解决正负样本极不平衡的问题,针对不同的数据模式,设计不同的网络结构,并分别训练好各自的网络模型。最后,将叁个网络模型集成在一起,并进行最终的微调,用集成的模型做预测分析。实验结果表明,深度学习算法具有自学习能力,能学习出更有效的特征信息,最终的模型也表现的很优异。敏感性和特异性都得到了提高,最优的性能达到了正确率为66.43%,敏感性值为66.7%,特异性为66.4%,MCC的值为0.221。通过与其他算法比较,更加说明本文方法的有效性以及鲁棒性。(本文来源于《东北师范大学》期刊2018-05-01)
王剑,成金勇,赵志刚,鹿文鹏[4](2018)在《基于CNN与LSTM模型的蛋白质二级结构预测》一文中研究指出蛋白质结构的预测在理解蛋白质结构组成和蛋白质的生物学功能有重要意义,而蛋白质二级结构预测是蛋白质结构预测的重要环节。当PSSM位置特异性进化矩阵被广泛应用于将蛋白质初级结构序列编码作为输入样本后,每个残基可以被表示成二维空间的数据平面,由此文中尝试利用卷积神经网络对其进行训练。文中还设计了另一种卷积神经网络,利用长短记忆网络感知了CNN最后卷积特征面的横向特征和纵向特征后连同卷积神经网络的全连接共同完成分类,最后用ensemble方法对两类卷积神经网络模型进行了整合,最终ensemble方法中包含两类卷积神经网络的六个模型,在CB513蛋白质数据集测得的Q3结果为77.2。(本文来源于《生物信息学》期刊2018年02期)
褚津尔[5](2018)在《蛋白质无序结构预测模型研究》一文中研究指出蛋白质无序结构是蛋白质中的一种特殊结构,在天然条件下,其空间结构不唯一确定,并表现出一定的柔性。但是它在生物中广泛存在,并依然维持着正常的生物学活性,特别是真核生物中,其包含的无序蛋白质占比可以达到27%-41%。对无序蛋白质的研究可以辅助理解蛋白质的折迭过程,确定蛋白质结构,设计新的人工蛋白质以及制造药物,具有重大的意义。使用传统的试验方法测定蛋白质无序区域,虽然具有较高的精度,但是耗时耗力,需要投入大量的成本。因此,基于机器学习的生物信息学研究方法也被用于预测蛋白质无序区域。并且近年来,随着生物数据,包括蛋白质结构数据的爆发式增长,已经形成了海量的数据规模,而目前常用的机器学习预测方法的训练样本数量都较小,因此本文尝试使用分布式的SVM算法对海量数据进行建模,并使用改进方法尝试解决SVM算法对长无序区域的不适应问题,提升了预测效果。主要工作如下:(1)基于PDB蛋白质结构数据库,筛选并获取原始结构数据。(2)提取蛋白质序列并进行标记以及特征提取,得到数据集。(3)对数据集进行整理得到样本集,分别训练常规模型、小数据集模型、样本平衡模型和改进的双层模型。(4)使用交叉验证和独立验证方法,对模型预测结果进行统计分析和评价。实验结果表明,改进方法在各个统计指标上都有一定的提升,并且在标准测试集上,也比其它的同类型方法有更好的表现。因此本文中提出的方法是合理可行的,并且证明基于大数据背景的生物信息学研究是有意义的,同时也是非常必要的。(本文来源于《华中科技大学》期刊2018-01-01)
常方雷[6](2017)在《基于深度学习的蛋白质二级结构预测模型研究》一文中研究指出对蛋白质二级结构进行预测,有助于理解蛋白质的叁级结构,进而理解蛋白质的生物功能和蛋白质分子之间的相互作用关系。围绕蛋白质二级结构预测问题,涌现出了大量的计算生物学研究方法,包括基于统计学和机器学习的方法,比如支持向量机、条件随机场、贝叶斯方法等,以及基于深度学习的方法来预测蛋白质二级结构,比如深度玻尔兹曼机方法、卷积神经网络方法和循环神经网络方法。目前对于蛋白质二级结构预测的研究一般采用人工特征提取,难以捕获蛋白质序列特征和二级机构之间的复杂非线性关系。本文模型实现条件随机场和深度神经网络集成,既考虑相邻残基和长程相互作用关系,又能对蛋白质序列的特征和二级结构之间的复杂非线性关系进行描述。由于卷积神经网络是硬编码的,对于捕获蛋白质序列的空间结构不够优化,尤其是对于结构长程相互作用来说效果不佳。为了更好的对蛋白质中的长程相互作用进行建模,实验中结合改进的循环自动编码器来实现。通过自编码器、卷积神经网络、双向循环神经网络等结构得到高层的序列特征信息,然后输入给条件随机场分类器来预测蛋白质二级结构。本实验的数据集采用CB513和Cull PDB公共数据集,采用PSSM打分矩阵进行特征的提取,并对比了其他特征提取方法的优劣。通过实验,本模型能够在Cull PDB数据集上实现72.5%的Q8精度,在CB513数据集上实现了 67.5%的Q8精度。实验结果表明,相比传统的统计学方法和机器学习方法,由于本文模型采用深度神经网络结构训练序列和二级结构的复杂非线性关系,并结合条件随机场进行分类,能够取得不错的效果。(本文来源于《天津大学》期刊2017-11-01)
丁喜峰,米春霖,陈慰祖,苏计国,王存新[7](2017)在《基于弹性网络模型的蛋白质结构-功能关系》一文中研究指出蛋白质结构-功能关系研究是结构生物学领域的热点问题之一,具有重要的理论和实际应用价值.弹性网络模型(elastic network model,ENM)是获取蛋白质结构本身固有动力学性质,进而揭示其生物学功能的有效方法,在蛋白质结构-功能关系研究中得到了广泛应用.简要介绍了ENM的基本原理及其在蛋白质结构-功能关系中的应用,主要包括蛋白质功能性运动分析和关键位点识别等.(本文来源于《北京工业大学学报》期刊2017年12期)
熊孝尊[8](2017)在《积木模型在“蛋白质的结构及其多样性”教学中的应用》一文中研究指出本文以"蛋白质的结构及其多样性"一节为例,以塑料积木模型为载体,阐述组织学生开展模型构建的方法与过程。(本文来源于《生物学教学》期刊2017年06期)
吴辉[9](2017)在《利用序列信息预测蛋白质二级结构的深度学习模型研究》一文中研究指出蛋白质二级结构预测对于研究蛋白质结构和功能具有非常重要的作用。本文在分析以往的对于蛋白质二级结构预测的方法的基础上,认为蛋白质的二级结构在一定程度上受远程残基的影响,运用蛋白质序列的长程信息和蛋白质序列的进化信息,能有效提高二级结构预测的准确程度。同时,蛋白质序列,在本质上也是一些字符串序列,蛋白质序列学习也可以看作是一种特殊序列学习。由此提出了一种深度学习模型,用以预测蛋白质二级结构。本文的主要贡献如下:(1)首先对每个氨基酸序列建立词的分布表示模型,对比于未经训练的氨基酸的嵌入表示,整体效果提升了10%;接着将预先训练好的蛋白质序列用两个长短期记忆神经网络(一个正向,一个反向)进行训练获得一个定长的向量表示;最后将得到的向量表示作为输入,使用条件随机场分类器来预测蛋白质的二级结构。整个训练过程,通过反向传播来更新模型的参数。(2)提出了一种只利用序列信息进行蛋白质二级结构预测的深度学习模型。该模型利用Word2Vec将氨基酸序列转换为向量,然后利用长短期记忆网络构造的深度神经网络,获得序列的定长特征表示。预测算法中所用到的特征均是通过“学习”自动获得,克服了传统机器学习中特征选择过程过多的人工干预。(3)实验结果表明,对于CullPDB测试蛋白,该深度学习模型可以分别获得73.9%的Q3精度和64.9%的Q8精度。在基准数据集CB513上获得的Q8预测精度达到63.5%。(本文来源于《天津大学》期刊2017-05-01)
朱丽娟[10](2017)在《基于概率图模型HMM的蛋白质二级结构预测》一文中研究指出蛋白质结构与蛋白质功能密切相关,而蛋白质二级结构又是其他更高阶空间结构形成的基础,因此,蛋白质二级结构预测成为生物信息学研究的热点。蛋白质二级结构预测是根据已知二级结构的蛋白质数据建立氨基酸序列和二级结构间的关系模型,进而通过模型来预测未知氨基酸序列的二级结构。隐马尔可夫模型(Hidden Markov Model,HMM)是一种概率统计模型,一些国内外学者将其应用到蛋白质二级结构预测问题上,收到了一定的效果。该文首先利用3-状态HMM和7-状态HMM对蛋白质二级结构进行预测,通过比较得出7-状态HMM的预测效果要优于3-状态HMM。对于7-状态HMM预测算法,又从结构状态和参数训练两方面提出了改进方案。一方面,考虑到7-状态HMM没有包含非二级结构的状态,故引入非二级结构的状态,进而构成8-状态HMM;另一方面,对于参数重估过程的第二种下溢情况,我们打破常规,并没有通过某种手段阻止其下溢,而是用最优重估一次参数的均值作为预测二级结构的模型参数。我们通过这两种改进方案在一定程度上提高了预测准确率。该文的研究表明,选取合适的蛋白质结构状态以及合适的训练集对提高蛋白质二级结构的预测准确率是比较重要的。(本文来源于《河北科技大学》期刊2017-05-01)
蛋白质结构模型论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
目前国内外对蛋白质二级结构的研究方向主要是预测,即给定蛋白质的一级结构序列来预测其所属的二级结构。本课题提出了一种新的研究思路——生成特定的蛋白质二级结构。从预测到生成,这对蛋白质二级结构的研究是一种理论上的创新,同时也为生物工程和生物制药等提供了便利,具有实际意义。另一方面,深度生成模型在图像、文本等方面的已经取得了一定的成果,而在生物序列方面的研究较少。本课题在生成蛋白质二级结构的研究中选择使用深度生成模型,这也是深度学习方法在生物序列生成中的尝试与应用。为了实现蛋白质二级结构的生成,本课题做出以下几个贡献:(1)构建了完备的蛋白质二级结构数据集。在PDB数据库中下载蛋白质数据文件,并提取出其中的二级结构数据,同时,针对不同的模型进行不同的数据预处理与编码,最终得到适用于模型的训练集;(2)验证了一般性的LSTM网络不适用于蛋白质二级序列的合成。本课题构建了一个LSTM网络,通过生成二级结构序列作为对比,我们在实验中发现LSTM生成的样本重复率高、多样性差,精确率的均值较低、标准差较高。该实验结果表明一般性的LSTM网络不适用于蛋白质二级结构的生成,因此本课题还需要设计更好的蛋白质二级结构序列生成模型;(3)提出了一个新的算法ssp-SeqGAN,用于生成高精度的蛋白质二级结构序列。和SeqGAN方法类似,我们采用了基于强化学习结合GAN的方法。SeqGAN是生成离散序列的一般性算法,它不适用于直接生成高精度的蛋白质二级结构序列。为了解决这个问题,首先,我们重新设计了判别器D的网络结构,在CNN的池化层之前与全连接层之前分别加了 BN层,得到模型SeqGAN-BN;第二,我们在SeqGAN-BN的基础上改进了模型的预训练方式,得到新的模型ssp-SeqGAN。ssp-SeqGAN的主要贡献是提出了新的具有更高多样性与对抗性的负样本的构造方式,有效的提升了预训练的结果。实验结果表明一般性的LSTM生成序列的精确率仅略高于随机生成的序列,其不适用于蛋白质二级结构的设计。我们提出的新模型ssp-SeqGAN生成序列的精确率比SeqGAN有了显着的提升,并且其精确率的标准差较低,证明了 ssp-SeqGAN可以稳定地生成具有较高精确率的样本。综上,本课题提出了一个用于设计蛋白质二级结构序列的深度生成式模型ssp-SeqGAN。在生成蛋白质二级结构序列的研究中,ssp-SeqGAN比现有常规序列模型LSTM以及用于生成离散序列的模型SeqGAN相比均有更好的效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
蛋白质结构模型论文参考文献
[1].余忠望.基于蛋白质原子距离及方位角的统计势及其在结构模型评估中的应用[D].华中农业大学.2019
[2].常菁.用于蛋白质二级结构设计的深度生成模型的研究与应用[D].北京交通大学.2018
[3].包玲玲.基于多模型深层结构的大规模蛋白质泛素化位点预测[D].东北师范大学.2018
[4].王剑,成金勇,赵志刚,鹿文鹏.基于CNN与LSTM模型的蛋白质二级结构预测[J].生物信息学.2018
[5].褚津尔.蛋白质无序结构预测模型研究[D].华中科技大学.2018
[6].常方雷.基于深度学习的蛋白质二级结构预测模型研究[D].天津大学.2017
[7].丁喜峰,米春霖,陈慰祖,苏计国,王存新.基于弹性网络模型的蛋白质结构-功能关系[J].北京工业大学学报.2017
[8].熊孝尊.积木模型在“蛋白质的结构及其多样性”教学中的应用[J].生物学教学.2017
[9].吴辉.利用序列信息预测蛋白质二级结构的深度学习模型研究[D].天津大学.2017
[10].朱丽娟.基于概率图模型HMM的蛋白质二级结构预测[D].河北科技大学.2017