导读:本文包含了界面残基论文开题报告文献综述及选题提纲参考文献,主要关键词:支持向量机,蛋白质-DNA相互作用,热点残基,溶剂可及表面积
界面残基论文文献综述
赵乐[1](2019)在《基于生物学特征的蛋白质-DNA界面热点残基预测方法研究》一文中研究指出蛋白质和DNA是组成生命体复杂结构和功能的重要生物大分子。在各种生命活动中,它们之间的相互作用,即蛋白质-DNA相互作用,都有着相当重要的作用。而在蛋白质-DNA相互作用中,少部分氨基酸残基贡献了绝大部分的结合自由能,这部分残基被称为热点残基。研究蛋白质-DNA复合物结合机制和稳定性的一个关键就是识别其相互作用界面上的热点残基问题。丙氨酸扫描作为一种分析蛋白质表面上的特定氨基酸残基功能的生物实验技术,已经广泛应用于鉴定蛋白质-DNA中残基的结合自由能。这种实验技术将蛋白质-DNA界面上的氨基酸残基突变成丙氨酸,然后通过计算自由能的变化来识别热点残基。但是通过生物实验方法鉴定界面热点残基代价昂贵、耗时耗力,因此有必要发展识别蛋白质-DNA相互作用界面热点残基的计算方法。已有的计算方法大多使用基于分子动力学模拟的方法计算蛋白质-DNA结合自由能,进而预测热点残基。这类方法在构建预测模型时容易受到部分蛋白质结构的限制,并且预测效率也较低。而基于机器学习的计算方法则可以有效地克服这些不足之处。本文的主要工作如下:1.提出了基于一般性生物学特征的蛋白质-DNA热点残基预测方法。我们合并dbAMEPNI和SAMPDI两部分数据并筛选得到了64个蛋白质-DNA复合物共214个蛋白质-DNA界面残基,其中150个作为训练集,64个作为测试集。我们按照序列、结构、网络和溶剂可及表面积四个类别一共提取了114维特征。在比较分析了四种不同的特征选择方法后,提取了 10个最优特征。接着分别使用支持向量机、朴素贝叶斯、K近邻算法和随机森林来构建模型。并根据比较结果,最终使用支持向量机在10个特征上构建了预测模型PrPDH(Prediction of Protein-DNA binding Hot spot)。在训练与测试数据集上的比较结果表明,PrPDH预测性能相比其他方法性能更好,在训练集上的F1和AUC分别是0.721和0.803,在测试集上的F1为0.706,AUC为0.764。PrPDH的在线预测网址为http://bioinfo.ahu.edu.cn:8080/PrPDH/。2.提出了基于不同状态邻居信息的蛋白质-DNA热点残基预测方法。从蛋白质-DNA结合机制出发,在已有的10个最优特征基础上,分析蛋白质-DNA界面残基在结合和非结合DNA状态下的氢键、溶剂可及表面积、深度和突出指数特征,计算残基在作为供体时结合DNA链上相邻核苷酸产生的氢键数目,同时引入界面邻居残基的信息,改进溶剂可及表面积和残基深度、突出指数特征的编码方式,从而体现该残基在两种状态下的特征变化村相对于邻居残基的变化强度。最终共得到41维特征。然后使用基于支持向量机的递归特征消除法(SVM-RFE)并根据特征之间的相关性去除冗余并选择8维特征,结合支持向量机构建PrPDH-V2模型。通过模型的性能比较表明,PrPDH-V2相比PrPDH和其他方法在性能上有着较大的提升,在训练集上的F1为0.787,AUC为0.871,在测试集上的F1和AUC分别是0.755和0.852。实验结果表明,这种改进的特征编码方式能够有效识别蛋白质-DNA相互作用界面上的热点残基。(本文来源于《安徽大学》期刊2019-03-01)
刘玲[2](2018)在《蛋白质—核酸界面丙氨酸突变效应数据库与热点残基研究》一文中研究指出蛋白质和核酸的相互作用在生物体的众多生命活动中发挥着非常重要的作用,例如基因的转录,翻译,DNA修复和DNA组装等过程。了解相互作用中氨基酸的替换对蛋白质-核酸结合亲和力的影响,可能有利于阐明蛋白质-核酸识别的分子机制;也有助于寻找一些涉及到蛋白质-核酸相互作用紊乱而产生的复杂疾病的解决方法。然而时至今日,仍然没有一个全面的最新的包含蛋白质-核酸界面丙氨酸突变定量结合数据的数据库可以公开访问。基于此,我们建立了一个新的用于研究蛋白质-核酸相互作用丙氨酸突变效应的数据库(dbAMEPNI)。dbAMEPNI是一个基于文献的,由人工管理的数据库。数据库包含一个核心数据集(Core set),这个数据集中包含了 577个由实验测定的蛋白质-核酸界面丙氨酸突变的结合亲和力数据,它们包含了很多重要的组分,如解离常数(Kd),以及吉布斯自由能的变化(AAG),实验条件和蛋白质界面中突变残基的结构参数。另外,数据库还包含了一个扩展数据集(Extended set),这一数据集仅包含282个单丙氨酸突变的热力学效应的定性(或者描述性)数据。数据库公开访问网址为:http://zhulab.ahu.edu.cn/dbAMEPNI/。基于此数据集,我们进一步发展了一种基于知识的蛋白质-核酸界面热点残基预测方法。热点残基是蛋白质-核酸相互作用界面残基中的一小部分残基,他们贡献了蛋白质-核酸结合中绝大部分的亲和性。蛋白质-蛋白质界面热点残基已经被广泛的研究,与之相比,对蛋白质-核酸相互作用界面热点残基的研究仍然很少,其中一个很重要的原因是蛋白质-核酸相互作用的突变数据不像蛋白质-蛋白质界面那么多。在本文的研究中,我们从我们自己构建的dbAMEPNI数据库中获取503个丙氨酸突变数据,这些数据都有热力学记录。然后使用PISCES去除冗余后,得到了 358个蛋白质-核酸界面的丙氨酸突变数据。其中299个数据被用来作为训练数据集训练我们的模型,剩下59个则被用作独立测试集来评价模型的泛化能力。为了构建我们的模型,我们生成了七大类共计97个不同的结构特征,并使用决策树和顺序向前特征选择来选择最优的特征子集。最后利用支持向量机(SVM)构建了一个基于10个特征的模型。这些特征中包含了两个新提出的特征,分别为△SASsa1/2和esp3。前者是残基侧链埋藏的绝对溶剂可及表面积的平方根,后者是目标残基周围小片的静电势。在训练集的交叉验证中,我们模型的敏感度,精确度,准确度和F1 score分别为0.640,0.764,0.840和0.696,而另一种目前已有的用于预测蛋白质-核酸相互作用热力学效应的mCSM-NA模型,它的敏感度,精确度,准确度和F1 score分别为0.419 0.350 0.609和0.381。除此之外,该模型在独立测试集上进行进一步验证,独立测试集中的59个数据中有3个是热点残基,另外的56个为非热点残基。我们的模型在独立测试集中给出的敏感度,精确度,准确度和F1 score分别为0.667,0.400,0.932和0.500,相比较mCSM-NA的1.00,0.100,0.542和0.182而言,我们的模型在预测效果上有一定的优势。(本文来源于《安徽大学》期刊2018-05-01)
陈友兵[3](2017)在《基于mRMR结合SVM-forward特征选择的蛋白质界面上热点残基预测及其生物上的应用》一文中研究指出近几年生命科学的研究方向随着基因工程的工作步入尾声之后开始逐渐转向基因的功能,又因为基因的功能在细胞水平上所呈现的全部生命活动都是通过蛋白质之间相互作用方式直接或间接地实现,例如:DNA复制、信号传导、调节机制、DNA转录和基因翻译等活体细胞各个水平上的必不可少活动,所以在后基因组时代中蛋白质之间的相互作用已然成为关键研究方向之一。大量研究证明在蛋白质相互作用网络中只有极少数残基在它形成过程中释放出比较多能量,对于其他大部分残基而言,那些少量残基是在蛋白质结合过程中所产生自由能的主要提供者,后来研究人员将这些主要贡献的残基定义为热点残基(Hot Spots)。热点残基其实是位于蛋白质结合界面上的一小簇残基团,它们是以聚集形式分布在蛋白质界面上,并不是以均匀方式存在。热点残基虽然占据的蛋白表面面积非常小,但是它们在蛋白质-蛋白质的自由结合中充当非常重要的角色。热点残基深刻地影响着蛋白质功能的发挥并且对维护蛋白质结合界面的稳定性有着十分关键的作用。虽然目前通过生物实验技术可以发现蛋白质-蛋白质结合界面上的热点残基,但是这个方法复杂,并且由于昂贵和耗时等原因而不能被广泛的应用。所以很多研究者尝试使用其它预测的方法比如基于计算预测,其中主要包括基于经验公式和机器学习进行热点残基预测,这些方法虽然取得一些成果,依然存在很大提升空间。本文采用机器学习方法进行热点残基的预测,我们从氨基酸理化、蛋白质序列、结构和蛋白质的相互作用等方面上提取了 143个特征,之后,我们采用最小冗余特征选择算法结合前向支持向量机算法从中筛选出41个特征,并且利用随机森林算法构建模型,和其他文章方法相比之下,本文在独立测试集上的预测指标F1和MCC分别达到了 0.625和0.518。我们称这种方法为HPcms。并且经过特征筛选后,本文的新特征依然是预测结果的重要特征。最后,本文将很多热点残基预测工具集成并进行生物上的应用:预测抗体-抗原(抗原是蛋白质情况下)结合中表位上的热点残基,之后使用开源软件RosettaMultigraft模块以计算机模拟方式对我们实验室的蛋白质结构3ztn.pdb上两段表位移植到其他蛋白质支架上,经过计算机层面上的筛选后,进行生物实验。通过生物实验对比和结果上分析,本文提出的集成热点残基预测方法对于抗体-抗原上表位上的热点残基预测和表位移植发挥重要作用。(本文来源于《厦门大学》期刊2017-06-30)
邱艳姿[4](2017)在《基于ELM的蛋白质相互作用界面热点残基预测方法的研究》一文中研究指出蛋白质作为全部生命的物质基础,在生命科学研究中占据着重要的位置。其中,它的结构和功能是重点关注的两个方面。蛋白质相互作用的过程与这两方面都息息相关。因此,对此过程的研究显得十分必要。在蛋白质相互作用界面上聚集着大量的残基,其中一小部分对界面的功能来说至关重要,称为热点残基。预测界面上的热点残基可以进一步揭示蛋白质之间相互作用的本质。同时,也有助于我们更透彻的理解蛋白质的结构和功能。在本文中,我们根据前人的相关文献,并在蛋白质结构数据库(Protein Data Bank,简称PDB)中获得实验所需的训练集和单独的测试集数据。预测残基的传统生物学方法主要是丙氨酸扫描突变技术,该方法比较复杂,代价较高并且比较耗时,所以不适用于大规模的使用。近年来,研究人员基于一些高效的数据挖掘处理和学习算法,提出了热点残基的多种预测方法,这些方法统称为计算方法。如何选取有效的残基特征,是使用计算方法进行残基预测的重点研究对象。本文首先基于训练集数据,选取了62种蛋白质残基的结构信息特征属性值。并在此基础上设计了一个多步特征处理方法来提取有效特征,包括ReliefF特征选择算法,去除冗余以及选择重要特征的策略,最终确定15种特征作为重要的特征集合。然后基于极限学习机ELM学习算法,结合这15种特征的不同子集构建不同的预测模型。根据实验结果分析可确定ELM学习算法的最佳参数和最佳特征子集组合,其中最佳特征子集包括4种特征。最后根据所得到的最优参数,进而构建可以准确预测热点残基的预测模型,并在分类过程中引入投票策略对模型进行优化。为了验证本文的预测模型的有效性,我们对单独的测试集数据以及其他的案例数据进行实验预测。实验结果表明本文的预测模型能够对热点残基进行有效的分类,并较其他的模型具有更好的性能。(本文来源于《湘潭大学》期刊2017-06-05)
邸云强[5](2016)在《蛋白质相互作用界面热点残基的预测研究方法》一文中研究指出蛋白质-蛋白质之间相互作用在细胞功能的各个方面如新陈代谢和信号传导中起着至关重要的作用。对蛋白质相互作用的分子机制的研究表明蛋白质界面上小部分残基对结合自由能的贡献很大,并且它们对维持蛋白质的稳定起着积极的作用。鉴别蛋白质作用界面的热点残基对于药物设计和研究癌症具有非常重要的意义。目前,通过生物实验技术来发现热点残基的方法,因其代价高不能被广泛的应用,因此,需要利用机器学习的方法来研究热点残基预测的问题。本文提出了一种可靠的热点残基预测的方法。针对每个残基,本文提取108种序列、结构和残基的微环境特征(包括传统的特征以及本文中提出的伪疏水性特征)。然后利用两步特征选择法,包括最小冗余最大相关性算法和穷举法,选择出最佳的3个特征。本文利用支持向量机来构建模型。和其他预测方法比较,本文的预测结果是最好的,F1和MCC分别达到了0.70和0.46。预测结果表明,通过本文的方法选取的3个特征比那些传统的特征更加有效,同时表明,结构和物理化学方面的特征是区分热点残基的重要特征。(本文来源于《安徽大学》期刊2016-05-01)
畅卫功,李灏,王林,杨海波[6](2015)在《基于支持向量机的蛋白质相互作用界面热点残基预测》一文中研究指出针对蛋白质相互作用界面中的热点残基是局部紧凑地聚集着,而现有的基于机器学习的热点残基预测方法仅从目标残基中提取特征,并没有考虑目标残基的局部空间结构信息,以及如何进行特征提取并获得非冗余的特征子集等问题,为准确识别蛋白质相互作用界面的热点残基,提出结合蛋白质相互作用界面残基的空间邻近残基信息提取多类特征,并利用随机森林来进行特征提取,最后利用支持向量机来预测热点残基的方法.计算实验表明,该预测方法可以有效地用来发现热点残基.(本文来源于《天津科技大学学报》期刊2015年02期)
周慧云,刘文平,刘广建,方颖,吴建华[7](2013)在《分子动力模拟法识别GPVI和10B12界面上的关键氨基酸残基》一文中研究指出血小板上免疫球蛋白样受体GPVI与血管内皮下胶原的结合是血小板激活和稳定粘附的中心环节,单克隆抗体10B12因能抑制GPVI与胶原的结合而受到关注。为识别GPVI/10B12上的关键残基,作者提出了一种结合同源模建、刚性对接和分子动力学模拟的计算方法,通过观察系统平衡和自由分子动力学模拟过程中GPVI/10B12复合物结合面上氢键和盐桥的形成和演化,分析计算它们的生存率,最后引入残基相互作用指数RII来度量参与相互作用残基的重要性。计算结果被突变实验证实有很高的准确度和特异性。说明RII的计算机策略能很好地检测和预报结合面的关键残基。(本文来源于《生物物理学报》期刊2013年09期)
刘诚[8](2012)在《蛋白质相互作用界面中热点残基预测方法的研究》一文中研究指出绝大部分的蛋白质相互作用结合自由能仅由少数关键残基所贡献,这种残基被称为热点残基。热点残基对我们理解蛋白质功能和研究蛋白质相互作用非常重要。目前主要通过丙氨酸突变扫描技术来鉴别热点残基,但因为代价高、周期长等因素而不能大规模应用,因此急需可靠的、高效率的计算方法来构建热点残基预测模型。本文使用基于蛋白质特征属性的方法,结合支持向量机(SVM)分类算法,构建了一个混合SVM模型来预测蛋白质相互作用界面中的热点残基。首先在ASEdb数据库中提取出实验所需要的训练样本集,然后提取了与蛋白质相关的60个属性特征,包括理化属性、结构属性以及其它相关属性,并将这60个属性分为5个类别,对5个类别分别进行特征选择,得到5个特征子集分别构建SVM预测模型。通过对这5个预测模型的评价,得出了两个能有效预测出热点残基的模型,然后结合这两个预测模型构建出混合SVM模型,为了进一步进行验证模型的可靠性,我们还在BID数据库中提取出独立的测试样本集来验证我们的预测模型。我们还将前人研究的预测模型和我们的预测模型进行了对比,包括Robetta模型、FOLDEF模型、KFC模型和MINERVA模型,这些模型在热点残基预测领域有着非常重要的意义。使用相同的训练样本集来构建预测模型,并使用相同的测试集来验证,我们的模型在热点残基的预测能力上有明显的提高,证明了我们方法的适用性。(本文来源于《武汉科技大学》期刊2012-04-28)
欧阳玉梅,方若森[9](2012)在《蛋白质-蛋白质界面热点残基预测及其在线工具》一文中研究指出蛋白质-蛋白质结合热点是界面中对结合自由能有着显着贡献的一小簇残基。捕捉和揭示这类热点残基可以加深对蛋白质间相互作用机制的理解,为蛋白质工程和药物设计提供指导。但实验技术费时费力且代价昂贵。计算工具可用于辅助和补充实验上的尝试。该文较详细、系统地介绍了蛋白质界面热点的特性、计算预测的策略与技术,并应用实例进一步说明这些方法学的特征;还介绍了界面热点的数据库和一些主要的在线预测工具,旨在为设计、挑选和应用这类工具解决特定问题的研究人员提供指南。(本文来源于《生命科学》期刊2012年01期)
王池社,程家兴,汪世义[10](2009)在《基于贝叶斯方法的蛋白质界面残基预测》一文中研究指出蛋白质界面残基预测是蛋白质相互作用研究中的一项基本工作,在生物制药及蛋白质功能研究方面有着重要的应用。以蛋白质中的氨基酸残基为研究对象,使用残基的溶剂可及表面积及残基的序列谱为特征集,构建了基于贝叶斯方法的蛋白质界面残基预测器。方法有效地结合了蛋白质残基特征集的条件独立性假设及贝叶斯方法在处理不确定性数据方面的优点,通过对含77个蛋白质的数据集进行实验,结果比其它方法获得了6%的准确率的提高,叁维可视化的结果也表明分类器预测的有效性。(本文来源于《计算机应用与软件》期刊2009年09期)
界面残基论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
蛋白质和核酸的相互作用在生物体的众多生命活动中发挥着非常重要的作用,例如基因的转录,翻译,DNA修复和DNA组装等过程。了解相互作用中氨基酸的替换对蛋白质-核酸结合亲和力的影响,可能有利于阐明蛋白质-核酸识别的分子机制;也有助于寻找一些涉及到蛋白质-核酸相互作用紊乱而产生的复杂疾病的解决方法。然而时至今日,仍然没有一个全面的最新的包含蛋白质-核酸界面丙氨酸突变定量结合数据的数据库可以公开访问。基于此,我们建立了一个新的用于研究蛋白质-核酸相互作用丙氨酸突变效应的数据库(dbAMEPNI)。dbAMEPNI是一个基于文献的,由人工管理的数据库。数据库包含一个核心数据集(Core set),这个数据集中包含了 577个由实验测定的蛋白质-核酸界面丙氨酸突变的结合亲和力数据,它们包含了很多重要的组分,如解离常数(Kd),以及吉布斯自由能的变化(AAG),实验条件和蛋白质界面中突变残基的结构参数。另外,数据库还包含了一个扩展数据集(Extended set),这一数据集仅包含282个单丙氨酸突变的热力学效应的定性(或者描述性)数据。数据库公开访问网址为:http://zhulab.ahu.edu.cn/dbAMEPNI/。基于此数据集,我们进一步发展了一种基于知识的蛋白质-核酸界面热点残基预测方法。热点残基是蛋白质-核酸相互作用界面残基中的一小部分残基,他们贡献了蛋白质-核酸结合中绝大部分的亲和性。蛋白质-蛋白质界面热点残基已经被广泛的研究,与之相比,对蛋白质-核酸相互作用界面热点残基的研究仍然很少,其中一个很重要的原因是蛋白质-核酸相互作用的突变数据不像蛋白质-蛋白质界面那么多。在本文的研究中,我们从我们自己构建的dbAMEPNI数据库中获取503个丙氨酸突变数据,这些数据都有热力学记录。然后使用PISCES去除冗余后,得到了 358个蛋白质-核酸界面的丙氨酸突变数据。其中299个数据被用来作为训练数据集训练我们的模型,剩下59个则被用作独立测试集来评价模型的泛化能力。为了构建我们的模型,我们生成了七大类共计97个不同的结构特征,并使用决策树和顺序向前特征选择来选择最优的特征子集。最后利用支持向量机(SVM)构建了一个基于10个特征的模型。这些特征中包含了两个新提出的特征,分别为△SASsa1/2和esp3。前者是残基侧链埋藏的绝对溶剂可及表面积的平方根,后者是目标残基周围小片的静电势。在训练集的交叉验证中,我们模型的敏感度,精确度,准确度和F1 score分别为0.640,0.764,0.840和0.696,而另一种目前已有的用于预测蛋白质-核酸相互作用热力学效应的mCSM-NA模型,它的敏感度,精确度,准确度和F1 score分别为0.419 0.350 0.609和0.381。除此之外,该模型在独立测试集上进行进一步验证,独立测试集中的59个数据中有3个是热点残基,另外的56个为非热点残基。我们的模型在独立测试集中给出的敏感度,精确度,准确度和F1 score分别为0.667,0.400,0.932和0.500,相比较mCSM-NA的1.00,0.100,0.542和0.182而言,我们的模型在预测效果上有一定的优势。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
界面残基论文参考文献
[1].赵乐.基于生物学特征的蛋白质-DNA界面热点残基预测方法研究[D].安徽大学.2019
[2].刘玲.蛋白质—核酸界面丙氨酸突变效应数据库与热点残基研究[D].安徽大学.2018
[3].陈友兵.基于mRMR结合SVM-forward特征选择的蛋白质界面上热点残基预测及其生物上的应用[D].厦门大学.2017
[4].邱艳姿.基于ELM的蛋白质相互作用界面热点残基预测方法的研究[D].湘潭大学.2017
[5].邸云强.蛋白质相互作用界面热点残基的预测研究方法[D].安徽大学.2016
[6].畅卫功,李灏,王林,杨海波.基于支持向量机的蛋白质相互作用界面热点残基预测[J].天津科技大学学报.2015
[7].周慧云,刘文平,刘广建,方颖,吴建华.分子动力模拟法识别GPVI和10B12界面上的关键氨基酸残基[J].生物物理学报.2013
[8].刘诚.蛋白质相互作用界面中热点残基预测方法的研究[D].武汉科技大学.2012
[9].欧阳玉梅,方若森.蛋白质-蛋白质界面热点残基预测及其在线工具[J].生命科学.2012
[10].王池社,程家兴,汪世义.基于贝叶斯方法的蛋白质界面残基预测[J].计算机应用与软件.2009
标签:支持向量机; 蛋白质-DNA相互作用; 热点残基; 溶剂可及表面积;