导读:本文包含了蛋白质相互作用的预测论文开题报告文献综述及选题提纲参考文献,主要关键词:蛋白质相互作用,氨基酸序列,深度神经网络,联合叁元组自协方差
蛋白质相互作用的预测论文文献综述
王雪[1](2019)在《蛋白质编码及蛋白质相互作用预测模型的研究》一文中研究指出细胞凋亡、免疫应答和代谢途径等一系列重要生命活动,均是通过蛋白质之间的相互作用来实现的。蛋白质相互作用有利于阐明生命活动的分子机制,对疾病治疗和新药开发也具有一定的指导意义。随着后蛋白质组时代的到来,积累了海量蛋白质序列数据,如何处理这些海量的数据,如何从大量的蛋白质序列数据中挖掘出蛋白质之间内在的关系,以及如何构建蛋白质之间的相互作用网络,成为当前蛋白质组学研究中亟待解决的问题。因此,本文以蛋白质相互作用为研究目标,围绕蛋白质序列的编码方法和基于氨基酸序列的蛋白质相互作用预测模型构建及模型优化等问题开展研究工作。论文主要研究内容及结果如下:(1)为了改进蛋白质相互作用的预测性能,基于深度神经网络(Deep Neural Network,DNN)结合联合叁元组(Conjoint Triads,CT)、自协方差(Auto-Covariance,AC)、局部描述符(Local Descriptor,LD)叁种蛋白质编码方法,构建了 DNN-CT、DNN-AC和DNN-LD叁种蛋白质相互作用预测模型,并采用dropout对叁种模型的预测性能进行优化。实验结果发现:dropout将DNN-CT、DNN-AC和DNN-LD 的准确率分别从 97.11%、96.84%和 95.30%提高到 98.12%、98.17%和95.60%,将 DNN-CT、DNN-AC 和 DNN-LD 的损失率分别从 27.47%、65.91%和36.23%降至14.96%、17.82%和15.34%。这些结果表明,dropout可以提高预测模型的准确率同时降低预测模型的损失率,为蛋白质相互作用预测模型的优化提供了一个可行的解决方案。(2)基于CT和AC,提出了一种新的特征编码方法:联合叁元组自协方差法(Conjoint Triad Auto Covariance,CTAC)。该方法将CTAC编码方法与深度神经网络、支持向量机、自适应提升算法和随机森林等机器学习算法相结合,构建不同的蛋白质相互作用预测模型。实验结果表明,基于CTAC编码方法的蛋白质相互作用预测模型不仅在Benchmark数据集获得较好的预测性能,在四个外部数据集上也分别获得较好的预测结果,和现有方法相比,优于现有的蛋白质序列编码方法。(3)针对现有蛋白质序列编码方法CT、AC和LD没有考虑整条氨基酸序列先后顺序关系这一缺点,提出一种基于序列矩阵(Matrix of Sequence,MOS)的蛋白质序列编码方法,该方法一方面考虑了整条氨基酸序列先后顺序关系,另一方面降低了向量空间的维数,减少了计算量,提高了训练速度。基于DNN和MOS构建了蛋白质相互作用预测模型DNN-MOS,实验结果表明DNN-MOS的预测性能优于大部分现有预测方法,给蛋白质相互作用预测的研究提供了一个新的解决思路。本文针对现有编码方法存在的问题,提出了两种新的编码方法,基于深度学习和传统机器学习结合多种编码方法构建了多个蛋白质相互作用预测模型,并采用dropout对模型进行了优化,为蛋白质相互作用预测提供了技术支持。(本文来源于《中国科学技术大学》期刊2019-10-20)
程淑萍,谭建军,门婧睿[2](2019)在《基于机器学习方法的非编码RNA-蛋白质相互作用的预测》一文中研究指出目的非编码RNA-蛋白质的相互作用(noncoding RNA-protein interactions,ncRPI)具有重要的生物学意义,目前预测其相互作用已成为当下研究非编码RNA (noncoding RNA,ncRNA)和蛋白质功能的重要途径之一。方法本研究基于ncRNA和蛋白质的序列信息提取特征,运用卷积自编码器预处理原始数据,训练叁个机器学习模型:LightGBM(LBM)、随机森林(random forest,RF)和极端梯度增强算法(extreme gradient boosting,XGB),预测ncRNA与蛋白质的相互作用。结果在RPI369和RPI488两个数据集做5倍交叉验证,LBM、RF与XGB叁个模型在两个数据集均达到较高的预测准确率,在RPI369数据集叁个模型的预测准确率分别为0. 757(LBM)、0. 791(RF)、0. 791(XGB),在RPI488数据集叁个模型的预测准确率分别为0. 918 (LBM)、0. 908 (RF)、0. 918 (XGB);叁个模型在RPI1807、RPI2241、RPI13254大数据集也取得较高的AUC(area under curve)值,在RPI1807叁个模型的AUC值均为0. 99,在RPI2241叁个模型最低AUC值为0. 87,在RPI13254叁个模型最低AUC值为0. 81,都表现出较好的预测准确性。结论机器学习方法能够预测ncRNA与蛋白质是否存在相互作用。(本文来源于《北京生物医学工程》期刊2019年04期)
卫博翔,焦雄[3](2019)在《基于结构域理化性质的蛋白质相互作用方向预测》一文中研究指出为了更好地理解蛋白质相互作用,用蛋白质相互作用间信号传递方向进一步注释蛋白质相互作用网络,提出了一种基于结构域理化性质预测蛋白质相互作用方向的方法。首先提取蛋白质结构域的10种理化性质,构成表示方向信息的特征向量;然后建立支持向量机预测模型,并利用网格搜索对模型进行参数寻优;最后用拥有最优参数的模型进行预测。实验结果表明,该模型准确率达到88.17%,AUC值为0.837.与PIDS方法比较结果表明,蛋白质结构域的10种理化性质能够有效用于蛋白质相互作用方向的预测,为预测蛋白质相互作用方向提供了一种新思路。(本文来源于《太原理工大学学报》期刊2019年04期)
吴雪[4](2019)在《基于多信息融合的蛋白质相互作用预测研究》一文中研究指出大数据时代,由于测序技术的迅速发展,生物实验数据与信息呈指数形式增长,海量的生物学数据不断涌现。在蛋白质组学研究中,如何选择和使用合适高效的机器学习方法预测蛋白质相互作用是一项具有挑战性的任务。对蛋白质之间的相互作用进行预测研究,可以帮助人类探明生命活动的内在本质与规律,还对了解疾病作用机理和开发有效药物起到推动性的作用。围绕基于多信息融合的蛋白质相互作用预测研究,本文主要工作如下:1.提出一种基于PPIs-stacking的蛋白质相互作用预测新方法。首先,运用伪氨基酸组成(pseudo-amino acid composition,PseAAC)、自相关函数(auto-correlate function,ACF)、氨基酸组分位置特异性得分矩阵(AAC-PSSM)、二肽组分位置特异性得分矩阵(DPC-PSSM)和叁联体编码方式(conjoint traid,CT)五种方法对H.pylori和S.cerevisiae数据集进行特征提取并串联融合五组特征向量。其次,运用Lasso方法对串联融合后的特征向量进行降维。最后结合5折交叉验证检验方法将最优特征向量输入到stacking集成分类器进行预测,并运用Celeg、Ecoli、Hsapi以及Mmusc四个独立测试集验证模型,均取得了较高的准确率。实验结果表明,本文提出的基于PPIs-stacking方法的蛋白质相互作用预测模型取得了较好的预测效果。2.提出一种基于PPIs-WDSVM的蛋白质相互作用预测新方法。首先,运用伪氨基酸组成(pseudo-amino acid composition,PseAAC)、自协方差(auto-covariance,AC)和分组重量编码(encoding based on grouped weight,EBGW)方法对蛋白质序列进行特征提取,并串联融合提取的叁组特征向量。其次,运用二维小波方法对串联融合后的特征向量进行降噪。最后将降噪后的特征向量输入到SVM分类器进行预测。采用5折交叉进行检验,在H.pylori与S.cerevisiae数据集上取得了令人满意的结果,实验结果表明,本文提出的基于PPIs-WDSVM方法的蛋白质相互作用预测模型取得了很好的预测效果。(本文来源于《青岛科技大学》期刊2019-06-04)
梅长卿[5](2019)在《基于未标记样本信息的蛋白质相互作用位点半监督预测》一文中研究指出蛋白质相互作用位点的识别在药物设计方面具有不可替代的意义。然而在实际情况下,由于目前只有小部分的蛋白质相互作用能够被实验方法鉴别出来,所以蛋白质序列上的大多数位点不能被定义为界面位点或非界面位点,这将导致蛋白质相互作用位点的预测缺乏准确性和泛化能力。本文主要通过未标记出来的蛋白质位点信息来对相互作用位点进行预测。在数据处理部分,首先删减冗余的蛋白质链,通过预处理得到91条蛋白质链用于实验。接着对残基进行定义,并基于氨基酸的进化保守性,从HSSP数据库与Consurf Server中提取了五种特征:残基空间序列谱、残基序列信息熵与相对熵、残基序列保守权重以及残基进化速率。将这五种保守性特征加以融合并重新编码,得到的数据集将用于之后的实验。在位点预测部分,本文充分利用了大量未标记样本,并提出了叁种半监督支持向量机模型对蛋白质相互作用位点进行预测。首先,结合标签均值和自训练思想,提出了基于多核学习的标签均值自训练半监督支持向量机(Means3vm-mkl)和基于迭代优化的标签均值自训练半监督支持向量机(Means3vm-iter)。然后我们对上述模型进行了优化,使用一种安全的半监督支持向量机(S4VM)来防止性能下降。从最终的预测结果可以得出,使用未标记样本极大提高了预测的准确性,相比于只利用标记样本的分类模型在准确率上提高了12%。叁种半监督SVM模型都能实现对相互作用位点的预测,其中S4VM表现最佳,正确率达到70.7%,灵敏度以及特异度分别为62.67%,78.72%。相较于传统的实验以及计算方法而言,分类效果得到较大提升。(本文来源于《安徽工业大学》期刊2019-05-15)
卫博翔[6](2019)在《基于结构域理化性质的蛋白质相互作用方向预测》一文中研究指出蛋白质相互作用间的信号传递方向对生物体内大多数的信号转导是非常重要的。随着生命科学研究的不断深入,积累了大量的蛋白质相互作用数据以及由这些数据构成的蛋白质相互作用网络,同时也出现了通过各种形式对蛋白质相互作用网络进行注释的方法。然而,仅有少数研究人员用蛋白质相互作用间的信号传递方向对蛋白质相互作用网络进行注释。在目前的研究中,大多数预测蛋白质相互作用间信号传递方向的方法,都是从蛋白质相互作用网络出发,仅考虑网络的拓扑属性,很少涉及KEGG中经过注释的蛋白质相互作用数据。少数利用已注释的蛋白质相互作用数据的方法也是从蛋白质相互作用出发,基于GO注释或者结构域相互作用与蛋白质相互作用的关系,构建表示方向信息的特征矩阵,训练用于分类的预测模型。然而,这些方法对蛋白质结构域的理化特性都没有涉及。为了解决这一问题,本研究设计了一种从蛋白质结构域的十种理化性质出发,预测蛋白质相互作用间信号传递方向的方法,基于该方法训练了一个用于蛋白质相互作用方向预测的支持向量机模型,并将该模型用于蛋白质相互作用类别预测。首先,我们利用有特定方向的蛋白质相互作用数据,计算蛋白质结构域的十种理化性质,构成可以表示蛋白质相互作用方向信息的特征矩阵,并用特征矩阵训练一个用于蛋白质相互作用间信号传递方向预测的支持向量机模型,通过对比试验和网格搜索算法,对支持向量机模型的核函数、惩罚因子以及核函数参数进行选择,完成了对预测模型的优化。然后,通过五次五倍交叉验证,对预测模型的整体性能进行了分析,模型可以有效、稳定用于蛋白质相互作用间信号传递方向预测;与不同分类方法、不同预测方法的性能比较,进一步说明我们的预测模型的有效性;对影响预测模型精度的结构域理化特性组合进行了研究,说明十种理化特性的必要性;通过不同物种数据集上的性能对比,发现预测模型在进化程度高的物种上的性能更好。我们将基于结构域理化性质的方法用于人类蛋白质相互作用间的激活/抑制类别的预测,进行了相关研究,预测结果为之后蛋白质相互作用间信号传递类别预测提供了参考。总的来说,本文提出了一种基于结构域理化性质信息预测蛋白质相互作用间信号传递方向的方法;通过此方法建立的支持向量机模型可以有效用于蛋白质相互作用间信号传递方向的预测。另外,本研究还对影响预测模型精度的结构域理化性质组合进行了研究,证明结构域十种理化性质的必要性;并将基于结构域理化性质的方法扩展到人类蛋白质相互作用类别研究。这可以为研究人员利用蛋白质相互作用方向和类别对蛋白质相互作用网络进行进一步注释提供新的思路。(本文来源于《太原理工大学》期刊2019-05-01)
张龙[7](2019)在《基于深度学习的蛋白质相互作用预测研究》一文中研究指出蛋白质是生命活动的物质基础,在细胞生命活动中扮演着十分重要的角色。绝大部分蛋白质通过与其他的蛋白质发生互作从而执行多样的生物学功能。蛋白质相互作用是蛋白质组学研究的热点和难点之一,正确地识别蛋白质相互作用不仅有助于更全面地理解活细胞的生物分子生理过程,而且对于新药物的研发和疾病机制的探索等方面都具有重要的意义。基于传统湿实验识别蛋白质相互作用的技术存在费时,覆盖度有限且价格昂贵的缺点。近年来,研究者已经研发了一些利用机器学习和蛋白质氨基酸序列识别蛋白质相互作用的方法。但是这些方法普遍存在以下不足:1)蛋白质氨基酸序列向量化编码方法无法充分提取互作特征;2)忽视多种氨基酸序列编码和分类器间的互补信息,即仅使用单个编码算法和单个分类器预测蛋白质互作;3)蛋白质非相互作用数据集缺失或包含有大量噪声。为此,本文开展了如下工作:(1)针对蛋白质序列特征编码算法不能充分刻画氨基酸序列的连续和不连续区域中残基间的互作的问题,本文提出了一种基于局部叁联体特征编码算法(LCTD:Local Conjoint Triad Description)和深度神经网络的方法—DNN-LCTD。局部叁联体特征编码算法(LCTD)集成了叁联体特征编码算法(CT:Conjoint Triad Descriptor)和局部特征编码算法(LD:Local Descriptor)的优点,因此它能更好的描述氨基酸序列连续和不连续区域隐藏的互作信息。深度神经网络(DNNs)不仅可以从原始数据中自动学习稳定的特征,而且还能描述和刻画数据的层次表示。DNN-LCTD在酵母菌蛋白质相互作用数据集上取得了优越的性能且仅耗时718秒,其中准确率(accuracy)达到93.12%,精度(precision)达到93.75%,AUC(Area Under Curve)达到97.92%。这些实验结果显示,DNN-LCTD能够高效且准确地预测蛋白质相互作用,同时还进一步证明了LCTD编码算法的优越性。(2)针对现有蛋白质相互作用预测方法忽略了多种氨基酸序列编码和分类器间互补信息的问题,本文提出了一种基于集成深度学习和集成蛋白质序列编码算法的分类方法—EnsDNN。EnsDNN首先分别利用自协方差特征编码算法(AC:auto covariance descriptor),LD,多尺度连续不连续局部特征编码算法(MCD:Multi-scale Continuous and Discontinuous local descriptor)编码氨基酸序列间的互作模式。然后基于每个特征编码算法训练不同配置的DNNs。最后为了利用AC,LD,MCD编码算法和不同DNNs间的互补信息,EnsDNN利用一个集成预测器自动地为每个DNNs分类器分配权重,并进行蛋白质互作预测。在酵母菌蛋白质数据集上,EnsDNN取得了优越的性能,准确率(accuracy)达到95.29%,召回率(recall)达到95.12%,精度(precision)达到95.45%。(3)针对蛋白质非相互作用数据集缺失或包含有大量噪声的问题。本文提出两种生成高质量非相互作用数据集的方法—NIP-SS和NIP-RW。NIP-SS和NIP-RW分别基于序列相似度和图上的随机游走的方法选择蛋白质非相互作用对。NIP-SS首先计算互作数据集中各蛋白质间的序列相似度,然后选取前m个最不相似的蛋白质对作为非相互作用对,同时控制已选择非互作用对的蛋白质的度分布与正数据集中的蛋白质度分布相似。NIP-RW则在蛋白质相互作用网络上进行k步随机游走,最后从更新后的邻接矩阵中选择无连接的蛋白质对作为非相互作用的数据。考虑到效率问题,本文使用AC编码氨基酸序列且使用深度神经网络作为分类器模型。大量的实验结果表明相较于其他已经存在的蛋白质非相互作用数据集生成策略,NIP-SS和NIP-RW可以生成更高质量的非相互作用对。实验结果还表明基于NIP-SS和NIP-RW策略生成的非相互作用数据集的DNNs模型的预测性能将更加准确和健壮。(本文来源于《西南大学》期刊2019-04-06)
詹朝惠[8](2019)在《基于集成学习的全基因组水平蛋白质-RNA相互作用预测研究》一文中研究指出RNA和蛋白质之间的相互作用在调节生物体各种细胞过程(例如基因表达调节)中发挥着至关重要的作用,而对于它们之间的相互作用网络研究却始终得不到突破性进展。一方面,传统的RNA蛋白质相互作用预测模型多是基于它们的结构信息来构建的,但这类基于包含结构信息的小数据集构建的计算模型泛化性能不强,数据集的来源也较局限。另一方面,现阶段大多数分类预测模型都是基于单分类器的,然而机器学习的相关理论研究表明,集成分类器较单分类器而言具有更高的预测准确性以及更好的稳定性和泛化能力。针对目前预测RNA和蛋白质之间相互作用工作存在的挑战与难题,本文基于RNA和蛋白质序列信息提出了两种不同的计算模型来预测其之间的相互作用关系。首先,本文提出了一种基于堆迭自编码器网络并结合随机森林分类器的预测模型。该模型分别使用位置特异性打分矩阵和k-mer矩阵来表示蛋白质和RNA序列,然后再分别使用bi-gram和奇异值分解提取对应的特征向量。该预测模型还使用了一个深度学习堆迭自编码器来学习并融合这些向量中的高级隐藏信息。接着将这些特征和标签输入随机森林分类器训练得到预测模型。此外,本模型还使用了堆迭的集成策略来整合集成叁个不同的基础预测模型以改善模型性能。基于叁个公开数据集的实验表明,通过将深度学习和特征提取相结合,并使用集成学习整合多个分类模型的方法能够提升RNA蛋白质相互作用预测模型的性能。本文还提出了一种基于boosting集成学习LightGBM分类器的RNA和蛋白质相互作用预测模型。该模型也分别使用位置特异性打分矩阵和k-mer矩阵来表示蛋白质和RNA序列,然后再分别使用伪Zernike矩和奇异值分解提取对应的特征向量。此外,模型将这些特征随同标签一起输入LightGBM分类器训练得到最终的预测模型。基于四个公开数据集的实验表明,应用LightGBM的预测模型在减少训练时间和内存的同时,还能保持很好的分类预测性能。(本文来源于《中国矿业大学》期刊2019-04-01)
王沫沅[9](2019)在《基于深度神经网络和集成方法的蛋白质相互作用预测研究》一文中研究指出蛋白质是生命的物质基础之一,其相互作用(protein-protein interaction,PPI)几乎控制所有细胞过程,对生物体内各种生理功能的执行发挥着至关重要的作用,掌握这种作用关系不仅有助于理解生命活动的执行机制,也能够为疾病形成与发展、药物设计等提供重要理论支撑。传统生物实验每次能够测定的蛋白质对数目有限,且时间等花销较大,存在局限性。相比之下,使用计算的方法具有省时省力且灵活性高的特点,因此受到了较多关注,其中,基于机器学习的计算方法已成为了研究热点。在后基因组时代,基因序列数据等资源丰富,为基于机器学习方法预测蛋白质间相互作用关系的广泛应用奠定了基础,众多预测方法应运而生。随着机器学习算法的发展,模型的性能得到了持续的提升,但是一些新的模型在蛋白质互作预测研究中却并未得到充分利用。其次,生物数据类别较多,如何充分利用已有数据进行预测并没有统一标准,且不同的特征提取方法与分类器之间常互相限制,当替换分类器时有时需要同时更换数据和特征提取方法才能够维持好的预测性能。针对这些问题,本文提出了基于深度神经网络和基于集成学习模型的两种PPI预测方法。基于深度神经网络的PPI预测框架整合了多种生物信息,包括序列相似性、重要性、亚细胞定位信息以及GO语义相似性信息,组成抽象层次较高的低维特征向量,然后构建深度神经网络,学习蛋白质的特征数据并对未知蛋白质对进行预测。实验结果表明,本文整合的生物特征能够有效降低分类器的时间花销并提高分类准确性,较适用于PPI预测研究,此外,我们构建的神经网络也有较好的泛化能力。基于深度网络的预测方法需整合多个数据源的信息,存在前期人力成本较高的缺点。而且有些蛋白质不具有实验所需的完备生物信息记录,无法获取对应特征向量,相对而言,蛋白质序列数据资源则更丰富且容易获取。鉴于此,我们又提出了一种基于连续小波变换和集成学习模型的PPI预测方法作为补充。该方法综合考虑了氨基酸的不同物理化学性质,利用对应数值将蛋白质序列转化成数字表示形式,然后使用连续小波变换和尺度-小波能量谱从长度不一的序列数据中提取出等长的特征向量。基于此特征向量,我们训练了7个随机森林,通过整合不同随机森林的输出结果,完成预测。实验证明,该方法在多种蛋白质数据上都具有较高的预测性能,值得进一步深入研究。(本文来源于《吉林大学》期刊2019-04-01)
林晓丽[10](2019)在《Hub蛋白质相互作用结合面预测方法研究》一文中研究指出蛋白质相互作用中的Hub蛋白质是协调蛋白质相互作用并发挥生物学功能的关键因素,它有助于解释蛋白质发挥其生物学功能的分子机制,进一步理解生命活动的微观过程,并对基于蛋白质结构的药物设计提供理论指导。蛋白质相互作用结合面上某些热点残基对结合自由能的贡献较大。热点残基在蛋白质结合面上形成紧密堆积的热区。热区是受体与高亲和力配体结合的重要区域,也是促进蛋白质相互作用稳定性的特定功能区域。因此,研究Hub蛋白质相互作用结合面上的热点和热区,以及不同类型的Hub蛋白质相互作用结合面,对于理解蛋白质的功能是非常重要的。虽然,越来越多的蛋白质结构和属性被发现,但是大量的信息是冗余的,导致使用传统方法研究Hub蛋白质相互作用结合面极其困难。高质量的预测模型和高效的计算方法显得尤为重要。本文利用集成学习和聚类方法对Hub蛋白质相互作用结合面开展了一些研究工作,主要内容包括:(1)基于相关系数的特征选择方法首先,利用皮尔森相关系数对特征子集进行评价,获得高度相关的特征属性,并将相关系数矩阵进行可视化处理,移除一些高度关联的特征属性。为了将具有相关模式的变量聚集在一起,采用主成分分析法(PCA)对相关系数图中矩阵的行和列进行重新排序。接着采用基于支持向量机的递归特征剔除方法(SVM-RFE)进行反向特征筛选,获得最优特征子集。通过该方法,无关的特征可以去除,且不会造成大量的信息丢失。(2)基于集成学习的Hub蛋白质结合面热点预测方法为了有效地预测Hub蛋白质结合面上的热点,并对不同类型的Hub蛋白质结合面进行分类,本文首先采用叁个集成学习方法Boosting、Gradient Boosting和随机森林在不同的数据集上建立训练模型,并采用十折交叉验证进行评估。然后,将叁种集成学习方法用到Hub蛋白质结合面的热点预测中,并采用相互作用倾向性优化策略计算Hub蛋白质的倾向性系数,对倾向性系数较高的DD结合面(DateHub-DateHub)和PP结合面(PartyHub-PartyHub)进行分类。为了评估分类模型的性能,利用平均精确率下降曲线和平均基尼系数下降曲线对特征变量的重要性进行分析,并绘制边缘分布图来度量分类模型的确定性。实验结果表明,基于相互作用倾向性的随机森林方法的误判率较低,模型的分类结果有较高的可信度。(3)基于局部社区结构探测的Hub蛋白质结合面热区预测方法采用基于局部社区结构探测(LCSD)的聚类方法预测Hub蛋白质结合面上的热区结构。首先,利用基于聚类的边界点识别方法划分社区,并通过对势和相对可及表面积优化策略(PPRA)对热区结果进行优化。然后,通过丢失残基优化策略,对丢失的蛋白质残基重新处理,从而得到最终的热区。实验结果表明LCSD方法预测热区是可行和有效的,精度得到了较好的提升。(4)基于残基配位数优化和K-means的Hub蛋白质结合面热区预测方法利用K-means聚类方法预测Hub蛋白质结合面上的热区结构。首先,为了提高K-means聚类算法的效率,通过计算距离平方和以及平均轮廓值来确定能够得到最佳聚类结果的k值。然后,用残基配位数优化(RCNO)策略计算平均配位数,同时,根据对势和相对可及表面积(PPRA),对识别的热区进行优化。实验结果表明,残基配位数优化策略对预测热区的个数没有影响,但在预测的热区内部,热点残基数量增加,非热点残基数目减少,预测出来的热区与标准热区更为接近。综上所述,本文基于新的特征选择方法,采用叁种集成学习和两种聚类方法对Hub蛋白质结合面上的热点残基和热区结构进行预测,并通过多种优化策略进行优化。实验结果表明,使用本文方法所创建的模型具有较高的确定性,对预测Hub蛋白质结合面是有效的。(本文来源于《武汉科技大学》期刊2019-02-22)
蛋白质相互作用的预测论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
目的非编码RNA-蛋白质的相互作用(noncoding RNA-protein interactions,ncRPI)具有重要的生物学意义,目前预测其相互作用已成为当下研究非编码RNA (noncoding RNA,ncRNA)和蛋白质功能的重要途径之一。方法本研究基于ncRNA和蛋白质的序列信息提取特征,运用卷积自编码器预处理原始数据,训练叁个机器学习模型:LightGBM(LBM)、随机森林(random forest,RF)和极端梯度增强算法(extreme gradient boosting,XGB),预测ncRNA与蛋白质的相互作用。结果在RPI369和RPI488两个数据集做5倍交叉验证,LBM、RF与XGB叁个模型在两个数据集均达到较高的预测准确率,在RPI369数据集叁个模型的预测准确率分别为0. 757(LBM)、0. 791(RF)、0. 791(XGB),在RPI488数据集叁个模型的预测准确率分别为0. 918 (LBM)、0. 908 (RF)、0. 918 (XGB);叁个模型在RPI1807、RPI2241、RPI13254大数据集也取得较高的AUC(area under curve)值,在RPI1807叁个模型的AUC值均为0. 99,在RPI2241叁个模型最低AUC值为0. 87,在RPI13254叁个模型最低AUC值为0. 81,都表现出较好的预测准确性。结论机器学习方法能够预测ncRNA与蛋白质是否存在相互作用。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
蛋白质相互作用的预测论文参考文献
[1].王雪.蛋白质编码及蛋白质相互作用预测模型的研究[D].中国科学技术大学.2019
[2].程淑萍,谭建军,门婧睿.基于机器学习方法的非编码RNA-蛋白质相互作用的预测[J].北京生物医学工程.2019
[3].卫博翔,焦雄.基于结构域理化性质的蛋白质相互作用方向预测[J].太原理工大学学报.2019
[4].吴雪.基于多信息融合的蛋白质相互作用预测研究[D].青岛科技大学.2019
[5].梅长卿.基于未标记样本信息的蛋白质相互作用位点半监督预测[D].安徽工业大学.2019
[6].卫博翔.基于结构域理化性质的蛋白质相互作用方向预测[D].太原理工大学.2019
[7].张龙.基于深度学习的蛋白质相互作用预测研究[D].西南大学.2019
[8].詹朝惠.基于集成学习的全基因组水平蛋白质-RNA相互作用预测研究[D].中国矿业大学.2019
[9].王沫沅.基于深度神经网络和集成方法的蛋白质相互作用预测研究[D].吉林大学.2019
[10].林晓丽.Hub蛋白质相互作用结合面预测方法研究[D].武汉科技大学.2019