导读:本文包含了位点预测论文开题报告文献综述及选题提纲参考文献,主要关键词:青稞,叶绿体,RNA编辑,RT-PCR
位点预测论文文献综述
昌西,裴悦,胡凡,任苗苗,王彤[1](2019)在《青稞叶绿体基因RNA编辑位点的预测、鉴定与比较分析》一文中研究指出为了阐明青稞叶绿体基因组RNA编辑位点的组成与特性,首先利用生物信息工具对青稞叶绿体基因的RNA编辑位点进行了预测,结果发现了35个分布于15个基因的编辑位点,所有编辑均为C到U的转换,其中基因ndhB包含的编辑位点数量最多,达9个,这与其他麦类作物相似;进一步利用RT-PCR结合克隆测序,对预测的35个位点进行了实验验证,发现18个编辑位点被证实发生了C到U的编辑;对编辑前后编码蛋白质的结构进行了比较分析,发现RNA编辑引起了编码蛋白的结构变化,暗示RNA编辑可以造成编码蛋白功能的改变。最后,将青稞叶绿体基因RNA编辑位点与栽培大麦、野生大麦的叶绿体RNA编辑位点进行了比较,发现青稞与栽培大麦的RNA编辑组成完全一样,而野生大麦缺失了 ndhA-563位点,初步印证了大麦的起源进化关系。(本文来源于《麦类作物学报》期刊2019年11期)
张寓,于东军[2](2019)在《基于一维卷积神经网络的蛋白质-ATP绑定位点预测》一文中研究指出为了提高预测腺嘌呤核苷叁磷酸(ATP)绑定位点的准确率,提出了一种基于一维卷积神经网络(1D-CNN)的方法。首先,以蛋白质的序列信息为基础,融合位置特异性得分矩阵信息、二级结构信息和水溶性信息,使用随机下采样的方法消除数据不平衡的影响,再对缺失的特征进行再编码补齐,得到训练特征。训练一个1D-CNN来预测蛋白质-ATP绑定位点,优化网络结构,并且进行实验来对比所提方法和其他机器学习方法的优劣。实验结果展示了所提方法的有效性,并且该方法与传统支持向量机(SVM)相比在AUC指标上有部分的提升。(本文来源于《计算机应用》期刊2019年11期)
龚浩,樊永显[3](2019)在《DNA4mcEL:基于核苷酸信息特征计算分析与预测DNA N~4-甲基胞嘧啶位点》一文中研究指出N~4-甲基胞嘧啶(N~4-methylcytosine,4mC)是一种重要的表观遗传修饰,在DNA的修复、表达和复制中发挥重要作用。准确鉴定4mC位点有助于深入研究其生物学功能和机制,由于4mC位点的实验鉴定即耗时又昂贵,特别是考虑到基因序列的快速积累,迫切需要补充有效的计算方法。因此,提供一个快速、准确的4mC位点在线预测平台十分必要。目前,还未见对构建必要的预测模型所需的不同特征的机器学习(machine learning,ML)方法进行全面的分析和评估。我们构建多组特征集,并且采用5种ML方法 (如随机森林,支持向量机,集成学习等),提出一种称为"DNA4mcEL"的预测方法。在随机10折交叉验证测试下与现有的预测器相比,DNA4mcEL预测C. elegans、D. melanogaster、A. thaliana、E. coli、G. subterraneus、G. pickeringii 6个物种的精度均有提高。基于本方法的预测器DNA4mcEL在这项任务中显着优于现有的预测器。我们希望通过这个综合调查和建立更准确模型的策略,可以作为激发N~4-甲基胞嘧啶预测计算方法未来发展的有用指南,加快新N~4-甲基胞嘧啶的发现。DNA4mcEL的独立版本可以从https://github.com/kukuky00/DNA4mcEL.git免费获得。(本文来源于《中国生物化学与分子生物学报》期刊2019年06期)
刘慧芳[4](2019)在《联合残基和残基对特征预测蛋白内部翻译后修饰位点间的相互作用》一文中研究指出蛋白质翻译后修饰(Post-translational modification,PTM)之间的相互作用在调节蛋白质活性、细胞信号转导、基因表达以及蛋白质-蛋白质相互作用等生物学过程中发挥着至关重要的作用,研究这类相互作用有利于深入阐明由PTM介导的调控机制。通过实验方法检测PTM相互作用耗时费力,而计算方法的开发则有望弥补实验技术的不足。现有大多数的计算研究主要依赖于序列层面的残基关联特征来开发预测模型,忽略了PTM相互作用位点的结构信息和单个残基的特性,从而阻碍了预测精度的提升。因此,开发新算法以克服现有研究中的局限性显得至关重要。本研究提出了一种基于结构信息的算法(PTM Cross-Talk predictor,PCTpred)来提高预测PTM相互作用的准确性。该算法首先在蛋白质序列和结构层面设计了一系列残基关联特征(如共进化信息、共定位信息等)和独立残基特征(如致病性分数、拉普拉斯拓扑指标等),通过比较分析发现正负样本在基于残基对和残基的特征上均具有显着的差异。然后,利用前向特征选择技术保留了23个新引入的描述符和3个传统描述符,在此基础上分别开发了序列分类器PCTseq和结构分类器PCTstr,并通过权重联合构建了最终的预测模型。基于样本和蛋白层面的评价,PCTpred获得的曲线下面积分别为0.903和0.804。即使在去除样本中的距离偏好或使用模拟的蛋白结构作为输入,本算法的预测性能仍能得到维持或适度降低。对不同类型的PTM相互作用子集和文献收集的共修饰肽段进行测试,PCTpred依旧获得了良好的预测效果,从而展现出较强的泛化能力。与目前最优秀的算法相比,PCTpred在各种类型的评测中均能获得较高的预测精度。PCTpred的源代码和数据集可从以下链接获取https://github.com/Liulab-HZAU/PCTpred。(本文来源于《华中农业大学》期刊2019-06-01)
吕成伟[5](2019)在《基于集成学习的σ~(54)启动子及RNA修饰位点的预测》一文中研究指出机器学习在生物信息学中的应用越来越广泛,它对我们探索生命起源、生物进化以及细胞病变起到了巨大的推进作用。相比较传统的生物化学实验方法,机器学习的方法成本低,耗时短,在启动子的预测以及RNA修饰位点的预测等方面都取得了重大突破。近年来,集成学习受到越来越多的人的关注,它是通过一定的规则将多个学习器组合起来获得更好的学习效果的一种机器学习方法。本文针对集成学习在生物信息学中的应用进行了深入的研究,主要研究内容如下:(1)在原核生物的转录中,σ~(54)启动子发挥着重要的作用。为了快速、准确地预测出原核生物中的σ~(54)启动子,本文以集成学习思想为核心,采用支持向量机(support vector machine,SVM)作为基学习器,自主设计了SVM-AdaBoost算法,并在此方法的基础上构建了SVM-AdaBoost预测模型:http://112.74.38.96:8080/SVM_Adaboost,在严格交叉验证下其准确率达到了96.06%,明显比现有的预测模型iPro54-PseKNC的准确率要高。(2)RNA修饰在生命体中普遍存在并且发挥着重要的作用,准确识别并预测出这些RNA修饰的发生位点对于人类探究其生物学功能和机制有着极其重要的意义。为了应对能够实现用一种方法更准确地识别几种不同类型的RNA修饰位点这一挑战,本文提出了一种融合位置特异性单核苷酸及双核苷酸偏好特征的k-元组核苷酸组成(pseudo k-tuple nucleotide composition,PseKNC)编码方式,构建了一个基于XGBoost(eXtreme gradient boosting,XGBoost)集成算法的RNA修饰位点的预测模型。我们采用了交叉验证的方法对最终的预测模型进行了测试,测试结果表明其预测准确率比现有的预测模型要高。这些研究成果对于探索人类基因奥秘、疾病的发生和治疗具有重要的意义。(本文来源于《桂林电子科技大学》期刊2019-05-30)
谢若鹏[6](2019)在《基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测》一文中研究指出翻译后修饰是对蛋白质中的一个或多个氨基酸添加官能团(如烷基、烯基、苯基等)改变其化学性质或者空间结构,从而进一步影响蛋白质在细胞生命活动过程的调控作用。在众多的蛋白质翻译后修饰中,赖氨酸丙二酰化是将丙二酰基团从丙二酰辅酶A转移到赖氨酸残基上的一种化学修饰。研究证明,这一修饰能调控肝脏组织中葡萄糖和脂肪酸的代谢,并且与二型糖尿病和肥胖症等高发病率的代谢疾病相关。因此,对赖氨酸丙二酰化位点的精准识别能有助于人们深入了解相关疾病的发病机理以及治疗方法。本文基于实验验证的真实数据,提出了一个用于精准预测赖氨酸丙二酰化位点的集成学习框架,主要工作与结论如下:(1)赖氨酸丙二酰化数据集的收集与预处理。首先,我们从公共数据库中收集实验验证过的丙二酰化修饰的蛋白质序列。然后,以赖氨酸(K)为中心截取长度为25个氨基酸的残基序列,若中心赖氨酸(K)被丙二酰化则定义为正样本,否则定义为负样本,以此构建用于机器学习建模的高质量的赖氨酸丙二酰化位点数据集。此外,通过序列比对的方式探究了正负样本序列的差异性,并发现正负样本之间存在大量的区域性重迭。基于序列的全方位特征探索,找寻正负样本之间潜在的差异性,为构建高精度的预测模型奠定坚实的基础。(2)赖氨酸丙二酰化残基序列的特征提取与特征选择。为了从赖氨酸丙二酰化位点的残基序列中提取关键模式和特征,我们分析和比较了11种不同的特征编码方法,总计生成了2275维原始特征向量。通过使用信息增益特征选择算法为原始特征进行特征重要性排序,并使用随机森林模型基于十次十折交叉验证探寻各个数据集上对应的最优特征集。(3)集成学习模型的构建。本文基于四种常见的机器学习方法(即随机森林、支持向量机、K-近邻和逻辑回归)以及最近提出的一种基于梯度提升决策树的算法(LightGBM)对叁个物种的数据(大肠杆菌、小鼠、人类)使用最优特征集进行训练,构建了多个单一机器学习模型。通过研究发现对单一机器学习方法模型的集成可以进一步提高模型鲁棒性和预测精度。最终在独立测试集上与现有的最先进的预测器(MaloPred)相比,优化的集成模型在各个物种数据集上的性能全面领先(大肠杆菌、小鼠和人类的AUC的值分别为0.930,0.923,0.944)。(4)在线预测服务器的开发。基于此集成模型,我们利用Gearman任务分发框架开发了一个高并发、负载均衡的赖氨酸丙二酰化位点在线预测服务器(http://kmalsp.erc.monash.edu/),为广泛的研究团体提供赖氨酸丙二酰化位点的初筛服务。本论文的研究和提出的集成学习模型方法有助于缩短新型丙二酰化位点实验验证的周期,加速发现新的丙二酰化和其它翻译后修饰位点,为未来相关翻译后修饰位点的预测计算方法提供新思路。(本文来源于《桂林电子科技大学》期刊2019-05-29)
曾莹,陈渊,袁哲明[7](2019)在《基于统计差表与加权投票的高精度剪接位点预测》一文中研究指出基于机器学习的高精度剪接位点识别是真核生物基因组注释的关键.本文采用卡方测验确定序列窗口长度,构建卡方统计差表提取位置特征,并结合碱基二联体频次表征序列;针对剪接位点正负样本高度不均衡这一情形,构建10个正负样本均衡的支持向量机分类器,进行加权投票决策,有效解决了不平衡模式分类问题. HS~3D数据集上的独立测试结果显示,供体、受体位点预测准确率分别达到93.39%、90.46%,明显高于参比方法.基于卡方统计差表的位置特征能有效表征DNA序列,在分子序列信号位点识别中具有应用前景.(本文来源于《生物化学与生物物理进展》期刊2019年05期)
梅长卿[8](2019)在《基于未标记样本信息的蛋白质相互作用位点半监督预测》一文中研究指出蛋白质相互作用位点的识别在药物设计方面具有不可替代的意义。然而在实际情况下,由于目前只有小部分的蛋白质相互作用能够被实验方法鉴别出来,所以蛋白质序列上的大多数位点不能被定义为界面位点或非界面位点,这将导致蛋白质相互作用位点的预测缺乏准确性和泛化能力。本文主要通过未标记出来的蛋白质位点信息来对相互作用位点进行预测。在数据处理部分,首先删减冗余的蛋白质链,通过预处理得到91条蛋白质链用于实验。接着对残基进行定义,并基于氨基酸的进化保守性,从HSSP数据库与Consurf Server中提取了五种特征:残基空间序列谱、残基序列信息熵与相对熵、残基序列保守权重以及残基进化速率。将这五种保守性特征加以融合并重新编码,得到的数据集将用于之后的实验。在位点预测部分,本文充分利用了大量未标记样本,并提出了叁种半监督支持向量机模型对蛋白质相互作用位点进行预测。首先,结合标签均值和自训练思想,提出了基于多核学习的标签均值自训练半监督支持向量机(Means3vm-mkl)和基于迭代优化的标签均值自训练半监督支持向量机(Means3vm-iter)。然后我们对上述模型进行了优化,使用一种安全的半监督支持向量机(S4VM)来防止性能下降。从最终的预测结果可以得出,使用未标记样本极大提高了预测的准确性,相比于只利用标记样本的分类模型在准确率上提高了12%。叁种半监督SVM模型都能实现对相互作用位点的预测,其中S4VM表现最佳,正确率达到70.7%,灵敏度以及特异度分别为62.67%,78.72%。相较于传统的实验以及计算方法而言,分类效果得到较大提升。(本文来源于《安徽工业大学》期刊2019-05-15)
南铉国[9](2019)在《基于序列信息的蛋白质翻译后修饰位点预测方法研究》一文中研究指出随着人类基因组计划的完成和后基因组时代的到来,测序技术为生物学研究积累了大量的可挖掘数据。根据分子生物学中心法则,遗传信息保存在DNA中,但是真正行使生物学功能的是蛋白质。以mRNA为模板翻译出的前体蛋白是没有生物活性的,它需要经过一系列的加工过程才能成为具有生物功能的成熟蛋白。这种加工过程被称为翻译后修饰。翻译后修饰是蛋白质行使其正常生物学功能的基础。大量研究表明,发生在蛋白质赖氨酸残基上的Pupylation、泛素化和琥珀酰化修饰与许多疾病的发生存在密切相关性,阐明这些蛋白质翻译后修饰的过程和内在调控机理是揭示相关疾病发生机制并进行精准治疗的前提,而研究蛋白质翻译后修饰的关键起始步骤是找到可修饰蛋白及其作用位点。利用生物实验方法识别蛋白质翻译后修饰位点耗时长,经费投入大,而且翻译后修饰的酶促反应是一个极为耗时的过程,这严重制约了翻译后修饰位点识别研究的进展速度。随着生物信息学和计算生物学的发展,一些基于计算方法的蛋白质翻译后修饰位点识别技术被提出来,这些计算方法既能够高效而准确地识别蛋白质翻译后修饰位点,又能够进一步地对生物实验研究提供必要的线索。本文基于蛋白质序列信息对发生在赖氨酸残基上的翻译后修饰位点识别方法进行了深入研究,主要研究内容如下。(1)提出了一种新的蛋白质Pupylation位点识别方法EPuL。该识别方法的创新点体现在对初始可靠负样本集的构造,对于基于正例和无标记样本学习(Positive-Unlabled Learning,PU学习)过程,初始可靠负样本集的构造对算法整体性能至关重要。本文提出了一种基于分类器的初始可靠负样本集构造方法。初始可靠负样本集构造出来后,通过一个迭代过程对其进行扩充,最后构造出最终的可靠负样本集,并与正样本集构成最终的训练集,训练一个最终的支持向量机分类器来进行Pupylation位点识别。训练集上的交叉检验和独立样本集测试结果表明我们所提方法在预测性能上优于已有方法。另外,利用该算法从未注释位点的Pupylation蛋白质序列中识别出了一批潜在的Pupylation位点。特征分析结果表明本研究中使用的序列特征提取方法可以有效区分正样本和负样本。最后,根据此方法开发了一个用户友好的Web服务器提供免费的蛋白质Pupylation位点预测服务。(2)针对蛋白质泛素化位点识别问题开发了一种基于半监督学习与集成学习方法的预测算法。该算法首先选用伪氨基酸构成、蛋白质无序性打分、氨基酸理化性质、位置特异性得分矩阵、k-间隔氨基酸对构成、序列二进制编码和K近邻得分等7种方法对序列进行特征提取,对每一条序列构建8个独立的特征向量。位点识别算法首先利用改进的基于正例学习(Positive Sample only Learning,PSoL)算法根据8种特征向量从无标记样本集中逐步构建可靠负样本集,用于后续预测模型的训练。位点预测模型选用的是基于集成学习策略的随机森林算法。首先用每种单一特征分别训练一个随机森林模型,最后采用逻辑回归算法对8个随机森林模型的预测结果进行整合得到最终的预测结果。训练集上的10倍交叉检验和独立测试集的测试结果表明,本研究中提出的方法能够对物种特异的蛋白质泛素化位点和跨物种的综合性数据中的蛋白质泛素化位点进行有效识别,并且预测性能较现有泛素化位点预测算法得到了提高。最后,对算法进行特征分析,单一特征与组合特征比较结果证明组合特征预测较每种单一特征的预测效果都高,从而证明了特征组合的有效性。随机构建负样本集与本文构建的可靠负样本集上的比较结果证明了基于半监督学习的可靠负样本提取策略可以有效提高算法预测性能。(3)提出了一种用于蛋白质琥珀酰化位点预测的深度学习框架SucDeep。首先在k-间隔氨基酸对构成的基础上设计了一种新的序列特征提取方法。该方法用一个21×21维的矩阵来表示每一种氨基酸对在序列中出现的次数,每一个矩阵可以表示一种间隔的氨基酸对构成情况,然后把表示多种间隔的矩阵合并成在一起,构成一个与多通道图像类似的矩阵集合,作为待预测序列的一种特征。这种多通道特征矩阵是稀疏的整数矩阵,类似于计算机图像的表示方式,适用于深度学习模型。同时还采用位置特异性得分矩阵对序列进行特征提取,把每一条序列转换成一个20维的方阵。然后开发了一种基于间谍技术的半监督学习算法,用于从无标记样本中构建可靠负样本集。位点预测算法选用的是一种深度学习框架。该深度学习框架由两个多层卷积神经网络构成,每个子网络由3个卷积层,3个池化层和3个全连接层构成,并使用一个全连接层对两个子网络产生的特征进行拼接进行最终的预测。模型训练过程采用Bootstrapping策略,有效避免了训练集不平衡对算法性能的影响。最后构建了一个大规模的蛋白质琥珀酰化位点数据集对算法性能进行了测试,训练集上的5倍交叉检验结果和独立测试集的测试结果表明,我们所提出的算法较现有琥珀酰化预测算法在预测性能上有所提高。(本文来源于《东北师范大学》期刊2019-05-01)
王凯丽[10](2019)在《基于网络分析的RNA结合位点预测研究》一文中研究指出核糖核酸(RNA)是细胞中的基本单元之一,常与其它蛋白质或小分子等生物分子形成复合物结构,有调控和催化等重要的生物学功能。然而,由于RNA分子的柔性特征和实验技术的限制,实验上较难快速测定RNA分子的复合物结构,极大地阻碍了 RNA复合物功能的探索。因此,RNA结合位点的理论预测研究有助于理解其结构功能关系和解释生物学机理问题。本文介绍了一种基于RNA叁级结构预测结合位点的网络策略,即RBind。该方法首先对RNA叁级结构进行网络模型构建。在网络构建中,RNA结构中的每个核苷酸为网络中的节点,非近邻核苷酸中任一重原子间距离小于8A连接为网络中的边。第二步,在构建的RNA网络中,我们对网络节点的度中心性和接近中心性进行计算。第叁步,基于度中心性(degree)和接近中心性(closeness)的计算,以一定值作为截断确定RNA的结合位点。进一步,我们用RNA-ligand和RNA-protein测试集对RBind的精度进行了比较分析。结果表明,该方法在RNA-ligand测试集中的平均预测精度为0.82,在RNA-protein测试集中的平均预测精度为0.63,预测精度优于现有的RNA结合位点预测方法。同时我们也对RNA分子的搭建模型结构进行了结合位点预测,结果表明只要RNA的叁级结构模型在合理的精度范围内,RBind就可以较为准确地预测其结合位点。核苷酸-核苷酸间的直接耦合分析结果表明了结合位点间存在着维持结构和功能特征的共进化关系,为我们进一步筛选结合位点提供了启示。此外,我们发展的这套RNA结合位点预测方法,对于今后计算机辅助药物设计以及复合物结构预测提供了新的启示和引导。我们搭建了 RBind的网站:https://zhaolab.com.cn/RBind,该网站提供了 RBind的预测程序与标准测试集等数据。(本文来源于《华中师范大学》期刊2019-05-01)
位点预测论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为了提高预测腺嘌呤核苷叁磷酸(ATP)绑定位点的准确率,提出了一种基于一维卷积神经网络(1D-CNN)的方法。首先,以蛋白质的序列信息为基础,融合位置特异性得分矩阵信息、二级结构信息和水溶性信息,使用随机下采样的方法消除数据不平衡的影响,再对缺失的特征进行再编码补齐,得到训练特征。训练一个1D-CNN来预测蛋白质-ATP绑定位点,优化网络结构,并且进行实验来对比所提方法和其他机器学习方法的优劣。实验结果展示了所提方法的有效性,并且该方法与传统支持向量机(SVM)相比在AUC指标上有部分的提升。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
位点预测论文参考文献
[1].昌西,裴悦,胡凡,任苗苗,王彤.青稞叶绿体基因RNA编辑位点的预测、鉴定与比较分析[J].麦类作物学报.2019
[2].张寓,于东军.基于一维卷积神经网络的蛋白质-ATP绑定位点预测[J].计算机应用.2019
[3].龚浩,樊永显.DNA4mcEL:基于核苷酸信息特征计算分析与预测DNAN~4-甲基胞嘧啶位点[J].中国生物化学与分子生物学报.2019
[4].刘慧芳.联合残基和残基对特征预测蛋白内部翻译后修饰位点间的相互作用[D].华中农业大学.2019
[5].吕成伟.基于集成学习的σ~(54)启动子及RNA修饰位点的预测[D].桂林电子科技大学.2019
[6].谢若鹏.基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测[D].桂林电子科技大学.2019
[7].曾莹,陈渊,袁哲明.基于统计差表与加权投票的高精度剪接位点预测[J].生物化学与生物物理进展.2019
[8].梅长卿.基于未标记样本信息的蛋白质相互作用位点半监督预测[D].安徽工业大学.2019
[9].南铉国.基于序列信息的蛋白质翻译后修饰位点预测方法研究[D].东北师范大学.2019
[10].王凯丽.基于网络分析的RNA结合位点预测研究[D].华中师范大学.2019