导读:本文包含了蛋白质结构数据论文开题报告文献综述及选题提纲参考文献,主要关键词:数据挖掘技术,蛋白质结构数据库,PDB数据库,结构预测
蛋白质结构数据论文文献综述
刘妍[1](2016)在《数据挖掘技术在蛋白质结构预测方面的应用》一文中研究指出随着生物信息学的高速发展,人们通过蛋白质序列测定和结构分析获得大量的蛋白质结构数据,从而建立了众多的蛋白质结构数据库。本文主要介绍了六种蛋白质结构数据库,并对PDB数据库进行了深入分析,阐述了蛋白质序列和结构的切片数据库之间的联系和内在规律。利用蛋白质数据库和数据挖掘技术来处理大量的蛋白质结构数据是未来蛋白质研究的一个重要发展方向。(本文来源于《电子测试》期刊2016年13期)
雷强[2](2016)在《基于NMR数据计算蛋白质结构的新方法》一文中研究指出获得一个蛋白质分子的叁维结构,对于理解它的物理和化学性质,有着至关重要的作用。在生物信息学中,如何有效地确定一个特定蛋白质的叁维结构是一类重要的问题。核磁共振光谱学(NMR)方法是测定蛋白质叁维结构的最主要测定方法之一。在蛋白质NMR过程中,叁维结构需要通过空间中临近原子的距离约束计算而来。目前,有的核磁共振测量数据的后期处理都有人为的干预,这就使得对各种约束的计算显得尤为重要。利用距离矩阵描述蛋白质结构是一种重要的方式。本文主要研究了蛋白质NMR结构计算,我们提出了一种两阶段方法来计算信息高度缺失的距离矩阵。首先,利用叁角形约束“估计”出小部分不能观测的距离。这一步骤是第二步的关键。之后将得到的矩阵用欧氏距离信息恢复的方法计算出来,由此计算出蛋白质结构。我们分析了近端加速梯度下降算法(APG)在蛋白质NMR结构计算中的适用条件,并用APG算法来解决相关的优化问题。除此之外,我们结合了蛋白质分子共有的结构信息和NMR数据特点,建立了适用于绝大多数蛋白质计算的数据模型。通过计算4个蛋白质结构实例证明了两阶段方法的实用性,分析了这一方法恢复结果的误差。利用生物学中基于半正定规划的SPROS方法进一步计算了以上4个蛋白质的NMR结构,结果表明两步法真实可行。本论文的研究为蛋白质NMR结构计算提供了一种新的、有效的计算方法。(本文来源于《北京理工大学》期刊2016-01-01)
徐永红,褚泽斐,洪文学[3](2015)在《基于黎曼流形的蛋白质叁维结构数据相似性比较》一文中研究指出以NMR技术为代表的海量蛋白质空间结构数据为现代生命科学研究提供了前所未有的机遇,但后续的大数据分析却成为一大难题。充分利用已知的蛋白质叁维结构信息来预测未知的蛋白质空间结构信息是研究蛋白质结构和功能关系一种重要手段。本文提出一种基于黎曼流形的蛋白质叁维结构相似性比较新方法。该方法通过构建Cα坐标系和提取蛋白质结构具有旋转和平移不变性的几何特征量,将蛋白质的叁维坐标序列转换为一维序列,采用黎曼距离作为叁维结构相似度指标。本方法不需要对蛋白质结构做旋转和平移变换,避免了主流的RMSD方法中两蛋白质通过最小二乘拟合进行配准时产生的误差,并且完全不依赖于一级结构序列信息,对不具备序列相似性的蛋白质之间的相似性比较具有现实意义。本文分别针对不同相似度的蛋白质、Fischer提出的10个较难识别的蛋白质结构对、HOMSTRAD数据库中的700个数据这3组数据,对本文算法进行了验证。实验结果表明,与其他方法相比,本文方法的匹配精度均得到了较大提升。(本文来源于《燕山大学学报》期刊2015年01期)
王怡[4](2013)在《数据挖掘技术在蛋白质结构与功能预测中的应用》一文中研究指出随着人类基因组计划的完成,以及现代生物科技的飞速发展,海量的生物序列数据不断地涌现。如何将这些数据转变为知识成为了生物信息学的研究热点。虽然可以通过传统的实验方法确定蛋白质的结构和功能,但是要耗费大量的人力和物力,并且蛋白质序列信息的积累速度远快于蛋白质结构数据的增长速度。因此,直接从蛋白质序列信息出发,发展有效的方法预测蛋白质的结构和功能具有十分重要的理论和实际意义。本文在大量蛋白质数据的基础上,将概率神经网络、序列比对方法、混沌蜂群算法以及多分类器融合等数据挖掘的方法应用于生物信息的处理。我们对蛋白质结构和功能预测中的几个分支问题进行了研究,提出了一些新的方法,其主要内容如下:1.建立了基于混沌蜂群算法的蛋白质叁维结构预测方法。在AB非格模型的基础上,将混沌优化的思想引入基本人工蜂群算法,当某个解陷入局部最优时,利用混沌变量的随机性和遍历性使其跳出局部最优解。混沌蜂群算法不仅结合了人工蜂群算法全局搜索和局部搜索的能力,而且利用混沌搜索避免早熟收敛、陷入局部最优解等问题,从而实现全局优化。在目前广泛使用的斐波纳契序列上进行实验,结果表明该算法比其他算法具有更好的性能和精度。2.提出了基于数据划分和集成的方法预测信号肽。由于信号肽序列长度不等且氨基酸组成具有多样性的特点,以往方法通常采用滑动窗口进行处理,从而导致了信息丢失以及数据不平衡等问题。为改善少数类预测效果,对训练数据进行了预处理,将多数类样本数据划分,生成的各组样本分别与少数类样本合并组成若干个数据子集,在两种蛋白质编码方案下采用概率神经网络建立多个分类器,最后采用加权投票将多分类器集成的方法预测信号肽。在目前广泛使用的Neilsen数据集上进行实验,表明该方法具有一定的有效性。3.提出一种局部序列匹配相似度预测信号肽的方法。考虑到信号肽是蛋白质序列局部片段所体现的生物特性,我们将局部序列比对的方法有效地运用到信号肽预测问题中。首先采用了氨基酸相对疏水特性来编码蛋白质,然后搜索蛋白质序列间的局部匹配子序列,并根据计分矩阵BLOSUM62来度量两个序列问的相似性,最后采用k最近邻算法来预测信号肽。在目前广泛使用的SwissProt数据集上进行实验,表明该方法具有较好的预测准确率。(本文来源于《福建师范大学》期刊2013-06-02)
李伟,赵亚欧,陈月辉[5](2009)在《均衡数据法提高蛋白质二级结构预测》一文中研究指出传统蛋白质二级结构预测,由于氨基酸序列中叁种结构数量的差异,易造成不均衡训练,使得对叁种结构的预测准确率差别较大。为改善这种缺陷,受装袋原理的启发,对传统方法进行改进,缩小训练时叁种结构数量的差距。在实验中,采用数据集CB396,结果表明该方法能够显着提高对折迭的预测正确率,而且在总的预测正确率上达到77.3%,可以较好地进行蛋白质二级结构预测。(本文来源于《计算机工程与应用》期刊2009年06期)
崔向军,蔡禄[6](2007)在《蛋白质-DNA复合物晶体结构数据的高斯分布检验》一文中研究指出在最新NDB数据库中蛋白质-DNA复合物晶体结构数据的基础上,应用x2检验的方法对DNA动力学结构关键参数的数据分布进行检验,结果表明,各参数分布均是非高斯分布.数据分布曲线的偏斜度和峭度表明x2检验的结果是正确的.(本文来源于《内蒙古科技大学学报》期刊2007年02期)
吴自凯[7](2007)在《信息度量的蛋白质序列、结构、质谱数据研究》一文中研究指出蛋白质是生命机体的基本组成成分,是连结分子运作和生物功能的主要组成部分,因此对蛋白质的研究有助于理解分子机理,更加清晰的了解生命活动的规则。目前,运用数学、信息学、计算机科学等学科的工具对蛋白质进行研究的生物信息学——蛋白质组学已经成为异常活跃的研究领域之一。本文以信息论方法和优化方法为工具,以蛋白质序列、蛋白质结构、人体组织的蛋白质组为研究对象,以提取蛋白质序列、蛋白质结构、蛋白质组的可区分表达的特征信息为目的,主要针对蛋白质序列比较及其应用、蛋白质结构比较和质谱数据分类这叁个方面进行了研究。本文的主要研究成果如下:在第二章,首先针对蛋白质多序列比对问题,建立了多序列比对的整数规划模型,证明了该模型最优解的存在性,并且构造了优化算法用于求解该模型;根据氨基酸的亲疏水性质,构造出蛋白质磷酸化位点周围的亲水残基序列间隔分布来模拟磷酸化位点周围的物理化学环境,同时设计了预测磷酸化位点的算法;再者针对外膜蛋白和其他膜蛋白及球蛋白的区分问题,利用蛋白质的子序列分布和FDOD函数进行了研究,此方法在一些公用数据集上的分类精度高于已有的一些算法。在第叁章,主要研究了蛋白质结构比较问题。首先基于完全信息集的概念,提出了一种蛋白质结构描述方法——中心碳原子距离序列的子序列分布表示,并基于这种表示方法和FDOD函数,给出了一种蛋白质结构的偏差度量,并设计了一种蛋白质结构比较方法,应用该方法对一些公用数据集进行了聚类分析,取得了较好的聚类结果,表明了该方法的有效性。其次,用间隔为3的中心碳原子的距离分布来近似刻画蛋白质结构的局部几何,用中长程作用的线陛序列分布来刻画蛋白质结构的整体拓扑,给出了一种蛋白质折迭的几何-拓扑混合表示,并基于这种表示和FDOD函数,给出了一个蛋白质结构的偏差度量,设计了一种新的蛋白质结构比较方法和分类方法。应用这种方法对一些公用数据集进行了聚类分析和分类试验,取得了较好的聚类结果和分类结果,表明了该方法的有效性;最后,在功能预测实验平台上,基于蛋白质结构的接触向量表示,系统比较了FDOD函数、交叉熵和欧式距离叁种度量,试验结果表明:FDOD函数更适合于度量接触向量表示之间的偏差。在第四章,以人体组织的蛋白质组为研究对象,应用基于FDOD方法的分类器对癌症病人和良性携带者的蛋白质质谱数据进行了分类,分类精度令人满意;以分类精度高且使用的特征少为目标,建立了质谱数据特征选择问题的多目标规划模型,将该多目标规划模型转化为了一个单目标规划模型,并简单分析了该模型最优解的存在性。(本文来源于《大连理工大学》期刊2007-03-01)
冉丽,邹先霞,许龙飞[8](2006)在《基于数据挖掘技术的蛋白质结构分类的研究》一文中研究指出论文选择蛋白质二级结构数据为研究对象,应用数据挖掘技术和机器学习中的动态规划理论进行蛋白质结构分类。介绍了一种新的蛋白质结构分类方法——PSSC,该方法的核心算法是STRIDE算法和ISSA算法,关键性步骤是创建分类模型,该分类模型包括构建CATH分类树、计算蛋白质结构相似度、利用统计方法制定分类标准叁步。在对蛋白质结构进行四个层次的分类中,应用已有的RMSD、Z-Score结构比对算法和论文新提出的ISSA结构比对算法获得分类参数。最后,介绍我们所开发的PSSC分类软件,并指出需要完善之处和解决方案。(本文来源于《计算机工程与应用》期刊2006年18期)
冉丽[9](2005)在《基于数据挖掘技术的蛋白质结构分类的研究》一文中研究指出蛋白质结构分类分为多个层次,如何对蛋白质结构进行定量分类和自动分析是目前研究的重点。本文选择蛋白质二级结构数据为主要的研究对象,应用数据挖掘技术和机器学习中的动态规划理论进行蛋白质结构分类。介绍一种新的蛋白质结构分类方法——PSSC,该方法的核心算法是STRIDE算法和ISSA算法,核心步骤是创建分类模型。该分类模型包括构建CATH分类树、计算蛋白质结构相似度、利用统计方法制定分类标准叁步。在对蛋白质结构进行四个层次的分类中,应用已有的RMBS、Z-Score结构比对算法和本文新提出的ISSA结构比对算法获得分类参数。最后,介绍自行开发的PSSC分类科学计算软件,并指出需要完善之处和解决方案。(本文来源于《暨南大学》期刊2005-05-01)
陈孝卫[10](2005)在《数据挖掘技术在蛋白质二级结构预测中的应用研究》一文中研究指出生物信息学中,后基因组时代的任务是了解基因表达的功能图谱,由于生物功能的主要体现者是蛋白质,因此研究蛋白质的功能就成为后基因组时代的重要研究内容。要了解蛋白质的功能首先必须了解蛋白质的空间结构,本论文所研究的问题就是有关蛋白质二级结构预测问题。我们从目前蛋白质数据库的大量已知数据中,对蛋白质序列依照氨基酸的疏水性质建立有效的数学模型,利用结合遗传算法的关联规则挖掘技术发现蛋白质二级结构的预测规则。最后还实现了文中提到的预测方法的原型系统,并且通过对实验数据的分析进行了系统的评估,并和其它有关的二级结构预测方法进行了比较,证明该方法准确和有效的。(本文来源于《暨南大学》期刊2005-04-01)
蛋白质结构数据论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
获得一个蛋白质分子的叁维结构,对于理解它的物理和化学性质,有着至关重要的作用。在生物信息学中,如何有效地确定一个特定蛋白质的叁维结构是一类重要的问题。核磁共振光谱学(NMR)方法是测定蛋白质叁维结构的最主要测定方法之一。在蛋白质NMR过程中,叁维结构需要通过空间中临近原子的距离约束计算而来。目前,有的核磁共振测量数据的后期处理都有人为的干预,这就使得对各种约束的计算显得尤为重要。利用距离矩阵描述蛋白质结构是一种重要的方式。本文主要研究了蛋白质NMR结构计算,我们提出了一种两阶段方法来计算信息高度缺失的距离矩阵。首先,利用叁角形约束“估计”出小部分不能观测的距离。这一步骤是第二步的关键。之后将得到的矩阵用欧氏距离信息恢复的方法计算出来,由此计算出蛋白质结构。我们分析了近端加速梯度下降算法(APG)在蛋白质NMR结构计算中的适用条件,并用APG算法来解决相关的优化问题。除此之外,我们结合了蛋白质分子共有的结构信息和NMR数据特点,建立了适用于绝大多数蛋白质计算的数据模型。通过计算4个蛋白质结构实例证明了两阶段方法的实用性,分析了这一方法恢复结果的误差。利用生物学中基于半正定规划的SPROS方法进一步计算了以上4个蛋白质的NMR结构,结果表明两步法真实可行。本论文的研究为蛋白质NMR结构计算提供了一种新的、有效的计算方法。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
蛋白质结构数据论文参考文献
[1].刘妍.数据挖掘技术在蛋白质结构预测方面的应用[J].电子测试.2016
[2].雷强.基于NMR数据计算蛋白质结构的新方法[D].北京理工大学.2016
[3].徐永红,褚泽斐,洪文学.基于黎曼流形的蛋白质叁维结构数据相似性比较[J].燕山大学学报.2015
[4].王怡.数据挖掘技术在蛋白质结构与功能预测中的应用[D].福建师范大学.2013
[5].李伟,赵亚欧,陈月辉.均衡数据法提高蛋白质二级结构预测[J].计算机工程与应用.2009
[6].崔向军,蔡禄.蛋白质-DNA复合物晶体结构数据的高斯分布检验[J].内蒙古科技大学学报.2007
[7].吴自凯.信息度量的蛋白质序列、结构、质谱数据研究[D].大连理工大学.2007
[8].冉丽,邹先霞,许龙飞.基于数据挖掘技术的蛋白质结构分类的研究[J].计算机工程与应用.2006
[9].冉丽.基于数据挖掘技术的蛋白质结构分类的研究[D].暨南大学.2005
[10].陈孝卫.数据挖掘技术在蛋白质二级结构预测中的应用研究[D].暨南大学.2005