导读:本文包含了蛋白质序列模式论文开题报告文献综述及选题提纲参考文献,主要关键词:蛋白质序列模式,谷氨酸棒杆菌,基因组注释
蛋白质序列模式论文文献综述
周大为,李炜疆[1](2014)在《利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释》一文中研究指出即使细菌基因组的基因结构较为简单,但在注释过程中也可能出现基因遗漏的现象。当潜在基因在高质量数据库中没有显着同源序列时,基于知识库的基因预测方法就会遇到困难。本文希望通过系统扫描基因组所有可能ORF的蛋白质序列模式来搜索遗漏基因。为验证该方法的可行性,作者系统分析了重要的工业发酵微生物谷氨酸棒杆菌的基因组,发现了25个候选疑似基因。它们具有显着的蛋白质序列模式,但在Swiss-Prot中元显着同源序列,并且在GenBank中仍未注释。深入分析发现,25个候选疑似基因中19个为可能基因,3个为可能假基因,3个为疑似基因序列。这些结果说明本文的分析方法可以有效地用于无显着同源序列基因的搜索。(本文来源于《工业微生物》期刊2014年03期)
周大为[2](2013)在《蛋白质序列模式在细菌基因发现中的应用》一文中研究指出寻找遗漏基因是基因组注释中一项挑战性问题,即使对基因结构简单的原核基因组,基因遗漏的现象同样普遍存在。当基因与已知蛋白质缺乏显着同源关系时,作为基因预测最可靠途径的知识库检索方法就会失效。本文提出一种新的基因发现方法,通过搜索原核基因组中所有具备蛋白质序列模式特征的片段,寻找通常基因预测方法难以发现的基因。为研究该方法的有效性,本文系统研究了来源于气热菌属、棒状杆菌属、乳球菌属、乳杆菌属、片球菌属、链球菌属、和热酸菌属等7个属的22个原核基因组,利用InterProScan作蛋白质模式扫描并对,扫描结果进行了细致的比较基因组学和基因结构分析,发现1.所有(约40万个)与已知蛋白质序列无显着相似性的ORF(Open Reading Frame,开放读框)中,有7265个携带蛋白质序列模式,其中94%的蛋白质模式特征携带者是已注释基因,表明了在现实基因组序列背景下,模式特征与编码区之间良好的对应关系以及将模式特征扫描作为基因发现手段的合理性;2.在其余的6%(450个)GenBank未注释的ORF中,有395个在其他基因组中存在相似的ORF序列,另有323个ORF具有恰当的核糖体结合位点,这些额外的证据均支持这些ORF是可能的遗漏基因。基因组序列搜索还发现这450个ORF中有37个可能在进化过程中发生过移框或无义突变,为疑似假基因。还有10个ORF未找到其他证据;3.经过适当预处理,一个基因组的全基因组扫描约耗费100CPU小时,例如对Streptococcus mitis B6的扫描约耗时101CPU小时。这些结果证明蛋白质序列模式特征对于编码区有很高的覆盖率和很低的假阳性率,计算复杂性亦在可接受范围。因而蛋白质序列模式特征可以有效地发现原核基因组注释中的遗漏基因,弥补通常的从头预测方法和基于序列同源性方法的不足。(本文来源于《江南大学》期刊2013-06-01)
白小青,刘文,黄微,王鹏,孙艳[3](2012)在《荣昌猪SLA-DQB基因β1结构域突变分析及蛋白质序列模式预测》一文中研究指出为了深入了解荣昌猪SLA-DQB基因β1结构域的变异及蛋白质序列模式分布情况,对53头荣昌猪SLA-DQB基因的β1结构域进行了克隆测序和序列多重比对,并在线预测蛋白质序列模式。结果发现,222bp区域内存在9个单核苷酸的插入位点、16个单核苷酸的缺失位点和89个SNPs位点。74个氨基酸中仅由SNP位点导致的氨基酸变异位点共37个,其中有24个位点氨基酸的类型发生变化。对50条SLA-DQB基因β1结构域蛋白质序列分析发现7种类型共174个蛋白质序列模式位点。单条序列中蛋白质序列模式位点最多的12个,最少的2个。蛋白质序列模式突变位点主要发生在第9、26、45、53、61个氨基酸上,涉及到5种类型蛋白质序列模式位点的改变。结果提示,荣昌猪SLA-DQB基因β1结构域存在丰富的遗传变异和多样化的蛋白质序列模式。(本文来源于《畜牧兽医学报》期刊2012年08期)
李晟,姜青山,郭顺,王备战[4](2009)在《一种优化的蛋白质序列模式挖掘方法》一文中研究指出蛋白质序列作为生物序列数据一个重要组成部分,对其的分析研究已经成为生物信息学中的一个重要的研究方向和内容.通过对序列进行模式挖掘,可以对蛋白质序列或某一蛋白质家族序列进行研究,因此蛋白质序列的模式挖掘已经成为蛋白质序列研究中的一项重要任务.MBioPM是一种最新的生物序列模式挖掘算法,该算法通过引入模式划分概念,提高算法的效率,但该算法在效率方面仍存在不足,而且挖掘结果存在冗余性的问题.因此,提出一种优化算法BioPMMH,通过带有模式划分特点的Hash链表结构来优化算法中的搜索空间及策略,并在算法过程中对重复模式进行过滤.实验表明,算法BioPMMH能有效提高模式挖掘的效率,并解决结果的冗余性问题.(本文来源于《第26届中国数据库学术会议论文集(B辑)》期刊2009-10-15)
郭顺,姜青山,王备战,史亮[5](2009)在《一种新的蛋白质序列模式挖掘算法》一文中研究指出针对传统模式挖掘方法挖掘蛋白质序列会生成大量候选模式或多次构造投影数据库,导致效率降低,挖掘过程中会产生不必要的短模式或错误模式等问题,提出基于模式划分的MBioPM算法。理论分析和实验表明,MBioPM算法的性能高于其他相关算法。(本文来源于《计算机工程》期刊2009年08期)
牛丹云[6](2009)在《蛋白质序列模式发现算法》一文中研究指出现代生物信息学是采用计算机技术和信息论方法研究生命科学中各种生物信息的表述、采集、储存、传递、检索、分析和解读的科学。是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透和高度交叉形成的学科。随着生物数据量呈指数级增长,产生了新的交叉学科――计算生物学,由此给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学的研究内容之一就是从蛋白质序列预测蛋白质结构,从计算机技术角度看,这是一个分类预测问题。而如何为分类问题建立一个有效并且高效的预测模型一直以来是数据挖掘领域,机器学习和统计学领域研究的热点。序列比对是生物信息学研究的一个基本方法,寻求更快更灵敏的序列比对算法一直是生物信息学研究的热点。本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,并对每一类算法的优缺点以及应用范围进行了分析,最后指出序列比对算法目前存在的问题以及未来的发展方向。在蛋白质序列的比对研究中,拥有相似模式的蛋白质常常具有相似的功能。通过已知的蛋白质序列模式可以方便我们对新的蛋白质序列的功能结构进行研究和确认。本文尝试在Pratt算法的基础上引入模糊序列查找方法。能够更好的从互不相关的蛋白质序列集合中找出最具代表性的蛋白质模式。本文的主要工作如下:本文细致地研究了当今国际上各种序列比对算法,系统地阐述了最具代表性的比对算法Smith-Waterman、BLAST、FASTA、并具体地分析了它们的优缺点。对基于模式驱动的蛋白质模式发现算法——Pratt做了详细的分析,并从PROSITE数据库中选取了不同的几种蛋白质序列进行实验证明。在Pratt算法的基础上引入模糊的序列查询方法,对Pratt算法进行优化,并进行实验论证,并得到结果。最后通过对实验结果比较,分析对算法的优缺点做进一步的总结。(本文来源于《电子科技大学》期刊2009-04-01)
黄金[7](2008)在《基于频繁模式的蛋白质序列分类》一文中研究指出蛋白质序列的分类是预测新蛋白质序列的结构和功能的重要方法,已有的方法主要基于序列比对或概率后缀树。文章设计一种基于频繁模式的蛋白质序列分类算法CFS,使用每类数据独有的频繁模式代表该类,然后应用各类的频繁模式对测试数据进行分类。试验结果表明,CFS方法可以获得较好的分类精确度,使用频繁模式作为类代表,使得分类更直观,易于理解,而且更具有生物信息学意义。(本文来源于《东北农业大学学报》期刊2008年05期)
蛋白质序列模式论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
寻找遗漏基因是基因组注释中一项挑战性问题,即使对基因结构简单的原核基因组,基因遗漏的现象同样普遍存在。当基因与已知蛋白质缺乏显着同源关系时,作为基因预测最可靠途径的知识库检索方法就会失效。本文提出一种新的基因发现方法,通过搜索原核基因组中所有具备蛋白质序列模式特征的片段,寻找通常基因预测方法难以发现的基因。为研究该方法的有效性,本文系统研究了来源于气热菌属、棒状杆菌属、乳球菌属、乳杆菌属、片球菌属、链球菌属、和热酸菌属等7个属的22个原核基因组,利用InterProScan作蛋白质模式扫描并对,扫描结果进行了细致的比较基因组学和基因结构分析,发现1.所有(约40万个)与已知蛋白质序列无显着相似性的ORF(Open Reading Frame,开放读框)中,有7265个携带蛋白质序列模式,其中94%的蛋白质模式特征携带者是已注释基因,表明了在现实基因组序列背景下,模式特征与编码区之间良好的对应关系以及将模式特征扫描作为基因发现手段的合理性;2.在其余的6%(450个)GenBank未注释的ORF中,有395个在其他基因组中存在相似的ORF序列,另有323个ORF具有恰当的核糖体结合位点,这些额外的证据均支持这些ORF是可能的遗漏基因。基因组序列搜索还发现这450个ORF中有37个可能在进化过程中发生过移框或无义突变,为疑似假基因。还有10个ORF未找到其他证据;3.经过适当预处理,一个基因组的全基因组扫描约耗费100CPU小时,例如对Streptococcus mitis B6的扫描约耗时101CPU小时。这些结果证明蛋白质序列模式特征对于编码区有很高的覆盖率和很低的假阳性率,计算复杂性亦在可接受范围。因而蛋白质序列模式特征可以有效地发现原核基因组注释中的遗漏基因,弥补通常的从头预测方法和基于序列同源性方法的不足。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
蛋白质序列模式论文参考文献
[1].周大为,李炜疆.利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J].工业微生物.2014
[2].周大为.蛋白质序列模式在细菌基因发现中的应用[D].江南大学.2013
[3].白小青,刘文,黄微,王鹏,孙艳.荣昌猪SLA-DQB基因β1结构域突变分析及蛋白质序列模式预测[J].畜牧兽医学报.2012
[4].李晟,姜青山,郭顺,王备战.一种优化的蛋白质序列模式挖掘方法[C].第26届中国数据库学术会议论文集(B辑).2009
[5].郭顺,姜青山,王备战,史亮.一种新的蛋白质序列模式挖掘算法[J].计算机工程.2009
[6].牛丹云.蛋白质序列模式发现算法[D].电子科技大学.2009
[7].黄金.基于频繁模式的蛋白质序列分类[J].东北农业大学学报.2008