导读:本文包含了生物序列分析论文开题报告文献综述及选题提纲参考文献,主要关键词:苏云金芽胞杆菌,生物被膜,基因敲除突变株,序列分析
生物序列分析论文文献综述
姚俊敏,张韶芮,金鑫,凡肖,束长龙[1](2018)在《苏云金芽胞杆菌XL6~-候选生物被膜调控基因00940序列分析及基因敲除突变体构建》一文中研究指出细菌生物被膜(bacterial biofilm,BBF)可以提高细菌的紫外线抗逆性,调控细菌对环境胁迫的适应能力。本研究以课题组前期比较基因组工作中筛选出的苏云金芽胞杆菌(Bacillus thuringiensis,Bt)XL6-(Gen Bank No.CP013000.1)的调控生物被膜形成的候选基因00940为基础,分析其基因功能,并构建基因敲除突变株。通过生物信息学分析发现00940基因可能编码谷氨酰胺合成酶,并受到转录因子Sig L、CcpA、Deg U和Lex A的调控。在枯草芽胞杆菌(Bacillus subtilis)中,Sig L是一种增强子,位于枯草芽孢杆菌的谷氨酸脱氢酶基因的下游,负责转录编码谷氨酸脱氢酶的roc G基因;CcpA转录因子参与代谢产物的分解;Deg U控制鞭毛形成和生物被膜形成的基因表达;Lex A蛋白在DNA损伤的情况下被诱导,是细菌SOS DNA修复系统的转录抑制因子,推测这些转录因子在Bt中也发挥相似的作用。通过PCR获得00940基因上、下游同源臂和卡那霉素(kan)抗性基因,利用重迭PCR获得完整的基因敲除片段。根据酶切位点将基因敲除片段和p MAD温敏载体进行重组反应,得到重组质粒。将重组质粒电击转化Bt XL6-,筛选获得了00940基因敲除突变株。以Bt Xl6-作为对照,对Bt Xl6-00940基因突变株进行表型分析,包括生长曲线测定、群游能力测定以及生物被膜形成能力测定。结果表明,00940基因的敲除对菌株的生长趋势没有影响,但是群游能力和生物被膜形成能力提高,初步确定00940基因的敲除提高Bt Xl6-菌株的生物被膜形成能力。基因敲除突变株的获得为进一步分析相关调控基因的功能提供科学依据和基础资料。(本文来源于《农业生物技术学报》期刊2018年08期)
侯文冰[2](2018)在《生物信息序列分析的非比对方法研究》一文中研究指出一直以来,人类探索生命现象的脚步从未停歇。20世纪以来,人类对生命现象的研究逐渐深入,从生物表象型的研究进入到生物小分子领域。20世纪90年代,随着科学技术,尤其是计算机技术的飞速发展,生命科学的研究进入了新的阶段。人类基因组计划的启动和实施,开辟出大量的生物数据资源,同时也对数据的存储和处理提出了更高的要求。在这样的背景下,生物信息学这一交叉学科应运而生,它的主要特点正是运用新兴的计算机科学技术和网络技术来有效的管理分析大量的生物学数据,找出其背后隐藏的生物学规律。在生物信息学中,对生物序列进行相似性分析是一项重要任务。本文主要研究工作是围绕着生物序列的相似性分析展开,分别以DNA序列和蛋白质序列作为研究对象,提出了不同的生物序列相似性分析方法。在第二章中,区别于常见的图形化表达方式,从信号的角度,基于不同的编码方式,本章提出了两种不同的DNA序列的编码模型。在第一种编码方式下,DNA序列被映射为信号幅度为2的方波,用四种不同的信号持续时长来分别代表AGTC四种不同的碱基,以方波幅度的交替来表示碱基的更迭。第二种编码方式则借鉴CMI编码,将实际的DNA序列转化为CMI码序列。利用转化得到的信号序列可以对DNA序列进行相似性分析。通过与已有的模型进行对比发现,以信号的思想来理解DNA序列是切实可行的,本章提出的方法是有效的DNA序列相似性比较手段。第叁章中以蛋白质为研究对象,提出了一种基于惯性张量的蛋白质序列分析模型。首先按照氨基酸的不同性质,将20种氨基酸映射为叁维空间上不同的点。通过赋予每个点“质量”,借助惯性张量的计算,可以得到蛋白质序列之间的相似程度。本章分别采用来自哺乳动物的蛋白质序列以及来自杆状病毒的蛋白质序列说明了本章提出方法的有效性。第四章中提出了一种基于离散傅里叶变换和动态时间规整算法的蛋白质序列分析模型。首先将蛋白质字符序列映射为数值序列,将其视为由叁组信号构成的信号序列。通过对序列进行离散傅里叶变换,我们能够得到氨基酸序列的功率谱,随后利用动态时间规整算法判断两个氨基酸序列的相似性。从本文的计算结果中可以发现,取自相近时间段的甲流病毒的蛋白质序列的相似性更高。通过与其它软件和论文得出的计算结果进行比较,发现使用本文中同样数据的情况下,本文提出的方法能够纠正部分目前已有的软件与其他算法中的一些错误分类。(本文来源于《大连理工大学》期刊2018-06-06)
吴颢[3](2017)在《基于机器学习的生物序列分析方法研究》一文中研究指出在生物信息学领域,基于机器学习处理生物序列分析问题通常基于以下叁个主要步骤:生物序列特征提取,基于机器学习方法构造分类器以及分类器性能评估。然而对非计算机专业的相关研究人员来说,提出一个分析方法代价较大,而现有的一些序列分析工具又各具有局限性。为了解决这些问题,本课题研究了基于机器学习的生物序列分析方法并基于相关方法理论研究提出了用于解决叁个实际序列分析问题的可行方法。最后设计实现了基于机器学习的生物序列分析平台以提供一个方便实用功能全面的序列分析工具。针对生物序列分析问题,本课题研究了基于机器学习解决生物序列分析问题的主要步骤。深入研究了当前常用的生物序列特征提取方法,研究了序列分析领域常用的机器学习方法以及用于评估利用机器学习方法构造分类器性能的常用方法和评价指标。通过对叁个步骤的研究,明确了解决一个生物序列分析问题的关键步骤,作为针对具体序列分析问题提出可行的序列分析方法以及实现生物序列分析工具的理论基础。基于对生物序列分析问题的研究,本课题对叁个具体的序列分析实际问题提出了相应的序列分析方法。针对DNase I超敏感位点识别问题,提出了基于多特征融合的方法,该方法在特征向量生成过程中融合叁种特征提取方法,对最终的特征向量基于特征选择方法去除冗余特征,基于支持向量机构造分类器并进行性能评估。针对微小RNA前体识别问题,提出了基于多类特征集成的方法,该方法基于叁种不同的特征提取方法分别构造分类器然后将叁个分类器集成以取得更好的结果。针对DNA结合蛋白识别问题,提出了基于集成学习的方法,本课题首先对基于缩减字母表的距离对方法进行了改进,利用频率谱加入了进化信息,从而提升了方法性能,之后将其与另一种序列信息相关的方法进行集成学习。分析实验结果表明本课题提出的叁个方法在问题研究中均有不错的性能,相比领域内前沿方法在预测结果上均有提升,取得了较优的预测结果。表明了叁个方法在相关研究中的应用前景,同时也展现了序列分析方法研究在解决实际序列分析问题应用中的重要作用。将理论研究转化为实用的工具是能够解决生物序列分析问题的关键,本课题基于对生物序列分析方法的研究实现了通用的基于机器学习的生物序列分析平台。该序列分析平台包含了多种常用的生物序列特征提取方法以及生物序列分析领域常用的机器学习算法,同时加入了多种分类器评估方法。此外,还包含了特征选择和对数据集样本不平衡问题的解决方法。该平台是一个功能全面且通用的生物序列分析平台,可以用来解决多种不同的生物序列分析问题。(本文来源于《哈尔滨工业大学》期刊2017-12-01)
宣宁,柳絮,张华,杨永义,姚方印[4](2015)在《玉米锌指蛋白基因ZmAN11的序列分析及在非生物胁迫下的表达研究》一文中研究指出对玉米锌指蛋白基因Zm AN11进行序列分析,结果表明Zm AN11开放阅读框长度为510 bp,编码一个含169个氨基酸的蛋白,预测分子量为18.06 k D,等电点是8.48。Zm AN11与水稻Osi SAP8同源性最高。在非生物胁迫下的表达研究发现,在盐、冷和热激胁迫下,Zm AN11表达量上调;而在干旱胁迫下,Zm AN11表达量下调。器官特异性分析发现,该基因在玉米叶片及胚芽鞘中表达量较高。Zm AN11基因的序列分析及表达研究为进一步研究其生物学功能和应用奠定了基础。(本文来源于《山东农业科学》期刊2015年11期)
广慧敏[5](2015)在《新型H7N9甲型流感病毒的基因组序列分析及生物信息学表征》一文中研究指出为了研究H7N9亚型禽流感病毒新型链A/Changsha/2/2013(H7N9)的基因组序列信息并分析禽流感病毒的变异规律,从美国国家生物技术信息中心(NCBI)下载[Influenz a A virus A/Changsha/2/2013(H7N9))]基因组序列,运用生物信息学软件分析病毒全基因组特征。用Clustal软件和Mega软件进行系统发育树分析。A/Changsha/2/2013(H7N 9)病毒的基因的系统发育树分析显示:HA和NA基因与2013年分离的其他新型H7N 9病毒的HA和NA基因密切相关;进一步证实了 H7N9病毒是从家禽病毒转化为人类病毒的,而且H7N9病毒已分布在这些鸟类物种和环境中。NP和NS基因的进化树有两个主要分支,一个分支包含分离自不同地区的禽类、人类和环境H7N9病毒,另一个分支包含叁个分离自上海的环境H7N9病毒。MP,PA,PB1和PB2基因都形成了具有两个主要分支的进化树;每个分支都包含了分离自不同区域的禽类、人类和环境H7N9病毒。这表明,2013年分离的H7N9病毒的NP,NS,MP,PA,PB1和PB2基因都有不同程度上的进化隔离。用Bioedit软件对A/Changsha/2/2013(H7N9)病毒的两种主要蛋白HA和NA的氨基酸序列进行蛋白质氨基酸组成、疏水性及熵值的分析。结果显示,A/Changsha/2/2013(H7N9)病毒株HA和NA蛋白的主要功能位点保守,部分位点亦有氨基酸的突变发生。部分氨基酸位点的缺失或者突变对病毒的毒力和免疫原性可能会产生影响,可能会促进病毒对哺乳动物宿主的适应,甚至使之与人类受体结合。(本文来源于《湖北大学》期刊2015-05-24)
华克儒[6](2015)在《一个有保障的马氏相似性学习框架及其在生物序列分析中的应用》一文中研究指出生物序列分析是生物信息学的重要组成部分,其中生物序列比对更是分析和预测序列结构、功能和遗传信息的重要技术手段。生物序列分析技术主要分为比对方法和非比对方法。比对方法虽然有不错的比对效果,但是其算法复杂度高,使得其效率一直为人们所诟病。非比对方法一般指的是采用统计方法对生物序列进行数据统计分析,包括着名的k-word类方法。非比对方法一般分为两步进行:构建生物序列数字特征向量和选择相似度量(距离)。传统的非比对方法大多从序列的数字特征出发,通过改进其数字特征对序列的表示能力,以求达到更好的生物序列比对效果,而没有给予相似性度量(距离)以足够的重视。这类非比对方法大多采用传统的距离作为相似性度量,如欧式距离、马氏距离、信息熵、相对熵、K-L散度等。这些距离尺度都具有相似性度量的性质,然而其本身不具备数据挖掘的能力,并不能对每一个数据集进行“量身定制”。然而,随着机器学习出现,使得对数据进行深度挖掘和“量身定制”成为可能。本研究包括两部分:首先通过对密码子的坐标定位,由密码子与氨基酸的关系,实现对蛋白质序列的数值化,构建了蛋白质的叁维图形表示,并通过提取和综合组成蛋白质序列的20种氨基酸的位置、数量、分布等信息构成一个新的40维蛋白质序列数字特征向量,并通过对9个物种ND5的相似性分析发现本文提出的方法得出的相似性结果与事实相符,并且与Clustal W的结果具有很好的一致性。其次,我们从相似度量这一角度出发,以求克服传统相似度量的不足之处,引进机器学习技术,以“好”相似函数学习理论为基础,通过结合支持向量机,提出一个新的有保障的相似性学习算法。在第一部分构建的数字特征的基础上,结合该数字特征和相式性学习框架应用于生物序列相似性分析中。并将这一算法进行推广和一般化,使之能应用于更多领域。通过选择各种具有代表性的数据集和算法对我们提出的蛋白质序列数字特征和相似性学习算法进行横向和纵向多方面实例分析,总结得出以下几点:1.本文提出的数字特征简单易懂、效率快。2.较之于一般的k-word数值特征,本文提出的数字特征对蛋白质序列的表达更加准确有效;3.本文提出的相似性学习算法同时提高了生物序列比对的精确度和稳定性;4.即使是给定一个非常粗糙的数字特征表示,通过GMSL也能得到一个理想的分类结果;5.在其它同类型算法基本失效的情况下,本文提出的数字特征和相似性学习算法的结合也能得到一个较理想的比对效果;6.GMSL较之于其它算法更优,主要归功于其建立在一个坚实的数学基础上,它保证了尽可能小的误差。(本文来源于《西北农林科技大学》期刊2015-05-01)
张超[7](2014)在《基于Hbase生物数据存储和DNA序列分析》一文中研究指出随着生物数据量指数增长,亟待解决的存储和处理生物数据问题比较突出,在建设生物数据库过程中,利用Hadoop平台,搭建Hbase存储模型,实现云存储生物数据,并利用其它学科知识对序列数据进行分析。本文针对在建设生物数据库过程中,生物数据量呈现指数增长,生物大数据处理的问题,利用Hadoop平台下的Hbase数据库存储生物数据。首先,本文选择UML类图表示基因组数据和GenBank文件数据类图模型,设计出基于Hbase数据库模式的基因组数据和GenBank文件数据的存储模式,特别是对序列数据在Hbase上的存储模式进行了讨论。利用存储在Hbase数据库下的DNA序列模式,进行序列比对分析,提出最佳选择比对的短序列,并提出相应函数,给出相应函数的代表意义和利用价值,在一定程度上在本文提出的存储模式上提高序列比对的效率。本文利用非线性学科中的相空间知识,利用相空间构造不同序列的图形,在构造过程中,利用K-words和本文提出的指数,计算出最小K值获得最短序列来区分不同序列,最后利用相空间技术,把序列映射到图形上,从图形上观察序列之间的差异。本文利用非线性学科中的随机漫步知识和分形知识,计算出不同DNA分子序列映射后的数字序列的随机漫步图形,并比较不同DNA数字序列的不同,计算赫斯特指数,在分阶段上求出两个赫斯特指数,把结果映射到二维空间上,并比较不同物种之间的区别。(本文来源于《广西大学》期刊2014-11-01)
杨矫云[8](2014)在《大规模生物序列分析的高性能算法和模型》一文中研究指出随着测序技术的发展,生物序列的规模呈现爆炸性增长,目前生物信息学中的计算方法与技术如何应对快速增长的序列数据,已成为当前生物信息学迫切需要解决的问题。为了适应大规模生物序列数据的分析和计算,本文主要从叁个层面研究了数据组织、算法设计和并行化加速。数据组织就是建立数据表示和组织的模型,模型能尽量给出全局信息以及有利于分析和计算的效率提高;算法设计就是给出适应大规模数据处理的高效算法,算法具有低时间复杂度或尽可能短的时间内输出好的解(即尽快求解算法);并行化加速是实际大规模数据处理必须考虑的手段,着重要解决算法的并行化与有效的负载平衡。本文选取生物信息学中单体分型、模体发现和最长公共子序列叁个重要的生物序列分析问题,来探究大规模生物序列数据处理中的关键技术和方法。本文的主要工作有:(1)单体分型问题:单体型是单条染色体上特异位点组成的序列,与人类疾病密切相关。生物实验测序通常得到两条单体型合并而成的基因型,因此需要将基因型分型成单体型。本文研究群体数据集的单体分型问题,首先建立了网络流模型,并在该模型上对已有的分型规则进行分析和综合,归纳出新的启发式知识,进而设计了新的单体分型算法FNphasing。在大规模数据集上,计算实验表明FNphasing算法的时间性能显着优于已有的算法,且精度也达到了目前最优。(2)模体发现问题:模体是生物序列中一些重复出现、保守的区域,通常具有重要的生物功能,通过发现模体可以帮助了解生命机体的原理和特征。本文研究(l,d)模体发现问题,首先采用新哈希策略来减少存储的潜在模体数目,进一步设计了新的剪枝策略,降低了算法的平均时间复杂度。在挑战性实例的求解上,计算实验表明新算法CVoting的时间性能比已有算法降低一个数量级,且空间消耗更少。(3)最长公共子序列问题:寻找序列间的最长公共子序列是序列相似性鉴定的一种重要手段,序列间的相似性可以作为物种共同起源的证据。本文研究多序列最长公共子序列(MLCS)问题,首先将该问题转化为图搜索,然后采用迭代最佳优先搜索策略设计了尽快求解算法Pro-MLCS,计算实验表明Pro-MLCS算法一般在总运行时间的前3%时间内即可输出最优解。在Pro-MLCS算法的基础上,进一步设计了空间增长缓慢的SA-MLCS算法和空间受限的SLA-MLCS算法。SA-MLCS算法采用迭代beam加宽的搜索策略,使得其找到与Pro-MLCS算法相同解所消耗的空间要少得多;而SLA-MLCS算法采用替换策略,使得其在SA-MLCS算法达到空间限制后能够继续搜索更好的解,进一步提高了可解问题规模。计算实验表明,在给定的空间限制内,SA-MLCS算法与SLA-MLCS算法能够处理的数据规模比Pro-MLCS算法高一个数量级。最后设计了Pro-MLCS算法的并行化版本:DPro-MLCS和DSDPro-MLCS,前者适用于分布式环境,后者适用于分布式-共享分层存储的集群环境。计算实验反映,二者均能达到了线性加速,且具有良好的尽快求解性能。本文所研究的大规模生物序列数据处理中的关键技术和方法,其主要创新之处如下:(1)数据组织:贡献在于全局表示模型的建立。对于单体型问题,本文构建了单体分型全局视图的网络流模型,该模型包含了原始数据的全局信息,使得单体分型的可行解与模型上的流存在一一对应关系,更有利于设计高效的分型算法。对于模体发现问题,本文采用新的哈希策略,减少了存储的潜在模体数目,使得空间消耗大大降低,减少了空间对大规模数据处理的制约。对于最长公共子序列问题,本文将该问题的解空间组织为搜索图,并转化为在图中寻找最长路径问题,高效的图搜索算法可以在该问题上的得到应用。(2)算法设计:贡献在于高效算法和尽快求解算法的设计。对于单体型问题,本文使用网络流模型的全局信息设计了高效的启发式搜索算法FNphasing,其在大规模数据处理的应用中,时间性能显着优于已有算法。对于模体发现问题,本文设计了新的剪枝算法减少哈希表的访问次数,使得新算法的平均时间复杂度达到目前最好。对于最长公共子序列问题,本文设计了尽快求解算法模式和空间受限的尽快求解算法模式。相比于已有的算法,尽快求解算法Pro-MLCS在求得相同解的情形下时间性能降低了一个数量级,而空间受限的尽快求解算法SLA-MLCS在相同的时间与空间限制下可求解问题规模提高了两个数量级。(3)并行化:贡献在于尽快求解算法的并行化。本文针对新提出的尽快求解算法,设计了一种跨层并行化策略,使得不同层之间的并行处理成为可能,并利于实现负载均衡,新的并行算法达到了线性加速,且维持了尽快求解性能,能够充分利用大规模集群环境的计算资源,能够处理大规模数据。(本文来源于《中国科学技术大学》期刊2014-05-01)
金勋,李亮,芮海英,王丽娜,金铃[9](2013)在《大豆GmFtsH2基因的克隆、序列分析与非生物胁迫条件下的表达研究》一文中研究指出【研究背景】金属蛋白酶FtsH(filamentation temperature-sensitive H)属于AAA蛋白酶家族,它是由FtsH基因编码的一种ATP和Zn~(2+)依赖型兼职蛋白,兼具ATP酶活性、蛋白水解活性和分子伴侣活性,与热激、高渗、光胁迫、冷诱导、病害等逆境胁迫反应中发挥重要作用,该基因在生物基因组中广泛分布。【目的】本研究通过大豆FtsH2基因的克隆,探明大豆中的FtsH2基因在盐、热、低温和干旱等非生(本文来源于《中国作物学会2013年学术年会论文摘要集》期刊2013-10-21)
宋佳[10](2013)在《机器学习方法在生物序列分析中的应用》一文中研究指出生物信息学是一个新兴的跨学科研究领域,通过采用计算方法来解决分子生物学问题,最终目的是能够发现隐藏于海量生物数据中的生物模式和信息,并应用这些信息来提高对一些重要的生物运行机制的理解。生物序列分析则是生物信息学领域重要的基础性研究工作。近年来,随着生物学实验数据的爆炸式增长,机器学习方法在生物序列分析和重要信息的提取中发挥着越来越重要的作用。机器学习通过建立适当的统计模型,可以捕捉隐藏于大量实验数据中的复杂模式并基于它们做出决策。因此,机器学习方法特别适用于类似生物信息学的拥有大量数据但相应理论很不完善的领域。本文围绕机器学习方法在生物序列分析中的应用展开研究,主要做了以下工作:1、求解多序列的最优比对是一个NP问题,目前已有大量的方法和程序被开发出来用于蛋白质多序列比对。但是,这些方法大多数都是使用优化得分函数的方法获得最佳或接近最佳的比对,因此只能产生一个单一的比对结果。最近的研究工作发现,通过最优化得分函数的方法取得的最佳序列比对结果,往往并不是最具有生物学意义的比对。因此,本文提出一种基于集成学习的多蛋白质序列比对方法,将隐马尔可夫模型作为集成学习中的基分类器,在对训练集中的序列进行排序后依次与隐马尔可夫模型进行比对,根据比对结果优化模型参数,最后生成一组分数较高的比对结果。在构建集成学习系统时,提出并证明了一种双序列比对方法,可以精确计算出两个给定蛋白质序列的具有领先分数的若干个比对结果,其计算的时间复杂度为二次函数。此外,针对蛋白质二级结构信息对序列比对结果的影响,在之前模型的基础上进行改进,通过一个匹配矩阵实现蛋白质二级结构的匹配分数计算,并初步分析和探讨了引入二级结构信息对不同测试组的比对精度影响。2、针对目前基于共变模型的非编码RNA序列搜索软件计算效率低的缺点,对传统共变模型进行了改进。首先,对非编码RNA家族的成员序列与该家族的共变模型比对的结果进行了分析,结果表明在共变模型的任何状态,最优比对的子序列长度大多与一致结构的长度相差不多。据此,将RNA家族的二级结构分成若干个基本的结构单元,其中每一个结构单元代表二级结构中的一个茎或环,并为每个结构单元增加了长度限制。设计了一种结构单元的长度限制计算方法,在计算出上、下限的同时,给出相应的置信度。并根据各个结构单元的长度分布对家族中的序列在进化过程中出现插入和删除的次数进行了限定,从而显着降低了序列结构比对的计算时间。3、转录因子结合位点在基因调控中起着非常重要的作用,准确预测它们在启动子区域的位置可以有助于理解特定基因的表达水平的调节。针对转录因子结合位点的识别,已经开发出了很多的计算方法和工具,但其预测的准确度并不理想。本文提出了一种基于图论的转录因子结合位点的预测方法。通过一个无向有权图来模拟同源基因的启动子区域内的所有子序列和它们之间的关系,从而把问题转化为图的最优化问题。同时,为了提高寻找问题的最佳解决方案的速度,提出了一种预处理技术,可以显着降低图的大小。最后,设计了一种枚举算法搜索图模型中的最大边权团,最大边权团对应的子序列即为预测的转录因子结合位点。4、传统的聚类方法在用于DNA微阵列数据分析时,多数只能生成一种聚类结果,无法识别出与多组不同的基因表达模式相类似的基因。针对该问题,提出一种基于图形模型和图割算法的DNA微阵列数据聚类方法,将样本空间的整个数据集表示为一个有权图,然后迭代地求解图的最小割权值和第二小割权值,根据图割,将图分割为子图。此外,在数学上证明了图的第二最小割可以在多项式时间内算出。对高连通图的定义进行引申后,用于无向有权图中,并将高连通图的判据作为图分割的终止判据。(本文来源于《浙江大学》期刊2013-07-26)
生物序列分析论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
一直以来,人类探索生命现象的脚步从未停歇。20世纪以来,人类对生命现象的研究逐渐深入,从生物表象型的研究进入到生物小分子领域。20世纪90年代,随着科学技术,尤其是计算机技术的飞速发展,生命科学的研究进入了新的阶段。人类基因组计划的启动和实施,开辟出大量的生物数据资源,同时也对数据的存储和处理提出了更高的要求。在这样的背景下,生物信息学这一交叉学科应运而生,它的主要特点正是运用新兴的计算机科学技术和网络技术来有效的管理分析大量的生物学数据,找出其背后隐藏的生物学规律。在生物信息学中,对生物序列进行相似性分析是一项重要任务。本文主要研究工作是围绕着生物序列的相似性分析展开,分别以DNA序列和蛋白质序列作为研究对象,提出了不同的生物序列相似性分析方法。在第二章中,区别于常见的图形化表达方式,从信号的角度,基于不同的编码方式,本章提出了两种不同的DNA序列的编码模型。在第一种编码方式下,DNA序列被映射为信号幅度为2的方波,用四种不同的信号持续时长来分别代表AGTC四种不同的碱基,以方波幅度的交替来表示碱基的更迭。第二种编码方式则借鉴CMI编码,将实际的DNA序列转化为CMI码序列。利用转化得到的信号序列可以对DNA序列进行相似性分析。通过与已有的模型进行对比发现,以信号的思想来理解DNA序列是切实可行的,本章提出的方法是有效的DNA序列相似性比较手段。第叁章中以蛋白质为研究对象,提出了一种基于惯性张量的蛋白质序列分析模型。首先按照氨基酸的不同性质,将20种氨基酸映射为叁维空间上不同的点。通过赋予每个点“质量”,借助惯性张量的计算,可以得到蛋白质序列之间的相似程度。本章分别采用来自哺乳动物的蛋白质序列以及来自杆状病毒的蛋白质序列说明了本章提出方法的有效性。第四章中提出了一种基于离散傅里叶变换和动态时间规整算法的蛋白质序列分析模型。首先将蛋白质字符序列映射为数值序列,将其视为由叁组信号构成的信号序列。通过对序列进行离散傅里叶变换,我们能够得到氨基酸序列的功率谱,随后利用动态时间规整算法判断两个氨基酸序列的相似性。从本文的计算结果中可以发现,取自相近时间段的甲流病毒的蛋白质序列的相似性更高。通过与其它软件和论文得出的计算结果进行比较,发现使用本文中同样数据的情况下,本文提出的方法能够纠正部分目前已有的软件与其他算法中的一些错误分类。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
生物序列分析论文参考文献
[1].姚俊敏,张韶芮,金鑫,凡肖,束长龙.苏云金芽胞杆菌XL6~-候选生物被膜调控基因00940序列分析及基因敲除突变体构建[J].农业生物技术学报.2018
[2].侯文冰.生物信息序列分析的非比对方法研究[D].大连理工大学.2018
[3].吴颢.基于机器学习的生物序列分析方法研究[D].哈尔滨工业大学.2017
[4].宣宁,柳絮,张华,杨永义,姚方印.玉米锌指蛋白基因ZmAN11的序列分析及在非生物胁迫下的表达研究[J].山东农业科学.2015
[5].广慧敏.新型H7N9甲型流感病毒的基因组序列分析及生物信息学表征[D].湖北大学.2015
[6].华克儒.一个有保障的马氏相似性学习框架及其在生物序列分析中的应用[D].西北农林科技大学.2015
[7].张超.基于Hbase生物数据存储和DNA序列分析[D].广西大学.2014
[8].杨矫云.大规模生物序列分析的高性能算法和模型[D].中国科学技术大学.2014
[9].金勋,李亮,芮海英,王丽娜,金铃.大豆GmFtsH2基因的克隆、序列分析与非生物胁迫条件下的表达研究[C].中国作物学会2013年学术年会论文摘要集.2013
[10].宋佳.机器学习方法在生物序列分析中的应用[D].浙江大学.2013