导读:本文包含了人类基因组序列论文开题报告文献综述及选题提纲参考文献,主要关键词:8-mer频谱,独立选择定律,CG类8-mers功能,核小体占据序列
人类基因组序列论文文献综述
贾芸[1](2018)在《人类基因组序列8-mer频谱的内在规律和各类8-mers的生物功能》一文中研究指出当前,揭示基因组序列k-mer频谱的内在规律逐步成为研究热点。物种基因组序列的k-mer频谱是确定的,不同物种之间其k-mer频谱的差异是有规律的。高等哺乳动物(k>6)呈多峰分布,低等生物为单峰分布。基于国内外研究现状及发展动态,我们研究了人类基因组8-mer叁峰频谱分布的内在规律,发现基因组序列中叁种CG类8-mers是独立进化的,称之为基因组的独立选择定律。通过深入的分析,给出了叁种CG类8-mer频谱的进化特征,验证了基因组独立选择定律的正确性。提出了叁种CG类8-mers生物功能的理论猜想。研究了叁种CG类8-mers在核小体占据序列和CpG岛序列中的特征以及与它们所承担生物功能的关系。分析了人类和小鼠含CG类8-mers距离分布的保守性,给出了两类基因组核小体占据序列组成的差异。主要研究内容如下:1.分析了人类基因组序列8-mer频谱的叁峰分布现象。我们认为出现叁个峰分布的原因是包含在叁个峰中的模体遵循着不同的进化选择而形成的,这叁类模体蕴含着基因组序列的构成方式。以人类全基因组序列、基因间序列、内含子序列和编码序列为研究对象,给出了4类序列的8-mer频谱。发现除编码序列外,其他叁类序列的8-mer频谱均为叁峰分布。为了分离出叁个峰中的模体,我们提出了XY二核苷(16种)分类方法,该方法根据8-mer中包含两个、一个或不包含XY二核苷将全体8-mers分成XY2、XY1和XY0叁类模体子集。发现只有在CG二核苷分类下,CG0、CG1和CG2类模体子集能够各自形成独立的单峰频谱,并将基因组全体8-mer频谱干净的分成叁类,而在其他15种XY二核苷分类中则不存在此现象,我们称之为基因组的独立选择定律。2.分析了各研究序列的叁种CG类子集8-mer频谱的分布特征。首先,分析了各CG类子集频谱的位置。参考随机序列的8-mer频谱,发现叁种CG类子集8-mer频谱的位置出现明显的分离现象,CG2类子集的8-mer频谱出现在低频端,距离随机频谱中心最远,CG1类子集的频谱次之,CG0类子集的频谱在随机中心附近。其次,分析了叁类子集频谱分布的保守性(单色性)。叁类子集频谱分布的标准差显示,CG2类子集8-mer频谱显示出强烈的保守性,CG1类子集的8-mer频谱次之,CG0类子集8-mer频谱的保守性最低。结果表明:独立选择定律的核心特征有叁点:(1)CG1和CG2类8-mers是基因组定向进化的结果,CG0类8-mers是随机进化的结果;(2)叁种CG类子集的8-mer频谱的位置存在进化分离现象;(3)CG2和CG1类子集的8-mer频谱的分布具有显着的保守性。以上叁点就是基因组独立选择定律的基本特征。我们同时分析了其他15种XY类子集的频谱特征,发现均不满足上述叁个特征。独立选择定律指出,任何DNA序列均是由这叁类独立进化的CG类模体构成,叁种CG类模体在序列上的含量和分布特征决定了该序列所承担的生物功能。3.根据独立选择定律的特性和功能序列实验结论及理论分析结果,我们认为叁类CG类子集中的8-mers具有不同的生物功能,由此提出了一个理论猜测,即CG2类子集中的模体是构成CpG岛序列的核心模体,CG1和CG0类子集中的模体反映了CpG岛序列的多样性;CG1类子集中的模体是构成核小体结合模体的主要元素,CG2和CG0类子集中的模体反映了核小体序列的多样性。为了验证理论猜想,对叁类CG类子集中的8-mers的信息分别在核小体占据序列和CpG岛序列上进行了表征。ROC二分类判别分析显示,在核小体占据序列上最偏好的是CG1类8-mers,CG2类8-mers次之。在核小体缺乏序列上最偏好的是CG0类8-mers,CG1和CG2类8-mers没有显示出偏好性。在CpG岛序列上,最偏好的是CG2类8-mers,CG1类8-mers次之。CG0类8-mers在非Cp G岛序列上最偏好。研究结论支持了我们的理论猜想。4.在验证了含CG二核苷8-mers是核小体占据序列偏好模体的基础上,分析了核小体占据与缺乏序列的序列特征,包括k-mer频率、k-mer分布(k=1,2,3)和G+C含量。结果显示,核小体占据序列单碱基出现的频率基本均匀,而核小体缺乏序列上碱基A/T频率明显高于C/G频率,核小体占据序列的G+C含量明显高于核小体缺乏序列,其他序列特征在核小体占据和缺乏序列中没有明显的差异。总体而言,通常的序列信息分析在研究核小体占据序列特征中不能有效揭示序列的核心特征,再次印证了基于基因组独立选择定律的原理出发研究功能序列的有效性和可行性。5.从距离保守的角度考察了一对含CG二核苷模体在序列中的关联。分别对人和小鼠基因组的核小体占据序列和核小体缺乏序列,统计分析序列中含CG二核苷8-mer对的距离分布和距离方差的差异,旨在用人和小鼠基因组中一对含CG二核苷的8-mer的距离刻画该对模体在人鼠基因组中的保守性。结果显示在核小体占据序列上含CG二核苷模体对的平均距离差值明显小于核小体缺乏序列,核小体占据序列上含CG二核苷模体对的平均距离差值分布的方差明显小于核小体缺乏序列相应的方差。结果表明:与核小体缺乏序列相比,含CG二核苷模体对的分布在人类和小鼠核小体占据序列中具有强保守性。(本文来源于《内蒙古大学》期刊2018-05-29)
张梦然[2](2018)在《人类感染乙肝已有数千年之久》一文中研究指出科技日报北京5月10日电 (张梦然)英国《自然》杂志9日发表了两项基因组学成果:其中一项报告了137名生活在约1500年至4500年前的古人类的基因组序列;另一项则分析了这137人的基因组和另外167名青铜时代人类的基因组。欧洲科学家团队在其中25人(本文来源于《科技日报》期刊2018-05-11)
彭珠黎[3](2018)在《人类基因组Y染色体参考序列的SSRs序列不均匀性分布分析》一文中研究指出人类基因组测序计划的完成推动了测序技术的飞速发展,也促进了各种其他物种基因组大规模测序计划的完成。目前随着高通量测序技术的不断发展,测序时间不断缩短,测序成本也不断且大幅度降低,也随之推动了个性化医疗、单基因病快速筛查、精准医疗、大规模物种群体进化研究等相关研究的快速发展。同时基因组高通量测序所产生的海量序列也带来了新的挑战,如何分析和解释这些海量序列的组成特点与相关数据、如何深度探讨它们的生物学意义是当前生物学界面临的巨大难题。当前国际国内有关基因组的研究大多数都集中于基因表达、调控等方面。自人类全基因组测序完成后,发现其中真正表达编码基因序列不到基因组的2%,而有高达46%以上的序列片段为重复序列。其实早在上世纪80年代重复序列就已经被发现,当时被认为是没有表型的垃圾DNA序列。近期的一些研究发现有些重复序列与遗传疾病及基因调控等息息相关。人类基因组也分布了大量的微卫星序列,它们更倾向于分布于基因间区、内含子和启动子中(International Human Genome Sequencing Consortium,2001)。当前人类基因组微卫星相关性研究主要在以下几个方面:(1)一些研究显示人类基因组上有些位点的微卫星序列与遗传疾病的发生具有相关性,如亨廷顿舞蹈症、肌肉萎缩等;(2)许多癌症相关研究显示癌症病人的某些微卫星序列存在不稳定现象,如结肠癌、乳腺癌、胃癌等患者往往被检测到了一些位点的微卫星的不稳定性,并且有研究利用微卫星的不稳定性作为癌症的检测标记之一;(3)一些位点的微卫星相对于基因组其他位点变异率更高,因此常常被研究作为遗传标记,应用于亲子鉴定、法医学鉴定和种群研究。上述研究一般基于人类基因组上一些特定的微卫星位点进行研究,然而人类基因组上微卫星数量巨大,如此众多的微卫星序列在人类基因组的不同染色体上具有什么样的分布特征与模式以及它们分布特征与模式具有什么样的生物学意义?尚缺乏深入系统的研究。由于人类基因组序列数据过于庞大,关于人类基因组的微卫星序列的分布特征的系统分析也是一项巨大的研究工程,本人对此用C语言编写了一款软件——微型卫星微分计算器(DCM2.0),将人类基因组染色体DNA序列中的微卫星序列进行自定义恒定区间划分,并统计每个区间的微卫星的数量、重复次数及微卫星序列的长度等信息,实现了几十kb甚至更小的统计单元进行观测,同时减少了人工统计带来的工作量和统计时间,实现了研究方法的创新。本研究首先针对人类基因组较小的Y染色体DNA序列率先进行了初步分析,结果显示在参考序列已测序区域中具有19万多个微卫星序列片段。目前在国际上和国内,Y染色体序列中的少数微卫星序列位点已有一定的研究,同时作为遗传标记工具Y-STR应用在亲子鉴定、种群差异和法医学鉴定等方面。而本研究拟将Y染色体序列上的已筛选出的19万多个微卫星序列分布特征模式进行系统分析。本次研究以NCBI已测序的人类Y染色体参考序列为基础,针对Y染色体上全测序区域的微卫星类型、物理位点、组合方式等一系列特征进行提取、统计与归类分析,建立基于人类Y染色体参考序列的微卫星特征分布物理图谱,发现人类Y染色体上微卫星的分布极其不均匀。该研究的成果将为进一步探讨Y染色体序列上微卫星的生物学意义打下基础,也将为研究Y染色体序列上微卫星进化规律提供参考,对法医学鉴定和种群研究也可提供理论支持,还将对Y染色体微卫星相关遗传疾病的发现及研究提供帮助。(本文来源于《湖南大学》期刊2018-04-23)
郭柠柠[4](2016)在《人类基因组8-mer使用保守性和CpG岛序列结构的关系》一文中研究指出基因组序列的k-mer使用是非随机的,研究k-mer非随机使用规律以及特征k-mer的生物学功能,对于了解基因组结构和进化具有重要的生物学意义。本文从整个人类基因组出发,通过研究DNA序列8-mer频数分布特征探究其进化保守性。为此我们对人类基因组DNA序列进行了8-mer的提取,按照频数出现从小到大的顺序,设置相同的区组对其绘制频数分布图像,结果显示其分布呈现叁峰现象。我们将这叁个峰按照从左到右依次叫做峰一、峰二和峰叁。按照包含二核苷酸XY的个数,将整个8-mer集合按照不包含、包含一个和包含两个及以上分成叁个模体子集,分别记为XY0、XY1和XY2,并且分别绘制分布图,发现只有以CG分组的CG0、C G1和CG2模体子集各自形成独立的单峰,并且与整体8-mer所呈现的叁峰相对应。我们在同一坐标系下绘制组分约束下的随机序列8-mer频数分布与人类基因组DNA序列频数分布图像,发现峰叁与随机序列相对应,而峰一峰二远离随机分布中心,说明峰叁具有随机性,峰一和峰二具有很强的保守性。结合之前组内的研究,我们推测CG2模体子集是CpG岛序列的核心模体,为了验证我们的猜想,本文中提取整个人类基因组上的CpG岛序列,同时相应的提取等长的非CpG岛序列,按照二核苷酸的分类分别计算每一个模体中的CpG岛序列和非CpG岛序列的特征量,通过分别绘制对应的分布验证了CG2模体子集是CpG岛分类的指标。在之后的研究中,我们对CpG岛序列根据以CG分类的叁种特征量Ktri做分布图,发现以CG2分类的特征量在CpG岛序列上呈现了明显的局域结构,再次证明CG:模体子集是CpG岛序列的核心模体,我们分别设定一定的标准提取代表局域结构的序列片段,发现其长度集中在15bp至23bp间,峰值出现在17bp的位置。(本文来源于《内蒙古大学》期刊2016-04-27)
Deliang,Zhou,Hong,Li,Xiaoxi,Yang[5](2013)在《人类基因组序列八联体结构分析》一文中研究指出DNA序列k-mer分布是一项热门的研究课题,已知人类编码序列和基因间序列八联体分别呈现单峰与多峰分布[1],关于单峰和多峰现象产生的原因众说纷纭。我们将阐述这一现象的本质,给出8-mer片段的分布,阐述8-mer片段蕴含的生物学意义。定义8-mer的相对频数:RFi=(1≤i≤48)(1)式中Ni代表一段DNA序列中某一8-mer出现的次数,N是DNA序列的长度,公式中分母表示8-mer随机出现的期望值。定义8联体片段中m联体出现的相对频数:RFjm=(1≤i≤4m,m<8)(2)RFjm代表G类8-mer中某个m联体的相对频数。代表包含j个CG的全部8-mer,=40545,=21468,代表包含2个或2个以上CG的全部8-mer,=3523。以相对频数为纵坐标,以8-mer出现频数为横坐标,得到人类DNA5种序列(编码序列、基因间序列、内含子、3’UTR和5’UTR序列)的8-mer分布,发现编码序列是单峰,基因间序列呈叁峰分布。分别用包含不同数目的二核苷的8-mer重新绘制8-mer分布,发现只有包含CG的8-mer可将这5种序列严格分成叁个分布,单峰现象只是叁个峰距离很近而已。进一步分析表明,包含0个CG的8-mer分布与随机序列一致,含有1个CG或大于1个CG的8-mer远离随机分布,推测这些8-mer应具有生物功能且他们与核小体定位信息紧密相关[2]。分析了8-mer中2联体和3联体出现的相对频数。发现5种序列中二核苷和叁核苷相对频数有明显的差别,编码序列与其它序列差别最大,基因间序列与内含子序列相近,3’UTR和5’UTR序列也有一定的区别。这些结果为我们研究核小体在这些序列上的分布特征提供了主要的序列信息。(本文来源于《第一届国际暨第十叁次中国生物物理学术大会摘要集——S20结构与计算生物学》期刊2013-10-28)
周玮晨,金力,张锋[6](2012)在《人类基因组上的小片段重复序列可增加基因组不稳定性》一文中研究指出人类基因组上DNA片段的重排可以产生结构变异(structural variation)。这些结构变异是人类个体间遗传差异的重要组成部分,有些可以作为常见的遗传多态性存在,有些能导致严重的人类疾病。此外,结构变异也是体细胞遗传变异的重要类型,在肿瘤的发生过程中具有重要作用。已有的研究显示,结构变异在人类基因组上发(本文来源于《2012年中国青年遗传学家论坛会议文集》期刊2012-06-07)
魏丽珍[7](2011)在《人类基因组Alu序列的研究》一文中研究指出Alu重复序列是灵长类动物基因组中SINE家族的一员,约有100万份拷贝。由于这种DNA序列中含有限制性内切酶Alul识别的序列AGCT,所以称为Alu重复序列。典型的人类基因组Alu序列长282 bp,由两个同源但有差别的亚基构成。在所有已知的基因内含子中,几乎都发现了Alu序列。由于Alu序列存在的普遍性及其可能具有的生物学功能,成为人们研究的热点。研究表明,Alu序列可能与调控网络有关,调控散置在基因组中的基因协同表达。我们知道DNA中编码序列是以叁联体的形式编码蛋白质,那么Alu序列如果参与基因的调控,以什么样的方式编码序列呢?为此,我们应用非均匀指数,分析了外显化Alu序列的阅读性框架,并以人类基因组中的外显子,内含子的序列作为对照,发现Alu序列可能存在8重性阅读框架,具有8联体的编码性质,这一结论支持了人们曾经提出的Alu序列参与基因调控的结论。另外,通过与其它短散在性重复元件的对比分析,显示存在8重性阅读框架可能是Alu序列所特有的。进一步,我们统计了Alu序列每个周期位置上各碱基出现的概率,没有发现特别的规律,这与编码区统计性分析获得的经验,即DNA中密码子使用不是均匀分布的结论是比较吻合的。同时,我们还发现Alu序列中碱基的构成也是不对称的,G+C的含量大于A+T的含量。接下来基于Alu序列中碱基分布的不对称性,及Alu序列本身保守的结构特性,应用多样性增量的方法(ID方法)对Alu序列进行了识别分析:分别以人类基因组中内含子(intron)和外显子(exon)两类序列作为负集,外显化的Alu序列作为正集进行预测,建立序列单碱基含量(IDl),紧邻与非紧邻二联体(ID2),叁联体(ID3),四联体(ID4),八联体(ID5)共五个标准多样性源,采用3-fold交叉的检验方法,得到的敏感性(Sn)多数在99%以上,特异性(Sp)多数在96%以上,总精度(TA)多数也在90%以上。其中以k=4mer识别的结果最好,特异性、敏感性总精度都超过了98%,相关系数也超过了0.92,很好的体现了Alu序列碱基组分的保守性和关联性。最后,论文应用同样的参量和多样性增量的方法以及同样的检验方法,从人类基因组的第一条染色体上预测真正的Alu序列,得到的敏感性均超过了97.41%,特异性均超过了77.18%,总精度超过了78.07%,相关系数也超过了0.35,这个结果表明我们的方法可以作为识别Alu序列的工具。(本文来源于《内蒙古大学》期刊2011-05-25)
刘华,张丽玲,张谦,刘萍,李秀普[8](2011)在《推荐使用人类基因组变异协会关于序列变异描述的规范》一文中研究指出目前国内科技期刊中关于遗传变异的书写比较混乱,缺乏统一的规范,本文引入国外人类基因组变异协会关于序列变异的描述规范,以期对广大读者、作者及编辑同行起指导作用。(本文来源于《中国科技期刊研究》期刊2011年03期)
张鹏飞[9](2010)在《人类基因组中选择性剪接位点的预测及序列特征分析》一文中研究指出信使RNA的选择性剪接是真核生物有别于原核生物的基本特征之一。选择性剪接使单个基因产生多种转录物,是多细胞高等真核生物蛋白质多样性和功能复杂性的主要机制。mRNA前体的选择性剪接具有组织发育阶段性、特异性等特征,在系统发育、分化和癌变过程中发挥着非常重要的作用。论文首先对人类基因组中剪接位点序列与假剪接位点序列的保守性及空间结构特征进行了统计分析;其次根据剪接位点序列的碱基联体的保守性特征及剪接位点上下游区域的空间结构特征,构建剪接位点的信息向量,利用支持向量机对剪接位点的供体端和受体端进行了预测。对于供体端,5-fold交叉检验方法的敏感性、特异性及总体预测精度都达到了92.30%以上,相关系数为0.69,3-way data split检验方法的敏感性、特异性及总体预测精度达到了91.96%以上,相关系数为0.68;对受体端的5-fold交叉检验方法的敏感性、特异性及总体预测精度都达到了90.53%以上,相关系数为0.63,3-way data split检验方法的敏感性、特异性及总体预测精度达到了89.62%以上,相关系数为0.62。选择性剪接位点和组成性剪接位点在序列水平上没有明显的差异,而且选择性剪接位点事件中每一对选择性剪接位点之间的距离都很近,所以选择性剪接位点事件预测工作是理论预测工作的一项挑战。论文中以位置关联权重矩阵和DNA结构信息参数作为剪接位点信息输入向量,应用支持向量机对选择性剪接位点和组成性剪接位点做分类。对于供体端剪接位点,独立检验集的敏感性、特异性及总体预测精度都在73.30%以上,相关系数为0.47;对受体端剪接位点,独立检验集的敏感性、特异性及总体预测精度都在74.57%以上,相关系数为0.49。此结果要明显的好于最近的文献中的预测结果,表明我们的方法可以作为选择性剪接位点识别问题的工具之一。(本文来源于《内蒙古大学》期刊2010-05-25)
高智红[10](2010)在《应用多样性增量方法识别人类基因组microRNA前体序列》一文中研究指出microRNA是一类约为21-26个碱基长度的非编码单链RNA。microRNA在细胞生长和发育的过程中起着多种调节作用,参与生命过程中一系列的重要进程,包括发育、造血、器官形成、凋亡、细胞增殖、甚至肿瘤发生。microRNA对癌症、心脏病、艾滋病等各种疾病都有一定的影响。根据最近研究显示,RNA最初转录物(pri-RNA)分子经过RNaseⅢDrosha剪切,成为70-90个碱基大小、具有发夹结构的microRNA的前体(pre-microRNA),再由Exportin-5将pre-microRNA从细胞核运输到细胞质中,经Dicer酶加工生成microRNA o pre-microRNA最显着的特点就是具有发夹结构。pre-microRNA特殊的发夹结构不仅能够使pre-microRNA与Exportin-5结合从而输出到细胞质,而且还是其与Dicer酶作用的必要结构。这两点就使得发夹结构对于microRNA和pre-microRNA都非常重要。根据microRNAs前体序列的碱基保守特征和二级结构特征,应用多样性增量方法(ID方法)和支持向量机(SVM)分析,以内含子区(intron)、外显子区(exon)、基因间区(intergenic)叁类序列分别作为负集,对人类的pre-miRNAs进行分析和预测。当以intergenic区和intron区序列为训练负集时,其以二级结构叁联体、四联体和五联体(3-mer、4-mer、5-mer)为特征参量的敏感性、特异性、整体精度都在89%以上,相关系数在0.7以上。(本文来源于《内蒙古大学》期刊2010-05-23)
人类基因组序列论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
科技日报北京5月10日电 (张梦然)英国《自然》杂志9日发表了两项基因组学成果:其中一项报告了137名生活在约1500年至4500年前的古人类的基因组序列;另一项则分析了这137人的基因组和另外167名青铜时代人类的基因组。欧洲科学家团队在其中25人
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
人类基因组序列论文参考文献
[1].贾芸.人类基因组序列8-mer频谱的内在规律和各类8-mers的生物功能[D].内蒙古大学.2018
[2].张梦然.人类感染乙肝已有数千年之久[N].科技日报.2018
[3].彭珠黎.人类基因组Y染色体参考序列的SSRs序列不均匀性分布分析[D].湖南大学.2018
[4].郭柠柠.人类基因组8-mer使用保守性和CpG岛序列结构的关系[D].内蒙古大学.2016
[5].Deliang,Zhou,Hong,Li,Xiaoxi,Yang.人类基因组序列八联体结构分析[C].第一届国际暨第十叁次中国生物物理学术大会摘要集——S20结构与计算生物学.2013
[6].周玮晨,金力,张锋.人类基因组上的小片段重复序列可增加基因组不稳定性[C].2012年中国青年遗传学家论坛会议文集.2012
[7].魏丽珍.人类基因组Alu序列的研究[D].内蒙古大学.2011
[8].刘华,张丽玲,张谦,刘萍,李秀普.推荐使用人类基因组变异协会关于序列变异描述的规范[J].中国科技期刊研究.2011
[9].张鹏飞.人类基因组中选择性剪接位点的预测及序列特征分析[D].内蒙古大学.2010
[10].高智红.应用多样性增量方法识别人类基因组microRNA前体序列[D].内蒙古大学.2010
标签:8-mer频谱; 独立选择定律; CG类8-mers功能; 核小体占据序列;