高通量生物数据论文-孙强

高通量生物数据论文-孙强

导读:本文包含了高通量生物数据论文开题报告文献综述及选题提纲参考文献,主要关键词:病毒基因组,高通量测序,溶原性噬菌体,基因组末端序列

高通量生物数据论文文献综述

孙强[1](2017)在《高通量测序数据中病毒基因组的生物信息学分析方法探索》一文中研究指出病毒是一类只能够在活着的宿主细胞内复制的感染源。病毒个体微小、构造简单,除朊病毒(仅由蛋白构成)外,病毒均由一种作为遗传物质的核酸(DNA或RNA)与蛋白质构成。病毒种类多样,宿主范围广,具有细胞结构的生物均可以是病毒的宿主。病毒基因组作为病毒遗传信息的载体,是研究病毒的核心数据。随着高通量测序技术的普及,对病毒基因组进行高通量测序已成为研究病毒遗传、进化的主要手段。面对高通量测序产出的大量数据,就要求生物信息学分析能够尽可能多地挖掘出其中病毒基因组的有效信息。本文的研究目的即是探索出不同数据类型下,高通量测序数据中病毒基因组的生物信息学分析方法。本文从课题组积累的高通量测序数据及分析需求出发,探索了从高通量测序数据中挖掘病毒基因组中有效信息的分析方法。本文围绕病原微生物,分析其测序数据中病毒基因组的相关信息,具体分为两个部分:1、细菌高通量测序数据中溶原性噬菌体的分析;2、复杂测序样品中的病毒发现及基因组分析。细菌高通量测序数据中溶原性噬菌体的分析溶原性噬菌体是一类能够整合入宿主菌基因组中,随宿主菌的复制而传代的病毒。在某些条件的诱导下,也能够脱离宿主基因组,产生子代噬菌体释放出来。溶原性噬菌体的复制特性决定了它具有介导基因水平转移的功能,往往能够对宿主菌的致病性产生重要影响,如德国发现的肠出血性大肠杆菌O104:H4的主要毒力基因就是由前噬菌体所编码。本文以分离自足部溃烂病人的72株细菌基因组测序数据为研究对象,以溶原性噬菌体复制机制为理论模型,研究发现新的溶原性噬菌体基因组及其整合特征,为了解噬菌体的生物学特性及防控高致病性细菌感染提供基础。采用生物信息学软件与自编程序相结合的方式进行数据处理与分析。使用NGS QC Toolkit v2.3.3对原始测序数据进行质量控制,去除短读长及低质量数据。针对Ion Torrent平台数据特点,选择了商业软件Newbler v3.0作为数据组装软件。使用perl脚本编程,搭建前噬菌体预测分析流程,对组装得到的contigs进行前噬菌体预测。为得到活跃的前噬菌体基因组,选用两种辅助拼接工具,ContigScape插件显示组装后contigs之间的连接信息,商业软件CLC Genomics Workbench 9进行序列调整及拼接结果检查。使用实验室内部软件对contigs进行连接。同时使用RAST在线注释工具对得到的溶原性噬菌体基因组进行注释。最后,综合分析得到的溶原性噬菌体基因组结构、整合位点、进化关系等信息,挖掘其中的潜在信息。在72株细菌基因组数据中,共有11株细菌数据中发现了前噬菌体脱离细菌基因组进行复制的现象。对能够脱离细菌基因组进行复制的噬菌体序列进行拼接,共得到14个活化的前噬菌体全基因组序列,其中11株与目前已知的噬菌体序列同源性很低,为本文新发现的噬菌体序列。新序列的发现表明本文研究方法可用于新溶原性噬菌体的发现,增加科研人员对噬菌体的认知。分析发现,整合状态下噬菌体整合酶基因均与其整合位点紧邻。溶原性噬菌体的整合位点序列长短特征不一,但表现出与其整合酶具有相关性。同一整合位点可供多种具有相似整合酶的溶原性噬菌体整合,提供了前噬菌体预测的新思路。宿主为同一属内的细菌的溶原性噬菌体具有相似的基因组结构。复杂测序样品中的病毒发现及基因组分析由于病毒分离培养周期长,成功率低,我们常常要对一些复杂样品进行高通量测序,然后获取其中的有效病毒信息,这就给数据分析带来了一定的挑战。课题组近年来开展了使用高通量测序对临床样品进行病原检测的工作,要求数据分析能够快速准确地发现临床样品中的病原。目前单一的生物信息学软件不能满足我们对于复杂测序样品的分析需求,鉴于此开发了分析软件《高通量测序数据病原体归类分析软件v1.0》。该软件能够对细菌、真菌、原虫、病毒4种类型的病原进行检测,同时在应对复杂样品中已知或未知病毒的发现工作表现出良好的效果。复杂样品中已知病毒的发现,以2016年7月北京发现的输入性裂谷热病例为例。通过使用分析软件对测序数据分析,发现了大量的裂谷热病毒序列,确认了裂谷热病毒为致病原,并在第一时间获得了该株裂谷热病毒的全基因组序列。该株裂谷热病毒与2009年南非发现的Kakamas株同源性最高,进化分析提示该株病毒没有发生重组。复杂样品中未知病毒的发现,以勐海弹状病毒的发现为例。该株病毒分离自云南勐海地区捕获的白纹伊蚊,以C6/36细胞培养后,使用常见病毒引物无法鉴定出是何种病毒。通过对其高通量测序数据的分析,排除掉宿主细胞、其他细菌、病毒等干扰因素,获得了该株病毒的全基因组序列。序列分析显示其为一株新型的弹状病毒,命名为勐海弹状病毒,与发现于秘鲁的另外两株蚊媒弹状病毒最为相似。在对勐海弹状病毒的基因组分析中,本文还对选取的93株弹状病毒参考序列进行了病毒末端序列分析。发现其中的45株均具有短反向重复末端序列的特点,分布于不同的属中。狂犬病毒属内具有非常一致的末端序列“ACGCTTAAC”,而Ephemerovirus、Vesiculovirus、Tibrovirus和Sprivivirus四个属的病毒则均有“ACGAAGA”的一致末端序列。病毒基因组的末端序列常常与其基因组复制相关,其末端序列往往是相对严格的,这表明短反向重复末端序列很可能是弹状病毒科病毒基因组的一类特点。综上,本文在现有病毒基因组分析方法的基础上,提出了以细菌测序数据分析活化的前噬菌体全基因组及其整合位点的分析方法,能够用于新溶原性噬菌体发现,为了解溶原性噬菌体提供新知识。开发了高通量测序数据病原体归类分析软件,取得软件着作权,并在未知病原检测中发挥良好的作用。通过数据分析发现了一种新的弹状病毒,并对弹状病毒科基因组的末端序列特点做了分析。病毒基因组的分析,仍需针对不同的研究对象及分析需求设计分析方法,希望本文的方法及结论能够给其他科研人员提供参考和思路。(本文来源于《中国人民解放军军事医学科学院》期刊2017-05-27)

张传宝[2](2017)在《基于高通量数据的间变脑胶质瘤分子分型与生物标记物挖掘》一文中研究指出第一部分:基于基因表达谱的间变脑胶质瘤分子分型背景:既往在研究全级别脑胶质瘤(WHO II-IV级)或原发性胶质母细胞瘤(WHO IV级)分子分型方面,全基因组表达谱分析显示出了良好的稳定性与有效性,可用于揭示脑胶质瘤不同的细胞起源、预后差异及治疗敏感性差异。但是在间变性脑胶质瘤(WHO III级)分子分型方面,该方法尚未得到有效运用。方法:为了获得间变性脑胶质瘤的客观、可行的分子分型方案,我们在公共数据库中下载了叁组相互独立的间变脑胶质瘤基因表达谱。通过联合应用单因素cox回归、线性结合危险评分及受试者工作特征曲线(ROC曲线),我们构建了具有最佳预后区分效果的基因标签。为了进一步解释不同分型预后差异的分子机制,我们继续应用了基因本体分析(Gene Ontology,GO),基因组变异分析(GSVA)及基因组富集分析(GSEA),用以揭示该分型相关的生物学功能。结果:本研究共收集到各平台的间变脑胶质瘤基因表达谱数据444例(CGGA数据库34例,GSE16011数据库80例,REMBRANDT数据库67例,TCGA数据库263例),通过上述分型标志物筛选方案,我们最终获得了基于叁个基因的间变性脑胶质瘤分子分型方案。该方案可将间变性脑胶质瘤分为高危组和低危组,两组患者预后具有明显差异。从预后及分子遗传学特征上看,低危组患者与WHO II级患者类似,高危组患者与WHO IV级患者类似。高危组患者,其肿瘤更具侵袭性,遗传背景更复杂。结论:基于叁个基因的分型方案可很好的区分患者临床预后。该高、低危患者与WHO IV级、II级患者具有一定一致性,提示需要给予不同的治疗方案。第二部分:磷酸化组蛋白H3在脑胶质瘤中的生物学意义背景:世界卫生组织(WHO)依照形态学特征,将脑胶质瘤分为不同的病理级别。但是,即使处于同一级别的肿瘤,其恶性度仍有较大差异。这提示我们要寻找更客观有效的指标,准确的判断肿瘤的恶性程度及生物学特征。磷酸化组蛋白H3(p HH3)是在多种体部肿瘤中广泛报道的生物标志物,在肿瘤细胞分裂期具有特征性表达。方法:为研究p HH3在脑胶质瘤中的预后价值及生物学功能,我们首先通过免疫组化方式,研究了61例间变脑胶质瘤中p HH3的表达趋势及预后意义。继而我们通过325例中国人群脑胶质瘤m RNA测序数据、169例美国TCGA中胶质母细胞瘤样本m RNA测序数据、305例中国人群脑胶质瘤m RNA芯片数据及603例美国TCGA中胶质母细胞瘤m RNA芯片数据,研究了p HH3及其相关基因在脑胶质瘤中的预后价值及生物学意义。最后,我们结合多因素cox回归及基因组富集分析(GSEA)等方法,进一步确证了上述研究结果。结果:p HH3蛋白表达水平、m RNA表达水平及p HH3相关基因在多个数据集中都被证实可预测患者预后。其表达水平较高者,预后较差。另外,在GSEA结果中,我们发现p HH3不仅与细胞周期相关,也与肿瘤的上皮间质转化密切相关。结论:p HH3及其相关基因可将脑胶质瘤分为两种不同的亚型。两种亚型的肿瘤具有截然不同的临床预后与生物学特征。第叁部分:肿瘤细胞纯度在脑胶质瘤中的生物学意义背景:脑胶质瘤组织中不仅包含肿瘤细胞,还包含间质细胞、免疫细胞等非肿瘤细胞。这些非肿瘤细胞稀释了肿瘤细胞的纯度,对于构成肿瘤生存的微环境具有重要作用。目前,肿瘤细胞纯度这一指标在脑胶质瘤中的生物学意义尚未阐明。方法:我们收集了5个临床研究队列、2249例样本中的脑胶质瘤细胞纯度。依照5个研究队列中研究方法的不同,将RNA测序来源的数据(CGGA、TCGA RNA测序数据)作为发现组,m RNA芯片来源的数据(CGGA、TCGA、REMBRANDT、GSE16011 m RNA芯片数据)作为验证组。另将CGGA来源的肿瘤样本通过HE及免疫组化方法验证。结果:我们发现肿瘤细胞纯度与脑胶质瘤主要的临床及分子病理事件均显着相关。低纯度的样本多为高级别肿瘤、生存期较短。将肿瘤纯度纳入到预后预测模型中,可显着提高预测的准确度。在纳入肿瘤纯度这一指标后,目前已知的多个预后因素其效力明显降低,进一步验证了肿瘤纯度的重要生物学意义。另外,通过联合分析样本相关基因组学数据,我们发现了肿瘤细胞纯度相关的特征性基因组学变化,并发现低纯度的脑胶质瘤,更多的体现出免疫相关表型的的增强,特别是巨噬细胞、小胶质细胞和中性粒细胞相关表达谱的表达增强。联合预后分析,我们发现巨噬细胞及中性粒细胞表达谱的高低与预后相关。结论:肿瘤细胞纯度及肿瘤微环境中的非肿瘤细胞的比例与临床、基因组学特征等具有显着相关性,这对于脑胶质瘤精确分型与临床诊疗具有重要意义。(本文来源于《首都医科大学》期刊2017-05-08)

詹晓娟,姚登举,朱怀球[3](2016)在《高通量DNA测序数据的生物信息学方法》一文中研究指出高通量测序技术产生的DNA序列数据长度较短,而且数据量非常巨大。分析了高通量测序环境下大数据的挑战和机遇,总结并讨论了数据压缩、宏基因组数据序列拼接、宏基因组数据序列分析方面的算法和工具等研究成果。最后,展望了高通量测序下DNA短读序列数据研究的发展趋势。(本文来源于《大数据》期刊2016年02期)

程功[4](2015)在《Docker生物云计算平台分析松材线虫高通量测序数据的应用研究》一文中研究指出随着二代测序技术在生命科学研究领域的广泛应用,生物学家们正面临生物大数据处理、分析的挑战,同时生物大数据也将成为生命科学领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。高通量测序技术的发展,推动序列数据的迅速增长,普通实验室也可以达到PT级生物测序数据量,如此大规模的数据的有效存储、高效分析、共享利用,都是我们面对的难题,对高性能计算也提出了严峻的挑战。目前已测序的物种也只是一小部分而已,已完成测序的物种相关数据的分析也不深入。在算法优化、软件并行化、流程自动化、大规模数据存储、处理及深度分析等层面,有亟待的工作需要广泛开展。针对新一代测序数据量大、数据处理过程复杂、对计算资源要求高等特点,云计算提供了一种有效的解决途径,云架构下的平台搭建,存储、计算软件开发,工作流框架正在不断发展完善,并在未来的生物大数据分析、存储方面发挥着重要作用。Docker是PaaS提供商dotCloud提供的一款基于LXC (LinuX Contai-ners)开源项目。Docker目前在云计算领域迅速发展,包括dotCloud、Google Compute Engine和百度应用引擎(BAE),都使用了Docker。LXC是一种共享Kernel的操作系统级别的虚拟化解决方案,通过在执行时不重复加载内核,且虚拟容器(Container)与宿主机(Host)之间共享内核来加快启动速度和减少内存消耗。相比较传统的虚拟化,基于LXC的轻量虚拟化Docker可以做到启动快且占用资源少。因此,Docker是良好的构建云计算的架构,Docker正在给云计算带来一场革新,Docker可以灵活地封装软件,令其更快速地传播。Docker技术的实现意味着,如果在一台笔记本上编写了一个软件,可以将它移动到本地服务器或云服务器,而不需要做任务改变。这一直都是云计算的目标:互联网就是一台巨型计算机。生物大数据也具有数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)的“4V”大数据特点,Docker的便捷、高效的特点适应了生物大数据发展的需求,所以Docker生物云计算平台是应对生物大数据的最佳方案,本文Docker技术为基础进行了深入研究和探讨其在生物大数据分析方面的应用开发,并将开发的ubuntu14.04_biodocker生物云计算平台应用于松材线虫的高通量测序数据个性化分析中,为分析、处理高通量测序产生的生物大数据提供一种方法和思路。研究内容如下:(1) Docker在Ubuntu操作系统中的安装及基本的Docker命令。(2) Docker中的数据管理及基本命令的探讨:数据存储及管理是Docker技术的一个重要内容,我们探讨了如何在容器中挂载主机的数据及如何创建数据容器等一些内容。(3)基于ubuntu-14.04-x86_64. tar. gz模板,创建ubuntu14.04 biodocker基础镜像,由于一些分析软件依赖许多环境,所以我们选择的一个较完整的系统作为基础镜像。(4)基于ubuntu14.04_biodocker基础镜像,我们深入探讨了使用叁种方法在镜像中安装基因组,转录组,宏基因组等相关软件及处理原始数据的脚本,构建了ubuntu14.04_biodocker生物云计算平台镜像。该生物云计算平台镜像可以快速、高效的移植到任何一台linux内核的操作系统平台,无论是单机、集群,谷歌或亚马逊的云服务。方便了高通量测序数据分析平台在不同硬件环境、不同操作系统之间的无缝迁移。可以让生物研究者把更多时间和精力集中在数据分析及探讨生物学问题上,而不必为这些软件安装及软件运行兼容性、环境依赖这些运维层面的技术而困扰,我们根据上述的镜像分别在个人电脑、厦门大学数据挖掘组的服务器上搭建了ubuntu14.04_biodocker生物云计算平台进行了高通量测序数据的分析、挖掘。(5)利用平台我们基于松材线虫全基因组构建了全基因组分泌蛋白基因家族的基因序列、蛋白序列,并且进行了功能注释。结果表明,松材线虫有923个分泌蛋白基因,仅有93个基因得到注释,其余90%的分泌蛋白均为松材线虫所特有,值得我们更加关注和有待于更深入的研究。我们还对松材线虫基因组进行了SSR定位及引物开发,在松材线虫全基因组中搜索到12135个SSR,开发出1155个引物,我们又把这些信息转换成gff3格式文件,可以在基因组浏览器中更直观方便的观察这些SSR位置、类型、长度、引物等详细信息。(6)利用平台我们基于转录组的松材线虫、拟松材线虫分泌蛋白差异表达及分子进化研究。结果表明,松材线虫、拟松材线虫转录组共表达800个分泌蛋白,其中294个分泌蛋白为二者差异表达显着,并对这些蛋白进行了注释和分析。在松材线虫、拟松材线虫498个分泌蛋白同源基因中筛选出16个基因的Ka/Ks值显着大于1,并且达到了统计学上差异显着的水平,表明这些基因受到强烈的自然选择作用,为适应环境功能上发生了极显着的进化。(7)利用平台我们研究了基于转录组的松材线虫、拟松材线虫直系同源基因的研究及。结果表明,松材线虫、拟松材线虫与秀丽线虫、根结线虫同源基因及其差异表达,近缘物种上都得到的大量同源基因,为我们基因功能注释及研究提供可靠的信息,而在远缘物种拟南芥、毛果杨获得了同源基因为我们研究松材线虫与寄主植物的互作提供参考。(8)利用平台我们研究了基于宏基因组的松材线虫与其伴生菌的水平转移基因。结果表明,通过计算比较GC含量方法得到15个松材线虫与共生菌之间的水平转移基因,这些基因大部分都是具有重要生理生化功能,为研究松材线虫与其伴生菌协同进化提供了有力证据。(本文来源于《东北林业大学》期刊2015-03-01)

杨波[5](2014)在《高通量数据的生物信息学分析和一致性排序算法研究》一文中研究指出在后基因组时代,利用生物信息学方法解决生物学问题越来越受到人们的重视。本论文主要研究生物学高通量数据的生物信息学分析,和一致性排序算法的开发。在分子生物学和遗传学中,我们把发生在新生前体信使RNA转录本上的内含子移除同时外显子连接在一起的过程叫做RNA剪接。在这一过程中研究者们对U2AF异源二聚体,在前体信使RNA剪接过程中识别定义功能性的3’剪接位点的作用已经有很好的研究。但是依然有许多重要的问题不清楚,其中就包括最近在它们基因上刚发现的癌症相关的高频率突变位点是否有功能性作用。通过基因组范围的U2AF和RNA相互作用分析,我们发现在人类基因组中,U2AF能识别定义约88%的功能性3’剪接位点。同时在基因组其它位置也有大量的U2AF结合事件。通过全基因组数据分析和单基因实验验证,我们发现U2AF在内含子中的结合会抑制紧接着的下游3’剪接位点的剪接。在盒式外显子可变剪接事件中这表现为:U2AF结合在可变外显子上游会抑制可变外显子的剪接;U2AF结合在可变外显子下游会抑制下游组成型外显子的剪接进而促进与之竞争的可变外显子的剪接。基于我们的高质量高通量测序数据,利用最大熵机器学习方法,我们进一步建立一个U2AF65结合序列打分模型,可以用来预测U2AF65结合位点。用这一打分模型同样验证了我们前面提出的U2AF调控模型。这些发现揭示了U2AF在基因组范围的功能和调控机制,有助于我们进一步研究其相关疾病。人们越来越意识到在大数据时代,对生物学数据排序很重要。然而对同一个问题,基于不同的数据和排序方法,通常会有很多不同的排序结果。Cohen-Boulakia研究组提出从这些不同的排序结果中生成一个一致性的排序。这样既可以突出这些不同排序结果中的相同的信息,同时可以最小化它们之间不一致的部分。所以这一方法可以有效的减少生物学数据中的噪声和错误。然而基于Kendall-tau距离,即使只有4不同的排序,生成一致性排序问题仍然是个NP难问题。在本文中,我们提出了一种新的Pivot算法,叫Consistent-Pivot算法。该算法采用了一种新的支点选择和其它元素分配方法。我们认为这一算法充分利用了一致性排序问题的数据特点。实验证明不论在运行时间还是准确度上,Consistent-Pivot算法都优于之前的Pivot算法。(本文来源于《武汉大学》期刊2014-08-12)

章小灵,李宽,张新宇[6](2014)在《高通量数据生物信息分析平台》一文中研究指出真菌室生物信息学平台经过叁年建设期,针对真菌和原核生物等微生物高通量测序数据,涵盖了功能基因组、比较基因组、转录组和系统生物学等全方位丰富的专业分析流程,目前已构建成国内先进的微生物数据专业分析平台,并建立对外服务、共享资源的合作模式。硬件平台为具有632个计算核心、两个高配置胖节点服务器(512G内存/54CPU)、80T硬盘的高性能计算集群系统,软件平台包括原始数据质控、基因组组装、基因组注释、蛋白编码基因的预测、基因功能注释、同源基因分析、全基因组进化、水平转移基因的鉴定、蛋白质家族进行分析、比较基因组学分析、SV/CNV/Indel分析、时间序列表达谱分析、系统生物学整合分析等内容。已完成20多个从头测序的真菌和放线菌基因组和转录组分析,及上百例重测序基因组微进化分析,合作发表SCI论文8篇。对外合作主要有平台终端共享、数据常规分析、和项目个性化分析紧密合作叁种模式。已建立项目个性化分析紧密合作关系的单位包括,中国检疫检验科学研究院、中国农业大学、福建农林大学、贵州省农业科学院、中国农业科学院农产品加工所、北京林业大学等。平台网址:http://bioinfor.amcfungi.org(本文来源于《中国菌物学会第六届会员代表大会(2014年学术年会)暨贵州省食用菌产业发展高峰论坛会议摘要》期刊2014-07-14)

卢冰心[7](2013)在《基于Galaxy的高通量生物数据分析平台》一文中研究指出随着大量高通量生物数据的出现,数据分析逐渐成为生物研究的瓶颈。越来越多的软件包被开发出来用于各种不同的分析。虽然这些软件促进了数据分析,但是对于没有经验的生物学研究人员来说,往往不知道该选用何种工具进行特定的分析工作,或者即使选择了某个合适的工具,其复杂的操作和大量的参数也不方便使用,特别是使用多种软件进行多个分析步骤的复杂分析时更为困难。一般的高通量生物数据分析平台虽然集成了很多软件,提供了软件的图形化操作界面和工作流机制,允许用户对这些工具进行一定程度上的自由组合来创建工作流,但是仍不能包含用于高通量生物数据处理的大量分析工具,如RNA-Seq数据和MS/MS数据。有些常用的数据分析pipeline可以完成特定的分析任务,但是安装、配置和使用不方便,如真核生物基因组注释pipeline。针对这些问题,本研究基于Galaxy框架提供的扩展机制开发了一个软件平台Sequoia,集成了处理RNA-Seq数据和MS/MS数据的常用分析软件,以及真核生物基因组注释流程中每个步骤的常用软件。这些软件包括Galaxy中已有的工具和新添加的工具。为了有效地对这些软件加以整合,把多个分析步骤联系起来以提供流水线式的操作模式,还添加了新的脚本。对于MS/MS数据的分析,还创建了另外的数据库和可视化网站。本研究使得生物学研究人员可以在同一个平台上自由选用各种工具或者灵活组合多种工具创建特定的pipeline来进行海量RNA-Seq数据和MS/MS数据的各种分析工作,并可以利用新的RNA-Seq数据和MS/MS数据完善真核生物的基因组注释。该平台使得生物学研究人员不被软件复杂的操作所束缚,可以将更多的精力投入到对生物学意义的探究上以从大量的数据中挖掘和提取有价值的信息。(本文来源于《华东师范大学》期刊2013-04-01)

周宏[8](2012)在《基于高通量生物数据的微RNA活性分析及代谢流量分析》一文中研究指出近年来,各种新的高通量实验技术的迅速发展以及大量高通量生物组学数据的积累为生命科学研究带来了新的机遇,使得我们可以从生命活动的不同角度和层面对生物系统进行全面的观察和研究。然而,大量的高通量组学数据在带来机遇的同时也为计算生物学研究者们带来了许多新的挑战。其中,既包括侧重数据分析层面的挑战,也包括侧重高通量数据建模层面的挑战。围绕这些挑战,本文展开了相应的研究工作。第一方面的工作:基于基因表达数据的微RNA(microRNA)活性分析。MicroRNA是生物体内的一类非编码RNA分子,它是生物体实现转录后调控的重要机制,并且与许多疾病过程和重要的生物过程直接相关。而高通量生物组学数据对microRNA调控机制的研究具有重要的意义。本文利用高通量的基因芯片数据对1nicroRNA调控mRNA降解的活性展开了研究。本文提出了一种microRNA活性评估方法mirAct。该方法使用了非参数化的方法,充分利用了单个样本内以及不同类样本间的基因表达信息,能够很好的处理样本数据很少的情况。与现有的其他一些方法相比mirAct可以对多类样本数据进行分析,并且更加鲁棒,在面对低活性的microRNA以及高强度的噪声数据时有更具竞争力的表现。为了更好地服务microRNA研究者,基于mirAct本文实现了一个Web工具。与之前的一些单机程序分析工具相比作为Web Server的mirAct具有更友好的用户接口,可以很直观地将结果展现给用户,并提供了一些后续的分析功能。本文使用包括mirAct在内的若干种microRNA活性评估工具,对多种不同组织、不同来源的1nRNA和microRNA表达数据进行了分析,并得到结论:microRNA生物活性与其表达之间仅存在很弱的相关性。这样的结果与直观感觉不同,揭示了nicroRNA与其靶基因之间存在相当复杂的调控机制。第二方面的工作:基于高通量生物数据的代谢流量分析。代谢系统是生命活动的基础,对代谢系统的研究不仅对工业生产具有促进作用,同时还具有重要的临床意义。而高通量实验技术的发展与高通量组学数据的积累使得人们有机会从一个新的层面对代谢系统进行研究。本文在利用高通量生物数据进行代谢流量分析方面开展了两部分工作:一是利用碳标记实验得到的质谱及核磁数据对微生物进行代谢流量分析;另一部分是结合蛋白质组学数据对高等生物进行代谢流量分析。基于碳标记实验的代谢流量分析(13C MFA)通过检测代谢物的同位素标记信息对细胞内的代谢流量进行精确的定量分析,是分析微生物代谢系统的重要工具。首先,为了保证13CMFA计算的可靠性,本文提出了一种对代谢网络模型进行自动化校验的方法,避免了费时费力的手工校验。之后,利用碳标记实验得到的质谱及核磁数据,本文对在氧化应激条件下大肠杆菌中心碳代谢系统的流量分配变化情况进行了系统的研究。通过13C MFA分析的结果,我们发现了一些大肠杆菌通过调整代谢流分配以应对氧化应激条件的机制。最后,本文提出了一种简单易行的方式将13CMFA与代谢流量平衡分析(FBA)结合起来。新的分析方法兼顾两者的优点,使代谢流量分析可以在较大的代谢网络模型中进行,且得到的结果更贴近实际的生理状态。在高等动物,特别是哺乳动物中的代谢流量分析工作,目前还相对较少。利用高通量组学数据可以为相关的研究带来大量有用的信息,本文在前人方法的基础上,使用一种混合整数线性规划模型结合蛋白质差异表达信息,对高等生物代谢系统中反应活性的变化进行研究。新的方法即避免了现有方法中需要确定高表达反应这一棘手的问题,又能有效地展示代谢系统中的差异。通过时序的蛋白质表达数据,本文利用新的方法对易患肝细胞癌的转基因小鼠与正常小鼠肝脏细胞的代谢系统差异进行了分析。分析结果展示了新方法的有效性,并在代谢系统的层面上为肝细胞癌发病机理的研究提供了新的线索。总结来说,针对microRNA活性分析与代谢流量分析这两个具体问题,本文在高通量组学数据分析建模的领域进行了一些探索,但是高通量组学数据所带来的挑战在现阶段并没有被很好的解决。为了更好的应对这样的挑战,需要计算生物学研究人员与实验生物学家更加紧密的合作。相信在未来很长一段时间内这个领域仍然会是信息科学与生命科学相互交流的很好的平台。(本文来源于《中国科学技术大学》期刊2012-06-01)

邹金凤[9](2012)在《利用高通量组学数据识别癌症相关生物标记的可重复性研究》一文中研究指出基于蛋白质和基因表达谱等高通量数据识别与癌症发生和发展相关的生物标记是癌症研究的一个重要方面。尽管相关研究已经取得了大量的成果,但是已发现的各类生物标记在不同研究中的可重复性很低,导致人们对这些生物标记的生物学意义及其临床可应用性产生了质疑。因此,分析影响癌症相关生物标记识别可重复性的因素并发现可重复的生物标记是非常重要的。本论文对基于蛋白表达谱和基因表达谱数据识别癌症相关标记的可重复性问题进行了探究。1.分析表面增强激光解析电离飞行时间(Surface Enhanced LaserDesorption/Ionization Time-Of-Flight,SELDI-TOF)质谱数据预处理方法对癌症相关蛋白峰标记识别可重复性的影响。SELDI-TOF质谱检测样本输出的原始数据为一列质荷比值及其对应的一列表达强度值,需要通过数据预处理方法从质荷比值中提取代表蛋白或多肽的蛋白峰并计算其表达值,以产生用于识别癌症相关蛋白峰标记的蛋白峰表达谱。然而,对于同一套SELDI-TOF质谱数据集,采用不同数据预处理方法识别的蛋白峰变化很大。我们的研究显示,这种差别主要从两个方面影响癌症相关蛋白峰标记(本文采用差异表达蛋白峰)识别的可重复性:(1)由一个蛋白峰表达谱筛选的差异表达蛋白峰在另外一个表达谱中缺失;(2)在包含较多蛋白峰的表达谱中识别差异表达蛋白峰的统计效能较低。因此,我们提出了在包含较多蛋白峰的表达谱中,采用2-均值聚类分层方法提高识别差异表达蛋白峰的统计效能,并证明采用该方法可以提高采用不同预处理方法识别差异表达蛋白峰的可重复性。根据上述结果,我们建议选取识别较多蛋白峰的数据预处理方法,再通过有效的方法提高识别癌症相关蛋白峰标记的统计效能,以发现更多可重复性较高的癌症相关蛋白峰标记。2.发现与乳腺癌转移相关的微弱差异表达信号并提取可重复的乳腺癌转移相关功能标记。由于基因在转移和非转移乳腺原位癌两组样本之间的差异表达程度较低,在一些乳腺癌转移基因表达谱中,采用通常的错误发现率控制水平(如5%或10%)识别差异表达基因的统计效能可能很低,无法识别足够多的差异表达基因进行后续的功能富集分析,以提取乳腺癌转移相关功能标记。本文分析了5套研究乳腺癌转移的基因表达谱数据集,对于其中的2套差异表达信号微弱的数据集,我们采用两种方法识别足够多的差异表达基因,并据此富集乳腺癌转移相关功能:首先,我们采用2-均值聚类分层方法提高识别差异表达基因的统计效能,以识别更多的差异表达基因;其次,通过在另外3套数据集中进行的功能富集稳健性分析,我们采用较低的错误发现率控制水平识别更多的差异表达基因,并可靠地识别乳腺癌转移相关功能。然后,我们提出统计方法基于不同数据集提取可重复的乳腺癌转移相关功能标记。最后,我们对采用上述两种方法提取的可重复乳腺癌转移相关功能进行比较。结果显示在乳腺癌转移过程中,一些生物学过程(如细胞分裂、细胞周期和DNA代谢过程等)的整体而非其一部分受到了扰动,反映了乳腺癌转移是一种涉及广泛基因表达改变的系统性疾病过程。综上所述,本论文分析了基于高通量SELDI-TOF质谱和基因芯片两种技术识别癌症相关生物标记的可重复性问题,并提出了适当的解决方案,对基于这两种高通量技术进行癌症研究具有重要的意义。(本文来源于《电子科技大学》期刊2012-04-01)

顾坚磊[10](2011)在《高通量序列数据生物信息学分析的探索与改进:斑马鱼胚胎发育转录组研究和日本血吸虫Hox基因家族分析》一文中研究指出斑马鱼,因其生长速度快、易于培养而成为研究脊椎动物生长发育的理想生物模型。以往,依靠基因芯片技术的转录组研究因受到其自身技术原理的限制,很难进行大规模的转录组学分析。随着深度测序技术的发展,基于深度测序技术的转录组测定方法逐渐兴起。本研究采用SOLiD3测序系统对斑马鱼的9个发育时期共10个样本进行了转录组测序,并通过生物信息学方法,研究斑马鱼转录组在发育过程中变化。我们对斑马鱼9个发育时期中提取的10个RNA文库进行RNA测序,共得到的超过30亿条测序读段(Reads)。同时利用斑马鱼Unigene序列文库,将这些读段都定位到Unigene参考序列文库中,最终大约有34.82%的读段被定位到参考序列上。根据读段在Unigene上的定位情况以及代表基因转录水平的标准化数据RPKM方法,测定了Unigene大约89.2%的序列的表达谱。通过比较相邻时期的相对表达量数据和斑马鱼胚胎发育各个时期之间基因的表达差异,总共有39,824条序列在胚胎发育过程中发生了显着性的上调或下调(p-value<=0.001)。进一步的聚类分析(包括Gene Ontology, Pfam, KEGG Pathway)结果表明,在胚胎发育的初期(如卵裂期,囊胚期)细胞大量的基因的表达处于关闭或者低水平表达状态,只有一些与细胞周期、转录、DNA/蛋白质修饰和基因沉默相关的基因表现出较高的表达水平,而从原肠胚期开始大量的基因开始表达。此外,根据聚类分析的结果展示了斑马鱼胚胎转录组的动态改变情况。例如:胚胎的体节和器官的发育主要从体节期开始发育;从孵化期的60hpf开始斑马鱼胚胎的一些器官和组织就表现出相应功能,特别是神经系统。在第二章,在全基因组水平对日本血吸虫Hox基因家族进行生物信息学分析。Hox基因拥有特殊的同源框结构域,它是一个在动物中广泛存在的古老的调节体节发育的转录因子。因为其保守和胚胎发育过程中的重要作用所以在进化和发育生物学中研究的很多。通过序列相似性和系统进化分析,我们首先发现了日本血吸虫含有8个Hox基因,这8个Hox基因分别属于7个同源系(Hox1, Hox2, Hox3, Hox4, Lox5, Lox4and Post-2)。同时,我们发现日本血吸虫中的Hox2和Hox4基因位于基因组上的相邻位置。此外我们成功的测定了其中4个Hox基因的表达谱。发现Hox基因在日本血吸虫中很有可能没有遵循Hox基因在很多物种中具有的时间线性表达特征。(本文来源于《复旦大学》期刊2011-05-01)

高通量生物数据论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

第一部分:基于基因表达谱的间变脑胶质瘤分子分型背景:既往在研究全级别脑胶质瘤(WHO II-IV级)或原发性胶质母细胞瘤(WHO IV级)分子分型方面,全基因组表达谱分析显示出了良好的稳定性与有效性,可用于揭示脑胶质瘤不同的细胞起源、预后差异及治疗敏感性差异。但是在间变性脑胶质瘤(WHO III级)分子分型方面,该方法尚未得到有效运用。方法:为了获得间变性脑胶质瘤的客观、可行的分子分型方案,我们在公共数据库中下载了叁组相互独立的间变脑胶质瘤基因表达谱。通过联合应用单因素cox回归、线性结合危险评分及受试者工作特征曲线(ROC曲线),我们构建了具有最佳预后区分效果的基因标签。为了进一步解释不同分型预后差异的分子机制,我们继续应用了基因本体分析(Gene Ontology,GO),基因组变异分析(GSVA)及基因组富集分析(GSEA),用以揭示该分型相关的生物学功能。结果:本研究共收集到各平台的间变脑胶质瘤基因表达谱数据444例(CGGA数据库34例,GSE16011数据库80例,REMBRANDT数据库67例,TCGA数据库263例),通过上述分型标志物筛选方案,我们最终获得了基于叁个基因的间变性脑胶质瘤分子分型方案。该方案可将间变性脑胶质瘤分为高危组和低危组,两组患者预后具有明显差异。从预后及分子遗传学特征上看,低危组患者与WHO II级患者类似,高危组患者与WHO IV级患者类似。高危组患者,其肿瘤更具侵袭性,遗传背景更复杂。结论:基于叁个基因的分型方案可很好的区分患者临床预后。该高、低危患者与WHO IV级、II级患者具有一定一致性,提示需要给予不同的治疗方案。第二部分:磷酸化组蛋白H3在脑胶质瘤中的生物学意义背景:世界卫生组织(WHO)依照形态学特征,将脑胶质瘤分为不同的病理级别。但是,即使处于同一级别的肿瘤,其恶性度仍有较大差异。这提示我们要寻找更客观有效的指标,准确的判断肿瘤的恶性程度及生物学特征。磷酸化组蛋白H3(p HH3)是在多种体部肿瘤中广泛报道的生物标志物,在肿瘤细胞分裂期具有特征性表达。方法:为研究p HH3在脑胶质瘤中的预后价值及生物学功能,我们首先通过免疫组化方式,研究了61例间变脑胶质瘤中p HH3的表达趋势及预后意义。继而我们通过325例中国人群脑胶质瘤m RNA测序数据、169例美国TCGA中胶质母细胞瘤样本m RNA测序数据、305例中国人群脑胶质瘤m RNA芯片数据及603例美国TCGA中胶质母细胞瘤m RNA芯片数据,研究了p HH3及其相关基因在脑胶质瘤中的预后价值及生物学意义。最后,我们结合多因素cox回归及基因组富集分析(GSEA)等方法,进一步确证了上述研究结果。结果:p HH3蛋白表达水平、m RNA表达水平及p HH3相关基因在多个数据集中都被证实可预测患者预后。其表达水平较高者,预后较差。另外,在GSEA结果中,我们发现p HH3不仅与细胞周期相关,也与肿瘤的上皮间质转化密切相关。结论:p HH3及其相关基因可将脑胶质瘤分为两种不同的亚型。两种亚型的肿瘤具有截然不同的临床预后与生物学特征。第叁部分:肿瘤细胞纯度在脑胶质瘤中的生物学意义背景:脑胶质瘤组织中不仅包含肿瘤细胞,还包含间质细胞、免疫细胞等非肿瘤细胞。这些非肿瘤细胞稀释了肿瘤细胞的纯度,对于构成肿瘤生存的微环境具有重要作用。目前,肿瘤细胞纯度这一指标在脑胶质瘤中的生物学意义尚未阐明。方法:我们收集了5个临床研究队列、2249例样本中的脑胶质瘤细胞纯度。依照5个研究队列中研究方法的不同,将RNA测序来源的数据(CGGA、TCGA RNA测序数据)作为发现组,m RNA芯片来源的数据(CGGA、TCGA、REMBRANDT、GSE16011 m RNA芯片数据)作为验证组。另将CGGA来源的肿瘤样本通过HE及免疫组化方法验证。结果:我们发现肿瘤细胞纯度与脑胶质瘤主要的临床及分子病理事件均显着相关。低纯度的样本多为高级别肿瘤、生存期较短。将肿瘤纯度纳入到预后预测模型中,可显着提高预测的准确度。在纳入肿瘤纯度这一指标后,目前已知的多个预后因素其效力明显降低,进一步验证了肿瘤纯度的重要生物学意义。另外,通过联合分析样本相关基因组学数据,我们发现了肿瘤细胞纯度相关的特征性基因组学变化,并发现低纯度的脑胶质瘤,更多的体现出免疫相关表型的的增强,特别是巨噬细胞、小胶质细胞和中性粒细胞相关表达谱的表达增强。联合预后分析,我们发现巨噬细胞及中性粒细胞表达谱的高低与预后相关。结论:肿瘤细胞纯度及肿瘤微环境中的非肿瘤细胞的比例与临床、基因组学特征等具有显着相关性,这对于脑胶质瘤精确分型与临床诊疗具有重要意义。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

高通量生物数据论文参考文献

[1].孙强.高通量测序数据中病毒基因组的生物信息学分析方法探索[D].中国人民解放军军事医学科学院.2017

[2].张传宝.基于高通量数据的间变脑胶质瘤分子分型与生物标记物挖掘[D].首都医科大学.2017

[3].詹晓娟,姚登举,朱怀球.高通量DNA测序数据的生物信息学方法[J].大数据.2016

[4].程功.Docker生物云计算平台分析松材线虫高通量测序数据的应用研究[D].东北林业大学.2015

[5].杨波.高通量数据的生物信息学分析和一致性排序算法研究[D].武汉大学.2014

[6].章小灵,李宽,张新宇.高通量数据生物信息分析平台[C].中国菌物学会第六届会员代表大会(2014年学术年会)暨贵州省食用菌产业发展高峰论坛会议摘要.2014

[7].卢冰心.基于Galaxy的高通量生物数据分析平台[D].华东师范大学.2013

[8].周宏.基于高通量生物数据的微RNA活性分析及代谢流量分析[D].中国科学技术大学.2012

[9].邹金凤.利用高通量组学数据识别癌症相关生物标记的可重复性研究[D].电子科技大学.2012

[10].顾坚磊.高通量序列数据生物信息学分析的探索与改进:斑马鱼胚胎发育转录组研究和日本血吸虫Hox基因家族分析[D].复旦大学.2011

标签:;  ;  ;  ;  

高通量生物数据论文-孙强
下载Doc文档

猜你喜欢