大规模生物数据论文-刘秋如

大规模生物数据论文-刘秋如

导读:本文包含了大规模生物数据论文开题报告文献综述及选题提纲参考文献,主要关键词:结构化,半结构化,生物数据,大数据

大规模生物数据论文文献综述

刘秋如[1](2018)在《大规模结构化及半结构化生物数据查询方法研究》一文中研究指出人类基因组计划的启动和顺利实施,使得对生命与科学的研究迈进了后基因组时代,各种基因组学、蛋白质以及疾病等相关的生物大数据呈现爆炸性增长的趋势,研究这些海量生物数据会给生命科学技术提供广阔的前景。但相继而来的便是给传统计算设备带来的巨大的计算压力。如何从“海量”的生物数据中挖掘出有价值的信息是生物信息学研究的主要目的,也是目前制约生物学发展的主要瓶颈。因此,迫切需要对大规模的生物数据进行处理与分析。而近些年发展起来的大数据云计算等技术为海量生物数据的管理与分析指明了一个新的方向。本文探讨的就是如何利用大数据以及云平台的相关知识和原理实现对大规模结构化及半结构化生物数据的存储与高效查询工作。本文利用大数据的相关技术,研究了基于分布式计算平台Hadoop及其分布式处理框架Map Reduce的大规模的结构化和半结构化生物数据存储与查询方法。首先,利用分布式数据库Hbase存储经过映射转换后的大规模生物数据,同时结合分布式并行计算框架Map Reduce设计相应的大规模生物护具查询算法,实现了对海量生物数据的高效处理。然后提出了基于Hbase的非主键的索引方法,进而对大规模生物数据查询方法进行了性能优化。在此基础上,研发了涵盖大规模生物数据存储、查询预处理、查询、非主键索引等功能的大规模生物数据管理系统,该系统利用分布式数据库Hbase来存储异构的大规模结构化和半结构化生物数据,通过相应的映射转换模型,实现了异构生物数据的统一化查询处理。同时该系统充分利用分布式并行框架Map Reduce的优点,很好的适应了日益增长的大规模生物数据管理需求,提升了生物大数据的处理效率。最后,通过一系列对比实验,对本文提出的算法和系统进行了验证。实验结果表明,相比于传统存储查询处理方法,本文所提出的相关方法在处理性能上具有明显优势。(本文来源于《哈尔滨工业大学》期刊2018-06-01)

王旻超[2](2014)在《大规模生物数据并行聚类算法研究与应用》一文中研究指出生物信息学是利用计算机科学、应用数学、信息学和统计学的方法来研究生物学问题。数据聚类是其中的一种有效的研究手段,并在最近几年中得到广泛的关注。然而随着生物技术的不断发展,生物数据量的规模正在不断地扩大,从而使得一些传统的串行聚类算法无法满足如此大规模的数据计算需求。针对这一问题,本文对并行的生物聚类算法进行研究,设计并实现了能够处理大规模生物数据的并行聚类算法。首先,我们提出并实现了基于马尔科夫模型的MFC算法(MarkovFinding and Clustering Algorithm)。相比于经典的TRIBE-MCL算法,我们在MFC算法中做了进一步的改进。MFC算法包含叁个步骤:随机游走模拟、簇结构挖掘和簇结构发现。相比于TRIBE-MCL算法,MFC算法能够减少噪音对聚类结果的影响,但由于MFC算法是基于初始游走概率矩阵进行随机游走模拟的,所以相比于TRIBE-MCL算法其收敛速度较慢。在实验中,我们将MFC算法应用到了蛋白质家族检测中,并且得到了较好的实验结果。不仅如此,我们还利用相同的数据集对MFC算法和TRIBE-MCL算法做了分析比较。实验结果表明MFC算法的表现较优于TRIBE-MCL算法。其次,由于MFC算法中的时间复杂度为O(3),所以随着数据集规模的增加,MFC算法的运算时间会大大加长。为了解决这一问题,我们实现了基于GPU的并行MFC算法,使其能够有效地处理大规模生物数据集。在和串行的MFC算法比较中,基于GPU的并行MFC算法具有良好的加速性能。最后,我们实现了基于消息传递(MPI)的并行仿辐射算法。仿辐射算法在许多聚类问题上都具有较好的表现,但数据集规模的不断增加和O(2)的空间复杂度与时间复杂度成了其具大的性能瓶颈。针对这一问题,我们在分布式系统中实现了基于消息传递的并行仿辐射算法。分布式系统能够提供强大的计算资源和存储空间,因此成为了一个有效的解决途径。在实验中,我们将仿辐射算法应用到了蛋白质家族检测和高通量基因数据聚类的生物应用中,取得了较好的实验结果。在并行算法加速性能测试中,我们发现基于消息传递的并行仿辐射算法具有较好的加速性能和较高的可扩展性,能够有效地将原本几个小时的计算时间缩短至几十秒。在上海大学集群系统SHU-CLOUD上的实验中,我们利用了128个计算核去运算并行仿辐射算法,并得到了100多倍的加速比。高效处理大规模生物数据的并行聚类算法的实现,为开展蛋白质组学、基因组学等研究建立了坚实的算法与应用基础。(本文来源于《上海大学》期刊2014-03-01)

生兆花[3](2012)在《大规模生物医学语义关联数据集的查询关键技术研究》一文中研究指出近年来,大规模语义数据Linked Data数据量呈现爆炸式的增长,其中生物医学数据集占据了相当大的比例。由于这些数据集分散且仅提供了有限的查询功能,没有充分出挖掘数据集中的有效信息,给用户提供一套综合的应用方案。因此,将RDF语义和生物学意义结合起来,研究其语义查询问题有着重要的理论意义和工程应用价值。在详细分析DBpedia、SIDER、Diseasome、DailyMed和LinkedCT等11个数据集的基础上,研究开发了一个具有生物学意义的多数据集语义查询平台。为了保证RDF语义数据的一致性,设计基于MapReduce的不一致检验算法,对跨领域核心枢纽数据集DBpedia进行验证,得出不一致检验结果并给出解决方案;设计数据集关系挖掘算法,绘制出数据集关系图;通过对数据集之间关系的分析,提出了叁种语义查询问题:查询疾病信息、根据疾病查询药物和查询药物副作用;以Cassandra作为底层储存库,在分布式条件下采用MapReduce方法完成数据的装载;采用路径查询理论给出了叁种查询功能的算法设计和实现,实例查询结果展示了平台的有效性和优越性。基于大规模生物医学语义关联数据集研究开发的语义查询平台,充分利用了语义Web相关技术,并与生物学意义相结合,为用户提供了一个实用且有效的查询平台,同时对于智能问题回答系统的构建也有一定的指导意义。(本文来源于《天津大学》期刊2012-11-01)

张磊[4](2009)在《大规模生物数据中的生物信息挖掘技术研究》一文中研究指出在生物信息学领域,挖掘和人类疾病相关的基因是一个非常重要的研究课题。它对于理解疾病的机制和发现新的药物靶标而言都是非常重要的一步。传统的探测疾病基因的方法有两种:候选基因法和定位克隆法。在传统的方法中,研究者们需要分析大量的候选基因。这将浪费很多的人力和时间。因此,人们需要疾病基因探测算法来帮助研究者们缩小搜索范围,从而加快疾病基因的识别过程。近年来,大规模实验技术如DNA微阵列技术,酵母菌双杂交系统等产生了海量的大规模生物数据。这些数据为研究者们提供了一个前所未有的机会来研究人类疾病的机制。如何有效地利用这些大规模生物数据,并从中挖掘出和人类疾病相关的信息成为了最近研究的一个热点。已经有很多研究者们开始了从大规模生物数据中挖掘疾病相关基因的研究。例如从序列数据出发根据疾病基因的序列特征来对其进行探测,或者从表达数据出发根据疾病基因的表达模式来对其进行探测。在本文中,我们提出了2个探测疾病相关基因的方法,并对其进行了详细的分析。本论文共分为5章,第一章主要对生物信息学领域进行概述。对该领域的研究内容,历史,研究意义和应用进行了简单介绍。第二章是第叁章的基础.第二章主要介绍了微阵列实验技术,微阵列数据的获取和数据的前处理。在介绍微阵列数据的前处理时,我们主要阐述了微阵列数据的过滤,缺失值估计和数据的标准化。第叁章我们介绍了微阵列数据中的生物信息挖掘。对反向工程的模型和基本原理进行了阐述,然后提出了一个利用反向工程算法和随机行走来探测疾病相关基因的方法,并对此方法的有效性和可行性进行了讨论。第四章我们介绍了蛋白质相互作用数据中的生物信息挖掘。这一章的主要任务是提出一个以拓扑学相似度为基础的疾病基因探测算法。我们对拓扑学相似度的概念进行了介绍,并对其有效性和可行性进行了分析。我们以肝癌为生物学实例,对其进行了分析。并对潜在的肝癌相关基因做出了预测。第五章我们对全文的工作进行了总结,并对领域的研究进行了展望。(本文来源于《湘潭大学》期刊2009-04-10)

黄辛[5](2006)在《中国科学家公布日本血吸虫基因天书"首次通过国内生物信息平台向全世界发布大规模基因组序列数据》一文中研究指出我国自主测序的日本血吸虫基因组工作框架图,共计300多万条DNA序列(reads),供全球开展血吸虫病及其他寄生虫病相关研究的机构和科学家共享.这不仅是我国首次对人体寄生虫展开全基因组测序,也是我国生命科学研究机构首次通过国内生物信息平台向全世界发布大规(本文来源于《浙江大学学报(农业与生命科学版)》期刊2006年03期)

岳阳[6](2006)在《国内生物信息平台首发大规模基因组数据》一文中研究指出本报上海讯 5月16日,国家人类基因组南方研究中心等单位,通过上海市研发公共服务平台下属的生命科学与生物技术数据中心,向全世界公布了由我国自主测序的日本血吸虫基因组工作框架图。由此,共计300多万条DNA序列(reads),可供全球开展血吸虫病及其他寄生(本文来源于《中国医药报》期刊2006-05-23)

大规模生物数据论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

生物信息学是利用计算机科学、应用数学、信息学和统计学的方法来研究生物学问题。数据聚类是其中的一种有效的研究手段,并在最近几年中得到广泛的关注。然而随着生物技术的不断发展,生物数据量的规模正在不断地扩大,从而使得一些传统的串行聚类算法无法满足如此大规模的数据计算需求。针对这一问题,本文对并行的生物聚类算法进行研究,设计并实现了能够处理大规模生物数据的并行聚类算法。首先,我们提出并实现了基于马尔科夫模型的MFC算法(MarkovFinding and Clustering Algorithm)。相比于经典的TRIBE-MCL算法,我们在MFC算法中做了进一步的改进。MFC算法包含叁个步骤:随机游走模拟、簇结构挖掘和簇结构发现。相比于TRIBE-MCL算法,MFC算法能够减少噪音对聚类结果的影响,但由于MFC算法是基于初始游走概率矩阵进行随机游走模拟的,所以相比于TRIBE-MCL算法其收敛速度较慢。在实验中,我们将MFC算法应用到了蛋白质家族检测中,并且得到了较好的实验结果。不仅如此,我们还利用相同的数据集对MFC算法和TRIBE-MCL算法做了分析比较。实验结果表明MFC算法的表现较优于TRIBE-MCL算法。其次,由于MFC算法中的时间复杂度为O(3),所以随着数据集规模的增加,MFC算法的运算时间会大大加长。为了解决这一问题,我们实现了基于GPU的并行MFC算法,使其能够有效地处理大规模生物数据集。在和串行的MFC算法比较中,基于GPU的并行MFC算法具有良好的加速性能。最后,我们实现了基于消息传递(MPI)的并行仿辐射算法。仿辐射算法在许多聚类问题上都具有较好的表现,但数据集规模的不断增加和O(2)的空间复杂度与时间复杂度成了其具大的性能瓶颈。针对这一问题,我们在分布式系统中实现了基于消息传递的并行仿辐射算法。分布式系统能够提供强大的计算资源和存储空间,因此成为了一个有效的解决途径。在实验中,我们将仿辐射算法应用到了蛋白质家族检测和高通量基因数据聚类的生物应用中,取得了较好的实验结果。在并行算法加速性能测试中,我们发现基于消息传递的并行仿辐射算法具有较好的加速性能和较高的可扩展性,能够有效地将原本几个小时的计算时间缩短至几十秒。在上海大学集群系统SHU-CLOUD上的实验中,我们利用了128个计算核去运算并行仿辐射算法,并得到了100多倍的加速比。高效处理大规模生物数据的并行聚类算法的实现,为开展蛋白质组学、基因组学等研究建立了坚实的算法与应用基础。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

大规模生物数据论文参考文献

[1].刘秋如.大规模结构化及半结构化生物数据查询方法研究[D].哈尔滨工业大学.2018

[2].王旻超.大规模生物数据并行聚类算法研究与应用[D].上海大学.2014

[3].生兆花.大规模生物医学语义关联数据集的查询关键技术研究[D].天津大学.2012

[4].张磊.大规模生物数据中的生物信息挖掘技术研究[D].湘潭大学.2009

[5].黄辛.中国科学家公布日本血吸虫基因天书"首次通过国内生物信息平台向全世界发布大规模基因组序列数据[J].浙江大学学报(农业与生命科学版).2006

[6].岳阳.国内生物信息平台首发大规模基因组数据[N].中国医药报.2006

标签:;  ;  ;  ;  

大规模生物数据论文-刘秋如
下载Doc文档

猜你喜欢