宋长进:基于长短读长和参考基因组的组装错误检测算法的研究论文

宋长进:基于长短读长和参考基因组的组装错误检测算法的研究论文

本文主要研究内容

作者宋长进(2019)在《基于长短读长和参考基因组的组装错误检测算法的研究》一文中研究指出:第二代测序技术产生了短读长,由短读长拼接而成的重叠群可能存在组装错误的问题,由此可能会导致下游分析复杂化,甚至会造成不正确的分析结果。幸运的是,随着越来越多的物种序列被测定,使用相似物种的参考基因组去检测组装错误变的可行。此外,长读长的使用也越来越广泛,也可以用来检测组装错误。本文提出了一种新的算法ReMILO,它是一种参考基因组辅助的算法,同时使用短读长和长读长数据。ReMILO根据使用数据的不同,分为两个模块:(1)基于短读长和参考基因组的组装错误检测模块。ReMILO首先将短读长同时比对到参考基因组和重叠群上,然后根据比对结果构建一种新的数据结构红黑多位置de Brujin图来检测组装错误。这种数据结构是de Brujin图的一种变体,它将短读长在重叠群和参考基因组上的位置信息引入到图中的节点里,并且通过节点的合并重新拼接正确的重叠群,重叠群上的每个位置都可以在图中找到对应的节点。通过检查相邻节点间的关系,组装错误可以被检测出来。(2)基于长读长的组装错误检测模块。本模块的第一部分是对长读长纠错。MECAT是一个快速的长读长纠错软件,但是它的通量很低。ReMILO对MECAT做了进一步包装以实现快速高通量纠错。ReMILO基于MECAT的长读长比对信息,挖掘更多的比对结果以提高通量,并且去除错误的比对结果以提高精确度。此外,ReMILO还会使用已经纠错的长读长区域对未纠错的部分纠错,这可以进一步提高通量。本模块的最后一部分是检测组装错误。ReMILO将重叠群比对到纠错后的长读长上面,根据重叠群和长读长之间的差异去检测更多的组装错误,提高ReMILO算法的敏感度。在人类基因组第十四条染色体上的性能测试表明,ReMILO比现有算法可以多检测到0.5-13.3%的全局组装错误和2.5-15.5%的局部组装错误,并且错误的检测结果要低0.1-12.4%。在长短读长混合组装而成的巴氏酵母菌上的实验结果表明,ReMILO也可以比现有算法多检测到1.1-14.2%的全局组装错误和0.6-23.4%的局部组装错误。多个数据集上的实验结果说明了 ReMILO在检测组装错误时具有良好的敏感度和精确度。

Abstract

di er dai ce xu ji shu chan sheng le duan dou chang ,you duan dou chang pin jie er cheng de chong die qun ke neng cun zai zu zhuang cuo wu de wen ti ,you ci ke neng hui dao zhi xia you fen xi fu za hua ,shen zhi hui zao cheng bu zheng que de fen xi jie guo 。xing yun de shi ,sui zhao yue lai yue duo de wu chong xu lie bei ce ding ,shi yong xiang shi wu chong de can kao ji yin zu qu jian ce zu zhuang cuo wu bian de ke hang 。ci wai ,chang dou chang de shi yong ye yue lai yue an fan ,ye ke yi yong lai jian ce zu zhuang cuo wu 。ben wen di chu le yi chong xin de suan fa ReMILO,ta shi yi chong can kao ji yin zu fu zhu de suan fa ,tong shi shi yong duan dou chang he chang dou chang shu ju 。ReMILOgen ju shi yong shu ju de bu tong ,fen wei liang ge mo kuai :(1)ji yu duan dou chang he can kao ji yin zu de zu zhuang cuo wu jian ce mo kuai 。ReMILOshou xian jiang duan dou chang tong shi bi dui dao can kao ji yin zu he chong die qun shang ,ran hou gen ju bi dui jie guo gou jian yi chong xin de shu ju jie gou gong hei duo wei zhi de Brujintu lai jian ce zu zhuang cuo wu 。zhe chong shu ju jie gou shi de Brujintu de yi chong bian ti ,ta jiang duan dou chang zai chong die qun he can kao ji yin zu shang de wei zhi xin xi yin ru dao tu zhong de jie dian li ,bing ju tong guo jie dian de ge bing chong xin pin jie zheng que de chong die qun ,chong die qun shang de mei ge wei zhi dou ke yi zai tu zhong zhao dao dui ying de jie dian 。tong guo jian cha xiang lin jie dian jian de guan ji ,zu zhuang cuo wu ke yi bei jian ce chu lai 。(2)ji yu chang dou chang de zu zhuang cuo wu jian ce mo kuai 。ben mo kuai de di yi bu fen shi dui chang dou chang jiu cuo 。MECATshi yi ge kuai su de chang dou chang jiu cuo ruan jian ,dan shi ta de tong liang hen di 。ReMILOdui MECATzuo le jin yi bu bao zhuang yi shi xian kuai su gao tong liang jiu cuo 。ReMILOji yu MECATde chang dou chang bi dui xin xi ,wa jue geng duo de bi dui jie guo yi di gao tong liang ,bing ju qu chu cuo wu de bi dui jie guo yi di gao jing que du 。ci wai ,ReMILOhai hui shi yong yi jing jiu cuo de chang dou chang ou yu dui wei jiu cuo de bu fen jiu cuo ,zhe ke yi jin yi bu di gao tong liang 。ben mo kuai de zui hou yi bu fen shi jian ce zu zhuang cuo wu 。ReMILOjiang chong die qun bi dui dao jiu cuo hou de chang dou chang shang mian ,gen ju chong die qun he chang dou chang zhi jian de cha yi qu jian ce geng duo de zu zhuang cuo wu ,di gao ReMILOsuan fa de min gan du 。zai ren lei ji yin zu di shi si tiao ran se ti shang de xing neng ce shi biao ming ,ReMILObi xian you suan fa ke yi duo jian ce dao 0.5-13.3%de quan ju zu zhuang cuo wu he 2.5-15.5%de ju bu zu zhuang cuo wu ,bing ju cuo wu de jian ce jie guo yao di 0.1-12.4%。zai chang duan dou chang hun ge zu zhuang er cheng de ba shi jiao mu jun shang de shi yan jie guo biao ming ,ReMILOye ke yi bi xian you suan fa duo jian ce dao 1.1-14.2%de quan ju zu zhuang cuo wu he 0.6-23.4%de ju bu zu zhuang cuo wu 。duo ge shu ju ji shang de shi yan jie guo shui ming le ReMILOzai jian ce zu zhuang cuo wu shi ju you liang hao de min gan du he jing que du 。

论文参考文献

  • [1].多参考基因短序列比对工具MUGI的优化与移植[D]. 郭超.深圳大学2018
  • [2].在发育与损伤的小鼠的中枢神经组织中筛选合适的内参基因[D]. 徐栋超.杭州师范大学2018
  • [3].嵌合体序列识别与热点选择偏好研究及其在单倍型分析中的应用探究[D]. 鲁娜.东南大学2017
  • [4].参考基因压缩库间快速迁移算法研究[D]. 张义军.深圳大学2017
  • [5].高通量DNA测序数据无损压缩研究[D]. 张永朋.深圳大学2015
  • [6].运用RAD(Restriction Site Associated DNA)技术构建烟草高密度连锁图谱[D]. 谭云涛.昆明理工大学2016
  • [7].高通量转录组测序片段快速比对算法研究[D]. 卢山.哈尔滨工业大学2015
  • [8].基于RNA-Seq技术的人转录组分析研究[D]. 陈超.中南大学2011
  • [9].白菜参考基因组组装升级和进化分析[D]. 蔡成成.中国农业科学院2017
  • [10].植物基因组结构变异识别方法研究[D]. 陈纪岭.哈尔滨工业大学2015
  • 论文详细介绍

    论文作者分别是来自北京交通大学的宋长进,发表于刊物北京交通大学2019-09-27论文,是一篇关于组装错误论文,长读长论文,参考基因组论文,北京交通大学2019-09-27论文的文章。本文可供学术参考使用,各位学者可以免费参考阅读下载,文章观点不代表本站观点,资料来自北京交通大学2019-09-27论文网站,若本站收录的文献无意侵犯了您的著作版权,请联系我们删除。

    标签:;  ;  ;  ;  

    宋长进:基于长短读长和参考基因组的组装错误检测算法的研究论文
    下载Doc文档

    猜你喜欢