本文主要研究内容
作者李艳萍(2019)在《基于决策森林的蛋白质二级结构预测算法研究》一文中研究指出:蛋白质是人类机体的重要组成并且机体内几乎所有的活动都需要具有特定功能的蛋白质参与。蛋白质的空间结构决定其主要功能。因此对于蛋白质结构的研究有助于更好的了解它的功能。但并不能直接通过模拟蛋白质的折叠过程来了解它的空间结构。然而蛋白质是由氨基酸序列组成的,因此,通过氨基酸序列来预测蛋白质的二级结构进而了解它的三维构象便成为了一种常用的方法。在大数据、云计算和人工智能快速发展的时代背景下,采用机器学习的方法对蛋白质的二级结构进行预测已经成为生物信息学中的一个研究热点。基于决策树森林模型及机器学习技术,本文深入研究了蛋白质的八类二级结构预测,主要研究内容如下:针对蛋白质的八类二级结构预测问题,提出了一种基于梯度提升的决策森林预测算法。该算法基于氨基酸序列的PSSM谱特征采用交叉熵损失函数的二阶泰勒近似作为优化目标,以决策树确定的映射函数作为优化参数,通过贪婪地在特征值上选取最佳分裂点来构造决策树。此外,为了防止过拟合,进一步在目标函数中引入了2L正则化项,以便控制模型的复杂度。在标准的CB513蛋白质二级结构评估数据集上,本文提出的算法达到了64.89%的8Q准确率。针对梯度提升决策森林算法运行速度慢的缺点,本文基于直方图思想提出了一种快速梯度提升的预测模型。该模型通过直方图的方法将样本特征离散化,对于大量的样本数据采用单边梯度技术对数据进行采样,并采用特征绑定技术对多维特征进行降维,实现了样本数量和特征两个维度的并行。通过大量的实验对影响模型性能的指标进行分析,实验结果表明,基于本文所提出的快速梯度提升算法对蛋白质的二级结构进行预测,在测试集上的8Q准确率达到了66.35%。另外,在同样的数据集上,相对于其他算法来比较,本文所提出的算法运行速度非常快,时间复杂度很小。
Abstract
dan bai zhi shi ren lei ji ti de chong yao zu cheng bing ju ji ti nei ji hu suo you de huo dong dou xu yao ju you te ding gong neng de dan bai zhi can yu 。dan bai zhi de kong jian jie gou jue ding ji zhu yao gong neng 。yin ci dui yu dan bai zhi jie gou de yan jiu you zhu yu geng hao de le jie ta de gong neng 。dan bing bu neng zhi jie tong guo mo ni dan bai zhi de she die guo cheng lai le jie ta de kong jian jie gou 。ran er dan bai zhi shi you an ji suan xu lie zu cheng de ,yin ci ,tong guo an ji suan xu lie lai yu ce dan bai zhi de er ji jie gou jin er le jie ta de san wei gou xiang bian cheng wei le yi chong chang yong de fang fa 。zai da shu ju 、yun ji suan he ren gong zhi neng kuai su fa zhan de shi dai bei jing xia ,cai yong ji qi xue xi de fang fa dui dan bai zhi de er ji jie gou jin hang yu ce yi jing cheng wei sheng wu xin xi xue zhong de yi ge yan jiu re dian 。ji yu jue ce shu sen lin mo xing ji ji qi xue xi ji shu ,ben wen shen ru yan jiu le dan bai zhi de ba lei er ji jie gou yu ce ,zhu yao yan jiu nei rong ru xia :zhen dui dan bai zhi de ba lei er ji jie gou yu ce wen ti ,di chu le yi chong ji yu ti du di sheng de jue ce sen lin yu ce suan fa 。gai suan fa ji yu an ji suan xu lie de PSSMpu te zheng cai yong jiao cha shang sun shi han shu de er jie tai le jin shi zuo wei you hua mu biao ,yi jue ce shu que ding de ying she han shu zuo wei you hua can shu ,tong guo tan lan de zai te zheng zhi shang shua qu zui jia fen lie dian lai gou zao jue ce shu 。ci wai ,wei le fang zhi guo ni ge ,jin yi bu zai mu biao han shu zhong yin ru le 2Lzheng ze hua xiang ,yi bian kong zhi mo xing de fu za du 。zai biao zhun de CB513dan bai zhi er ji jie gou ping gu shu ju ji shang ,ben wen di chu de suan fa da dao le 64.89%de 8Qzhun que lv 。zhen dui ti du di sheng jue ce sen lin suan fa yun hang su du man de que dian ,ben wen ji yu zhi fang tu sai xiang di chu le yi chong kuai su ti du di sheng de yu ce mo xing 。gai mo xing tong guo zhi fang tu de fang fa jiang yang ben te zheng li san hua ,dui yu da liang de yang ben shu ju cai yong chan bian ti du ji shu dui shu ju jin hang cai yang ,bing cai yong te zheng bang ding ji shu dui duo wei te zheng jin hang jiang wei ,shi xian le yang ben shu liang he te zheng liang ge wei du de bing hang 。tong guo da liang de shi yan dui ying xiang mo xing xing neng de zhi biao jin hang fen xi ,shi yan jie guo biao ming ,ji yu ben wen suo di chu de kuai su ti du di sheng suan fa dui dan bai zhi de er ji jie gou jin hang yu ce ,zai ce shi ji shang de 8Qzhun que lv da dao le 66.35%。ling wai ,zai tong yang de shu ju ji shang ,xiang dui yu ji ta suan fa lai bi jiao ,ben wen suo di chu de suan fa yun hang su du fei chang kuai ,shi jian fu za du hen xiao 。
论文参考文献
论文详细介绍
论文作者分别是来自河南大学的李艳萍,发表于刊物河南大学2019-09-20论文,是一篇关于蛋白质二级结构预测论文,滑动窗口论文,梯度提升论文,决策森林论文,河南大学2019-09-20论文的文章。本文可供学术参考使用,各位学者可以免费参考阅读下载,文章观点不代表本站观点,资料来自河南大学2019-09-20论文网站,若本站收录的文献无意侵犯了您的著作版权,请联系我们删除。
标签:蛋白质二级结构预测论文; 滑动窗口论文; 梯度提升论文; 决策森林论文; 河南大学2019-09-20论文;