导读:本文包含了贝叶斯累加回归树论文开题报告文献综述及选题提纲参考文献,主要关键词:缺失数据,协变量,贝叶斯,随机缺失
贝叶斯累加回归树论文文献综述
印明辉,秦婷婷,伏振,严明明,尹平[1](2017)在《贝叶斯累加回归树模型处理缺失数据研究》一文中研究指出背景与目的:贝叶斯累加回归树(BART)不仅在拟合数据的非线性和交互作用方面具有强大的灵活性,而且基于贝叶斯概率模型的方法与纯算法相比更具有优势,多树集成之后泛化能力也更强。但是,其在缺失数据处理仍存在一定的局限性。本文旨在探讨以选择模型和模式混合模型基础,考虑完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)机制,利用贝叶斯累加回归树处理连(本文来源于《2017年中国卫生统计学学术年会论文集》期刊2017-08-22)
印明辉[2](2017)在《贝叶斯累加回归树扩展研究及在生存分析中的模型构建》一文中研究指出背景:贝叶斯累加回归树(BART)不仅在拟合数据的非线性和交互作用方面具有强大的灵活性,而且基于贝叶斯概率模型的方法与纯算法相比更具有优势,多树集成之后泛化能力也更强。但是,其在缺失数据处理和树结构采样等方面仍存在一定的局限性。同时,现有基于贝叶斯累加回归树的生存分析模型过于复杂,限制了它的推广应用。因此,对贝叶斯累加回归树在缺失数据处理和树结构采样等方面进行方法学扩展,并构建其在生存分析中的简约模型十分必要。目的:(1)探讨在完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)机制下,贝叶斯累加回归树处理连续型响应变量的数据中协变量有缺失的问题,以及对树结构采样进行扩展和优化,以提高模型的预测性能。(2)对右删失数据构建基于贝叶斯累加回归树的生存分析简约模型,以提高其在生存分析中的适用性。方法:(1)对于缺失数据,将“属性纳入缺失”(MIA)的技术引入贝叶斯累加回归树中,以解决协变量在不同缺失机制下贝叶斯累加回归树的预测问题。(2)采用去除交换操作,设置生长、剪枝和改变操作的概率,修改改变操作中内部节点的选择规则,以及改进树采样接受概率的计算,对贝叶斯累加回归树中树结构采样进行扩展和优化。(3)利用模拟数据及案例数据对扩展的贝叶斯累加回归树(MTBART)进行评价,并将其应用于连续型响应变量和二分类响应变量的数据资料。(4)通过引入右删失时间的顺序统计量,构建基于贝叶斯累加回归树的生存分析简约模型,并使用模拟数据进行评价及运用实例进行说明。结果:(1)基于贝叶斯累加回归树Metropolis-Hastings算法的MIA分割规则,将带有缺失数据的观察结果与有相似响应值的观察结果归为同一节点,从而增加了模型整体的似然值P(Y|X,M)。(2)通过样本量分别为200、500、1000和2000的Friedman5维函数模拟树结构的扩展和优化,结果显示:经过1000次迭代采样树的接受率达到约40%并具有很好的稳定性。(3)收敛性诊断显示:MTBART具有很好的收敛性;模型预测准确性的模拟结果显示:当样本量N=500,协变量个数p分别为10、100及1000时,MTBART的均方根误差(RMSE)(50%,75%)分位数分别为:(0.90,0.95)、(0.93,0.98)、(0.99,1.06),均明显低于 BART 的 RMSE(50%,75%)分位数:(1.25,1.31)、(1.46,1.52)、(1.62,1.68);6组不同案例数据测评结果显示:MTBART的RMSE均值分别为6.072、3.003、4.105、0.627、0.715 和 3.091,也明显低于 BART 的 RMSE 均值:6.745、4.506、4.129、0.653、0.764 和 3.267。(4)对于连续性响应变量,在糖化血红蛋白的应用研究中,100例测试样本所得95%可信区间的覆盖率为90%,而95%预测区间的覆盖率为99%;对于二分类响应变量,在乳腺癌的应用研究中,680例良性和恶性二分类训练样本结果显示:准确率为0.975、误分类率为0.025;正例覆盖率为0.973、正例命中率为0.989;负例覆盖率为0.979、负例命中率为0.951。3例恶性乳腺癌测试样本的概率估计分别为0.921、0.918和0.932,表明MTBART的预测准确性高。(5)构建了基于贝叶斯累加回归树的生存分析模型(SURBART):其中δ_i为示性指标(δ = 1,终点事件;δ = 0,右删失)①单样本模拟,取N=200、删失率为50%时的覆盖概率:SURBART为0.96,Kaplan-Meier(KM)为 0.95;偏差:SURBART 为 0.002,KM 为 0.005;RMSE:SURBART 为 0.034,而 KM 为 0.035。②两样本模拟,取N=400、删失率为50%时的覆盖概率:SURBART为0.97,KM为 0.96;偏差:SURBART 为-0.007,KM 为-0.004;RMSE:SURBART 为 0.043,KM 为 0.049。结果显示SURBART模型后验可信区间仍具有更好的覆盖概率,均方根误差略低,而偏差相近。当存在两个总体时,SURBART模型可以一次完成参数差值的估计,而KM需要两次估计。③比例风险(PH)和非比例风险(nPH)模拟,结果显示:在PH情形,Cox回归的偏差和RMSE略低于SURBART模型;而在nPH情形,SURBART模型的偏差和RMSE要显着低于Cox回归。④对于协变量具有高度非线性关系的情形,取N=400、2000、4000,利用Friedman5维函数生成模拟数据,结果表明SURBART模型估计的生存概率与实际生存概率呈高度的线性关系,能够很好地拟合生存概率与协变量之间的复杂函数关系。(6)在一项2000-2007年接受非血缘供体造血干细胞移植患者的生存情况的回顾性队列研究中,845名患者考虑13个协变量,SURBART模型结果显示:3种预处理方案在提高患者生存率方面,氟达拉滨联合环磷酰胺的效果最好,氟达拉滨联合白消安次之,氟达拉滨联合美法仑最差;移植类型与年龄不存在交互作用;在3年生存期方面,甲氨蝶呤的治疗效果要明显优于麦考酚酸酯。结论:(1)通过解决贝叶斯累加回归树处理协变量数据缺失问题,以及对树结构采样进行优化,扩展了贝叶斯累加回归树,提高了其预测性能,且能方便有效地评价研究变量的重要性、变量的偏依赖及检测变量间的交互作用,具有良好的实用性。(2)构建了基于贝叶斯累加回归树的简约生存分析模型,其不依赖于分布或比例风险假设,可以拟合生存函数与协变量间复杂的非线性关系,包括高维参数空间和非比例风险等。亦能用于选择重要的协变量、分析变量的偏依赖和检测变量间的交互作用,模型稳健可靠,扩展了贝叶斯累加回归树在生存分析中的应用。(本文来源于《华中科技大学》期刊2017-05-01)
贝叶斯累加回归树论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
背景:贝叶斯累加回归树(BART)不仅在拟合数据的非线性和交互作用方面具有强大的灵活性,而且基于贝叶斯概率模型的方法与纯算法相比更具有优势,多树集成之后泛化能力也更强。但是,其在缺失数据处理和树结构采样等方面仍存在一定的局限性。同时,现有基于贝叶斯累加回归树的生存分析模型过于复杂,限制了它的推广应用。因此,对贝叶斯累加回归树在缺失数据处理和树结构采样等方面进行方法学扩展,并构建其在生存分析中的简约模型十分必要。目的:(1)探讨在完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)机制下,贝叶斯累加回归树处理连续型响应变量的数据中协变量有缺失的问题,以及对树结构采样进行扩展和优化,以提高模型的预测性能。(2)对右删失数据构建基于贝叶斯累加回归树的生存分析简约模型,以提高其在生存分析中的适用性。方法:(1)对于缺失数据,将“属性纳入缺失”(MIA)的技术引入贝叶斯累加回归树中,以解决协变量在不同缺失机制下贝叶斯累加回归树的预测问题。(2)采用去除交换操作,设置生长、剪枝和改变操作的概率,修改改变操作中内部节点的选择规则,以及改进树采样接受概率的计算,对贝叶斯累加回归树中树结构采样进行扩展和优化。(3)利用模拟数据及案例数据对扩展的贝叶斯累加回归树(MTBART)进行评价,并将其应用于连续型响应变量和二分类响应变量的数据资料。(4)通过引入右删失时间的顺序统计量,构建基于贝叶斯累加回归树的生存分析简约模型,并使用模拟数据进行评价及运用实例进行说明。结果:(1)基于贝叶斯累加回归树Metropolis-Hastings算法的MIA分割规则,将带有缺失数据的观察结果与有相似响应值的观察结果归为同一节点,从而增加了模型整体的似然值P(Y|X,M)。(2)通过样本量分别为200、500、1000和2000的Friedman5维函数模拟树结构的扩展和优化,结果显示:经过1000次迭代采样树的接受率达到约40%并具有很好的稳定性。(3)收敛性诊断显示:MTBART具有很好的收敛性;模型预测准确性的模拟结果显示:当样本量N=500,协变量个数p分别为10、100及1000时,MTBART的均方根误差(RMSE)(50%,75%)分位数分别为:(0.90,0.95)、(0.93,0.98)、(0.99,1.06),均明显低于 BART 的 RMSE(50%,75%)分位数:(1.25,1.31)、(1.46,1.52)、(1.62,1.68);6组不同案例数据测评结果显示:MTBART的RMSE均值分别为6.072、3.003、4.105、0.627、0.715 和 3.091,也明显低于 BART 的 RMSE 均值:6.745、4.506、4.129、0.653、0.764 和 3.267。(4)对于连续性响应变量,在糖化血红蛋白的应用研究中,100例测试样本所得95%可信区间的覆盖率为90%,而95%预测区间的覆盖率为99%;对于二分类响应变量,在乳腺癌的应用研究中,680例良性和恶性二分类训练样本结果显示:准确率为0.975、误分类率为0.025;正例覆盖率为0.973、正例命中率为0.989;负例覆盖率为0.979、负例命中率为0.951。3例恶性乳腺癌测试样本的概率估计分别为0.921、0.918和0.932,表明MTBART的预测准确性高。(5)构建了基于贝叶斯累加回归树的生存分析模型(SURBART):其中δ_i为示性指标(δ = 1,终点事件;δ = 0,右删失)①单样本模拟,取N=200、删失率为50%时的覆盖概率:SURBART为0.96,Kaplan-Meier(KM)为 0.95;偏差:SURBART 为 0.002,KM 为 0.005;RMSE:SURBART 为 0.034,而 KM 为 0.035。②两样本模拟,取N=400、删失率为50%时的覆盖概率:SURBART为0.97,KM为 0.96;偏差:SURBART 为-0.007,KM 为-0.004;RMSE:SURBART 为 0.043,KM 为 0.049。结果显示SURBART模型后验可信区间仍具有更好的覆盖概率,均方根误差略低,而偏差相近。当存在两个总体时,SURBART模型可以一次完成参数差值的估计,而KM需要两次估计。③比例风险(PH)和非比例风险(nPH)模拟,结果显示:在PH情形,Cox回归的偏差和RMSE略低于SURBART模型;而在nPH情形,SURBART模型的偏差和RMSE要显着低于Cox回归。④对于协变量具有高度非线性关系的情形,取N=400、2000、4000,利用Friedman5维函数生成模拟数据,结果表明SURBART模型估计的生存概率与实际生存概率呈高度的线性关系,能够很好地拟合生存概率与协变量之间的复杂函数关系。(6)在一项2000-2007年接受非血缘供体造血干细胞移植患者的生存情况的回顾性队列研究中,845名患者考虑13个协变量,SURBART模型结果显示:3种预处理方案在提高患者生存率方面,氟达拉滨联合环磷酰胺的效果最好,氟达拉滨联合白消安次之,氟达拉滨联合美法仑最差;移植类型与年龄不存在交互作用;在3年生存期方面,甲氨蝶呤的治疗效果要明显优于麦考酚酸酯。结论:(1)通过解决贝叶斯累加回归树处理协变量数据缺失问题,以及对树结构采样进行优化,扩展了贝叶斯累加回归树,提高了其预测性能,且能方便有效地评价研究变量的重要性、变量的偏依赖及检测变量间的交互作用,具有良好的实用性。(2)构建了基于贝叶斯累加回归树的简约生存分析模型,其不依赖于分布或比例风险假设,可以拟合生存函数与协变量间复杂的非线性关系,包括高维参数空间和非比例风险等。亦能用于选择重要的协变量、分析变量的偏依赖和检测变量间的交互作用,模型稳健可靠,扩展了贝叶斯累加回归树在生存分析中的应用。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
贝叶斯累加回归树论文参考文献
[1].印明辉,秦婷婷,伏振,严明明,尹平.贝叶斯累加回归树模型处理缺失数据研究[C].2017年中国卫生统计学学术年会论文集.2017
[2].印明辉.贝叶斯累加回归树扩展研究及在生存分析中的模型构建[D].华中科技大学.2017