估算缺失数据论文-朱庆伟,周祺超,孙学阳

估算缺失数据论文-朱庆伟,周祺超,孙学阳

导读:本文包含了估算缺失数据论文开题报告文献综述及选题提纲参考文献,主要关键词:缺失数据,EM,回归法,变形监测

估算缺失数据论文文献综述

朱庆伟,周祺超,孙学阳[1](2016)在《基于EM的岩移观测数据缺失的估算方法》一文中研究指出在矿山采空区地表变形监测的工作中,数据缺失严重将会影响观测数据的正常处理与分析,因此,在分析实测数据之前有必要对其进行缺失值填补处理。以叁道沟煤矿的观测数据为例,通过用最大似然估计(EM)和回归法分别进行缺失数据填补处理,对比分析可知,EM法填补的效果要优于回归法。(本文来源于《煤炭技术》期刊2016年05期)

徐小军,周国模,杜华强,施拥军,周宇峰[2](2015)在《缺失数据插补方法及其参数估计窗口大小对毛竹林CO_2通量估算的影响》一文中研究指出【目的】通量塔观测的CO2通量数据具有较高的缺失比率,给通量塔数据的应用带来困难,因此,需要建立合理的插补方法对缺失数据进行插补,获取完整和可靠的CO2通量数据。本研究分析了不同参数估计窗口大小条件下基于夜间数据(NB)和基于白天数据(DB)的插补方法对CO2通量估算的影响,从而为选择最优的插补方法提供参考依据。【方法】以2011年毛竹林生态系统碳通量塔观测的净生态系统交换量、温度以及光合有效辐射为基础数据,给定不同的参数估计窗口大小,采用NB和DB插补方法对CO2通量缺失数据进行插补,以实测数据评价参数估计窗口大小对CO2通量估算的影响。【结果】参数估计窗口影响插补的波动程度随窗口增大而降低,窗口过大时结果不能体现局部变化,过小时结果出现异常,最优值与观测数据缺失量密切相关;在本研究案例情况下,对于NB方法,生态系统总呼吸速率Re插补的最优移动窗口和参数估计窗口分别为15天和90天,总初级生产力GPP插补的最优移动窗口和参数估计窗口分别为2天和4天;而对于DB方法,最优移动窗口和参数估计窗口分别为2天和60天;NB方法估算的年尺度GPP和Re分别高出DB方法的13.8%和26.8%,净生态系统交换量低于DB方法的32.2%;NB和DB方法得到的白天净生态系统交换量非常接近,但两者的Re分量具有较大差异。【结论】缺失数据比率对参数估计窗口大小的选择具有重要影响。通量塔缺失数据插补时,综合考虑数据缺失比率和下垫面的碳通量季节变化特征,选择合适的插补方法及其参数估计窗口对提高CO2通量估算准确性具有帮助。(本文来源于《林业科学》期刊2015年09期)

高宇钊[3](2015)在《比值缺失数据的多重估算与心脏康复二级预防干预效果评价及应用》一文中研究指出目的:心脏康复效果评价常需要对研究对象进行随访监测,由于急性冠脉综合征患者的综合干预时间长,不同阶段采取的干预措施不尽相同,不同患者随访的时间与间隔存在差异,患者监测数据的影响因素较多,研究对象欠合作或由于其行动不便等原因,使得纵向监测数据获取过程中不免引致数据缺失。在可干预的心血管病危险因素中,超重和肥胖就是一个干预因素,体质指数(BMI=体重/身高2)就是评价干预效果的常用指标。在资料收集的过程中有可能会出现分子或分母指标的缺失,即比值缺失,亦称为不完全比值(Incomplete Ratio)。实际研究中对比值缺失数据进行填补,由于比值中蕴藏着一定的函数关系,给统计资料比值缺失数据的填补提出了新问题。方法:本课题主要针对急性冠脉综合征患者的体质指数BMI、血清钠尿肽BNP及肌钙蛋白c Tn I进行研究,采用多重填补的方法,将缺失数据填补成完整数据集并进行分析,探索比值缺失数据的填补方法及策略。通过对心脏康复二级预防综合干预缺失数据资料进行多重填补,尤其是评价体重管理的指标体质指数(BMI),若构成体质指数(BMI)的体重和身高2未同时缺失,在填补模型中直接采用监测到的体重和身高具有一定合理性。模拟证实常见的六种填补模型(M1~M6)进行比值缺失填补时的差别及影响填补的敏感因素;采用急性冠状动脉综合征患者早期CCU心脏康复二级预防综合干预监测数据进行实例分析,运用Stata13软件相应模块进行编程,实现比值协变量缺失数据的多重填补及填补后模型分析。结果:本课题主要对体重管理指标体质指数BMI进行多重填补,BMI=体重(kg)/身高2(m2)。通过六种常用填补模型的模拟研究,可知:1、当比值协变量分母的变异系数为10%时,决定系数R2=0.1时,采用填补模型M1~M6对比值协变量缺失数据进行填补,填补效果基本相近,但当缺失机制为完全随机缺失(MCAR)时,可产生负向偏差,模型M5和M6的负向偏差相对较大。2、当比值协变量分母的变异系数为20%时,决定系数R2=0.2时,采用填补模型M5进行填补,在缺失机制为完全随机缺失(MCAR)时,所产生的负向偏差为-0.610,其他填补模型M1~M4、M6的偏差分别为-0.01、-0.013、-0.011、-0.01及-0.058,与0值的偏离程度均明显小于模型M5;可知,填补模型的稳健性强烈依赖于比值协变量分母变异系数的大小,当分母变异系数较大时,模型M5填补的填补效果较差。3、随着比值协变量分母的变异系数逐渐增大,模型M6的填补效果明显优于模型M5。模型M6采用自然对数转换,不仅可使比值协变量的分子和分母服从正态分布,也能转换比值的运算关系,充分挖掘原始数据信息,提高填补方法的稳健型。本文结合急性冠动脉综合征CCU病房心脏康复二级预防综合干预实例进行分析,CV(身高2)=10.2%,填补模型M1~M6填补结果基本一致,均数间相差为(0.21~1.31)kg/m2,考虑到能否充分提取数据资料的信息,选择模型M6的填补结果,填补后体质指数BMI的平均水平为(24.75±7.16)kg/m2。对填补后的完整数据进行模型分析,结果表明,BMI、性别和肌钙蛋白c Tn I均可影响血清中钠尿肽BNP的浓度,均为正相关,其中肌钙蛋白c Tn I的标准化回归系数b¢=0.273,对血清中的钠尿肽BNP影响较大,BMI则影响较小。结论:本文针对医学研究中比值协变量缺失数据,采用模拟研究,探索了不完全比值协变量经数学转换后,在比值分母变异系数不同取值的情况下,常用填补模型M1~M6间的差别,比值分母变异系数的大小影响模型填补效果,对比值分子分母进行自然对数转换,不仅可提高原始资料信息的提取,而且也扩展了填补模型的适用范围;同时采用实例进行分析,实现了不完全比值协变量多重填补,并对填补后的完全数据集进行模型分析,为不完全比值协变量的多重填补提供方法学的参考。(本文来源于《山西医科大学》期刊2015-05-20)

张翠仙[4](2014)在《非单调缺失数据多重估算及心脏康复综合干预效果评价与应用》一文中研究指出目的心脑血管疾病已经成为我国高患病率、高致残率、高再住院率、高医疗风险及高医疗费用的第一大慢性疾病。急性冠状动脉综合征(acute coronary syndromes,ACS)是冠心病中较为严重的一种类型,针对急冠综合症患者进行心脏康复二级预防综合干预效果评价方法的研究具有重要的应用前景。但由于心脏康复二级预防干预的纵向研究,其综合干预时间长,研究对象进入研究的起点不一,随访间隔时间不等,收集到的资料常包含有一定比例的数据缺失。由于随访过程中,根据医护要求及个体特征等检查,资料记录的缺失模式常呈非单调缺失。本课题主要收集CCU监测的急冠综合征患者,在术前、术中和术后心脏康复二级预防综合干预及训练阶段,监测个体的心梗标志物(钠尿肽前体物质BNP)数据,针对出现的非单调缺失进行多重填补与模型分析,为临床康复个体预后评价的方法学研究提供新思路。内容与方法本课题主要针对急冠患者血清钠尿肽前体物质BNP含量监测中,任意时刻任意一次出现数据缺失,对没有规律可循的非单调缺失展开识别;就缺失时间为连续型分布的纵向监测资料,通过多重估算,将缺失数据填补为单调缺失,探索纵向非单调数据缺失资料的模型构建方法;本文主要介绍基于多重估算的变系数模型(Varying Coefficient ModelsVCMs)。通过急冠患者心脏康复二级预防综合干预研究非单调缺失数据的多重估算,阐明纵向研究变系数模型分析的原理与方法;模拟证实不同样本含量及缺失比例条件下,非单调缺失数据填补后的变系数模型估计;针对急冠综合症患者早期心脏康复二级预防综合干预监测数据分析实例,运用SAS与WinBUGS软件编程,实现非单调缺失数据的多重估算及变系数模型分析。结果非单调缺失数据模拟证实研究结果表明:1、样本含量在100-1000之间,缺失比例在10%-60%间,经次数不同的多重估算适当的填补后,变系数模型参数估计结果更准确。2、样本量一定时,随缺失比例的增加,填补次数也应随之增加,参数估计的标准误也会增大;缺失比例一定时,随样本含量的适当增加,填补次数随之减少,参数估计的标准误会减小;样本含量在200以下时,缺失比例对模拟估计值影响较大;随缺失比例的增加,模拟估计值趋向于真值,且要求模拟次数也增加;当缺失比例大于50%时,填补效果均不太理想。当填补次数在7次以上,不同缺失比例的资料均能获得较为准确的变系数模型参数估计值。由此可知,纵向研究资料分析,若存在数据缺失,应根据样本量与缺失比例模拟研究结果,首先应确定最适填补次数。3、文中结合心脏康复二级预防综合干预纵向监测数据,进一步验证不同样本含量、不同缺失比例、不同填补次数对变系数模型参数估计结果准确性的影响。结果表明基于多重估算的变系数模型,可以更客观地解释心脏康复二级预防综合干预监测资料中非单调缺失问题,结论符合康复医学实际。本文研究结果显示,不同年龄、性别患者的钠尿肽(BNP)含量不同,女性急冠综合征患者钠尿肽(BNP)含量比男性平均高783.238pg/mL。但康复干预组与对照组患者的BNP含量变化尚不能认为有统计学意义,这可能是由于样本量较小所致。综上所述,本文系统地阐述了非单调缺失数据的识别,多重估算原理、变系数模型构建、参数估计方法介绍、计算机软件编程与心脏康复二级预防综合干预监测资料实例分析实现,阐明了基于非单调缺失纵向数据的多重估算以及非单调缺失数据填补后的变系数模型构建原理、方法与步骤。根据非单调缺失比例与样本含量间关系,模拟证实提出,应根据缺失数据情况实际,确定最适填补次数。引用心脏康复二级预防综合干预实例,进一步验证,结果表明通过多重估算进行数据缺失模式的转化,可以解决纵向研究非单调缺失模式的数据缺失模型分析问题;不仅克服了课题组前期针对缺失时间为离散型分布时模型估计分析的不足,而且解决了数据缺失是连续型分布的非单调缺失模式问题;为缺失时间是连续分布的纵向非单调数据缺失资料分析提供了新思路,提出了基于多重估算的变系数模型分析是最适条件与方法。(本文来源于《山西医科大学》期刊2014-03-16)

李树威,钟晓妮[5](2013)在《基于Markov Chain Monte Carlo模型对医院调查资料中缺失数据的多重估算》一文中研究指出目的探讨基于Markov Chain Monte Carlo(MCMC)模型的多重估算法在处理医院调查资料缺失数据中的应用。方法运用SAS9.2编写程序,在分析数据的分布类型和缺失机制的基础上,采用MCMC法对缺失数据进行多次填补和联合统计推断,分析多重估算法的优势。结果数据服从多元正态分布与随机缺失,采用MCMC法填补10次所得的结果最佳。结论多重估算既可反映缺失数据的不确定性,又可充分利用现有资料的信息、提高统计效率、对模型的估计结果更加可信,是处理缺失数据的有效方法。(本文来源于《中国卫生统计》期刊2013年06期)

张海涛[6](2012)在《我国1978~1995年月度M2缺失数据的估算方法》一文中研究指出月度M2数据在宏观经济研究中具有重要地位。由于历史原因导致1978~1995年的月度M2数据缺失。本文提出用"平均增量逆推法"估算缺失的M2月度数据,并且用统计方法论证了估算方法的合理性。(本文来源于《北方经济》期刊2012年20期)

廖再飞,吕新杰,罗雄飞,刘伟,王宏安[7](2009)在《一种基于动态自适应数据窗口的模糊k-均值聚类缺失数据估算算法》一文中研究指出完整性是数据质量的一个重要维度,由于数据本身固有的不确定性、采集的随机性及不准确性,导致现实应用中产生了大量具有如下特点的数据集:1)数据规模庞大;2)数据往往是不完整、不准确的.因此将大规模数据集分段到不同的数据窗口中处理是数据处理的重要方法,但缺失数据估算的相关研究大都忽视了数据集的特点和窗口的应用,而且固定大小的数据窗口容易造成算法的准确性和性能受窗口大小及窗口内数据值分布的影响.假设数据满足一定的领域相关的约束,首先提出了一种新的基于时间的动态自适应数据窗口检测算法,并基于此窗口提出了一种改进的模糊k-均值聚类算法来进行不完整数据的缺失数据估算.实验表明较之其他算法,不仅能更适应数据集的特点,具有较好的性能,而且能够保证准确性.(本文来源于《第26届中国数据库学术会议论文集(B辑)》期刊2009-10-15)

黄建清[8](2009)在《具有缺失数据恢复性估算的畜禽养殖场有害物质数据处理系统设计》一文中研究指出近年来,我国的畜禽养殖业正朝着规模化和工厂化的方向发展。这种饲养方式造成了各种有害气体的大量产生、聚集和挥发,对周围环境产生严重污染。为此,畜禽养殖场有害物质的排放问题已引起各国农业和环保部门以及学术界的广泛关注。计算养殖场有害物质的排放率,需要从养殖场采集大量的原始数据,并对各种数据进行分析计算。由于原始数据种类多、且数据结构不统一,采用人工分析计算和处理的方法,不仅要花费大量的时间,而且容易出错。为此,开发一套精确获取畜禽养殖场有害物质排放率的软件势在必行。本文通过深入分析畜禽养殖场各种环境参数的获取方法,以有害物质数据处理理论为依据,采用面向对象程序设计语言Visual Basic6.0编程,统筹考虑数据的输入、预处理与计算、图形绘制等各个环节,设计开发了实用性强的养殖场有害物质数据处理系统。本系统能根据用户设置的信息自动计算有害物质排放率,能绘制环境参数和有害物质排放量的变化曲线,并在环境参数测量值变化曲线上以不同颜色点显示超标数据,形象直观,方便养殖户观测影响家畜生长的环境量,环境检测人员也能更方便地检查造成环境污染的原因。针对测量系统中因传感器故障造成的有害气体浓度数据缺失或失真问题,作者充分考虑了测量数据的时间和空间因素以及温度、湿度和风速等因子的影响,根据畜舍有害气体排放的特点,构造了叁层前馈BP神经网络模型,并用VB编程开发出有害气体浓度缺失数据估算模块。该模块估算精度高、运行稳定、使用方便。试验结果表明,估算最大相对误差为5.99%,最小相对误差为0.07%,平均相对误差为3.17%,估算效果较好。与传统的线性插值方法相比,本方法充分考虑有害气体浓度与时间、空间和环境因素之间的关系,提高了数据估算的精确度,使得环境监测部门可以获取精确的有害物质排放率,为制定有害气体排放标准提供了科学依据。(本文来源于《江苏大学》期刊2009-04-01)

冯志兰,刘桂芬,刘力生,郝建生[9](2005)在《缺失数据的多重估算》一文中研究指出目的探讨多重估算方法在缺失数据分析中的应用。方法利用Bayesian理论与MCMC方法,在NORM软件中模拟得到m个完整数据集。结果对m个重复测量数据集用SAS软件分析,合并m个分析结果可见,由NORM软件合并数据集的标准差比缺失数据集更稳定。结论多重估算法既能反映缺失数据的不确定性,又可充分利用资料信息,对模型估计结果更可信。(本文来源于《中国卫生统计》期刊2005年05期)

刘桂芬,冯志兰[10](2005)在《缺失数据多重估算NORM软件应用》一文中研究指出目的:介绍多变量正态分布资料缺失数据的估算与NORM软件的应用。方法:以实例阐述多重估算的步骤与软件实现。结论:NORM软件应用可充分地挖掘缺失数据资料的信息,为大型数据分析提供有力的分析技术。(本文来源于《数理医药学杂志》期刊2005年03期)

估算缺失数据论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

【目的】通量塔观测的CO2通量数据具有较高的缺失比率,给通量塔数据的应用带来困难,因此,需要建立合理的插补方法对缺失数据进行插补,获取完整和可靠的CO2通量数据。本研究分析了不同参数估计窗口大小条件下基于夜间数据(NB)和基于白天数据(DB)的插补方法对CO2通量估算的影响,从而为选择最优的插补方法提供参考依据。【方法】以2011年毛竹林生态系统碳通量塔观测的净生态系统交换量、温度以及光合有效辐射为基础数据,给定不同的参数估计窗口大小,采用NB和DB插补方法对CO2通量缺失数据进行插补,以实测数据评价参数估计窗口大小对CO2通量估算的影响。【结果】参数估计窗口影响插补的波动程度随窗口增大而降低,窗口过大时结果不能体现局部变化,过小时结果出现异常,最优值与观测数据缺失量密切相关;在本研究案例情况下,对于NB方法,生态系统总呼吸速率Re插补的最优移动窗口和参数估计窗口分别为15天和90天,总初级生产力GPP插补的最优移动窗口和参数估计窗口分别为2天和4天;而对于DB方法,最优移动窗口和参数估计窗口分别为2天和60天;NB方法估算的年尺度GPP和Re分别高出DB方法的13.8%和26.8%,净生态系统交换量低于DB方法的32.2%;NB和DB方法得到的白天净生态系统交换量非常接近,但两者的Re分量具有较大差异。【结论】缺失数据比率对参数估计窗口大小的选择具有重要影响。通量塔缺失数据插补时,综合考虑数据缺失比率和下垫面的碳通量季节变化特征,选择合适的插补方法及其参数估计窗口对提高CO2通量估算准确性具有帮助。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

估算缺失数据论文参考文献

[1].朱庆伟,周祺超,孙学阳.基于EM的岩移观测数据缺失的估算方法[J].煤炭技术.2016

[2].徐小军,周国模,杜华强,施拥军,周宇峰.缺失数据插补方法及其参数估计窗口大小对毛竹林CO_2通量估算的影响[J].林业科学.2015

[3].高宇钊.比值缺失数据的多重估算与心脏康复二级预防干预效果评价及应用[D].山西医科大学.2015

[4].张翠仙.非单调缺失数据多重估算及心脏康复综合干预效果评价与应用[D].山西医科大学.2014

[5].李树威,钟晓妮.基于MarkovChainMonteCarlo模型对医院调查资料中缺失数据的多重估算[J].中国卫生统计.2013

[6].张海涛.我国1978~1995年月度M2缺失数据的估算方法[J].北方经济.2012

[7].廖再飞,吕新杰,罗雄飞,刘伟,王宏安.一种基于动态自适应数据窗口的模糊k-均值聚类缺失数据估算算法[C].第26届中国数据库学术会议论文集(B辑).2009

[8].黄建清.具有缺失数据恢复性估算的畜禽养殖场有害物质数据处理系统设计[D].江苏大学.2009

[9].冯志兰,刘桂芬,刘力生,郝建生.缺失数据的多重估算[J].中国卫生统计.2005

[10].刘桂芬,冯志兰.缺失数据多重估算NORM软件应用[J].数理医药学杂志.2005

标签:;  ;  ;  ;  

估算缺失数据论文-朱庆伟,周祺超,孙学阳
下载Doc文档

猜你喜欢