复杂抽样论文-王娇,李长平,胡良平

导读:本文包含了复杂抽样论文开题报告文献综述及选题提纲参考文献，主要关键词:复杂抽样,二值资料,Logistic回归分析,抽样权重

复杂抽样论文文献综述

王娇,李长平,胡良平^[1]（2019）在《复杂抽样调查设计二值资料一水平多重Logistic回归分析》一文中研究指出本文目的是介绍复杂抽样调查设计二值资料多重logistic回归分析方法。通过一个实例,利用八种不同的分析策略(不考虑抽样设计和抽样权重、考虑抽样设计不考虑抽样权重、不考虑抽样设计考虑抽样权重、同时考虑抽样设计和抽样权重以及分别不考虑与考虑派生变量)对数据进行建模。对所得结果进行比较得出如下结论:在对复杂抽样设计资料进行统计分析的过程中,同时考虑抽样设计和抽样权重可以得到符合数据内部变量间依赖关系真实情况的结论。此外,本研究还介绍了采用SAS软件中SURVEYLOGISTIC过程对复杂抽样调查数据进行多重Llogistic回归分析的详细步骤。(本文来源于《四川精神卫生》期刊2019年05期）

王慧,李长平,胡良平^[2]（2019）在《复杂抽样调查设计多值有序资料一水平多重Logistic回归分析》一文中研究指出本文目的是比较不同分析策略对复杂抽样调查设计多值有序资料一水平多重logistic回归分析结果的异同。通过实例分析,利用四种不同的分析策略(将复杂抽样视为单纯随机抽样,考虑抽样设计不考虑抽样权重,考虑抽样权重不考虑抽样设计,同时考虑抽样设计和抽样权重)对复杂抽样设计多值有序资料进行建模。在四种不同分析策略的累积logistic回归模型拟合的结果中,自变量的偏回归系数、标准误差及P值均有所不同。在对复杂抽样调查设计的多值有序资料回归建模时,将抽样设计和抽样权重纳入统计分析,会得到更准确、更稳健的分析结果。(本文来源于《四川精神卫生》期刊2019年05期）

张帼奋^[3]（2019）在《复杂抽样情形下样本量的确定》一文中研究指出本文讨论了如何在一个抽样调查项目中设计抽样方案,确定样本量,以及估计目标指标的精度的问题,并将教科书中相关问题进行总结,提出一些想法.(本文来源于《数学学习与研究》期刊2019年10期）

耿国柱^[4]（2018）在《基于复杂抽样下艾滋病高危人群基数叁来源CMR法调查估计的统计方法及应用》一文中研究指出目的:艾滋病(acquired immunodeficiency syndrome,AIDS)是一种因感染人类免疫缺陷病毒(human immunodeficiency virus,HIV)而导致的传染病,是困扰的全球严重公共卫生问题之一。有些人群因自身具有一些感染HIV高风险的行为因素(如不安全性行为、多性伴、吸毒等)而更容易感染HIV,这些人群是艾滋病高危人群。艾滋病高危人群基数是艾滋病流行病学研究的核心变量之一,也是全面客观分析和掌握HIV感染及艾滋病流行现状和趋势的基础,并可以为艾滋病防治相关政策的制定、卫生资源的有效分配、以及预防控制项目的设计与实施提供科学依据。捕获-标记-再捕获(capture-mark-recapture,CMR)法因具有科学的理论基础,并且经济、简便易行而在艾滋病研究中得到了较为广泛的应用。以往采用CMR法对艾滋病高危人群基数进行研究多以简单随机抽样和/或二来源CMR法居多,而复杂抽样方法(实际调查往往需要的多阶段抽样及可减小抽样误差的分层多阶段抽样等)下多来源CMR法(与二来源CMR法相比使样本更具代表性)的研究未见文献报道。本文拟用复杂抽样(二阶段、分层二阶段、叁阶段、分层叁阶段随机抽样)方法下叁来源CMR法对艾滋病高危人群基数估计进行研究,推导出总体基数的估计量及其方差、方差估计量的统计公式。并采用本文研究的复杂抽样下叁来源CMR法的调查方法及其统计公式,对2013年北京市MSM人群基数、2015年广西壮族自治区女性性工作者(female sex workers,FSW)人群基数进行了科学的实例调查估计。同时对我们研究的二阶段、分层二阶段、叁阶段及分层叁阶段随机抽样下叁来源CMR法,进行了信度效度评价。旨在为艾滋病高危人群基数的估计提供科学的调查方法、统计公式及其信度效度评价方法;实例调查估计结果为相关部门制定艾滋病防控策略、合理分配艾滋病防治资源提供了重要的数据。方法:根据经典抽样理论、方差的性质、区间估计、对数线性模型、正交投影、极大似然估计等数理统计理论方法,在前人研究的简单随机抽样下叁来源CMR法的调查方法及其统计公式的基础上,对二阶段、分层二阶段、叁阶段、分层叁阶段随机抽样下叁来源CMR法,设计出调查方法,推导出总体基数的估计量及其方差、方差估计量的统计公式。并采用研究的二阶段随机抽样下叁来源CMR法的调查方法及其统计公式,于2013年9月至12月对北京市MSM人群基数进行了实例调查估计;采用所研究的分层叁阶段随机抽样下叁来源CMR法的调查方法及其统计公式,于2015年8月至10月对广西壮族自治区FSW人群基数进行了实例调查估计。同时使用统计分析软件SAS编程对调查结果进行蒙特卡洛模拟,分别以2013年北京市MSM人群及2015年广西壮族自治区FSW人群的统计量调查计算结果作为模拟总体参数建立模拟总体,分别在不同获取时间段采用复杂抽样下叁来源CMR法各模拟抽取100个随机样本,再采用本文推导的叁来源均相关的CMR法相关公式分别计算不同获取时间段内的100个MSM或FSW人群基数的估计值、标准差及总体基数的95%可信区间,对我们研究的二阶段、分层二阶段、叁阶段及分层叁阶段随机抽样下叁来源CMR法进行信度效度评价。结果:1.本文对二阶段、分层二阶段、叁阶段及分层叁阶段这些复杂随机抽样下叁来源CMR法,首次设计出调查方法,并推导出总体基数的估计量及其方差、方差估计量的统计公式。2.本文采用二阶段随机抽样下叁来源CMR法于2013年9月15日至12月31 日对北京市所有的有北京市户籍与在北京市居住6个月以上的常住MSM人群进行调查,调查其最近一周、最近一个月以及最近半年是否分别在北京市MSM活动场所、北京市艾滋病自愿咨询检测(HIV voluntary counseling&testing,VCT)门诊所以及MSM网站这叁类场所活动过。从北京市的16个区县中随机抽取了 6个区县(西城、海淀、昌平、通州、怀柔、密云)作为一级单位;然后再从抽中的6个区县中共随机抽取1,774名MSM作为二级抽样单位。调查结果显示时间段为一周的回收合格问卷为1,771份,估计出以一周为获取时间段的北京市MSM人群的基数为94,715人,渐近标准差为9,418人,95%可信区间为76,256～113,174人。时间段为一个月的回收合格问卷为1,766份,估计出以一个月为获取时间段的北京市MSM人群的基数为81,720人,渐近标准差为8,291人,95%可信区间为65,470～97,970人。时间段为半年的回收合格问卷为1,766份,估计出以半年为获取时间段的北京市MSM人群的基数为71,899人,渐近标准差为7,346人,95%可信区间为57,501～86,297人。3.本文于2015年8月至10月采用分层叁阶段随机抽样下叁来源CMR法对广西女性性工作者的人群基数进行调查,调查其最近叁个月以及最近半年2个时间段内是否分别接受过艾滋病干预服务、在正规医疗机构进行过性病/艾滋病检测以及提供过性服务。从广西壮族自治区的14个地级市中随机抽取了 3个地级市(百色、柳州、玉林)作为一级单位;然后分别在这3个地级市中共随机抽取了共9个县(区)作为二级单位(每个一级单位抽取3个区县);再从抽中的9个县(区)所有FSW活动场所共随机抽取叁级单位4,267名FSW作为调查对象。分层因素为年龄,根据所调查FSW的年龄分布,以年龄的中位数32岁为界分为二层,小于等于32岁为第一层,大于32岁的为第二层。调查结显示时间段为叁个月的回收合格问卷为4,118份,估计出以叁个月为获取时间段的广西壮族自治区FSM人群的基数为95,662人,渐近标准差为6,922人,95%可信区间为82,094～109,230人。时间段为半年的回收合格问卷为4,101份,估计出以半年为获取时间段的广西壮族自治区F SM人群的基数为91,416人,渐近标准差为6,612人,95%可信区间为78,456～104,376人。4.本文对北京市MSM人群获取时间段为最近一周的二阶段随机抽样下叁来源CMR法,采用蒙特卡洛方法模拟调查分析100个样本的结果为:100个总体基数的95%可信区间中有99个包含模拟总体基数;获取时间段为最近一个月的二阶段随机抽样下叁来源CMR法,采用蒙特卡洛方法模拟调查分析100个样本的结果为:100个总体基数的95%可信区间中有95个包含模拟总体基数;获取时间段为最近半年的二阶段随机抽样下叁来源CMR法,采用蒙特卡洛方法模拟调查分析100个样本的结果为100个总体基数的95%可信区间中有98个包含模拟总体基数。5.本文对广西壮族自治区FSW人群获取时间段为最近叁个月的分层叁阶段随机抽样下叁来源CMR法,采用蒙特卡洛方法模拟调查分析100个样本的结果为:100个总体基数的95%可信区间中有96个包含模拟总体基数;获取时间段为最近半年的分层叁阶段随机抽样下叁来源CMR法,采用蒙特卡洛方法模拟调查分析100个样本的结果为:100个总体基数的95%可信区间中有97个包含模拟总体基数。结论:1.本文研究的二阶段以及分层叁阶段随机抽样下叁来源CMR法的调查方法及其统计公式分别在北京市MSM人群和广西壮族自治区2015年FSW人群的总体基数调查估计中取得了良好的实际应用效果,为调查估计艾滋病高危人群的基数提供了科学的方法和成功的经验。2.采用本文研究的二阶段随机抽样下叁来源CMR法调查估计出2013年北京市MSM人群基数81,720人(获取时间段为一个月),约占同年龄段男性的1.17%。本文为相关卫生部门提供了信度高效度高的MSM高危人群基数,提示相关卫生部门应切实加强对MSM人群的精准监测,采取有力高效的精准措施,对艾滋病进行精准防控。对北京市MSM人群不同获取时间段(最近一周、一个月、半年)的二阶段随机抽样下叁来源CMR法,采用蒙特卡洛模拟法模拟调查估计出100个样本的100个总体基数的95%可信区间几乎均包含模拟总体基数,说明本文研究的二阶段随机抽样下叁来源CMR法的调查方法及其统计公式具有良好的效度与信度,在流行病学调查研究中具有广泛的应用前景。3.采用本文研究的分层叁阶段随机抽样下叁来源CMR法调查估计出广西壮族自治区2015年FSW人群基数为95,662人(获取时间段为叁个月),约占广西女性人口的0.42%。本文为相关卫生部门提供了信度高效度高的FSW高危人群基数,提示相关卫生部门应切实加强对FSW人群的精准监测,采取有力高效的精准措施,对艾滋病进行精准防控。对广西壮族自治区FSW人群不同获取时间段(最近叁个月、半年)的分层叁阶段随机抽样下叁来源CMR法,采用蒙特卡洛模拟法模拟调查估计出100个样本的100个总体基数的95%可信区间几乎均包含模拟总体基数,说明本文研究的分层叁阶段随机抽样下叁来源CMR法的调查方法及其统计公式具有良好的效度与信度,在流行病学调查研究中具有广泛的应用前景。4.因分层叁阶段抽样各层内即为叁阶段抽样,分层叁阶段抽样下叁来源CMR法信度高效度高的必要条件是叁阶段抽样下叁来源CMR法信度高效度高,所以可以认为本文研究的叁阶段随机抽样下叁来源CMR法的调查方法及其统计公式也具有良好的效度与信度,在流行病学调查研究中具有广泛的应用前景。5.因无论从统计公式的推导或是抽样方法上,分层叁阶段抽样均是在分层二阶段抽样基础上的进一步扩展且更复杂,分层叁阶段抽样下叁来源CMR法信度高效度高的必要条件是分层二阶段抽样下叁来源CMR法信度高效度高,所以可认为本文研究的分层二阶段抽样下叁来源CMR法的调查方法及其统计公式也具有良好的效度与信度,在流行病学调查研究中具有广泛的应用前景。6.本文研究的分层叁阶段及叁阶段(各层内即为叁阶段)随机抽样下叁来源CMR法的调查方法及其统计公式在广西壮族自治区FSW人群的总体基数调查估计中取得了良好的实际应用效果,为调查估计艾滋病高危人群的基数提供了科学的方法和成功的经验。(本文来源于《苏州大学》期刊2018-06-28）

吕萍^[5]（2017）在《复杂抽样设计下的域估计问题研究》一文中研究指出随着国内定量研究方法的开展和大型调查数据的免费公布,研究者不仅使用抽样调查数据对总体分析,还需要对域总体进行分析。本文对调查数据满足域精度推断的域估计问题进行研究。首先,根据实际调查中的域估计问题,指出解决域估计问题最好的方法是事先确定好需要估计的域,并在抽样设计时兼顾域的估计精度。但是,在实际调查中还包含计划外的域,通过对简单随机抽样下的域估计问题的研究,说明非计划域的估计问题的最大难点是域样本量的随机性。然后,针对实际中的抽样调查数据多来源于分层、多阶段、整群和不等概率等复杂抽样设计的问题,指出需要结合复杂抽样设计信息、域样本量的随机性、域样本在总体的误差层和误差群中的分布,对复杂抽样设计下的域估计问题进行研究。最后,以中国家庭追踪调查(China Family Panel Studies,CFPS)为例,对复杂抽样设计下的域估计问题进行案例研究。(本文来源于《统计研究》期刊2017年07期）

闫单单^[6]（2017）在《基于复杂抽样的小域估计方法及其在中国的应用研究》一文中研究指出小域估计方法已被厂泛应用在农业统计、社会统计等领域。目前国内外对小域估计问题的研究主要从单阶段一次性抽样调查的角度考虑,而我国政府的抽样调查主要是多阶连续性抽样调查。因此,研究多阶连续性抽样条件下的小域估计方法,具有十分重要的意义。抽样权重被引入到小域估计量中。基本的小域估计模型与方法被推广到多阶段连续性抽样调查中。根据所获得的辅助信息的层次不同,文中分别构建区域层次、最终抽样单元层次、初级抽样单元层次的小域估计模型。根据轮换方式不同,文中分别构建最终抽样单元轮换及初级抽样单元轮换条件下的小域估计模型。文中为我国各县单一品种农作物播种面积的调查设计抽样方案,并给出估计程序。数据模拟结果表明文中所提到的估计方法比PEBLUP方法所得到的估计量方差稍大但偏倚程度更小;并且在域随机效应的方差估计量为非正数时,文中提出的方法依然适用;在连续性抽样中,借助上一期目标估计量作为辅助信息进行小域估计可以显着提高估计量的精度。文中构建的小域估计方法可以应用在我国农产量调查中。(本文来源于《暨南大学》期刊2017-06-06）

姜博,王丽敏,刘艳,李镒冲^[7]（2015）在《复杂抽样数据统计分析方法回顾》一文中研究指出当今社会科学与健康科学调查研究,尤其是大规模调查,往往涉及多地区或多中心的抽样问题,采取单纯随机抽样选择样本因调查对象过于分散,成本高,可行性低[1],调查设计者更倾向于可行性较高的复杂抽样,但其通常使样本结构复杂化。若采用忽略抽样特征的传统统计学方法分析此类数据,会导致标准误的低估,进而低估可信区间,且增大犯I类错误的可能性,最终导致偏倚甚至得到错误的统计推断[2]。目前,对于复杂抽样数据的统计分析主要分为基于设计(本文来源于《中国卫生统计》期刊2015年04期）

孙霖^[8]（2015）在《复杂抽样与多水平模型-陕西省人均卫生支出与两周患病率估计》一文中研究指出目的针对不同的变量类型,采用基于设计的统计推断方法,选取第五次国家卫生服务调查陕西省代表性调查数据中的人均卫生支出与两周患病率两类变量进行基于设计的估计。此外,利用第五次国家卫生服务调查的多阶段抽样结构,比较并探讨了在存在明显层级结构数据的统计分析中解析既定因变量的影响因素,传统的logistic回归分析方法相比于新兴的多水平模型之间的差异与不足。对于运用多水平模型进行影响因素分析进行了总结归纳。其估计结果对于评估陕西省的卫生服务供给与需求以及降低普通民众的人均卫生支出与两周患病率有着可观的参考价值与借鉴意义。方法第五次国家卫生服务调查采用分层四阶段整群不等概率抽样。对于连续型变量和二分类变量,分别选取人均卫生支出与两周患病率进行估计。谨以年人均医疗卫生支出和两周患病率反映陕西省群众医疗卫生负担与卫生服务需要。此外,通过logistic回归模型与多水平模型应用于上述两变量相关影响因素的分析,明确在数据层级结构分明的条件下,多水平模型相较于传统logistic分析方法的优势。结果本研究运用第五次国家卫生服务调查陕西省代表性调查数据,对陕西省人均卫生支出和两周患病率两类变量进行了加权估计,并与未加权计算的结果进行了比较。陕西省居民人均医疗卫生支出算术均数为1048.31元,中位数为500.00元,完全随机设计抽样的均值估计值为1123.09(1024.48,1221.70)元,复杂抽样设计校正后的估计值为1167.14(1033.20,1301.08)元,其抽样设计效应为1.68;陕西省居民两周患病率点估计为17.48%,完全随机设计抽样的估计值为17.27%(16.96,17.58),复杂抽样设计校正后的估计值为12.29(10.59,13.99),其抽样设计效应为30.17。在处理存在明显层级结构的复杂抽样样本时,传统的一般线性回归模型和logistic回归模型分别对于拟合连续型变量和二分类变量的效果并不理想,前者调整后R2值只有0.0957,后者也只有0.3967。因此需要用到多水平模型方法。结论基于设计的统计推断方法结果因样本个体值是否加权以及加权方法的不同而发生变化。对于logistic回归模型与多水平模型应用陕西省群众人均医疗卫生支出和两周患病率的影响因素分析的对比发现,在层级结构比较明显的多阶段复杂抽样调查数据中,多水平模型的分析结果较完全随机抽样条件下的logistic回归模型更为可信。(本文来源于《第四军医大学》期刊2015-05-01）

谭志军^[9]（2014）在《人群健康测量与评价方法研究—复杂抽样与EQ-5D测量》一文中研究指出研究目的（1）分析和比较不等概率、分层以及整群叁个典型复杂抽样特征对点估计和抽样效率的影响，为有限总体人群健康测量数据的复杂抽样参数估计方法提供依据。（2）采用Rasch模型，从量表项目水平评价中文版EQ-5D量表的整体以及5个维度在不同慢性病人群中的适用性。（3）在系统掌握陕西省居民健康现状及其人群分布特征的基础上，采用复杂抽样多变量模型，分析EQ-5D的5个维度、EQ-5D指数和VAS的主要影响因素。（4）基于健康效用、健康效用的边际效用、卫生服务利用、患病率和人口数，构建效用调整卫生服务利用指标，并利用该指标开展常见慢性病人群的卫生服务利用成本-效用分析。研究方法（1）以基础抽样权重、比例权重和标准化权重的联合权重校正样本的差异代表性。根据区域（陕南、关中和陕北）和城乡（城市和农村）的联合分类，将全省分为6层。将县区设置为群标识。设定仅加权（CSw）、分层加权（CSsw）、分层整群加权（CSscw）叁种复杂抽样校正方法。通过比较叁种校正方法与完全随机法（SRS）的设计效应，分析不等概率、分层和加权对参数估计及参数方差估计的影响。选用的估计对象包括均数、率、线性回归的系数和Logistic回归的系数。（2）采用基于Rasch模型的软件RUMM2030分析EQ-5D量表。在项目水平评价量表整体以及5个维度在12类常见慢性病人群的适用性。量表整体测量效果的评价方法包括RSM和PCM模型的比较、总体拟合效果、个体离散指数、标的性、残差主成分分析；量表各维度测量效果的评价方法包括项目拟合残差、阈值、DIF。（3）采用单变量统计分析方法系统描述陕西省全人群的健康现状及健康的人群分布特征。通过构建多变量模型确定5个健康维度、EQ-5D指数和EQ-5D VAS的主要影响因素。EQ-5D维度的影响因素分析采用Logistic回归模型，EQ-5D指数和EQ-5D VAS的影响因素分析采用Tobit回归模型。统计分析的工具为SAS和STATA，分析过程采用CSscw法进行校正。。（4）基于健康效用、健康效用的边际效应、卫生服务利用、患病率以及人口数构建效用调整卫生服务利用指标，利用该指标开展慢性病人群卫生服务利用的成本-效用分析。采用复杂抽样Tobit模型估计健康效用的边际效应。利用患病率、人数和健康效用的边际效用计算慢性病患病的QALY损失。计算和比较不同慢性病的效用调整卫生服务利用及其总量。主要研究结果（1）经过叁类权重对差异代表性的校正，20-24岁、25-29岁、30-34岁叁个年龄段的人口构成比分别由4.91%、5.23%、4.72%增加至10.32%、7.47%和6.86%。校正后的全省以及各层年龄-性别结构与总体基本一致。人均卫生支出和慢性病患病率的估计值由校正前的932元和19.2%下降至897元和14.1%。叁种校正方法的设计效应显示，对抽样效率影响由大到小依次是整群、不等概率和分层。例如，在家庭人均卫生支出的估计中，CSw法、CSsw法和CSscw法的设计效应分别为1.6、1.58和46.6；在慢性病患病率的估计中，CSw法、CSsw法和CSscw法的设计效应分别为1.04、1.04和14.52。考虑复杂抽样特征后，回归模型中部分因素的系数的标准误和P值增加较多，且P值跨越了0.05的置信水准。例如，CSscw法线性回归模型中区域（陕南）的P值由<0.0001增大至0.45，就业（在业）的P值由<0.01增大至0.11；CSscw法Logistic回归模型中区域（关中）的P值由0.03增大至0.31，饮酒的P值由<0.001增大至0.11。（2）单个维度的缺失率均低于1%，五个维度的不完整率为0.13%。健康状态为“11111”和“33333”的调查对象各占81.8%和0.14%。除贫血和精神类疾病外，所有人群的PCM模型和RSM模型比较的似然比检验P值都小于0.001。慢性病人群的个体离散指数均大于未报告慢性病人群和全人群，在0.5-0.8之间。个体位置均数都大于0且偏度系数都小于0。残差主成分分析的结果显示所有人群的第一主成分特征值均大于1.4，小于1.4的特征值方差百分比在50%和70%之间。全人群、未报告慢性病人群和其它慢性病人群的5个项目的残差都比较严重地偏离了[-2.5，2.5]区间。有8个人群在焦虑/沮丧维度的项目残差大于2.5。12类常见慢性病的城乡-DIF和性别-DIF分析的P值均大于0.05，全人群的有无慢性病-DIF分析的P值小于0.01。（3）（A）在城乡调查对象的特征方面：农村的在业人口和文盲的比例比城市分别高22.3和18.1个百分点，高等教育（大专及以上）和从不参加体育锻炼的比例比农村分别低10和25.1个百分点。（B）在人群健康的总体现状方面：五个维度报告健康问题的比例由高到低依次是疼痛/不适（10.9%）、焦虑/沮丧（5.6%）、行动能力（4.6%）、日常活动（3.9%）、自我照顾（2.4%）。EQ-5D指数和VAS的中位数分别为0.89和84.51。VAS与EQ-5D指数的相关系数为0.47，疼痛/不适维度与VAS和EQ-5D指数的相关系数分别为-0.42和-0.89。（C）从不同健康指标的人群分布特征来看，女性、年龄较高者、陕北地区人群、农村地区人群、两周患病者、患慢性病种类较多者、丧婚离婚者、无业失业者、受教育程度较低者、人均家庭收入较低者、参加农合或城乡合作医疗者的健康状态较差。各类健康指标在年龄、教育水平、人均家庭收入和共患慢性病数量四个因素上呈现梯度分布。例如，四个年龄段人群的EQ-5D指数中位数分别为0.899、0.894、0.881和0.848，报告的疼痛/不适健康问题的比例分别是1.27%、3.56%、6.96%和13.14%。（D）未报告慢性病人群健康状态的主要影响因素包括年龄、文化程度、家庭人均收入和两周患病，其中年龄、文化程度、家庭人均收入在各个健康指标上的作用呈现梯度效应。例如，叁个较高年龄段人群在行动能力维度的OR值分别为3.41、10.23和23.18，在EQ-5D指数上的系数分别为-0.183、-0.355和-0.507。（E）慢性病人群健康状态的主要影响因素包括文化程度、家庭人均收入、共患慢性病数量和两周患病，其中文化程度、家庭人均收入和共患慢性病数量在各个健康指标上的作用呈现梯度效应。例如，叁个共患慢性病数量较多人群在日常活动维度的OR值分别为1.65、2.82和3.62，在VAS得分上的系数分别为-4.8、-7.7和-12.8。年龄对未报告慢性病人群健康的影响比慢性病人群大。（4）（A）15岁以上人群中，患病率最高的是高血压病（9.92%），边际效用最大的是肿瘤（-0.3863）。每年因患肌肉运动系统疾病的QALY损失最大(828.3年)。但是，以上指标在60岁以上年龄组中有些差异。例如60岁以上人群中边际效用最大的是精神类疾病（-0.3831），QALY损失最大的是高血压病(473年)。（B）在15岁以上人群中，慢性病人群的门诊量和门诊费用分别占总量的56.6%和61.99%。门诊病人中健康状态相对较差的是脑血管病（0.74）和肿瘤（0.78），肿瘤的两周门诊就诊率（33.1%）和次均门诊费用（1045元）都最高；单位门诊服务利用最高的也是肿瘤，单位效用门诊次数为11.1次/年，单位效用门诊费用为1342元。（C）15岁以上人群中，慢性病患者的住院次数、住院费用和住院天数分别占总量的45%、49%、51%。住院病人中健康状态最差的是脑血管病（0.76），住院率和住院费用最高的是肿瘤，分别为67.4%和10043元，精神类疾病的住院天数最多（32.6天）。单位效用住院次数和住院费用最高的是肿瘤，分别为0.8次/年和11882元，单位效用住院天数最高的是精神类疾病（39.4天）。以上指标在60岁以上年龄组中也有一些差异。例如，住院率最高的是脑血管病（51.7%），住院天数最高的是传染病（23.1天），单位效用住院次数最高的是脑血管病（0.72次/年），单位效用住院天数最高的是传染病（28.7天）。（D）15岁以上人群中，肌肉运动系统疾病的效用调整卫生服务利用总量最高，门诊次数约为179万次，门诊费用约为4200万，住院次数约为56000次，住院费用约为12亿元。15-59岁与60岁以上人群中，不同慢性病的效用调整卫生服务利用总量的构成具有一定的差异；15-59岁人群中，肌肉运动系统疾病、消化系统疾病和肿瘤的比重相对更高，而60岁以上人群的脑血管病、高血压病、心脏病和糖尿病的比重更高。研究结论（1）不等概率主要影响点估计的偏度，整群主要影响标准误的大小。复杂抽样人群健康测量的评价方法必须考虑复杂抽样特征，忽略复杂抽样特征很可能带来有偏估计和错误的统计推断。（2）中文版EQ-5D量表的项目设置基本符合测量假设，但模型拟合效果不是很好。发现的主要问题是量表对较好健康状态的敏感性不强，易产生较高天花板效应。总体上，慢性病人群的拟合效果好于非慢性病人群，生理维度的拟合效果好于心理维度。（3）人群健康状态的主要影响因素包括年龄、文化程度、家庭收入、共患慢性病数量。以上因素内的不同水平对健康指标的影响呈现梯度分布的特点。四个重要影响因素有两个属于社会经济因素，反应了社会经济发展不均衡引起的健康公平性问题。（4）效用调整卫生服务利用指标的构建，为基于横断面调查数据的卫生服务利用的成本-效用分析提供了新方法。慢性病人群效用调整卫生服务利用的分析结果，确定了人群中慢性病的防治重点，可为慢病防治项目的资源优化配置提供参考依据。(本文来源于《第四军医大学》期刊2014-05-01）

王玥^[10]（2014）在《不同抽样框架下陕西省个人卫生支出与慢性病患病率的复杂抽样估计》一文中研究指出目的对陕西省第四次国家卫生服务调查构建不同抽样框架，有效利用人口普查数据对复杂抽样设计样本统计量进行加权；采用简单随机和两种抽样框架下的复杂抽样估计方法，对陕西省2008年个人卫生支出与慢性病患病情况及其影响因素进行分析；通过比较叁种方法结果上的差异，探讨不同分析方法、不同抽样框架对复杂样本统计分析结果的影响。方法陕西省第四次国家卫生服务调查是以居委会（村）作为初级抽样单元（PSU)、户为终极抽样单元(USU)的分层四阶段整群不等概抽样。由于陕西省第六次全国人口普查资料仅包括县（市或市区）一级的性别、年龄别人口数据，故对陕西省第四次卫生服务调查构建两个以县（市或市区）为PSU，以个人作为USU的两个抽样框架。根据抽样框架赋予样本相应权重。选用简单随机、抽样框架一、抽样框架二叁种方法对陕西省2008年个人卫生支出、慢性病患病率整体情况，性别、年龄别情况进行估计；计算复杂抽样的有限总体校正结果与设计效应；对个人卫生支出与慢性病患病影响因素分别进行线性回归分析与logistic回归分析。结果(1)本文构建了两种陕西省第四次国家卫生服务调查的抽样框架：抽样框架一分6层，包含40个群；抽样框架二在框架一基础上加入性别、年龄别标识，共含204个层，1360个群。（2)获得相应的两种样本权重。（3)比较叁种方法：指标的点估计值以抽样框架二最低，简单随机居中，抽样框架一最高；对复杂抽样进行有限总体校正使估计值置信区间变窄；抽样框架一设计效应大于抽样框架二；标准误总体呈现自简单随机、抽样框架二、抽样框架一逐渐增大的趋势。结论根据抽样框架信息对样本加权是复杂抽样估计的关键；叁种方法对陕西省个人卫生支出与慢性病患病率的估计结果中：复杂抽样估计标准误高于简单随机，抽样框架一标准误高于抽样框架二。(本文来源于《第四军医大学》期刊2014-05-01）

复杂抽样论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文目的是比较不同分析策略对复杂抽样调查设计多值有序资料一水平多重logistic回归分析结果的异同。通过实例分析,利用四种不同的分析策略(将复杂抽样视为单纯随机抽样,考虑抽样设计不考虑抽样权重,考虑抽样权重不考虑抽样设计,同时考虑抽样设计和抽样权重)对复杂抽样设计多值有序资料进行建模。在四种不同分析策略的累积logistic回归模型拟合的结果中,自变量的偏回归系数、标准误差及P值均有所不同。在对复杂抽样调查设计的多值有序资料回归建模时,将抽样设计和抽样权重纳入统计分析,会得到更准确、更稳健的分析结果。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

复杂抽样论文参考文献

[1].王娇,李长平,胡良平.复杂抽样调查设计二值资料一水平多重Logistic回归分析[J].四川精神卫生.2019

[2].王慧,李长平,胡良平.复杂抽样调查设计多值有序资料一水平多重Logistic回归分析[J].四川精神卫生.2019

[3].张帼奋.复杂抽样情形下样本量的确定[J].数学学习与研究.2019

[4].耿国柱.基于复杂抽样下艾滋病高危人群基数叁来源CMR法调查估计的统计方法及应用[D].苏州大学.2018

[5].吕萍.复杂抽样设计下的域估计问题研究[J].统计研究.2017

[6].闫单单.基于复杂抽样的小域估计方法及其在中国的应用研究[D].暨南大学.2017

[7].姜博,王丽敏,刘艳,李镒冲.复杂抽样数据统计分析方法回顾[J].中国卫生统计.2015

[8].孙霖.复杂抽样与多水平模型-陕西省人均卫生支出与两周患病率估计[D].第四军医大学.2015

[9].谭志军.人群健康测量与评价方法研究—复杂抽样与EQ-5D测量[D].第四军医大学.2014

[10].王玥.不同抽样框架下陕西省个人卫生支出与慢性病患病率的复杂抽样估计[D].第四军医大学.2014

标签：复杂抽样; 二值资料; Logistic回归分析; 抽样权重;

复杂抽样论文-王娇,李长平,胡良平

复杂抽样论文文献综述

复杂抽样论文开题报告

复杂抽样论文参考文献

猜你喜欢