投影寻踪回归分析法论文-胡完

投影寻踪回归分析法论文-胡完

导读:本文包含了投影寻踪回归分析法论文开题报告文献综述及选题提纲参考文献,主要关键词:投影寻踪,综合传统回归分析,综合投影寻踪回归分析,拟合效果

投影寻踪回归分析法论文文献综述

胡完[1](2017)在《复杂资料综合投影寻踪回归分析法与综合传统回归分析法的比较研究》一文中研究指出高维数据统计分析在现在的医学科学研究中越来越普遍,数据的高维问题使得传统的多元统计分析方法遇到了一些问题,如高维数据计算量大、出现维数祸根、低维稳健性很好的统计分析方法在高维时稳健性变差等。传统的分析方法远不能满足高维数据分析的需要,尤其是当高维数据分布为非正态时,原有建立在服从正态分布基础上的多元统计分析方法更显得无能为力。在此背景下,投影寻踪在上世纪60~70年代开始出现。为了分析或研究高维数据,投影寻踪将高维数据投影到可反映其原始数据结构或特征的低维空间(1~3维)上,用投影指标来度量投影分布所含信息的多少。故投影寻踪关键在于找到投影指标取值最大或最小时的投影方向,而目前多采用遗传算法来寻找最优投影方向。将投影寻踪与回归分析技术相结合就形成了投影寻踪回归分析技术。本研究旨在通过对同一复杂资料,分别采用投影寻踪回归分析法和传统回归分析法进行分析,然后比较二者的拟合效果和预测效果,以研究出对此资料更适合采用哪种分析方法。本研究可使投影寻踪回归的适用性更为具体,也可引起医学统计学数据分析者对投影寻踪这一方法的认识,从而有利于今后进行复杂资料回归分析时方法的合理选择。本文中所用的投影寻踪回归分析方法主要包括R中所能实现的投影寻踪回归方法(PPR包中包括的叁种方法,Spline法、Gcvspline法、Supsmu法)和自行编制的投影寻踪回归软件中使用的方法(Hermite多项式法)。在本文中综合传统回归分析法主要指多重线性回归分析、主成分回归、岭回归、偏最小二乘回归和稳健回归。本课题研究中关于“复杂资料”的界定包括以下2种情形:第一种情形:自变量之间存在多重共线性关系。对于多重共线性,本文中传统回归分析方法采用主成分回归、岭回归和偏最小二乘回归处理;具体计算,将通过SAS中REG、PRINCOMP和PLS过程来实现。第二种情形:数据中存在异常点。对于存在异常点情形,本文中传统回归分析方法采用稳健回归;具体计算,将通过SAS中ROBUSTREG过程来实现。本文除考虑进行上述复杂资料情况比较外,也进行了对于数据质量较好(数据本身质量较好、不存在多重共线性及异常点等,并且采用多重线性回归分析拟合及预测效果均很好)情况下投影寻踪回归分析方法和传统的多重线性回归分析方法的比较。本文主要采用决定系数和相对误差绝对值的平均值来评价拟合效果,主要采用各预测样本相对误差的绝对值和预测误差的均方来评价预测效果。对于实际数据拟合样本采用的是原始的样本数据,预测样本采用的是对应于相应变量的平均值、最大值、最小值、中位数、四分之一分位数、四分之叁分位数所形成的6个统计量值。经本研究发现,当实际数据本身质量较好时,采用投影寻踪回归分析方法在拟合和预测效果上均好于多重线性回归分析方法,不过二者之间的差别不大。用投影寻踪回归分析拟合,决定系数在0.9703~0.9988之间,相对误差均值在0.0039~0.0187之间,预测样本的MSE在12.91~16.77之间;用多重线性回归分析拟合,决定系数为0.9639,相对误差均值为0.0224,预测样本的MSE为18.80。而对于模拟数据本身质量较好时,投影寻踪回归分析和多重线性回归分析二者在拟合和预测效果上相差很小,难分高下,二者拟合效果评价指标决定系数均在0.9942以上。本文分析了叁个自变量间存在共线性的实际数据。对第一个存在共线性的数据分析结果为:采用传统回归分析方法(主成分回归、岭回归和偏最小二乘回归)拟合,决定系数在0.9351~0.9386之间,相对误差均值在0.0497~0.0528之间,对于预测样本的MSE,主成分回归为1.18,岭回归为0.66,PLS回归为1.14;采用投影寻踪回归分析拟合,决定系数在0.9756~0.9846之间,相对误差均值在0.0316~0.0363之间,预测样本的MSE在0.69~0.86之间。对第二个存在共线性的数据分析结果为:采用传统回归分析方法(主成分回归、岭回归和偏最小二乘回归)拟合,决定系数在0.9039~0.9820之间,相对误差均值在0.0174~0.0383之间,对于预测样本的MSE,主成分回归为126.59,岭回归为208.40,PLS回归为215.82;采用投影寻踪回归分析拟合,决定系数在0.9823~0.9927之间,相对误差均值在0.0104~0.0175之间,预测样本的MSE在11.00~27.25之间。对第叁个存在共线性的数据分析结果为:采用传统回归分析方法(主成分回归、岭回归和偏最小二乘回归)拟合,决定系数在0.8023~0.8924之间,相对误差均值在0.0450~0.0642之间,对于预测样本的MSE,主成分回归为0.61,岭回归为0.36,PLS回归为0.23;采用投影寻踪回归分析拟合,决定系数在0.8851~0.9980之间,相对误差均值在0.0046~0.0481之间,预测样本的MSE在0.03~0.65之间。本文分析了两个数据中存在异常点的实际数据。对第一个存在异常点的数据分析结果显示不论是采用投影寻踪回归分析还是采用稳健回归分析,对数据的拟合效果都很差。传统回归分析,决定系数最高为0.3641;投影寻踪回归分析,决定系数在0.1857~0.6650之间。对第二个存在异常点的数据分析结果为:M回归决定系数为0.8982,相对误差均值为0.1377,预测样本的MSE为3.3919;投影寻踪回归分析,决定系数在0.9423~0.9563之间,相对误差均值在0.0899~0.1138之间,预测样本的MSE在2.3604~3.0308之间。从本文研究结果可以得出如下结论:(1)考虑到多重线性回归分析与投影寻踪回归分析对于数据本身质量较好时拟合效果相差不大且拟合决定系数在0.95以上,并且投影寻踪回归分析计算难于多重线性回归分析,故在数据本身质量较好情况下的回归分析本文推荐采用多重线性回归方法。(2)可以认为,当数据存在共线性时采用投影寻踪回归分析方法进行分析要好于传统的对共线性数据的处理办法(主成分回归、岭回归和偏最小二乘回归)。(3)暂且认为当数据中存在异常点时,采用投影寻踪回归分析效果好于稳健回归分析。(4)数据本身质量非常重要,在科学研究中要重视科研设计(特别是应注意找准找全对结果变量有影响的自变量、具有足够大的样本含量且样本对于总体的代表性足够好),如果研究者在前期数据收集上忽略或遗漏了重要的原因变量,后期通过统计分析也难以弥补。(本文来源于《中国人民解放军军事医学科学院》期刊2017-05-31)

李祚泳,丁晶,张欣莉[2](1999)在《环境监测优化布点的投影寻踪回归分析法》一文中研究指出应用投影寻踪回归(PPR) 建模技术,分析环境测点的污染物监测数据之间的关系。通过建模过程中的数据生成,获得各测点的数据对环境质量总体状况的权重贡献率。根据权重贡献大小,进行环境测点的优选。用PPR 分析法从成都市3 项大气污染物的12 个环境测点中,优选出5 个测点,其保留信息量约占全部测点信息量的90 % 。(本文来源于《环境科学进展》期刊1999年06期)

投影寻踪回归分析法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

应用投影寻踪回归(PPR) 建模技术,分析环境测点的污染物监测数据之间的关系。通过建模过程中的数据生成,获得各测点的数据对环境质量总体状况的权重贡献率。根据权重贡献大小,进行环境测点的优选。用PPR 分析法从成都市3 项大气污染物的12 个环境测点中,优选出5 个测点,其保留信息量约占全部测点信息量的90 % 。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

投影寻踪回归分析法论文参考文献

[1].胡完.复杂资料综合投影寻踪回归分析法与综合传统回归分析法的比较研究[D].中国人民解放军军事医学科学院.2017

[2].李祚泳,丁晶,张欣莉.环境监测优化布点的投影寻踪回归分析法[J].环境科学进展.1999

标签:;  ;  ;  ;  

投影寻踪回归分析法论文-胡完
下载Doc文档

猜你喜欢