大维数据分析论文-刘鹏

大维数据分析论文-刘鹏

导读:本文包含了大维数据分析论文开题报告文献综述及选题提纲参考文献,主要关键词:高维数据,随机矩阵理论,判别分析,主成分分析

大维数据分析论文文献综述

刘鹏[1](2019)在《基于随机矩阵理论的高维数据分析方法研究》一文中研究指出在生产实践中收集并存储了越来越多的维度p接近甚至超过样本数n的高维数据。与传统的数据分析不同,高维数据分析更加复杂和困难。作为数据分析的重要工具,机器学习方法同样面临着高维数据的挑战。如何利用机器学习方法完成对高维数据的分析,目前已成为数据领域广泛研究的问题。随机矩阵的渐近性和非渐近性理论打破了经典多元统计分析的框架,非常适用于高维数据统计特性的研究,可以帮助机器学习算法完成对高维数据的分析,扩展其应用范围。本文针对传统的机器学习方法在高维数据分析中存在的问题,利用随机矩阵理论的相关研究成果,提出了正则化的判别分析算法、均值良好估计的正则化判别分析算法以及高维缺失数据的降维算法。论文的主要工作如下:(1)线性判别分析算法尽管在解决许多实际问题时表现良好,但是在处理高维数据时效果却很不理想。其原因在于:当数据维度p接近或者大于样本数目n时,样本协方差矩阵不再是真实协方差矩阵的一个良好估计,导致线性判别函数值产生了较大的偏差。为此,提出一种基于随机矩阵理论的正则化判别分析算法。首先,分别以非线性收缩法或特征值截取法对高维协方差矩阵做出良好估计;然后,使用估计的高维协方差矩阵计算判别函数值并进行分类。在模拟数据集和真实数据集进行的分类实验表明,所提算法不但适用范围更加广泛,而且具有较高的分类正确率。(2)判别模型中的样本均值同样受到高维数据的影响,样本均值估计会出现偏差,从而导致判别模型误分类率的增加。为此,提出一种基于均值良好估计的正则化判别分析算法。在正则化判别分析算法的基础上,首先利用最优收缩估计方法重新对判别模型中的均值进行估计;然后,将重新估计的均值代替判别模型中的样本均值,进一步提高了正则化判别模型的分类性能。通过对模拟数据集和真实数据集的分类实验分析,也显示出所提算法的优越性与有效性。(3)数据在采集和存储的过程中可能会造成一些数据的缺失。当高维数据含有缺失值时,大多数数据分析方法很难对高维缺失数据进行分析或分析效果不理想。为此,提出一种可用于高维缺失数据降维的主成分分析算法。首先,基于随机矩阵理论的相关理论,利用矩阵的Lasso估计得到高维缺失数据的协方差矩阵估计;然后,对其进行特征分解,选取主要的特征向量构成低维投影矩阵,并利用投影矩阵将高维数据投影到低维空间;最后,结合线性判别分析算法对高维缺失数据进行分类。在模拟数据集和真实数据集上的分类实验表明,所提算法可以完成对高维缺失数据的降维,同时也能提高线性判别分析算法在高维缺失数据上的分类正确率。(本文来源于《中国矿业大学》期刊2019-05-01)

赖学方[2](2017)在《基于贝叶斯统计的高维数据分析及应用》一文中研究指出随着现代科学技术的发展,越来越多的高维数据出现在生物医学、基因工程、经济金融等学科领域,这为统计建模分析增加了难度.对高维数据的研究是当前统计学界的研究热点,本文基于贝叶斯统计学理论,并结合经典统计学方法,对高维线性模型的变量选择、参数稳健性估计等问题进行了研究.本文主要包括以下内容:(1)介绍了有关高维数据的研究背景、研究现状,提出了本文的研究方法;(2)分别介绍了经典统计学和贝叶斯统计学的高维线性模型变量选择、参数估计方法,并对两者之间的关系进行了分析;(3)针对高维线性回归模型,提出了一种更为稳健有效的参数估计方法,将一种“对数-指数-和”型的惩罚项与最小一乘准则相结合,在参数估计过程中自适应地调整各系数的惩罚权重,使参数估计更加准确.对所提出的方法进行数值实验测试,实验结果证明了该参数估计方法的有效性;(4)研究了贝叶斯统计理论下的高维线性模型的参数稳健性估计问题.针对贝叶斯Lasso分位数回归模型,提出了一种基于线性插值的似然函数计算方法,并结合系数的拉普拉斯先验分布,设计了一种新的对后验分布进行抽样的算法.对所提出的方法进行数值模拟,结果表明该方法具有较好的参数估计稳健性和准确性;(5)利用带有线性插值的贝叶斯Lasso分位数回归方法,对我国股票净资产收益率的影响因素进行了分析,建立起股票净资产收益率与各影响因素之间的回归模型.对所建立的模型进行实验预测,预测结果表明了所建立模型的有效性.(本文来源于《西安工程大学》期刊2017-06-30)

董晓强[3](2017)在《基于non-local先验的贝叶斯变量选择方法及其在极高维数据分析中的应用》一文中研究指出目的:本文通过模拟研究比较基于non-local先验的贝叶斯变量选择方法、ISIS-SCAD、ISIS-MCP在极高维数据分析中的表现,并将其应用到弥漫性大B细胞淋巴瘤(DLBCL,diffuse large B cell lymphoma)基因表达数据中,找出与DLBCL分型有关的基因,为临床上DLBCL的诊断和治疗提供依据。方法:介绍基于non-local先验的贝叶斯变量选择方法—乘积逆矩先验(piMOM,product inverse moment)的基本原理,并将其与ISIS-SCAD、ISIS-MCP方法应用到二分类logistic回归中。模拟研究中,根据协方差结构的不同将协变量间相关程度分为叁种情况:相互独立、复合对称相关、自回归相关;样本量n=50、100、200、400、600;自变量维数p=1000、3000,从模型相合性和模型预测准确性两个方面,评价不同极高维情况下叁种变量选择方法的表现。实例分析中,将包含350个病人,3237个基因的DLBCL数据分为训练集(n=245)和测试集(n=105),分别运用piMOM、ISIS-SCAD、ISIS-MCP方法进行建模并验证,用AUC评价叁种模型的优劣。结果:模拟研究发现:在p=1000和p=3000情况下,叁种方法筛出的变量平均真阳性数大致相等,ISIS-SCAD、ISIS-MCP方法的平均假阳性数和预测均方误差、回归系数均方误差却明显高于non-local先验方法,且non-local先验方法随着维数的增加波动较小,较ISIS-SCAD、ISIS-MCP方法稳定。DLBCL基因表达数据经piMOM分析发现4个有意义的基因(MYBL1,CYB5R2,MAML3,BTLA),AUC为0.989;ISIS-SCAD发现7个有意义的基因(MYBL1,CYB5R2,MAML3,TNFRSF13B,S1PR2,SLC25A27,GAB1),AUC为0.981;ISIS-MCP发现5个有意义的基因(MYBL1,CYB5R2,MAML3,CHST2,SUB1),AUC为0.962。叁种方法均筛出的基因为:MYBL1,CYB5R2,MAML3。结论:基于non-local先验的贝叶斯变量选择方法在模型选择和预测准确性方面优于传统的惩罚类方法,在一定程度上可以较好地控制假阳性率。MYBL1,BTLA,CYB5R2,MAML3可能与DLBCL分型有关。(本文来源于《山西医科大学》期刊2017-06-12)

吴佳妮[4](2016)在《基于SVM的质谱细胞仪高维数据分析在AML早期诊断方面的应用研究》一文中研究指出白血病是一类造血系统的恶性肿瘤,通常表现为异常的白细胞恶性增殖。我国白血病的发病率在各种肿瘤中占第六位,居青少年恶性肿瘤首位。白血病按起病的缓急可分为急性白血病和慢性白血病,其中急性髓细胞白血病(AML)是一种髓系血细胞的恶性肿瘤,是成人中最常见的一种急性白血病。急性髓细胞白血病的临床诊断包括血常规检查、骨髓常规检查、细胞免疫学分型、细胞遗传学检查等。这些方法存在需要有经验的临床病理专家进行操作、无法进行自动化分析、耗时且主观等一定的局限性。临床上AML一般通过血液或骨髓中的原始粒(或单核)细胞占比超过20%进行确诊。实现对AML的自动化早期诊断,对于疾病发展迅速、病程较短的急性白血病而言,预期可提高诊断的准确性及病人治愈率。质谱细胞术是近年发展起来的一种新型单细胞分析技术。该技术集成了质谱和细胞仪的原理,可在单细胞中同时测量几十种甚至上百种特征标记物,不仅能进行高速的分析,而且具有质谱分析的高精确度与高识别能力。质谱细胞仪较之传统荧光流式细胞仪测量的参数多且通道之间没有干扰,并且不需要进行补偿计算,已成为单细胞分析的一个新方向。本论文首先系统介绍了质谱细胞术的相关理论,包括其发展现状、原理、常用的数据分析方法及其应用,然后介绍了我们基于支持向量机(SVM)的质谱细胞仪高维数据分析方法。论文利用该方法对质谱细胞仪的健康人类骨髓样本高维数据进行了分析,实现了对多种细胞的分类识别,并用分类的结果对该方法进行了性能评估。最后,论文开展了基于SVM的质谱细胞仪高维数据分析应用于AML早期诊断的研究,初步验证了该方法用于AML自动化早期诊断的可行性。质谱细胞仪测量参数多、单细胞识别准确率高,预期可以获得更好的诊断准确率,应用前景广泛。本论文将质谱细胞术的单细胞识别准确率高的优势与SVM机器学习方法相结合,揭示了该方法在AML早期诊断方面的应用潜力。论文研究工作在疾病的早期诊断以及诊断过程自动化方面具有一定意义。(本文来源于《山东大学》期刊2016-05-24)

孔雪[5](2014)在《高维数据分析中的降维方法研究》一文中研究指出随着互联网广泛应用于人们的生产和生活实际中,应用大量数据来解决实际问题成为一种新型的职业类型和行业特点,因此广大数据处理和数据分析师们在数据分析工作方面做了许多研究,在数据分析和数据处理的过程中,经常遇到复杂高维数据,如何采取一定的降维方法将高维数据转化为低维数据,而常见的降维方法分为线性和非线性两大类,本文通过高维数据分析过程中的降维工作总结了一些经典的降维方法,在此基础上阐述了降维方法的研究对于数据分析以及数字化行业的好处和优势。(本文来源于《时代教育》期刊2014年07期)

李双艺[6](2013)在《引领高维数据分析先河》一文中研究指出一向默默埋首于科学研究的白志东,在2013年1月18日这天出尽了“风头”,在当天举行的国家科技奖励大会上,他领取了“2012年度国家自然科学奖二等奖”证书,并受到了党和国家领导人的亲切接见。 白志东是东北师范大学教授,此次获奖的项目是《大维随机(本文来源于《吉林日报》期刊2013-03-22)

李郁林[7](2012)在《高维数据分析中的降维研究》一文中研究指出在处理和分析高维数据时通常会碰到维数灾难和传统的低维数据处理方法存在本质困难的问题,通过对各种处理高维数据的方法、技术进行比较和分析高维数据的统计特性后发现,采用降维处理是处理高维数据时的最好的选择。要实现降维的研究,应该从高维数据四方面的特征来展开。(本文来源于《计算机光盘软件与应用》期刊2012年17期)

孟辉,王立强,洪文学[8](2010)在《基于径向坐标可视化的高维数据分析方法》一文中研究指出针对模式分类算法不直观的问题,提出一种基于径向坐标可视化分析高维数据的方法。由最大似然原理估计高维数据的本征维数,用较少的变量结合径向坐标可视化方法对高维数据进行可视化降维分析。在径向坐标中揭示高维数据集中类别和特征间的关系,寻找基于不同特征排列顺序的最优映射,并结合多种机器学习方法对数据集进行分类。应用于UCI数据库中的6个数据集的结果表明,该方法具有较好的可视化和分类效果。(本文来源于《计算机工程》期刊2010年01期)

刘卓[9](2002)在《高维数据分析中的降维方法研究》一文中研究指出本文主要研究高维数据处理中的降维问题和降维方法。第一章首先提出了降维的模型和定义,讨论了相关的问题;第叁节讨论“维数祸根”现象和高维空间的稀疏性,通过实例分析其对高维空间的数据分布特性具体影响;第四节讨论了本征维数及其估计的基本问题。 第二章是降维方法的回顾与分析,通过对比和综合若干常用降维方法,依据降维映射的形式提出一种分类方法,而后以降维问题的模型和分类为指导,讨论了几种常用的降维方法,特别是重点分析了经典线性降维方法——主成分分析方法,通过实例说明它不适用于处理非线性问题。 第叁章围绕一种新兴的统计降维方法——投影寻踪展开讨论,概述投影寻踪的一般理论,定义了投影指标和投影寻踪的概念,证明了传统的主成分分析方法是投影寻踪的一个特例,证明了正态性与Friedman指标为0的等价性;第叁节针对高光谱图像处理问题,从实例和理论两个方面,论证了以信息散度为指标的投影寻踪方法在提取信息的能力上优于以方差大小作为衡量信息量多少标准的主成分分析方法。 第四章是本文的重点内容,研究一种全新的非线性降维方法——局部线性嵌入方法,对它的思想和算法进行了详细的分析,给出算法两个相关定理的证明;第叁节对比主成分分析,通过实例说明局部线性嵌入方法的非线性降维特征;第四节在此基础上提出了旨在结合两者优势的组合降维方法;第五节提出了局部线性嵌入方法中存在的若干关键性问题,包括流形的局部性、邻点的选择、本征维数的估计和降维映射的表示,第六节基于局部线性近似的思想提出了一种本征维数的估计方法,设计了实用算法,结合实例对算法中参数的选取进行了讨论;最后一节提出了一种基于局部线性重构的图形分类和识别方法,将其应用于手写体数字的图像分类识别实验,实验得到的分类准确率达96.67%。 本文的主要创新点在于:提出了降维映射和嵌入映射的概念;给出了投影指标的严格定义,证明了两个相关定理;提出了一种用于估计本征维数的方法并设计了实用算法;提出了一种基于局部线性重构思想的分类和识别方法。(本文来源于《中国人民解放军国防科学技术大学》期刊2002-11-01)

大维数据分析论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着现代科学技术的发展,越来越多的高维数据出现在生物医学、基因工程、经济金融等学科领域,这为统计建模分析增加了难度.对高维数据的研究是当前统计学界的研究热点,本文基于贝叶斯统计学理论,并结合经典统计学方法,对高维线性模型的变量选择、参数稳健性估计等问题进行了研究.本文主要包括以下内容:(1)介绍了有关高维数据的研究背景、研究现状,提出了本文的研究方法;(2)分别介绍了经典统计学和贝叶斯统计学的高维线性模型变量选择、参数估计方法,并对两者之间的关系进行了分析;(3)针对高维线性回归模型,提出了一种更为稳健有效的参数估计方法,将一种“对数-指数-和”型的惩罚项与最小一乘准则相结合,在参数估计过程中自适应地调整各系数的惩罚权重,使参数估计更加准确.对所提出的方法进行数值实验测试,实验结果证明了该参数估计方法的有效性;(4)研究了贝叶斯统计理论下的高维线性模型的参数稳健性估计问题.针对贝叶斯Lasso分位数回归模型,提出了一种基于线性插值的似然函数计算方法,并结合系数的拉普拉斯先验分布,设计了一种新的对后验分布进行抽样的算法.对所提出的方法进行数值模拟,结果表明该方法具有较好的参数估计稳健性和准确性;(5)利用带有线性插值的贝叶斯Lasso分位数回归方法,对我国股票净资产收益率的影响因素进行了分析,建立起股票净资产收益率与各影响因素之间的回归模型.对所建立的模型进行实验预测,预测结果表明了所建立模型的有效性.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

大维数据分析论文参考文献

[1].刘鹏.基于随机矩阵理论的高维数据分析方法研究[D].中国矿业大学.2019

[2].赖学方.基于贝叶斯统计的高维数据分析及应用[D].西安工程大学.2017

[3].董晓强.基于non-local先验的贝叶斯变量选择方法及其在极高维数据分析中的应用[D].山西医科大学.2017

[4].吴佳妮.基于SVM的质谱细胞仪高维数据分析在AML早期诊断方面的应用研究[D].山东大学.2016

[5].孔雪.高维数据分析中的降维方法研究[J].时代教育.2014

[6].李双艺.引领高维数据分析先河[N].吉林日报.2013

[7].李郁林.高维数据分析中的降维研究[J].计算机光盘软件与应用.2012

[8].孟辉,王立强,洪文学.基于径向坐标可视化的高维数据分析方法[J].计算机工程.2010

[9].刘卓.高维数据分析中的降维方法研究[D].中国人民解放军国防科学技术大学.2002

标签:;  ;  ;  ;  

大维数据分析论文-刘鹏
下载Doc文档

猜你喜欢