导读:本文包含了无监督降维论文开题报告文献综述及选题提纲参考文献,主要关键词:降维,特征提取,特征选择,Markov,blanket
无监督降维论文文献综述
王寅同[1](2016)在《无监督与半监督降维相关问题研究》一文中研究指出随着科学技术的发展,模式识别在越来越多的社会活动中扮演重要角色,常见的有文本数据识别、人脸图像识别、遥感图像识别、生物信息识别等。与此同时,高维数据的出现也给模式识别带来巨大的挑战,主要体现在计算复杂度高并且识别结果不令人满意。降维作为高维数据处理的关键研究问题之一,将原始高维数据由高维空间以某种方式映射到低维空间上的过程,能够抽取得到对数据识别有意义的重要特征,移除特征集中不相关和冗余的特征。尽管降维的研究已取得丰富的成果,但是当前许多实际问题中的数据呈现高维度、大数据量、类别标记缺失等特点,降维技术仍需通过对现有方法进行完善或探索新的理论方法以获得进一步的发展。本文主要贡献和研究内容包括如下四个方面:(1)针对类别标记不完整的数据集上的特征提取问题,如类别标记信息的利用、多模态分布的相似数据距离度量,提出重构概率类的半监督局部线性判别分析。该方法中的重构概率类赋予每一个无类别标记数据所属类别的概率,这一类别由该数据的最邻近有类别标记数据确定,进而实现降维过程中有标记数据和无标记数据的充分融合。类间散度矩阵和类内散度矩阵计算中引入差异化的数据对象距离的权重,使得多模态分布的数据由高维空间映射到低维空间时,类间数据对象尽可能地分离且类内邻近数据对象尽可能地紧凑。(2)针对无类别标记数据上的特征之间相关性研究,提出基于信息理论的无监督相关度增益度量,能够有效地度量无类别标记数据的特征重要性和特征之间相关性,避免无类别标记数据特征选择过程中多次迭代地执行学习算法以评估特征子集的重要性。无类别标记数据的特征重要性定义为对应特征与所有特征的平均互信息,并由推论得出在朴素贝叶斯条件下对应特征的重要性可以最大化地逼近真实数据特征与潜在类别之间的相关性。(3)为了解决目前无监督特征选择方法中缺少有效的无监督特征相关性度量、执行效率偏低和易陷入局部最优解等问题,提出两种无监督特征选择方法,包括基于相关度增益和Markov blanket聚类的特征选择和基于相关度增益和粒子群优化的特征选择。前者以特征为节点、相关度增益为权重边构建有向无环图,由Markov blanket划分有向无环图实现冗余特征的聚类,从每个特征簇中选择一个代表特征组成所选的特征子集。后者是在前者基础上提出的一种粒子群优化的启发式特征选择方法,粒子的随机运动和多粒子的相互作用能够避免特征选择过早地陷入局部最优解,进而以更大概率获得全局最优解。(4)实际应用中有类别标记数据的获取难度远大于无类别标记数据,在许多数据集中,只有少量的数据对象具有类别标记信息。采用有监督或无监督特征选择所取得的特征子集仅利用了数据集的部分信息,而舍去剩余的无类别标记数据或已有类别标记信息。针对这一问题,提出基于信息理论和相关度增益的半监督代表特征选择,通过一个平衡因子将有类别标记数据特征的互信息和无类别标记数据特征的相关度增益紧密地结合在一起,充分利用了整个数据集的信息来度量特征重要性和特征之间相关性。(本文来源于《南京航空航天大学》期刊2016-06-01)
崔凯[2](2014)在《基于模型合并的无监督降维方法研究》一文中研究指出数据降维是模式识别、机器学习、数据挖掘等领域的一个关键科学问题。他是利用线性或非线性的变换将高维数据映射到低维空间,从而便于后续的数据分析。然而,随着数据采集技术、通信技术和计算机技术的飞速发展,数据的规模越来越大、维度越来越高,这使得原有数据降维技术的运算复杂度大大增加,甚至无法进行。本论文针对大规模高维数据的快速有效降维问题,深入研究基于模型合并的增量无监督降维技术。论文的主要工作如下:①针对已有增量2DPCA(Two-dimensional Principal Component Analysis)算法不能同时处理多个数据以及忽略了数据的均值信息等问题,提出了基于模型合并的增量二维主成分分析(M-I2DPCA)算法。该算法将数据空间用多个特征空间模型来描述,然后通过模型合并得到所有数据的特征空间表示模型及投影方向。且与批处理2DPCA算法相比,该方法能有效降低运算复杂度并节省存储空间。在FERET、PIE、AR库上的实验结果也表明该算法能够达到批处理方式2DPCA的性能。②LPP(Locality Preserving Projection)算法在处理大规模高维数据时运算复杂度太高,且面临的大规模矩阵存储与分解等问题使得算法性能退化明显。对此,本文提出了基于模型合并的增量局部保持投影(M-ILPP)算法。M-ILPP算法通过建立描述数据集的相应LPP数据表示模型,然后通过合并不同的LPP子数据表示模型,得到代表所有数据的LPP总表示模型并由此求解投影方向。在多个库上的实验结果表明了该算法的有效性和可行性。(本文来源于《西安电子科技大学》期刊2014-11-01)
张乾坤[3](2010)在《无监督与半监督降维算法研究》一文中研究指出在机器学习和模式识别领域,会不可避免地遇到很多高维数据,从而出现“维数灾难”。为了避免“维数灾难”问题,需要对高维数据进行特征降维。特征降维是指通过线性或者非线性映射把高维数据投影到一个低维的空间,同时揭示隐藏在数据中的内在结构信息。本文主要研究基于无监督和半监督的特征降维算法。首先,在无监督降维方面,高斯过程隐变量模型是一种有效的方法。它提供了一个从低维隐变量空间到高维观测数据空间的光滑映射。这种光滑映射就可以使得在隐空间中相距较近的样本点,经过映射到观测数据空间后,依然相距较近。然而,它并不能保证在数据空间相距较近的样本点经该映射降维到隐空间后依然相距较近。为了解决高斯过程隐变量模型的这一不足,提出了一种基于局部保持的隐变量模型算法。该算法能使得在数据空间相距较近的样本点经过降维后,在隐空间中依然相距较近。在几类数据库上进行的测试结果表明了该算法的有效性。其次,在半监督降维方面,除了可以知道样本的类标信息,还有另外一种监督信息,即成对约束信息。成对约束是指两个样本要么属于同一类,要么不属于同一类。但是目前利用成对约束进行降维的算法只是简单的利用约束关系,并没有挖掘成对约束关系中的本质特性,比如传递性和排斥性。因此,提出了两种半监督降维算法:一种是基于整体保持的半监督降维算法,该算法不仅利用了约束关系的传递性和排斥性,而且还保持数据集所在低维流形的整体结构;另一种是基于局部保持的半监督降维算法,该算法除了利用了成对约束的传递性和排斥性外,还可以保持数据集所在低维流形的局部结构。在几类数据库上实验表明,该算法要优于其他的降维算法。(本文来源于《西安电子科技大学》期刊2010-01-01)
无监督降维论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
数据降维是模式识别、机器学习、数据挖掘等领域的一个关键科学问题。他是利用线性或非线性的变换将高维数据映射到低维空间,从而便于后续的数据分析。然而,随着数据采集技术、通信技术和计算机技术的飞速发展,数据的规模越来越大、维度越来越高,这使得原有数据降维技术的运算复杂度大大增加,甚至无法进行。本论文针对大规模高维数据的快速有效降维问题,深入研究基于模型合并的增量无监督降维技术。论文的主要工作如下:①针对已有增量2DPCA(Two-dimensional Principal Component Analysis)算法不能同时处理多个数据以及忽略了数据的均值信息等问题,提出了基于模型合并的增量二维主成分分析(M-I2DPCA)算法。该算法将数据空间用多个特征空间模型来描述,然后通过模型合并得到所有数据的特征空间表示模型及投影方向。且与批处理2DPCA算法相比,该方法能有效降低运算复杂度并节省存储空间。在FERET、PIE、AR库上的实验结果也表明该算法能够达到批处理方式2DPCA的性能。②LPP(Locality Preserving Projection)算法在处理大规模高维数据时运算复杂度太高,且面临的大规模矩阵存储与分解等问题使得算法性能退化明显。对此,本文提出了基于模型合并的增量局部保持投影(M-ILPP)算法。M-ILPP算法通过建立描述数据集的相应LPP数据表示模型,然后通过合并不同的LPP子数据表示模型,得到代表所有数据的LPP总表示模型并由此求解投影方向。在多个库上的实验结果表明了该算法的有效性和可行性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
无监督降维论文参考文献
[1].王寅同.无监督与半监督降维相关问题研究[D].南京航空航天大学.2016
[2].崔凯.基于模型合并的无监督降维方法研究[D].西安电子科技大学.2014
[3].张乾坤.无监督与半监督降维算法研究[D].西安电子科技大学.2010