导读:本文包含了特征选择和提取论文开题报告文献综述及选题提纲参考文献,主要关键词:GF-2影像,果树提取,光谱特征,纹理特征
特征选择和提取论文文献综述
姚新华,金佳,徐飞飞,冯险峰,罗明[1](2019)在《太湖流域果树提取的光谱和纹理特征选择研究》一文中研究指出准确获取果树的空间种植分布信息,对于开展果树长势监测、产量估算等具有重要意义。为提取太湖流域金庭镇果树的空间分布,本研究以冬夏时期的两景高分二号(GF-2)遥感影像为数据源,利用归一化植被指数(NDVI)和归一化水体指数(NDWI)结合纹理特征构建了基于光谱指数和纹理特征的决策树模型,提取了金庭镇2017年果树的空间分布信息。通过分析研究区各地类的光谱曲线发现,植被与非植被区分明显,但果树与茶树的光谱存在混淆。GF-2影像包含丰富的纹理信息,果树与茶树在GF-2影像上纹理特征明显,易于区分。纹理可作为果树提取的重要特征。为了确定最佳纹理窗口的大小,研究中提出了累计差(Δf)的方法。通过比较每一个纹理变量在15种不同尺度窗口(3?3,5?5,7?7,9?9,11?11,13?13,15?15,17?17,19?19,21?21,23?23,25?25,27?27,29?29,31?31)下的Δf,确定了最佳纹理窗口为15?15。在最佳纹理窗口下根据累计差选取了5大纹理组合:均值(mean)、方差(variance)、对比度(contrast)、信息熵(entropy)和相关性(correlation)。研究结果表明基于光谱指数NDVI和NDWI结合纹理特征构建的决策树模型可有效区分果树与茶树。累计差的方法能够快速确定最佳纹理窗口和纹理组合。提取结果说明果树分布于金庭镇的各个位置,主要分布在平原区,种植比较整齐,南部种植面积多于北部。本研究果树的提取精度为95.23%,模型总体分类精度为89.57%,Kappa系数为89.00%,果树的生产精度为90.00%,用户精度为87.30%。与单一光谱、纹理模型相比,本文模型总体分类精度更高,精度分别提升了10.65%和12.04%。该方法能够适用于大区域果树的遥感提取,可为亚米级遥感影像研究果树的纹理特征提供重要参考和借鉴价值。此外,文中提出的累计差可为选取最佳纹理窗口提供一种新的思路。(本文来源于《中国生态农业学报(中英文)》期刊2019年10期)
丁建立,付丽洋,曹卫东,王家亮[2](2018)在《基于混合特征选择算法的民航可疑订单特征提取》一文中研究指出为快速识别民航旅客订票系统中的可疑订单并及时清理占座,填补航空公司的收益漏洞,提出一种基于FilterWrapper的可疑订单特征选择算法。通过对特征的信息增益排序快速找到最优候选特征子集,利用序列前向浮动搜索算法(sequential forward floating search,SFFS)约简并提取影响可疑订单的相关维度。采用C4.5决策树算法分类建模,实验验证了可疑订单特征选择算法具有较低的计算复杂度并达到了较高的可疑订单识别率,为构建可疑订单识别模型提供了思路。(本文来源于《计算机工程与设计》期刊2018年09期)
李亚楠[3](2018)在《石油储层含油性识别的特征选择和规则提取》一文中研究指出近年来,在经济的快速发展下,中国对石油等能源的需求量逐渐增大,加上技术水平的限制及产业结构的调整等多种因素,中国石油产量远不能满足需求,到2017年为止,中国石油的对外依存度已经连续9年超过警戒线,并持续保持上升的趋势。这说明我国的石油供需矛盾进一步凸显,为了缓解这一矛盾,石油的增储上产是需要采用的必不可少的一种重要措施,而精确的识别石油储层能够使增储上产得到有力的保障。石油储层识别中主要包括储层含油性识别和关键属性预测两方面。其中,储层识别是储层评价、油藏描述、实时钻井监控等方面的一项重要内容,而储层含油性识别是储层识别的重要内容,是将测井信息还原为地质信息,体现测井解释成果和应用价值的高级阶段,它将直接影响石油勘探的效率与成功率。而在储层含油性识别中,关键测井属性对识别率的影响较大,测井属性的描述信息是否完整、是否存在冗余、是否与储层分类相关对最后进行石油储层分类的准确程度有直接的影响,同时管理人员对储层含油性分类的了解程度将会直接影响到其做出决策的合理性。因此如何从众多测井属性中筛选出关键测井属性,得到关键测井属性后如何将其转化为容易理解的知识信息显得尤其重要。为了解决测井数据中的关键属性提取问题和知识转化问题,本文首先致力于研究特征选择技术在测井属性集上的应用,然后在此基础上利用规则提取将关键测井数据转化为知识信息。本文在考虑了特征选择中各种评价算法、分类算法以及搜索策略的优缺点,以及规则提取中规则冲突的解决方案、规则集的评价准则以及搜索策略的优缺点,提出一种新的特征选择算法和规则提取算法。两种算法中都选择差分演化算法作为其选择策略。考虑到差分演化算法对控制参数的设置较敏感及局部搜索能力较差等问题,本文首先对差分演化算法进行改进。差分演化算法改进的基本思想是先通过正态分布和高斯分布生成一组缩放因子和变异概率,接着对这组控制参数进行变异操作生成一组新的控制参数,然后根据这两组控制参数对两个种群进行交叉、变异及选择操作,同时在选择操作中加入了模拟退火的思想,以便提高算法的全局搜索能力。为了测试改进差分演化算法的性能,本文将算法在17个基准测试函数上进行测试,并与其他几种常用的差分演化算法的测试结果进行比较,并对比较结果进行分析。分析结果表明,改进差分演化算法的整体性能要优于其他几种算法。随后,在改进的差分演化算法作为搜索策略算法的情况下,新的特征选择算法采用基于距离评价准则的ReliefF算法和基于信息评价准则的BIF算法、FCBF算法,以及随机抽取特征算法作为特征的评价准则算法对测井属性进行排序;选择模糊C均值算法、SOM神经网络算法、K均值算法和K近邻算法作为分类算法。新的特征选择算法采用特征选择的Filter模型和Wrapper模型相结合的方式,将改进的差分演化算法和特征选择算法融合,即先通过特征选择算法对属性根据与分类的相关度由高到低的进行排序,然后通过改进的差分演化算法随机生成选择属性的个数,根据对应的特征选择算法中对属性的排序结果,由高到低的选择出相应个数的属性作为属性子集,接着从属性数据集中选出对应的属性子集数据,然后把这些属性子集数据用相应的分类算法进行分类,并计算最后的分类准确率作为评断属性子集的标准。为了测试新的特征选择算法的性能,本文利用5个基准数据集进行算法的测试,即将新的特征选择算法的测试结果与其他几种特征选择算法的结果进行比较,同时将测试结果与未进行特征选择的测井属性数据集分别在模糊C均值算法、SOM神经网络算法、K均值算法和K近邻算法上进行分类的结果进行比较,并分析比较结果。分析结果表明,新的特征选择算法能够在保证识别率较高的情况下提取关键特征,因此该算法性能较优。最后将新的特征选择算法应用到江汉某油田的5口井的测井数据集上,对关键测井属性进行提取,剔除冗余测井属性,为下一步将属性数据转化为规则知识做准备。最后,在改进的差分演化算法作为搜索策略算法的情况下,新的规则提取算法采用“first-come,first-served”和“最大隶属度原则”来处理规则集中的冲突问题;选择分类精度、规则集中的规则数、规则集中的前件总数和没有被规则集覆盖的样本总数作为规则集的评估标准。新的规则提取算法的个体编码包括叁部分内容:分类规则、控制参数和适应度值,其中分类规则包含了规则控制值、多个规则前件以及分类标签,而每个规则前件又包含了四个部分:前件控制值、前件连接类型、和两个常数。其中连接类型采用包括在内、大于等于、小于等于、不包括在内四种形式,以便于处理连续问题。为了测试新的规则提取的算法的性能,本文利用10个基准数据集对算法进行测试,即将算法的测试结果与其他四种规则提取算法的测试结果进行比较,并对结果进行分析。分析结果表明,新的规则提取算法在综合考虑识别率和规则集的可解释性时,性能优于其他算法。最后将新的规则提取算法应用到经过属性约减的测井数据集上,将测井属性数据与储层分类间的关联以”IF-THEN”的知识形式表示,以便于非专业人员能够更容易的了解储层的分类信息。本文主要的创新点包括:(1)提出了一种基于模拟退火的增强型参数自适应差分演化算法,即ESADE算法;(2)将ESADE作为特征选择的搜索策略应用于特征选择算法上,提出了一种基于ESADE的特征选择算法;(3)将ESADE应用于规则提取方法,提出一种基于ESADE的规则提取方法。(本文来源于《中国地质大学》期刊2018-05-01)
付璐斯[4](2018)在《表情特征提取和特征选择算法研究》一文中研究指出计算机科学与信息技术在近年来的蓬勃发展,使得模式识别和人工智能领域的研究成为学术焦点。如何准确有效地提取表情特征并进行分类已经成为一个研究热点。由于人脸作为柔性体本身的特殊性以及表情变化的多样性和复杂性,使得表机情特机征的提机取技机术成机为表机情识机别过机程中的关机键部机分。因机此本机文主机要对如何有效提取人脸表情特征的过程进行研究,同时设计并实现了实时远程表情监测系统。本文主要研究内容由以下叁部分组成:(1)第一部分:提出人脸表情特征提取算法:DCLM。DCLM特征是指有表机情下的面机部器机官的形机状与中机性表别情下面别部器别官形别状的差异,可分为两别类:直别接DCLM特别征和间别接DCLM特别征。直表接DCLM别特表征是直表接利表用了表表情变表化而引表起的特表征点位表置变表化,而间表接DCLM特表征利表用了部表分特表征点表间表表情变表化而引表起的距表离差表异。在利表用CLM能表够得表到关表键特表征点精表确定表位的前表提下,特表征能表够捕表捉细表微表表情变表化,计表算简表单。(2)第二部分:提出人脸表情特征选择算法:SVMRFE。在提取DCLM特征的基础上对提取的表情特征进行特征选择,根据递归消除规则对特征数据集进行挑选,得到表情特征子集。通过实验验证,能有效地祛除冗余特征,保留含有高信息量的特征,能够获取更高的识别准确率。(3)第叁部分:设计并实现了实时远程表情监测系统。采用面向对象的设计思想,基于DCLM和SVMRFE算法设计并实现了实时远程表情监测系统,该系统采用C/S架构,表情数据通过监控设备传输到服务器,服务器保存表情数据并对数据进行识别处理,同时将表情数据及其处理结果传送到监测平台,用户能在此对人脸面部表情实时远程的进行监测。(本文来源于《中北大学》期刊2018-04-08)
张明阳[5](2017)在《基于进化优化学习的高光谱特征选择与提取》一文中研究指出近年来,随着高光谱遥感技术的发展,其应用已经覆盖环境监测,医疗图像,精准农业,城市监测等方面。与此同时,高维度的光谱结构也为高光谱图像处理带来了新的挑战。邻近波段之间往往存在大量的冗余信息,高维度的数据结构往往会导致“Hughes”现象,并且会增加存储空间与算法计算复杂度上的负担。另外,在高光谱数据中带标签的数据很少并且标签信息的获取难度很大。本文结合高光谱的数据特点,做了深入的研究分析,并提出了多种无监督的特征选择与特征提取方法,概括如下:(1)针对无监督的波段选择问题,综合考虑了重要信息的保留与冗余信息的去除两方面,将这两方面同时设计进一个目标函数中。由于该目标函数的解空间是离散的,不易于获得导数信息,本质上是一个组合优化问题。因此我们又设计了一个基于Memetic计算的启发式随机搜索策略,用于该目标函数的优化。实验结果表明,我们提出的算法比起传统的波段选择方法在后续分类精度上有了明显的提升。(2)针对传统的FCM无监督聚类方法中存在对初始化状态和噪声点敏感,以及易于陷入局部最优的问题,我们设计了一种基于PSO的优化方法来替代传统FCM中基于拉格朗日乘子法的迭代优化,并将该方法应用于高光谱的无监督波段选择中。实验结果证明,我们提出的算法对初始状态和噪声波段有良好的鲁棒性,并且不易于陷入局部最优。另外,在后续的分类实验中,分类精度得到了进一步的提升。(3)无监督特征选择问题中,如何确定特征子集中的特征个数一直是一个具有挑战性的开放式问题。针对这一问题,我们将其建模为一个多目标优化模型,来量化其矛盾关系,即所选特征数目与保存信息量之间的权衡关系。并且设计了一种基于分解的进化多目标优化的启发式随机搜索策略来优化该模型。该方法可以在运行时同时优化多个具有不同特征数目的特征子集的解。实验结果表明,提出的方法可以通过一次运行得到一系列具有不同特征数目的特征子集,为决策者提供更多的选择。并且这些特征子集在后续的分类实验中均有良好的表现。(4)由于高光谱图像中存在一些信息量不大的噪声波段,而这些波段往往与其他波段的像素分布具有明显的不同。这使得高光谱无监督特征选择问题中,重要信息保留与冗余信息的去除两方面在本质上存在着矛盾的关系,其优化方向不一致。而不同的高光谱图像数据往往对这两方面有不同的需求。如何根据不同数据集来确定这两方面的最优权衡关系成为了一个具有挑战性的问题。针对这个问题,我们分别将这两方面量化,设计了两个目标函数,并用他们构建了一个多目标模型。我们利用该多目标模型来探索在不同数据集下这两方面的最优权衡解。另外,为了优化该多目标模型,我们提出了一种基于多目标人工免疫算法的启发式随机搜索策略。实验结果表明,我们提出的算法可以根据不同数据集的数据特点有效探索这两方面,并给出一系列最优权衡解集为决策者提供更多的选择。分类实验结果表明,我们提出的算法得到的波段子集在分类表现上有明显的提高。(5)深度学习网络结构中的超参数需要大量的具有标签的样本来训练,而高光谱图像中具有标签信息的数据很少。因此,如何在保证其性能不降低过多的情况下减少深度学习在高光谱特征提取方面对于标签信息的需求量是一个挑战性问题。针对这一问题,我们提出了联合WGAN与CNN的方法。在该方法中,利用了 CNN对空间信息与光谱信息强大的特征提取能力,并且针对CNN网络训练的问题采用了 WGAN的框架设计了一种无监督的训练方式。该方法在特征提取环节是完全无监督的,摆脱了对标签信息的依赖。我们在叁个真实数据集上进行了分类实验,实验结果证明,提出的算法比传统的无监督特征提取算法在分类精度上有了明显的提升,验证了算法的有效性。(本文来源于《西安电子科技大学》期刊2017-11-01)
袁明冬[6](2017)在《基于图的特征提取和特征选择及其应用研究》一文中研究指出高维数据广泛存在于数据挖掘、计算机视觉和模式识别的许多实际应用中。它给人们提供了大量新的机遇,同时也带来了诸多挑战。一方面,高维数据中蕴含的丰富信息拓展了人们对于客观事物的认知;另一方面,高维数据也增加了数据处理和存储的时间和空间复杂度,同时也带来了潜在的“维数灾难”和“过拟合”问题。此外,高维数据中大量冗余、无关甚至是噪声特征严重影响了数据分类、聚类以及可视化的性能。对高维数据进行维数约简(或降维)是解决上述问题的重要方法和有效手段,其目的是获取数据紧致和有效的低维表示。特征提取(或特征变换)和特征选择作为两类不同的降维方法,得到了大量学者的广泛关注。特征提取将原始高维特征空间变换到低维特征空间,属于特征产生的过程,新的特征是原始特征的线性或非线性组合;而特征选择是根据某种准则或依据,从庞大的原始高维特征中选出一组最优特征子集,属于特征筛选的过程,且所选特征保持了原始特征的物理意义。图嵌入框架理论将大多数的降维算法归结为图的构造及其嵌入形式。其中,图的构造是最重要的。不同的图构造方式反映了数据不同方面的信息。本文以图的构造和应用为主线,以高维小样本数据为研究对象,针对现有的一些方法存在的重构误差大、判别能力不足等问题,提出了几种特征提取和特征选择方法。主要的工作和研究成果集中在以下几个方面:(1)借鉴局部线性判别嵌入(LLDE)的研究思路,针对协同表示投影(CRP)判别能力不足的问题,提出了一种协同表示判别嵌入(CRDE)方法,并应用于图像特征提取。该方法首先利用协同表示构造图,并以此构造代价函数来表征数据间的协同重构关系;然后将改进的最大间距准则(MMC)作为正则项,明确地引入判别信息。因此,CRDE更适合于分类问题。此外,从图嵌入角度的进一步分析表明,许多常见的特征提取方法,如局部保持投影(LPP),邻域保持嵌入(NPE),稀疏保持投影(SPP),协同保持投影(CRP)以及判别稀疏邻域保持嵌入(DSNPE)等,都可以统一到CRDE的框架中。最后从识别率、参数分析以及特征提取时间叁个方面验证了算法的有效性。(2)深入分析正则化最小二乘判别投影(RLSDP)中存在的重构误差大(或重构精度低)和判别能力不足的问题,提出了一种增强的正则化最小二乘判别投影(ERLSDP)方法。在ERLSDP中,对于每个样本,我们使用相关样本所有的表示系数进行重构,因而解决了RLSDP中重构误差大的问题;然后,针对RLSDP判别能力不足的问题,我们构造了一个具有块对角结构的权矩阵(对应于类内紧致图)来刻画数据的类内几何结构,并根据该权矩阵明确地最小化所有同类样本(更精确地说,是每个样本与其所属类别样本对应的重构形式)之间的距离,从而使得类内样本的分布更加紧凑;最后,通过最大化类间散度信息和最小化所有类内样本之间的距离得到ERLSDP的最优投影矩阵。在无遮挡和遮挡条件下的人脸识别实验验证了ERLSDP的有效性。(3)针对传统LDA忽略了样本局部信息以及投影向量个数较少的问题,提出了一种结合协同表示图(_2L-graph)的协同保持Fisher判别分析(CPFDA)方法。由于协同表示系数分布的局部特性,该方法可以看成是融合了局部几何和全局判别信息的一种新方法。CPFDA的优点是能够保持样本的协同重构关系,同时还继承了LDA全局判别特性,因而能够取得较好的实验效果。理论和实验结果显示CPFDA能够获得比LDA更多有意义的投影向量个数(具体地说,CPFDA可获得的投影向量个数为LDA的两倍)。进一步分析表明,LDA和MFA都可看作是CPFDA的特例。此外,通过将Gabor特征应用于CPFDA,进一步提高了CPFDA的性能。(4)针对同时正交基聚类特征选择(SOCFS)方法没有利用数据的局部几何结构信息的问题,结合L_(2,p)范数提出了一种局部保持正交基聚类无监督特征选择(LPOCFS)方法。LPOCFS方法以SOCFS为基础,但却具有更重要的特点。第一,LPOCFS构造了一个局部近邻图来明确地表征数据的局部几何结构,因此可以选出更具有判别性的特征子集;第二,LPOCFS对特征选择矩阵施加L_(2,p)(0(27)p?1)范数约束,因而在控制特征选择矩阵的稀疏性方面具有更大的灵活性;第叁,针对实际优化中,簇指示矩阵(CIM)难以同时满足正交性和非负性的问题,我们提出了两种优化策略,对应的算法分别表示为nLPOCFS和oLPOCFS。其中,oLPOCFS更强调CIM正交性的作用,而nLPOCFS则更侧重于CIM的非负性。实验结果表明了oLPOCFS和nLPOCFS的有效性。(本文来源于《西安电子科技大学》期刊2017-09-01)
刘驰旸[7](2017)在《基于回归与流形学习的特征选择和特征提取》一文中研究指出信息时代,各行各业都产生了海量规模的数据样本,并往往伴随着极高的维度。这些数据本身来源复杂,结构各异,类型繁多,而其中有价值的信息通常又隐藏在大量的不相关信息中。这些特点给其处理和解析带来了很多困难。数据降维是解决上述问题的一个有效途径。把机器学习方法应用于数据降维,让机器自主发现数据中的内在联系,能够极大减少人工成本,是数据降维方法的一个研究热点。经过数十年的努力,基于机器学习的降维方法成绩斐然,但仍然有很多局限需要克服,比如对数据本身的内在信息利用不充分,对数据流形描述不够准确,有些方法不能自主控制降维维度等。为此,在前人的工作基础上,本文有针对性地提出了一些改进和扩展,以克服现有模型的局限性。主要工作如下:(1)针对现有无监督方法不能同时充分挖掘数据的判别信息和流形信息,降维后数据质量不够高导致的聚类分类不够准确的问题,本文使用核方法得到数据的全局判别模型,把流形学习技术融入判别模型中,结合回归学习和l2,1-范数构建了一个基于核判别分析和回归学习的无监督特征选择模型(KFDRL),使降维后的数据集充分保留原始数据的内在信息。实验结果表明KFDRL得到的数据集能够实现更好的聚类和分类效果。(2)针对核方法处理非线性数据时相对较高的计算复杂度,以及无监督算法不能充分利用数据先验信息的局限,本文提出了一个基于秩正则和标签约束的非负矩阵分解方法(NMFRC)来解决上述问题。为了更好地描述数据流形,NMFRC还使用测地距离来度量数据相似性。结合秩约束方法,NMFRC在保留数据稀疏性的基础上没有破坏流形的平滑性。NMFRC把部分标签信息加入模型中,使算法成为半监督的。在半监督对比算法实验中,NMFRC得到的数据集聚类效果更好。(3)相比KFDRL等特征选择方法,NMFRC等基于局部思想的非负矩阵分解类方法不能自由选择降维维度,不能充分利用数据的自表示性和相似性,为此本文提出了一个新的非负矩阵分解框架下的自表示特征选择方法(SRFS-NMF),在非负矩阵分解框架中加入自表示方法得到低维拟合的回归模型,并结合范数约束进行特征选择,既利用了基于局部的思想和数据的自表示特性,又实现了特征个数的自由选择。对比实验表明,SRFS-NMF比非负矩阵分解类方法和基于范数正则的特征选择方法得到的数据集的聚类效果都更好。(本文来源于《西安电子科技大学》期刊2017-06-01)
李晶晶[8](2017)在《有遮挡人脸识别的特征选择与提取》一文中研究指出有遮挡人脸识别是面向现实的人脸识别系统的一个关键问题,其困难性主要在于遮挡会造成局部特征的损失,并容易引发与人脸局部特征的混淆。长期以来,一种主流的观点认为:特征提取方法并不能有效处理人脸图像中的遮挡问题。然而,近来的研究表明特征选择和提取对解决有遮挡人脸识别问题不仅非常重要,而且无须显式地表示或检测遮挡。因此,本文主要研究有遮挡人脸识别的特征选择和提取方法。本文主要做了如下两个方面的工作:(1)为了有效分离遮挡与人脸图像,实现人脸图像中有效特征的选择,提出了基于SVD的Gabor遮挡字典学习方法。针对因遮挡、光照等变化因素所引发的协变量偏移问题,从字典编码的角度出发,研究分析基于K-SVD字典学习方法的不足:计算代价较高、冗余性较强、缺乏针对自然遮挡的结构性,本文提出了基于SVD的Gabor遮挡字典学习方法,改进了K-SVD的不足。通过K-均值、K-SVD与SVD叁种计算方法的比较,验证了SVD的优势所在。实验结果表明,相对于基于K-SVD字典学习方法的分类方法,基于SVD字典学习方法的分类方法在各种情形下具有更好识别性能。(2)提出了一种对遮挡鲁棒的特征表示方法:自适应韦伯脸。基于Wright等提出的鲁棒特征提取的两个指导性原则:局部性和冗余性,分析了两个韦伯比的特点,指出它们分别有利于提升特征表示的局部性和冗余性。基于这两个韦伯比,提出了自适应韦伯脸(AdapWeber),使得其所提取的特征同时拥有冗余性和空间局部性。为了进一步提高自适应韦伯脸的冗余性和空间局部性,对自适应韦伯脸进行多尺度多方向(Multi-Scale and Multi-Orientation,MSMO)拓展,提出了多尺度多方向的自适应韦伯脸(MSMO-AdapWeber)。实验表明,MSMO-AdapWeber提取的特征具有很好的遮挡鲁棒性,尤其是当遮挡比例较高或者输入图像的维数较低时。在Extended Yale B、AR、UMB-DB等基准数据库上对本文提出的两个方法进行了大规模测试,并将其与相关的主流方法进行比较,验证了本文所提出的两个方法的有效性。尽管本文的主要工作仍然是基于传统的手工设计的特征提取方法,但与近来流行的深度学习方法(如PCANet)相比,本文的方法仍取得一定的性能优势。在未来的研究工作中,我们将进一步关注以卷积神经网络为代表的深度学习方法对遮挡的鲁棒性。(本文来源于《浙江工业大学》期刊2017-03-28)
张丹[9](2017)在《基于有效距离的特征提取和特征选择算法研究》一文中研究指出在机器学习和模式识别领域,特征提取和特征选择技术已经成为了解决高维数据的重要途径,并且在信息检索、文本分类和疾病诊断等领域都得到了广泛的应用。研究表明多数的特征提取和特征选择算法都利用相似性来衡量样本之间的关系,而样本之间的相似性往往都是使用传统的欧氏距离计算。由于欧氏距离的静态本质,因此它往往忽略了周围其他样本对目标样本的影响以及样本与样本之间潜在的动态结构。为了可以充分反映出样本之间这种潜在的动态结构,本文提出在全局拓扑结构关系的基础上,考虑到其他样本与目标样本之间的关系,然后计算样本之间的距离,即有效距离。接着我们利用了有效距离计算样本之间的相似性,提出了基于有效距离改进的特征提取和特征选择算法。本文的主要创新点和研究工作总结主要如下:一方面,我们提出了两种方式计算样本之间的有效距离,分别为基于KNN (k Nearest Neighborhood)的有效距离和基于稀疏表示的有效距离。这两种有效距离的计算都要依赖于样本之间的拓扑结构关系,因此我们首先利用样本之间的稀疏重构关系或样本之间的近邻关系构造出一个双向的拓扑网络,然后依赖于这个双向网络计算了两个样本之间的有效距离。接着,我们把基于有效距离得到的相似性矩阵引入到特征提取算法中,得到了基于有效距离的特征提取算法。实验结果表明,基于有效距离改进的特征提取算法,能够有效地获取样本的全局和局部结构信息,从而得到更加优越的分类性能。另一方面,我们首先通过稀疏表示得到样本之间的稀疏重构关系,然后基于这种稀疏重构关系构建了全局的拓扑结构,从而可以计算样本之间的有效距离。通过有效距离,我们可以计算不同样本之间基于有效距离的相似性,在特征选择过程中用于衡量特征的重要性。此外,我们在特征选择过程中加入了迭代的思想,逐渐地去选择最优的特征子集。因此,我们提出了基于有效距离的迭代特征选择算法。我们在一系列的UCI数据集上进行了验证,实验结果表明,相比于使用欧氏距离的特征选择算法,本文提出的基于有效距离的特征选择算法可以选择出更优的特征,进而可以提升分类性能。(本文来源于《南京航空航天大学》期刊2017-03-01)
王甜甜[10](2016)在《互联网新闻分类中特征选择和特征提取方法研究》一文中研究指出近年来,随着互联网技术的快速发展,网络中的文本等信息、呈爆炸式增长。对互联网中的新闻文本信息进行分类可以快速提取出用户所需要的信息。因此,如何提高新闻文本分类的高效性和准确性,提供高质量和智能化的新闻文本分类服务具有重要意义。特征选择和特征提取是新闻文本降维的主要手段。常用的特征选择方法默认在均衡数据集上进行特征选择,而在偏斜数据上表现较差。除此之外,已有的文本特征选择方法往往存在一定的缺陷。例如,TF-IDF方法选取的是反映文本集合的特征,而没有考虑这些特征对类别的区分能力;互信息和卡方检验方法往往具有“低频词缺陷”的问题。在文本特征提取过程中,向量空间模型表示的特征向量具有高维性和稀疏性的特点,不能捕捉到特征之间的语义语法关联。针对已有特征选择和特征提取方法中存在的上述问题,以及文本数据普遍存在的类别样本不均衡问题,本文做了以下几个方面的工作:1.针对新闻文本数据集存在的类别样本不均衡问题,本文提出了两种新的基于方差的特征选择方法:1)基于类间概率分布方差的互信息特征选择方法;2)基于文档分布方差的TF-1DF特征选择方法。类间概率分布方差和文档分布方差是每个特征在不同类别中的词频和文档频率方差,该方差仅与类别样本特征有关,与不同类别样本数目无关。因此,本文所提方法能够有效地提取出“小”类别样本的特征,解决类别样本不均衡问题。实验结果表明,相比于已有特征选择方法,本文所提出基于方差的特征选择方法能够筛选出新闻热点词汇,提高新闻文本分类效果。2.本文在对互联网新闻热词的上下文规律进行统计分析的基础上,采用指数衰减模型改进Word2vec词向量训练框架,以提高词向量的精确度。原Word2vec训练框架认为上文对目标词预测的作用是线性衰减的,而自然语言中上下文对目标词的影响随着距离的增加快速减小,指数衰减模型更接近真实情况。实验结果表明,相比于原VWord2vec司向量训练框架,本文采用的基于指数衰减模型改进的Word2vec词向量训练框架可以训练出更加精确的词向量。3.针对经典向量空间模型在特征提取中的问题,本文采用词向量进行特征提取,将文本特征词词向量迭加所组成的向量作为新的特征向量。实验结果表明,在基于方差特征选择方法的基础上,特征词词向量迭加所得文本特征向量在文本分类中表现出良好的性能,能够进一步提高新闻文本分类效果。本文针对文本分类中已有特征选择和特征提取方法存在的问题,以及文本集中类别样本不均衡问题,以互联网新闻分类为应用背景,提出的基于方差的特征选择方法可以选出“小类别中的特征,提高非均衡新闻集的分类效果:基于指数衰减模型改进的Word2vec司向量训练框架,训练出更加精确的词向量;词向量用于特征提取时,能够在基于方差的特征选择基础上进一步提高新闻分类效果。(本文来源于《中国科学技术大学》期刊2016-06-01)
特征选择和提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为快速识别民航旅客订票系统中的可疑订单并及时清理占座,填补航空公司的收益漏洞,提出一种基于FilterWrapper的可疑订单特征选择算法。通过对特征的信息增益排序快速找到最优候选特征子集,利用序列前向浮动搜索算法(sequential forward floating search,SFFS)约简并提取影响可疑订单的相关维度。采用C4.5决策树算法分类建模,实验验证了可疑订单特征选择算法具有较低的计算复杂度并达到了较高的可疑订单识别率,为构建可疑订单识别模型提供了思路。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
特征选择和提取论文参考文献
[1].姚新华,金佳,徐飞飞,冯险峰,罗明.太湖流域果树提取的光谱和纹理特征选择研究[J].中国生态农业学报(中英文).2019
[2].丁建立,付丽洋,曹卫东,王家亮.基于混合特征选择算法的民航可疑订单特征提取[J].计算机工程与设计.2018
[3].李亚楠.石油储层含油性识别的特征选择和规则提取[D].中国地质大学.2018
[4].付璐斯.表情特征提取和特征选择算法研究[D].中北大学.2018
[5].张明阳.基于进化优化学习的高光谱特征选择与提取[D].西安电子科技大学.2017
[6].袁明冬.基于图的特征提取和特征选择及其应用研究[D].西安电子科技大学.2017
[7].刘驰旸.基于回归与流形学习的特征选择和特征提取[D].西安电子科技大学.2017
[8].李晶晶.有遮挡人脸识别的特征选择与提取[D].浙江工业大学.2017
[9].张丹.基于有效距离的特征提取和特征选择算法研究[D].南京航空航天大学.2017
[10].王甜甜.互联网新闻分类中特征选择和特征提取方法研究[D].中国科学技术大学.2016