混合属性数据论文-李晓庆,唐昊,司加胜,苗刚中

混合属性数据论文-李晓庆,唐昊,司加胜,苗刚中

导读:本文包含了混合属性数据论文开题报告文献综述及选题提纲参考文献,主要关键词:混合属性,相异度阈值,模糊均值聚类,Jaccard

混合属性数据论文文献综述

李晓庆,唐昊,司加胜,苗刚中[1](2018)在《面向混合属性数据集的改进半监督FCM聚类方法》一文中研究指出针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类(Fuzzy C-means,FCM)算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果.(本文来源于《自动化学报》期刊2018年12期)

王映龙,曾淇,钱文彬,舒文豪,黄锦涛[2](2018)在《变精度下不完备混合数据的增量式属性约简方法》一文中研究指出为了解决当不完备混合决策系统中数据动态增加时,静态属性约简方法的计算复杂度高的问题,提出变精度下不完备混合数据的增量式属性约简方法。首先,在变精度模型下给出了利用条件熵度量属性的重要性程度;然后,详细分析和设计了当数据动态增加时条件熵的增量式更新变化情况和属性约简的更新机制;在此基础上,利用启发式贪心策略构造了增量式的属性约简算法,实现了不完备的数值型和符号型混合数据下属性约简的动态更新。通过UCI数据集中五个真实的混合型数据集的实验比较和分析,在约简效果方面,利用增量式属性约简算法处理Echocardiogram、Hepatitis、Autos、Credit和Dermatology数据集的增量规模为90%+10%时,数据集的原属性个数分别由12、19、25、17和34个约简至6、7、10、11和13个,分别占原属性集的50. 0%、36. 8%、40. 0%、64. 7%和38. 2%;在执行时间方面,增量式算法在五个数据集的平均耗时分别为2. 99 s、3. 13 s、9. 70 s、274. 19 s和50. 87 s,静态算法的平均耗时分别为284. 92 s、302. 76 s、1062. 23 s、3510. 79 s和667. 85 s,且增量式算法的耗时与数据集的实例规模、属性个数和属性值类型的分布相关。实验结果表明,增量式属性约简算法在计算耗时方面要显着优于静态算法,且能有效剔除数据中的冗余属性。(本文来源于《计算机应用》期刊2018年10期)

权甜甜,王虎[3](2018)在《基于搜索数据的用户基本属性混合预测模型研究》一文中研究指出大数据时代必然会导致"信息过载(information overload)"现象,企业如何在海量的用户行为数据中准确判断用户属性,是精准营销等领域值得思考的问题。特别是在搜索领域,搜索公司几乎无法获得用户的真实属性信息,但用户的基本属性很大程度上可以影响到用户查看不同广告的可能性。基于背景,利用Doc2Vec、TF-IDF算法对搜索数据进行特征提取,并借助机器学习算法、XGBoost算法构建了用户基本属性混合预测模型,并对模型的准确性进行了检验。(本文来源于《现代商贸工业》期刊2018年16期)

徐明明[4](2018)在《基于混合属性数据的聚类分析算法的研究与应用》一文中研究指出数据挖掘技术能够从大量的、无规则的数据集中提取有价值的信息,它是信息技术自然演化的结果,可以解决人们对有用信息搜索的需要。聚类分析是数据挖掘中一个应用广泛的工具,它能在无先验信息的前提下,从潜在的数据集中发现令人感兴趣的知识。其目标是通过聚类将数据集分成若干个类或簇,使得同一簇内的对象相似度尽可能大,而不同簇的对象相似度尽可能小。在实际应用需求的驱动下,研究者们已经提出了多种聚类算法,并在生物医学、客户关系管理、图像处理、模式识别等领域取得了大量的成果。然而,现实世界中的数据大多是由数值属性和分类属性所构成的混合数据,而能够处理这类数据的大多数算法存在性能及聚类质量不高等问题,所以混合属性数据聚类算法的研究成为聚类分析领域的一个热点问题。从提高聚类算法准确率和效率的角度出发,本文对已有的混合属性数据聚类算法进行了研究,主要解决了k-prototypes算法中初始聚类中心点选取以及分类属性相异度计算问题,并在此基础上,提出了基于平均差异度的改进k-prototypes聚类算法。首先,通过利用平均差异度选取初始聚类中心,避免了k-prototypes算法选取初始聚类中心的不确定性。其次,针对k-prototypes算法中的混合属性数据度量公式忽视了数值属性数据的重要性以及不能有效利用聚类集信息,尤其当数据量增多、属性类型复杂时,不能完全体现出数据对象与类之间差异的问题。通过利用信息熵对数值数据进行加权,提高了算法效率,并对分类属性度量公式进行了改进,使得数据对象能够更科学地划分到所属的聚类集中,进而给出了一种混合属性数据度量公式。为验证改进算法的有效性,在真实数据集上进行仿真实验,分别用不同的聚类算法进行比较分析,实验结果表明:改进的算法提高了聚类的准确率和稳定性。最后,将改进后的聚类算法应用到医学数据集的分析中。对皮肤病数据进行了分型识别,以判断患者的疾病类型。并对心脏病患者的诊断数据进行聚类,分析患者的各项指标,对患者是否存在心脏病的风险进行了预测,说明了算法在医学数据分析方面具有良好的应用前景。(本文来源于《沈阳工业大学》期刊2018-05-28)

常智华[5](2018)在《面向混合属性数据的自适应叁支聚类算法的研究》一文中研究指出聚类分析作为一种有效的无监督数据挖掘方法,已经广泛地应用在教育、商业、农业等许多实际领域中。为了克服传统二支聚类算法不能够有效表示数据对象与类簇之间存在的不确定性关系,叁支聚类算法应运而生。在叁支聚类表示中,类簇用两个集合表示,其将数据空间划分为叁个域,即:核心域中的数据对象确定属于该类簇,边缘域中的数据对象可能属于该类簇,琐碎域中的数据对象确定不属于该类簇。一方面,目前的叁支决策方法研究中,往往需要通过合适的评价函数以及相应的阈值来获得叁支结果。但是,阈值的设定往往没有科学且高效的方法。另外一方面,现实生活中存在着大量混合属性数据。因此,论文针对面向混合属性数据的自适应叁支聚类算法进行了深入的研究。针对叁支聚类阈值问题,论文提出了一种基于引力搜索的自适应叁支聚类算法。受物理学中万有引力定律的启发,根据二支聚类结果中数据对象局部质量的分布,以万有引力公式作为评价函数,将初始聚类结果中未被聚类的数据对象,根据万有引力大小划分至其邻居类簇的核心域、边缘域或者琐碎域中。同时,在聚类的过程中,针对每一个未被聚类的数据对象,叁支决策阈值能够自适应地调整。通过多组实验分析,保证聚类效果的同时,基于引力搜索的自适应叁支聚类算法不仅能够有效保留二支类簇的形状信息,而且能够有效解决重迭聚类的问题。同时,为保证工作的完整性,论文提出了一种改进密度峰值聚类算法作为二支聚类算法,获得二支聚类结果并发现没有明确类簇归属的数据对象。针对混合属性数据相似性度量问题,论文提出了一种基于加权树结构的混合属性数据相似性度量方式,能够有效减少相似性度量过程中属性值信息的损失。针对分类属性以及有序属性,构建加权树结构,充分考虑了属性值语义、属性值个数以及属性值在数据集中出现的频率;针对数值属性,进行归一化处理。同时,结合基于引力搜索的自适应叁支聚类算法,论文进一步提出了面向混合属性数据的自适应叁支聚类算法。在真实数据集上进行的多组实验结果说明了新算法的合理性以及有效性。(本文来源于《重庆邮电大学》期刊2018-05-20)

邵晓晨[6](2018)在《基于稀疏表示的混合属性数据聚类关键技术研究》一文中研究指出数据挖掘是协助管理决策的最重要工具之一,随着数据挖掘的应用范围不断扩大,数据挖掘所处理的数据逐渐由单一的数值型或者分类型数据逐渐呈现出混合属性类型。对混合属性数据的挖掘研究是一个热点问题,其中数据聚类是属于其中的重要内容。传统的聚类算法只是针对单一的数值属性或者分类属性,而越来越多的研究显示,大多数真实数据是以混合属性呈现的,而这使得大多数传统聚类算法处理起来相对困难。所以,设计出能够处理混合属性数据的高效的聚类算法已成为聚类分析中一个很有吸引力的问题。本文针对混合属性数据聚类的相关问题,研究基于稀疏表示的数据聚类方法,具体研究包括如下内容:(1)针对未标记混合属性数据的缺失问题,研究提出了基于稀疏表示的混合属性数据填补方法。通过将局部约束线性编码和局部约束稀疏表示引入到K最近邻字典构建过程,更好的保留了数据的局部结构特征,同时一定程度上解决了相似对象难于确定的问题。将提出的填补方法应用在六个混合属性数据集中,实验结果验证了该算法在填补效果上的优势。(2)针对混合属性数据的相似性度量变得难于计算导致的聚类困难,提出了基于K-SVD的混合属性数据谱聚类算法。该算法通过将稀疏表示中的字典学习过程引入谱聚类中,得到带有判别信息的稀疏系数矩阵,并据此作为谱聚类算法中的权重矩阵输入,这样既能克服数据点间距离难于计算的劣势,又能发挥谱聚类简单高效的优势。利用真实数据的实验验证了该方法在聚类准确率上面的优势。(3)针对混合属性数据的簇中心初始化问题,研究提出了基于密度的簇中心初始化方法。该方法通过将密度的概念引入,并据此选择簇中心,一定程度上避免了以随机的方式选择簇中心导致出现不稳定的聚类结果。通过配合前面提出的基于K-SVD的混合属性数据谱聚类算法进行实验,实验结果表明该方法在处理混合属性数据集表现出了一定的优越性。(本文来源于《北京科技大学》期刊2018-04-25)

姜智涵,朱军,周晓锋,李帅[7](2019)在《基于信息熵的混合属性数据谱聚类算法》一文中研究指出针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感,不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。(本文来源于《计算机应用研究》期刊2019年08期)

曾嘉豪[8](2018)在《基于DPC算法混合属性数据流聚类研究》一文中研究指出聚类分析是数据挖掘领域一项重要的研究课题。随着大数据时代的到来,数据流在很多领域得到应用,数据流聚类也成为一项意义深远而且具有挑战性的技术。与传统的静态数据相比,数据流是高速的、动态的、变化的。数据流的这些特性,给数据流聚类带来了困难。此外数据流的高维性、混合属性和海量性等特征对数据流聚类提出了更高的要求。本文将针对以上问题展开研究,提出适应数据流特性且有效处理数据流高维性、混合属性和海量性等问题的数据流聚类算法。本文包括以下四个方面内容:第一,讨论数据流聚类相关问题,概述数据流的特点和数据流处理模型,比较分析数据流聚类方法;第二,研究混合属性数据处理过程,针对数据流的特点进行数值型数据标准化、高维数据降维和混合属性数据度量方法的讨论;第叁,针对DPC算法无法处理混合属性数据、截断距离的选取影响密度的计算和无法处理大规模数据叁个方面的不足,分别提出基于信息熵的混合属性数据处理方法改进DPC算法的距离值计算、采用KNN非参数核密度估计方法改进DPC算法的密度值计算和将滑动窗口技术和DPC算法相结合,实现混合属性数据流聚类;第四,采用DPC改进算法对KDDCup99网络入侵检测数据集进行聚类,并与经典数据流聚类算法Clustream算法和Denstream算法进行比较分析,评价DPC改进算法聚类效果。为了检验DPC改进算法的效用,对人口普查数据集和银行营销数据集进行聚类,并设计对照实验验证DPC算法密度改进的有效性。通过KDDCup99数据集的聚类结果显示,DPC改进算法在任意形状的数据集中能检测正确的聚类,并保持较高的聚类精度,与Clustream算法和Denstream算法相比,DPC改进算法对聚类精度有明显提高和更好的稳定性。在效用检验中,DPC改进算法在人口普查数据集和银行营销数据集聚类中均保持较高的聚类精度,同时对照实验结果也验证了DPC算法密度改进的有效性。本文的主要贡献:第一,针对DPC算法的不足分别从叁个方面提出改进方法,使DPC算法适用于高维混合属性数据流聚类;第二,提出针对高维混合属性数据流可行、有效的聚类方法,适用于网络安全、社会科学和经济等领域数据的聚类研究;第叁,通过编写matlab程序实现DPC改进算法的实证分析,拓展了该方法的应用,也实现了matlab软件在混合属性数据流聚类相关问题中的应用。(本文来源于《华南理工大学》期刊2018-04-01)

冀进朝,赵晓威,何飞,胡英慧,白天[9](2018)在《基于模糊质心的混合属性数据模糊加权聚类算法》一文中研究指出在模糊聚类算法中,模糊系数被用来控制簇可能重迭的程度,其负面影响是所有的数据对象会影响所有的簇。为解决该问题,Klawonn和H9ppner使用模糊函数替换模糊系数(KH算法),但该方法是针对数值属性数据而设计的。然而,在许多真实的应用中,数据对象通常同时由数值属性和分类属性描述。面向混合属性数据,文中提出了一种新的基于模糊质心的模糊加权聚类算法。首先结合模糊质心和均值来表示混合属性条件下的簇中心,然后使用能够评估不同属性在聚类过程中作用的度量来评估数据对象和簇中心之间的相异度,最后给出算法框架。在3个混合属性数据集上对新算法进行了一系列的测试,实验结果表明新算法的性能优于传统算法。(本文来源于《计算机科学》期刊2018年02期)

尚霞,李贵,韩子扬,李征宇,孙平[10](2017)在《基于混合属性的Deep Web数据抽取算法》一文中研究指出由于Web查询接口的限制,用户很难获取隐藏Web数据库的所有数据。基于隐藏Web数据库中的混合属性构造查询分解空间,采用深度优先遍历,提出一种将基于分类属性的改进启发式切片覆盖算法与基于数值属性的多维动态划分算法相结合的混合算法,能够通过较少的查询次数获取后台数据库中的全部数据。对算法的查询代价做了理论分析,通过实际项目的真实数据库验证了混合算法的有效性。(本文来源于《中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集》期刊2017-12-21)

混合属性数据论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为了解决当不完备混合决策系统中数据动态增加时,静态属性约简方法的计算复杂度高的问题,提出变精度下不完备混合数据的增量式属性约简方法。首先,在变精度模型下给出了利用条件熵度量属性的重要性程度;然后,详细分析和设计了当数据动态增加时条件熵的增量式更新变化情况和属性约简的更新机制;在此基础上,利用启发式贪心策略构造了增量式的属性约简算法,实现了不完备的数值型和符号型混合数据下属性约简的动态更新。通过UCI数据集中五个真实的混合型数据集的实验比较和分析,在约简效果方面,利用增量式属性约简算法处理Echocardiogram、Hepatitis、Autos、Credit和Dermatology数据集的增量规模为90%+10%时,数据集的原属性个数分别由12、19、25、17和34个约简至6、7、10、11和13个,分别占原属性集的50. 0%、36. 8%、40. 0%、64. 7%和38. 2%;在执行时间方面,增量式算法在五个数据集的平均耗时分别为2. 99 s、3. 13 s、9. 70 s、274. 19 s和50. 87 s,静态算法的平均耗时分别为284. 92 s、302. 76 s、1062. 23 s、3510. 79 s和667. 85 s,且增量式算法的耗时与数据集的实例规模、属性个数和属性值类型的分布相关。实验结果表明,增量式属性约简算法在计算耗时方面要显着优于静态算法,且能有效剔除数据中的冗余属性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

混合属性数据论文参考文献

[1].李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报.2018

[2].王映龙,曾淇,钱文彬,舒文豪,黄锦涛.变精度下不完备混合数据的增量式属性约简方法[J].计算机应用.2018

[3].权甜甜,王虎.基于搜索数据的用户基本属性混合预测模型研究[J].现代商贸工业.2018

[4].徐明明.基于混合属性数据的聚类分析算法的研究与应用[D].沈阳工业大学.2018

[5].常智华.面向混合属性数据的自适应叁支聚类算法的研究[D].重庆邮电大学.2018

[6].邵晓晨.基于稀疏表示的混合属性数据聚类关键技术研究[D].北京科技大学.2018

[7].姜智涵,朱军,周晓锋,李帅.基于信息熵的混合属性数据谱聚类算法[J].计算机应用研究.2019

[8].曾嘉豪.基于DPC算法混合属性数据流聚类研究[D].华南理工大学.2018

[9].冀进朝,赵晓威,何飞,胡英慧,白天.基于模糊质心的混合属性数据模糊加权聚类算法[J].计算机科学.2018

[10].尚霞,李贵,韩子扬,李征宇,孙平.基于混合属性的DeepWeb数据抽取算法[C].中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集.2017

标签:;  ;  ;  ;  

混合属性数据论文-李晓庆,唐昊,司加胜,苗刚中
下载Doc文档

猜你喜欢