导读:本文包含了非确定性数据论文开题报告文献综述及选题提纲参考文献,主要关键词:不确定性数据,区间数,密度聚类算法,OPTICS
非确定性数据论文文献综述
吴翠先,何少元[1](2019)在《基于区间数的不确定性数据聚类算法:UD-OPTICS》一文中研究指出在不确定性数据聚类算法的研究中,普遍需要假设不确定性数据服从某种分布,继而获得表示不确定性数据的概率密度函数或概率分布函数,然而这种假设很难保证与实际应用系统中的不确定性数据分布一致。现有的基于密度的算法对初始参数敏感,在对密度不均匀的不确定性数据聚类时,无法发现任意密度的类簇。鉴于这些不足,提出基于区间数的不确定性数据对象排序识别聚类结构算法(UD-OPTICS)。该算法利用区间数理论,结合不确定性数据的相关统计信息来更加合理地表示不确定性数据,提出了低计算复杂度的区间核心距离与区间可达距离的概念与计算方法,将其用于度量不确定性数据间的相似度,拓展类簇与对象排序识别聚类结构。该算法可很好地发现任意密度的类簇。实验结果表明,UD-OPTICS算法具有较高的聚类精度和较低的复杂度。(本文来源于《计算机工程与科学》期刊2019年07期)
何少元[2](2019)在《不确定性数据聚类算法及其并行化研究》一文中研究指出在Internet中的数据传输,传感器网络的数据采集,金融商业领域的交易记录等过程中时时刻刻都产生着海量的数据,不确定性数据占据了很大比例。所以,近年来,不确定性数据的聚类研究受到了广泛的关注。因为在现实环境中,不确定性数据总是不可避免的存在。这些数据的不确定性对最终的聚类结果会产生较大的影响,因而不能忽视。所以如何有效地处理不确定性数据成了一个研究热点。在不确定性数据聚类算法的研究中,普遍需要假设不确定性数据服从某种分布,进而获得表示不确定性数据的概率密度函数或概率分布函数。然而这种假设很难保证与不确定性数据的实际分布一致,使得聚类质量和计算效率较低。现有的基于密度的不确定性聚类算法对初始参数敏感,在对密度不均匀的不确定性数据聚类时,无法发现任意密度的类簇。现有算法大多只能单机串行运行,无法满足大数据处理的需要。针对这些问题本文主要的工作如下:本文对传统基于分层密度的聚类算法OPTICS(Ordering Points To Identify the Clustering Structure,OPTICS)进行改进,进而提出基于区间数的不确定性数据聚类算法UD-OPTICS(Uncertain Data OPTICS,UD-OPTICS)。改进算法利用区间数理论,结合不确定性数据的统计信息来更加全面准确地表示不确定性数据;提出了低复杂度的区间核心距离和区间可达距离的概念,对区间数之间的距离计算方式进行改进,进而用于计算上述距离;将上述概念及计算方式用于不确定性数据间的相似度度量、对象排序识别聚类结构等。实验表明,相比于对比算法,改进算法的聚类质量平均提升15.33%,在密度不均匀的数据集上的聚类质量平均提升23.91%。针对改进的UD-OPTICS算法单机串行运行不能满足大数据聚类的需求,将UD-OPTICS算法与Hadoop结合,提出了一种高效的并行不确定性数据聚类算法HUD-OPTICS。HUD-OPTICS算法运用MapReduce模型实现并行计算,并使用改进的PRBP数据分区划分方法对数据集进行最小边界点数和均衡的分区划分,为集群各节点的负载均衡与算法最终的高效运行提供保障。搭建Hadoop平台进行实验,结果表明HUD-OPTICS算法能够满足集群环境聚类不确定大数据中的需要。(本文来源于《重庆邮电大学》期刊2019-06-02)
章武媚,董琼[3](2019)在《不确定性数据中基于GSO优化MF的模糊关联规则挖掘方法》一文中研究指出针对不确定性数据中模糊关联规则的挖掘问题,提出一种基于群搜索优化(GSO)算法优化隶属度函数(MF)的模糊关联规则挖掘方法。首先,将不确定性数据通过叁元语言表示模型进行表示;然后,给定一个初始MF,并以最大化模糊项集支持度和语义可解释性作为适应度函数,通过GSO算法的优化学习获得最佳MF;最后,根据获得的最佳MF,利用改进型的FFP-growth算法来从不确定数据中挖掘模糊关联规则。实验结果表明,该方法能够根据数据集自适应优化MF,以此实现从不确定数据中有效地挖掘关联规则。(本文来源于《计算机应用研究》期刊2019年08期)
赵江[4](2018)在《矿山不确定性数据可视化系统的研究与实现》一文中研究指出随着矿山企业信息化建设不断发展和创新,各类应用系统的出现为矿山运行数据管理提供便捷,然而应用系统的多样性增加了企业维护成本,跨平台间的宏观优化和分析存在一定难度等问题。因此,解决各平台间的“信息孤岛”、数据管理和利用是提高矿山生产和管理效率的必经之路。与之同时,数据处理的方法和技术的不断提高,可视化技术已经成为一种探索、显示和表达数据的新方法。在数据采集、交换和处理的过程中,数据不确定性因素的存在,给矿山信息的统一管理和利用上带来诸多不便,对不确定数据处理和可视化将为矿山企业运行数据的管理和利用提供一种新的方式。本文研究内容基于矿山不确定性数据可视化系统的研究与实现,采用中间件集成技术和Oracle 11g数据库,结合数据交换技术、Web的数据可视化技术等实现该系统。根据需求分析,系统设计内容主要分为两个方面,首先搭建企业数据中心,通过数据交换技术实现集成和采集各应用系统的数据,对不确定性数据进行处理,数据中心包括矿井基础信息数据库、监测监控数据库和系统配置数据表等,实现数据共享,形成矿山全生命周期的大数据;其次针对矿山的数据特点,通过Echarts可视化编程实现可视化分析系统,直观地展示基础数据、实时监测数据、生产和销售数据、历史数据的状况和动态变化等,针对繁琐的集团填报流程,设计简单填报页面,审核后产生集团报表。该系统中实现了企业生产安全总体KPI监测以及井下各工作面的温度、瓦斯、二氧化碳等安全状态监测、井下人员定位、生产和销售等业务数据的实时和历史数据可视化和分析,并实现状态报警和预测等功能,为管理人员的决策提供快速支持,有助于提高矿山企业的生产和管理效率。(本文来源于《青海师范大学》期刊2018-04-01)
陈东辉,陈岭,王俊凯,吴勇,王敬昌[5](2018)在《不确定性数据上聚合查询的近似算法》一文中研究指出随着大数据时代的到来,不确定性数据上的聚合查询面临形式多样、计算复杂等挑战。该文将不确定性数据上聚合查询的结果定义为所有可能的值以及对应的概率。基于动态规划思想的求解"和"的分布(distribution sum,DSUM)精确算法,提出贪心的"和"的分布(greedy distribution sum,GDSUM)和折半合并的"和"的分布(binary merge distribution sum,BMDSUM)的近似算法,这2种算法都能应用于元组级不确定性模型和属性级不确定性模型;并通过理论分析,给出算法的时间和空间复杂度以及最终结果的误差范围。实验结果表明:误差设定为1%时,2种近似算法分别能缩短执行时间15%~21%和22%~32%。(本文来源于《清华大学学报(自然科学版)》期刊2018年03期)
周金明[6](2018)在《基于云模型的非确定性数据综合评价问题研究》一文中研究指出非确定性数据,即模糊数、区间数、联系数、灰数和不确定语言变量等可以表达不确定性信息的数据形式。事实上,综合评价实践过程中存在大量以非确定性数据形式为载体的评价信息,比如,医院管理统计评价中的语言评价信息、企业信用评估中的直觉模糊信息、科技评价中的区间数信息、项目评估中的灰数信息、产品性能评估中的二元语义数信息、供应链管理和企业过程管理等问题中的复杂模糊信息。针对以上诸多问题中,存在具有不确定属性的指标,评价者倾向于给出类似于非确定性数据形式的评价信息。故而,研究非确定性数据综合评价方法,对于社会经济评价活动等具有重要的应用价值。在现有的研究基础上,本文研究基于云模型的非确定性数据综合评价方法,根据综合评价技术的基本步骤,从全局和阶段上考虑相关问题的研究。基于此,研究基于云模型的非确定性数据集成问题、具有混合多属性数据的转换方法以及非确定数据综合评价的应用场合和可视化评价问题,从而不断改进和完善基于云模型的综合评价理论与方法。全文共分七章:第一章为绪论。本章阐述了本文的研究背景和研究意义,并分别对云模型理论、复杂模糊数以及不确定语言信息综合评价研究现状进行了梳理和评述;然后介绍了本文的主要内容、研究方法、结构安排和可能的创新之处。第二章为理论基础。本章致力于厘清云模型的理论基础即云模型的数字特征、距离测度方法和云模型相似性测度方法;明晰非确定型数据形式的主主要有模糊数、灰数、联系数、区间数、直觉模糊数、毕达哥拉斯模糊数和犹豫模糊数等形式,详细阐述了不同非确定性数据形式之间的区别和联系;分析了非确定性数据评价的理论基础。本章为基于云模型的非确定性数据综合评价方法的提出提供了理论依据。第叁章为基于云模型的直觉模糊数Bonferroni均值算子集成方法。本章致力于结合(α,β)-截集技术,对Bonferroni均值的概念进行拓展为Bonferroni调和平均算子,并介绍了梯形直觉模糊数的概念及其运算;给出(叁角)梯形直觉模糊数的一种排序方法,同时提出了加权梯形直觉模糊Bonferroni调和均值算子以及规范赋权叁角直觉模糊Bonferroni调和均值算子。给出了直觉模糊云的概念及其运算,并给出直觉模糊云逆向云生成算法;最后,分别通过基于加权梯形直觉模糊Bonferroni调和均值算子的最佳供应商选择问题、基于规范赋权叁角直觉模糊Bonferroni调和均值算子的风险投资评估问题和基于云模型的直觉模糊Bonferroni均值算子的信息系统安全评估问题等算例进行分析,结果表明本章所提出方法的有效性和可行性。第四章为基于云模型的毕达哥拉斯模糊数正负理想解评价方法。本章致力于对直觉模糊数与毕达哥拉斯模糊数概念间的区别与联系进行分析,提出毕达哥拉斯模糊云模型的概念,分析了毕达哥拉斯云模型的优良性质以及毕达哥拉斯模糊云模型距离的测度方法,并结合云模型生成算法提出了毕达哥拉斯模糊云的集成方法,然后利用正负理想解方法解决了电子商务中买家的关于所购商品的评价信息对潜在客户的影响分析。第五章为基于云模型的区间数伴语言变量混合多属性评价方法。本章致力于介绍区间数的概念,区间数的代数运算性质和区间数可能度排序方法,结合(正态)云模型的普适性和利用语言变量的定性定量转换的黄金分割法,提出了混合多属性的云模型综合评价方法,并将其应用于解决空袭目标的危险态势评估问题,实现了信息尽可能少的损失和扭曲,表明该方法的优越性。第六章为基于云模型的不确定语言变量多指标相似度评价方法。本章以统计数据质量为例,给出了一种基于云模型的统计数据质量评价新方法。首先,确定云模型的评价等级语言粒度,对其进行软划分,并根据统计数据质量的评价指标体系,从准确性、及时性、适用性、一致性、可衔接性、可解释性、可获得性和有效性等八个维度刻划数据质量评估云模型,利用云模型加权算术平均集成技术,构造评价综合云;其次,结合云模型相似性的测度方法,根据综合云与评价等级云模型的相似度判断统计数据质量评估综合云的隶属等级。实例表明,新方法可以作为统计数据质量评估和监管的一个参考。第七章为结束语。本章对全文研究的结果进行了总结,同时也指出本文中尚存在的不足之处以及未来需要改进的和继续深入研究的问题。基于以上研究内容,力求在以下几个方面有所创新:(1)由于评价中指标间存在大量相互关联的情形,提出了一种新的基于加权梯形直觉模糊Bonferroni调和均值算子和规范赋权加权叁角直觉模糊Bonferroni调和均值新算子。算子具有幂等性、可交换性、单调性和有界性等优良性质,并将算子应用于多属性综合评价方法。该方法可以挖掘属性间的重要性以及反映属性间相互关联的关系。因此,在直觉模糊数的集成方法上有所创新。(2)研究云模型与毕达哥拉斯模糊数的有效“合成”,提出了一种毕达哥拉斯模糊云的概念,弥补已有传统评价中,不能兼顾评价过程中的随机性和模糊性的不足,使得方法更加适用于综合评价的实践和应用。为了克服传统多准则群体决策方法在毕达哥拉斯模糊环境下的局限性,提出了一种新的毕达哥拉斯模糊云多指标正负理想解方法,结合毕达哥拉斯逆向云发生算法对客户的评价信息进行处理。毕达哥拉斯正态云可以有效反映评价信息的模糊性和随机性。算例分析表明,所提出的方法可以解决潜在客户进行采购时的辅助决策问题。(3)利用本文的研究方法对统计数据质量进行评价的视角,提出了结合云模型逆向生成算法,给出了基于云模型相似度方法的非确定性数据综合评价方法。应用实例表明,新方法在模糊性和随机性环境下的具有比较优势,可以有效实现统计数据质量评估指标体系下的整体可视化与局部可视化评估。(本文来源于《浙江工商大学》期刊2018-03-01)
徐震[7](2018)在《不确定性数据管理技术研究综述》一文中研究指出数据采集和处理的技术的发展与应用,不确定性数据应该引起更多关注和重视。基于此,本文对不确定性数据的特征进行分析,结合不确定性数据管理框架,并根据其实际应用进行深入了解。(本文来源于《中国新通信》期刊2018年02期)
文竹[8](2017)在《在不确定性数据中挖掘频繁项集的快速算法研究》一文中研究指出近年来,由于不确定性数据的广泛应用,在不确定性数据中挖掘频繁项集的问题受到人们的极大关注。现有的不确定性数据中频繁项集的挖掘算法,大多是由确定性数据中频繁项集的挖掘算法改进而来。TubeS-growth算法是目前执行不确定性数据中挖掘频繁项集任务中较为常用的算法,该算法在压缩数据方面性能较好,但是对海量不确定性数据进行挖掘时,则存在以下弊端:①当项目的存在概率分散在不精确的(较宽泛的)范围之内时,该算法会生成数量过多的假性频繁项集;②当挖掘稀疏型数据集(项目总数较多而事务平均长度较短),或者稠密型数据集(项目总数较多而事务平均长度较长)时,该算法的运行时间过长》为了解决上述两个问题,本文采用“分而治之”的思想,对tubeS-growth算法改进后建立了 PtubeS-growth算法。改进后的算法利用数据库划分技术,当主内存不适配或数据量过大时,首先将不确定性数据库划分成若干个子数据库,通过分别对各子数据库构建树结构,然后挖掘各结构上的局部潜在频繁项集,再将它们合并成整体潜在频繁项集,最后,通过遍历数据库核查,从而排除假性频繁项集,保证挖掘结果的准确性。为了保证改进后算法的合理性,本文通过提出且证明相关定理,从而解决了算法设计过程中所存在的问题:①如何解决数据库划分后,最小支持度的设定合理性问题;②如何将各划分部分中分别挖掘到的局部潜在频繁项集合并成整体潜在频繁项集。为了确保改进后算法的高效性,本文通过采取剪枝、减少计算量等优化方法,从而解决数据库划分后分别挖掘、局部潜在频繁项集合并所造成的运行时间长等问题。通过实证研究表明,在同等的运行环境下,本文所构建的PtubeS-growth算法都更加高效,并且解决了tubeS-growth算法在同类型数据集挖掘过程中所存在的运行时间较长、假性频繁项集较多的问题。(本文来源于《西安理工大学》期刊2017-06-30)
王骏[9](2017)在《基于联系数的位置不确定性数据聚类算法》一文中研究指出近些年来,数据挖掘一直是信息技术产业圈内重点关注的技术点,究其原因主要在于信息技术产业拥有大量数据可供广泛使用,而这些数据背后所隐藏的有价值的知识信息有待被挖掘出来。这些被提取出来的信息可以在金融市场,商业贸易,学术科研等领域发挥重要的导向作用。而其中聚类又是数据挖掘中最为关键的一项研究课题。在这个网络信息技术发展疾速的年代,所产生的数据信息往往具有各不相同的结构和属性,而这使得数据挖掘将迎来新的艰难挑战。在现代的许多应用领域中,比如在无线传感器发射与信号收集的场景中,无线传感器无法像有线通讯设备一样始终连续地发射和接收信号,由于受到外界干扰或者技术限制,其信号具有离散性;然而,自然界真实的环境变化是连续性的,这就导致了无线传感器收集到的信号是不确定性的;在对于这一类的数据进行统计,处理与分析时,在考虑该数据整体性的同时必须兼顾其不确定性,这样才能更为客观的体现数据的本质特性,才能更好地得到数据处理结果,而这无疑使传统确定性数据挖掘研究面临了新难题。处理不确定性数据的数学工具有概率密度函数,模糊数,区间数以及联系数等。其中联系数是一种较新的,专门用来研究不确定数据问题的数学工具,目前已经在诸如水资源系统评价,多属性多目标评估,群决策等领域有着广泛的运用。但在数据挖掘聚类领域的应用还十分少见。本文的主要工作内容和研究成果如下:1.本文首先对大数据环境下的数据挖掘以及数据挖掘中重要课题聚类进行了介绍,论述了本文研究重点不确定性数据产生的背景和原因,然后详细讲解聚类的定义,相似性度量方式,常见的聚类方法等;接着介绍了不确定性数据的表示方式,以及提出了本文核心数学工具-联系数理论,并做了详细介绍,为本文后续章节的核心内容研究做理论铺垫;最后介绍说明了不确定性数据聚类的研究现状。2.针对于目前划分一类的不确定性数据聚类,为了克服其聚类运算时的计算复杂度高,处理数据时忽视不确定性对聚类结果影响等缺点,本文提出了一种基于联系数的不确定性数据划分聚类算法,该算法不但大大降低计算复杂度,而且在聚类过程中兼顾考虑了不确定性数据整体位置和不确定性变化趋势对聚类结果的影响。实验数据显示,本算法聚类效果好,质量高且性能优越。3.针对于目前基于密度的不确定性数据聚类较为匮乏,而基于划分的聚类算法又有无法区分任意形状的簇以及难以发现离群点等缺点,本文提出了一种基于联系数的不确定性数据密度聚类算法,该算法降低了计算复杂度,提出新的距离衡量标准,考虑了不确定性变化趋势,而且大大降低了基于密度这一类聚类算法的参数敏感性。实验结果表明,本算法以较少的参数完成了较高质量的聚类,具有高可操作性,实用性和高效性。(本文来源于《浙江工业大学》期刊2017-03-23)
陆亿红,翁纯佳[10](2016)在《基于叁角模糊数的不确定性数据聚类算法》一文中研究指出随着对实验精确度要求的不断提高,聚类分析中的不确定性数据聚类也越来越受到关注.然而经典的不确定数据聚类通常假设其概率密度函数(PDF)等信息是已知的,而现实过程中,这些指标并没有那么轻易就能获取.考虑到这些情况,可以利用叁角模糊数来恰当有效地表示多维不确定性数据,并采用基于叁角模糊数的低计算复杂度的距离计算方法,结合K-means基础聚类方法形成一种被命名为UTDK-means(Uncertain triangular fuzzy number data K-means)的聚类方法,而它是基于叁角模糊数的.实验结果表明:基于叁角模糊数的不确定数据聚类是可行的,具有一定的研究价值.(本文来源于《浙江工业大学学报》期刊2016年04期)
非确定性数据论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在Internet中的数据传输,传感器网络的数据采集,金融商业领域的交易记录等过程中时时刻刻都产生着海量的数据,不确定性数据占据了很大比例。所以,近年来,不确定性数据的聚类研究受到了广泛的关注。因为在现实环境中,不确定性数据总是不可避免的存在。这些数据的不确定性对最终的聚类结果会产生较大的影响,因而不能忽视。所以如何有效地处理不确定性数据成了一个研究热点。在不确定性数据聚类算法的研究中,普遍需要假设不确定性数据服从某种分布,进而获得表示不确定性数据的概率密度函数或概率分布函数。然而这种假设很难保证与不确定性数据的实际分布一致,使得聚类质量和计算效率较低。现有的基于密度的不确定性聚类算法对初始参数敏感,在对密度不均匀的不确定性数据聚类时,无法发现任意密度的类簇。现有算法大多只能单机串行运行,无法满足大数据处理的需要。针对这些问题本文主要的工作如下:本文对传统基于分层密度的聚类算法OPTICS(Ordering Points To Identify the Clustering Structure,OPTICS)进行改进,进而提出基于区间数的不确定性数据聚类算法UD-OPTICS(Uncertain Data OPTICS,UD-OPTICS)。改进算法利用区间数理论,结合不确定性数据的统计信息来更加全面准确地表示不确定性数据;提出了低复杂度的区间核心距离和区间可达距离的概念,对区间数之间的距离计算方式进行改进,进而用于计算上述距离;将上述概念及计算方式用于不确定性数据间的相似度度量、对象排序识别聚类结构等。实验表明,相比于对比算法,改进算法的聚类质量平均提升15.33%,在密度不均匀的数据集上的聚类质量平均提升23.91%。针对改进的UD-OPTICS算法单机串行运行不能满足大数据聚类的需求,将UD-OPTICS算法与Hadoop结合,提出了一种高效的并行不确定性数据聚类算法HUD-OPTICS。HUD-OPTICS算法运用MapReduce模型实现并行计算,并使用改进的PRBP数据分区划分方法对数据集进行最小边界点数和均衡的分区划分,为集群各节点的负载均衡与算法最终的高效运行提供保障。搭建Hadoop平台进行实验,结果表明HUD-OPTICS算法能够满足集群环境聚类不确定大数据中的需要。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
非确定性数据论文参考文献
[1].吴翠先,何少元.基于区间数的不确定性数据聚类算法:UD-OPTICS[J].计算机工程与科学.2019
[2].何少元.不确定性数据聚类算法及其并行化研究[D].重庆邮电大学.2019
[3].章武媚,董琼.不确定性数据中基于GSO优化MF的模糊关联规则挖掘方法[J].计算机应用研究.2019
[4].赵江.矿山不确定性数据可视化系统的研究与实现[D].青海师范大学.2018
[5].陈东辉,陈岭,王俊凯,吴勇,王敬昌.不确定性数据上聚合查询的近似算法[J].清华大学学报(自然科学版).2018
[6].周金明.基于云模型的非确定性数据综合评价问题研究[D].浙江工商大学.2018
[7].徐震.不确定性数据管理技术研究综述[J].中国新通信.2018
[8].文竹.在不确定性数据中挖掘频繁项集的快速算法研究[D].西安理工大学.2017
[9].王骏.基于联系数的位置不确定性数据聚类算法[D].浙江工业大学.2017
[10].陆亿红,翁纯佳.基于叁角模糊数的不确定性数据聚类算法[J].浙江工业大学学报.2016