导读:本文包含了大维海量数据论文开题报告文献综述及选题提纲参考文献,主要关键词:离群点挖掘,信息论,属性选择,熵
大维海量数据论文文献综述
张净,孙志挥,宋余庆,倪巍伟,晏燕华[1](2011)在《基于信息论的高维海量数据离群点挖掘》一文中研究指出针对高维海量数据集离群点挖掘存在"维数灾难"的问题,提出了基于信息论的高维海量数据的离群点挖掘算法。该算法采用属性选择,去除冗余属性降维。利用信息熵作为离群点判断的度量标准,消除距离和密度量纲的弊端。在真实数据集上的实验结果表明,算法对高维海量数据离群点挖掘是有效可行的,其效率和精度得到了明显提高。(本文来源于《计算机科学》期刊2011年07期)
叶冲轶[2](2010)在《高维海量数据联合聚类算法的研究与应用》一文中研究指出联合聚类是新近的无监督的数据分析的范例,但是它变得日益流行是由于它发现隐藏的局部模式的潜力,和通常的无监督的运算法则比如说k-均值发现聚类不同。联合聚类的广泛部署需要面临数据转换、聚类的初始化、可扩展性等大量的实践的挑战。因此,这篇论文聚焦于使发展中的联合聚类方法更加成熟,并且它的最终目标是促使联合聚类作为各种各样的实际应用中不可缺少的无监督的分析工具。为了完成这样的目标,我们提出了叁项明确的任务:(1)发展联合聚类运算法则使它具有功能性、适应性和扩展性;(2)联合聚类运算法则的扩展适应专门的应用需求;(3)联合聚类运算法则的应用广泛地存在于实际应用领域显现的难题中。就联合聚类的运算法则来说,我们提出了改进的贝叶斯联合聚类算法。它允许在行和列中有混合的类,也就是说聚类的对象既属于一个类,也属于另一个类。这个算法是用指数族的概率分布理论去发现联合聚类生成的类。同时,为了自动估计行和列的类数,文中还提出了基于贝叶斯信息准则的类别数估计算法。关于联合聚类的扩展,我们为一般的联合聚类的方法提出了基于逐步对应分析法的快速联合聚类的框架。它不需要把整个数据矩阵都放进内存里,这对于高维海量数据是至关重要的。这个框架可以使用k-均值、信息论和贝叶斯等不同的联合聚类运算法则。它在执行效率上优于上述运算法则,而与其它方法有差不多的正确率。关于联合聚类的应用,我们扩展了贝叶斯联合聚类的功能来适应特别应用的需求。通过基于逐步对应分析法的贝叶斯联合聚类方法可以从高维海量数据中发现一致的联合聚类,它的目的是对行和列进行选择,然后通过贝叶斯联合聚类算法来同时聚类行和列。最后,我们阐述了该算法框架应用于各种各样仿真的和真实的数据得出的结果。总之,我们介绍了联合聚类算法能发现隐藏的有用的信息,提出了算法的扩展来适应专门的需求,并且将它们应用于广阔的实践领域。(本文来源于《浙江工商大学》期刊2010-01-01)
王永卿[3](2007)在《高维海量数据聚类算法研究》一文中研究指出作为数据挖掘中的一项重要技术,聚类分析具有广泛的应用领域。同时,聚类也是数据挖掘领域中一个相对比较困难的问题,而高维数据集的聚类算法己成为当前研究的热点。由于“维度困扰”的存在,目前绝大多数算法在高维数据空间的情况下都无法得到理想的效果。此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题。目前,子空间聚类算法是对大规模、高维数据集聚类的有效方法之一。本论文的研究工作着重分析了传统聚类算法在处理大规模、高维数据集的困难和问题,比较了高维数据集聚类方法的优劣,从理论上论证了子空间聚类算法在处理大规模、高维数据集的优势。在此基础上,进一步对已有的子空间聚类算法ENCLUS进行了分析,指出ENCLUS算法存在的若干不足,即:ENCLUS在划分网格时没有或者很少考虑数据的分布,而且可能稀疏网格中的数据点会错误的作为孤立点处理,为此,我们在论文研究工作中提出了优化的基于网格的聚类算法(OGBS),通过对网格进行二分以得到平滑的类边界,同时更好的防止了数据点的误分。我们将此算法应用于面向广西区土地分类项目中,并结合高光谱遥感数据的空间连续性的特点,利用数据点的空间相邻性进行孤立点检测,得到了更加精准的聚类结果,为更好的利用广西区的土地、环境和气候资源提供了更好的现实依据。本文从理论和实验两方面证明了在处理大规模、高维数据集时,算法OGBS比算法ENCLUS在聚类的精度上有了很大的提高,可以得到平滑的边界,在时间效率上没有太大的变化。(本文来源于《广西大学》期刊2007-06-01)
汪国平,吴学礼,陈斌,马志刚,董士海[4](2002)在《高速网上3维海量地形数据的实时交互浏览的实现》一文中研究指出针对高速网上 3维海量地形数据传输和显示特点 ,提出了一套海量地形数据处理、存储方法 ,包括数据的预处理和数据的存储结构 ,数据存储有利于高速网络访问 ;并根据人的视觉生理特征 ,提出了一种多分辨率地形表示模板形式 ,较好地处理了实时交互浏览地形的真实感和巨大数据需求之间的冲突。设计了一种适合网络实时传输海量地形数据的传输协议 ,使系统充分利用网络带宽同时又不浪费带宽。通过在中国高速互联试验网络NFSCNet上的大量演示 ,表明所提出的技术方案是切实可行的 ,证明了高速网对 3维海量地形实时交互浏览的必要性和可行性。(本文来源于《测绘学报》期刊2002年01期)
大维海量数据论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
联合聚类是新近的无监督的数据分析的范例,但是它变得日益流行是由于它发现隐藏的局部模式的潜力,和通常的无监督的运算法则比如说k-均值发现聚类不同。联合聚类的广泛部署需要面临数据转换、聚类的初始化、可扩展性等大量的实践的挑战。因此,这篇论文聚焦于使发展中的联合聚类方法更加成熟,并且它的最终目标是促使联合聚类作为各种各样的实际应用中不可缺少的无监督的分析工具。为了完成这样的目标,我们提出了叁项明确的任务:(1)发展联合聚类运算法则使它具有功能性、适应性和扩展性;(2)联合聚类运算法则的扩展适应专门的应用需求;(3)联合聚类运算法则的应用广泛地存在于实际应用领域显现的难题中。就联合聚类的运算法则来说,我们提出了改进的贝叶斯联合聚类算法。它允许在行和列中有混合的类,也就是说聚类的对象既属于一个类,也属于另一个类。这个算法是用指数族的概率分布理论去发现联合聚类生成的类。同时,为了自动估计行和列的类数,文中还提出了基于贝叶斯信息准则的类别数估计算法。关于联合聚类的扩展,我们为一般的联合聚类的方法提出了基于逐步对应分析法的快速联合聚类的框架。它不需要把整个数据矩阵都放进内存里,这对于高维海量数据是至关重要的。这个框架可以使用k-均值、信息论和贝叶斯等不同的联合聚类运算法则。它在执行效率上优于上述运算法则,而与其它方法有差不多的正确率。关于联合聚类的应用,我们扩展了贝叶斯联合聚类的功能来适应特别应用的需求。通过基于逐步对应分析法的贝叶斯联合聚类方法可以从高维海量数据中发现一致的联合聚类,它的目的是对行和列进行选择,然后通过贝叶斯联合聚类算法来同时聚类行和列。最后,我们阐述了该算法框架应用于各种各样仿真的和真实的数据得出的结果。总之,我们介绍了联合聚类算法能发现隐藏的有用的信息,提出了算法的扩展来适应专门的需求,并且将它们应用于广阔的实践领域。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
大维海量数据论文参考文献
[1].张净,孙志挥,宋余庆,倪巍伟,晏燕华.基于信息论的高维海量数据离群点挖掘[J].计算机科学.2011
[2].叶冲轶.高维海量数据联合聚类算法的研究与应用[D].浙江工商大学.2010
[3].王永卿.高维海量数据聚类算法研究[D].广西大学.2007
[4].汪国平,吴学礼,陈斌,马志刚,董士海.高速网上3维海量地形数据的实时交互浏览的实现[J].测绘学报.2002