导读:本文包含了概率数据流论文开题报告文献综述及选题提纲参考文献,主要关键词:数据流,能量函数,概率,优化算法
概率数据流论文文献综述
毕安琪,董爱美,王士同[1](2016)在《基于概率和代表点的数据流动态聚类算法》一文中研究指出为了解决数据流动态聚类问题,提出了一种概率化的基于代表点聚类算法.首先,基于概率框架给出了AP(affinity propagation)聚类算法和EEM(enhancedα-expansion move)聚类算法的联合目标函数,提出了概率化的基于代表点聚类算法;其次,根据样本与其代表点之间的概率,提出了基于概率的漂移动态α-expansion数据流聚类算法.该算法使得新数据的代表点尽可能贴近原始数据的代表点,从而提高聚类性能;另一方面,考虑到原始数据与新数据的相似性,该算法能够处理2种漂移过程中的动态聚类问题:1)新数据与原始数据分享部分数据,其余数据与原始数据相似;2)没有相同的数据,新数据与原始数据有相似关系.在人工合成数据集D31,Birch3以及真实数据集Forest Covertpye,KDD CUP99的实验结果均显示出了所提之算法能够处理数据流聚类问题,并保证聚类性能稳定.(本文来源于《计算机研究与发展》期刊2016年05期)
石中伟,文益民[2](2015)在《基于概率相关性的多标签数据流变化检测》一文中研究指出由于传统的概念漂移检测研究主要针对单标签数据流,对现实中常见的多标签数据流却缺乏足够的关注,多标签数据流概念漂移检测问题有待进一步的研究。因此,通过分析多标签数据流中存在的特殊依赖关系,提出了一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移的产生原因出发,利用概率相关性近似描述数据分布来监测新旧数据分布变化,判断概念漂移是否发生。实验结果表明,提出的算法能够比较快速、准确地检测到概念漂移,并在多标签概念漂移数据流分类问题上取得了预期的学习效果。(本文来源于《计算机科学》期刊2015年08期)
许敏,邓赵红,王士同,史荧中[3](2014)在《MMCKDE:基于数据流的m-混合聚类核概率密度估计》一文中研究指出数据流挖掘应用对时间、空间有着较高的要求,因而传统的密度估计方法,如核密度估计法、压缩集密度估计法等并不适用于数据流密度估计.提出一种新颖的面向在线数据流的m-混合聚类核密度估计(m-mixed clustering kernel density estimation,MMCKDE)方法,该方法通过创建MMCKDE节点,用固定个数的混合聚类核获得聚类信息,以代替其他密度估计方法中的所有核.针对数据量不断增加的情况,通过计算Kullback Leibler(KL)距离进行核合并,可进一步以更紧凑的形式表示概率密度估计信息.较之于其他一些方法只能估计整段数据流的密度,MMCKDE方法最终获得的模型不仅适用于整段数据流,还适用于任意时间段上的密度估计.MMCKDE算法同SOMKE算法在不同基准数据集及真实数据集上进行密度估计精度和运行时间的比较.实验结果表明,MMCKDE算法具有更好的性能.(本文来源于《计算机研究与发展》期刊2014年10期)
杨艳艳,赵雷,杨季文[4](2013)在《基于网格索引的数据流子空间概率轮廓查询》一文中研究指出在数据流子空间上的连续概率轮廓查询(CPSQS)基础上,提出一种基于网格索引结构的概率轮廓查询算法。采用适合于子空间轮廓计算的网格索引结构,将数据空间划分成若干个格,利用格间的支配关系,减少对象之间的比较次数。同时挖掘全空间与子空间上格的概率上下界关系,设计有效的剪枝策略提高CPSQS算法的性能。理论分析和实验结果表明,该算法能满足实际应用中用户的个性化查询要求,降低查询响应时间。(本文来源于《计算机工程》期刊2013年02期)
廖国琼,吴凌琴,万常选[5](2012)在《基于概率衰减窗口模型的不确定数据流频繁模式挖掘》一文中研究指出考虑到不确定数据流的不确定性,设计了一种新的概率频繁模式树PFP-tree和基于该树的概率频繁模式挖掘方法PFP-growth.PFP-growth使用事务性不确定数据流及概率衰减窗口模型,通过计算各概率数据项的期望支持度以发现概率频繁模式,其主要特点有:考虑到窗口内不同时间到达数据项的贡献度不同,采用概率衰减窗口模型计算期望支持度,以提高模式挖掘准确度;设置数据项索引表和事务索引表,以加快频繁模式树检索速度;通过剪枝删除不可能成为频繁模式的结点,以降低模式树的存储及检索开销;对每个结点都设立一个事务概率信息链表,以支持数据项在不同事务中具有不同概率的情形.实验结果表明,PFP-growth在保证挖掘模式准确度的前提下,在处理时间和内存空间等方面都具有较好的性能.(本文来源于《计算机研究与发展》期刊2012年05期)
杨艳艳,赵雷,杨季文[6](2012)在《改进的概率数据流上Skyline查询算法》一文中研究指出SOPDS是一种概率数据流上的skyline查询算法,它主要采用网格索引结构,使用概率定界、逐步求精、提前淘汰和选择补偿等启发式规则从时间和空间两个方面进行系统的优化。通过对对象间支配关系的进一步分析,在SOPDS算法的基础上,增加有效的过滤策略和对象身份判定规则,实现了改进的算法(ISOPDS)。实验表明,ISOPDS算法能有效地减少查询响应时间。(本文来源于《苏州大学学报(工科版)》期刊2012年02期)
杨永滔,王意洁[7](2012)在《n-of-N数据流模型上高效概率Skyline计算》一文中研究指出研究概率数据流上的q-skyline计算问题.与只支持滑动窗口数据流模型的已有方法相比,所提出的方法能够支持更为通用的n-of-N数据流模型.采用将q-skyline查询转换为区间树上刺入查询的方法支持n-of-N数据流模型.提出PnNM算法维护支持n-of-N数据流模型所需的相关数据结构,高效处理了不确定对象候选集合更新和区间更新等维护工作;提出PnNCont算法实现连续查询处理.理论分析和实验结果表明,算法能够有效地支持概率数据流n-of-N模型上的q-skyline查询处理.(本文来源于《软件学报》期刊2012年03期)
廖康丽[8](2012)在《面向概率数据流的聚类技术研究》一文中研究指出许多应用场合会动态实时地产生大量数据,如电子商务网站中的点击流,传感器网络和RFID中的实时读数,称这种数据为数据流。由于受到物理设备精度的限制,网络带宽和能量等的影响,这类数据往往具有不确定性,称这类数据流为不确定数据流或概率数据流。概率数据流具有以下特点:(1)数据量巨大,长度无限;(2)实时性强;(3)只能对数据流中的每个数据进行单遍扫描处理,无法保存全部数据进行反复读取;(4)数据流中的每个数据或数据的属性有误差或不确定性。如何对概率流数据进行分析和挖掘处理是一项具有极大挑战性的任务,利用传统的数据挖掘算法往往得不到正确的结果。本文主要研究概率数据流的聚类技术,研究工作主要包括以下几方面:1、分析了概率数据流模型,为后期的概率数据流聚类算法提供了基础。2、针对聚类对象为概率数据流本身,本文提出了一种基于小波概要的并行不确定数据流的聚类算法,简称U-HWT-kmeans。U-HWT-kmeans算法利用离散小波变换并考虑元组不确定性得到概率数据流的小波概要结构,采用期望距离度量流间的距离。3、针对聚类对象为概率数据流内的数据,本文提出了一种基于密度的概率数据流的聚类算法Pdenstream,以发现任意形状的簇。该算法应用了一种称为概率核心簇的“密集”微簇来捕捉概率数据流中的任意形状,并进一步设计了概率密集簇和候选概率密集簇,用于维护和保存数据流中数据分布的密度信息。4、在第3项内容基础上,本文提出了一种滑动窗口下基于密度的概率数据流的聚类算法PWdenstream,以获取当前数据流的特征。该算法将Pdenstream算法扩展到滑动窗口下,将概率核心簇,概率密集簇和候选概率密集簇以聚类特征指数直方图的形式存储,并以指数直方图技术维护其聚类特征,从而实现滑动窗口下的概率数据流聚类。本文提出的算法是对现有概率数据流的聚类技术的有益补充和改进。理论分析和实验表明本文提出的算法能够有效地解决相应问题,与现有概率数据流聚类算法相比,本文提出的算法在聚类空间开销、聚类速度以及聚类结果准确性上具有一定的优势。(本文来源于《宁波大学》期刊2012-01-11)
聂艳明,李战怀,陈群[9](2011)在《针对不确定射频识别数据流的改进概率推导方法》一文中研究指出针对射频识别(RFID)数据存在漏读和交叉读而导致所提供的位置信息不准确,以及RFID数据与上层应用需求之间存在的信息鸿沟,提出了一种可以处理RFID交叉读问题的改进的RFID数据推导方法.该方法利用动态图模型并辅以历史RFID识读,从不确定RFID数据流上有效捕获对象的当前状态,采用基于熵的方法推导对象的最可能位置与包含,并且利用仿真物流仓库的RFID模拟数据进行算法评价.实验结果显示,该方法在获得准确推导结果的同时,能确保其高效性.对于常见RFID部署,位置推导和包含推导的错误率都可以控制在10%以内,针对超过17万个节点的推导所用时间小于1s,采用修剪措施后内存使用低于700MB.(本文来源于《西安交通大学学报》期刊2011年12期)
陈丽娟[10](2011)在《基于概率密度网格结构的不确定数据流聚类算法研究》一文中研究指出近年来,国内外学者对不确定数据流的聚类问题进行了大量的研究,但仍有不少问题尚待解决。大多数不确定数据流聚类算法不能在线得到精确的聚类结果;现有算法采用固定划分网格的方法,不能有效处理边界点;已有基于网格的算法,对概率密度网格单元缺少有效的存储结构。这些问题的研究对于不确定数据流的聚类分析以及在具体领域的应用都具有重要的意义。首先,为了实现对不确定数据流的在线聚类,提出了一种基于概率密度网格结构的不确定数据流聚类算法。该算法采用计数型滑动窗口,以反映不确定数据流的当前情况。同时,采用概率密度网格的存储结构,以使算法能够发现任意形状的簇。另外,还定义网格概率密度相似度,以实现初始化及更新聚类,提高算法的实时性。其次,为了更好地处理边界点问题,提出了一种基于可调整的概率密度网格结构的不确定数据流聚类算法。该算法采用可调整的概率密度网格技术来处理稀疏网格单元,以提高聚类质量。同时,还定义概率密度网格聚类特征用以存储不确定数据流的概要信息。另外,在概率密度的定义中引入时间衰减因子,以降低历史数据对聚类结果的影响。最后,为了有效存储网格单元,提出了一种基于概率密度网格树的不确定数据流聚类算法。该算法将一种树型概要数据结构引入到不确定数据流聚类算法中。首先把不确定元组按其属性值分配到一棵多叉树中,以消除空网格对聚类结果的影响。同时,设置时间间隔,以提高算法的执行效率。另外,还引入噪音阈值函数,以有效发现噪音叶子节点。本文通过实验对上述提出的算法进行验证,并与已有经典算法进行比较分析。(本文来源于《燕山大学》期刊2011-12-01)
概率数据流论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
由于传统的概念漂移检测研究主要针对单标签数据流,对现实中常见的多标签数据流却缺乏足够的关注,多标签数据流概念漂移检测问题有待进一步的研究。因此,通过分析多标签数据流中存在的特殊依赖关系,提出了一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移的产生原因出发,利用概率相关性近似描述数据分布来监测新旧数据分布变化,判断概念漂移是否发生。实验结果表明,提出的算法能够比较快速、准确地检测到概念漂移,并在多标签概念漂移数据流分类问题上取得了预期的学习效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
概率数据流论文参考文献
[1].毕安琪,董爱美,王士同.基于概率和代表点的数据流动态聚类算法[J].计算机研究与发展.2016
[2].石中伟,文益民.基于概率相关性的多标签数据流变化检测[J].计算机科学.2015
[3].许敏,邓赵红,王士同,史荧中.MMCKDE:基于数据流的m-混合聚类核概率密度估计[J].计算机研究与发展.2014
[4].杨艳艳,赵雷,杨季文.基于网格索引的数据流子空间概率轮廓查询[J].计算机工程.2013
[5].廖国琼,吴凌琴,万常选.基于概率衰减窗口模型的不确定数据流频繁模式挖掘[J].计算机研究与发展.2012
[6].杨艳艳,赵雷,杨季文.改进的概率数据流上Skyline查询算法[J].苏州大学学报(工科版).2012
[7].杨永滔,王意洁.n-of-N数据流模型上高效概率Skyline计算[J].软件学报.2012
[8].廖康丽.面向概率数据流的聚类技术研究[D].宁波大学.2012
[9].聂艳明,李战怀,陈群.针对不确定射频识别数据流的改进概率推导方法[J].西安交通大学学报.2011
[10].陈丽娟.基于概率密度网格结构的不确定数据流聚类算法研究[D].燕山大学.2011