近似挖掘论文-窦建凯

近似挖掘论文-窦建凯

导读:本文包含了近似挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:图数据挖掘,频繁子图挖掘,近似,剪枝

近似挖掘论文文献综述

窦建凯[1](2019)在《单图中子图大小相关的近似频繁子图挖掘》一文中研究指出图数据是大数据时代中十分重要的角色,其在各种场景中有着十分广泛的应用,如社交网络、蛋白质交互网络、合作关系网络等。本文主要研究的是图数据上的模式挖掘,研究目的是实现从图数据中挖掘频繁近似子图。目前在频繁子图挖掘领域的工作已经有很多,然而已有的工作要么没有考虑子图与其出现的相似程度,要么在考虑相似程度时忽略了候选子图大小对相似程度的影响。然而,根据人的感知,不同大小的图应具有不同程度的容错性,类似的,子图的大小对计算子图与其出现的相似程度也会有十分重要的影响。因此,本文设计了子图大小相关的频繁近似子图挖掘策略,提出了一种新的、快速的频繁近似子图挖掘算法。算法不仅在计算子图的频繁程度时考虑与子图的近似出现,同时在计算子图与其出现的相似程度时,考虑子图的大小对近似程度的影响。首先,对于候选频繁近似子图的生成,本文设计了一种不遗漏的遍历方式,遍历给定单图的全部子图。为了提高遍历的效率,降低候选频繁近似子图的数量,对频繁近似子图的大小上限进行了估算,并利用大小上限过滤遍历中的子图,对遍历过程进行剪枝。实验证明了子图的上限对遍历效率具有提升效果。其次,为提高算法效率,本文归纳出对于所有的频繁近似子图,其支持度符合“局部反单调性”,且在文中给出了证明。并利用该性质,设计了对候选频繁近似子图进行剪枝的策略,降低了需要进行近似匹配的候选子图的数量。实验证明,该性质对可以显着提升算法效率。再次,对于候选频繁近似子图的近似子图生成,本文设计了基于点和边的删除策略的近似子图生成算法。并通过理论证明,仅通过统计该算法产生的近似子图在给定图中的匹配,并计算这些匹配的支持度,可以得到与统计候选频繁近似子图的所有近似匹配相同的支持度。接着,通过与已有算法的实验对比,证明本文算法在效率上具有明显优势,同时,通过简单案例说明,本文算法能发现传统频繁子图挖掘算法无法发现的频繁子图,进一步表明在挖掘频繁子图时考虑近似关系,与子图大小对近似程度的影响的必要性。最后,修改本文算法,提出了针对频繁闭合近似子图和频繁极大近似子图的挖掘算法,提高了本文研究的完整性,扩展了算法应用场景,并通过实验证明了两种算法的有效性。(本文来源于《华东师范大学》期刊2019-05-06)

姜华,周克江[2](2019)在《一类多粒度近似周期关联规则问题的挖掘研究》一文中研究指出研究一类在多粒度时间下单事件同属性不同状态之间有一定关联的近似周期规律挖掘问题。给出了多粒度近似周期关联规则模型形式化的数学定义和性质,构造了相关模型,提出了利用聚类算法挖掘周期模式并应用于股票数据进行实验,实验结果表明算法是有效的。(本文来源于《计算技术与自动化》期刊2019年01期)

高琳琳[3](2018)在《面向脑部医学图像的频繁近似子图挖掘与分类方法的研究》一文中研究指出自2002年起,脑部疾病已成为导致全球人类死亡的第二大病因。在脑部疾病诊断过程中,脑部医学图像能够以非侵入的方式对正常和不正常的脑部结构进行清晰的可视化,从而成为医生进行脑部疾病诊断的重要工具之一,这也使医院产出大量的脑部医学图像。这些急速增长的图像促使研究由假设驱动的研究模式转变为数据驱动的研究模式,从而使面向脑部医学图像的计算机辅助分析成为健康医疗大数据领域的一个重要研究分支。在脑部医学图像分析领域,如何有效地从图像中提取特征一直是热点研究。目前图像特征主要分为两类:人工设计的特征和自动学习的特征。人工设计的特征包括高水平语义特征和低水平视觉特征。图像中的对象及其之间的空间拓扑关系是图像的高水平语义特征,常用的表示方法为图模型。但是,现存的面向医学图像的图模型没有考虑大脑左右半球的对称性与连通性,且针对脑部医学图像的重要模式挖掘也没有得到很好地研究。角点能够以较少的信息来描述图像的形态和灰度变化,是一种高效的医学图像低水平视觉特征。目前,基于角点的脑部医学图像分析主要是针对图像进行配准,利用角点对脑部医学图像进行分类仍没有有效地研究。以上两种研究均是基于人工设计的特征对脑部医学图像进行分析。基于深度学习的图像分析方法直接以图像作为输入进行特征的自动学习,无需任何预定义的人工特征。在深度学习模型中,卷积神经网络在一般图像(例如景物等)上的识别能力已超过人类。目前存在一些基于卷积神经网络的脑部医学图像研究,但它们存在如下不足:(1)大部分研究以经过一系列复杂预处理之后的数据作为输入,而不是直接以脑部医学图像作为卷积神经网络的输入;(2)这些研究均是面向横向医学图像进行的研究,纵向医学图像可以很好地展示病变特征。针对以上不足,本论文提出叁方面的研究,具体研究内容如下:(1)结合脑部特征,本论文提出面向脑部医学图像的图建模和频繁近似子图挖掘方法,用来辅助医生对特定疾病进行分析,找到疾病的原发病因以及潜在的治疗方案,且挖掘出来的频繁近似子图也是其它图像分析方法的基础。具体而言,首先,结合大脑左右半球的对称性与连通性,本论文提出一个基于侧脑室和病变区域的拓扑关系图来表示脑部医学图像;其次,结合大脑中不同区域之间的不可比性,本论文提出一种基于图编辑距离的频繁近似子图挖掘方法;最后,为提高挖掘方法的执行效率,本论文提出一种基于贪心策略的近似挖掘方法。实验表明,本研究提出方法与同类方法相比,具有较高的执行效率和良好的扩展性。(2)结合脑部医学图像的诊断信息,本论文提出一种基于角点检测与匹配的脑部医学图像分类方法,用于辅助医生进行诊断。具体而言,首先,结合医生对脑部医学图像进行诊断时给予不同区域不同的关注这一诊断信息,本论文提出一种基于多层纹理图像的角点检测方法;其次,结合大脑的稳定性和不确定性,本论文给出初始匹配角点对序列,但是此序列存在冗余信息,为此提出利用二分图求解最终匹配角点对序列的方法;最后,根据角点匹配的结果,本论文给出图像的相似度计算公式,并结合最近邻模型对脑部医学图像进行分类。实验表明,本研究提出的方法与同类方法相比具有较好的准确度和召回率以及较高的执行效率和鲁棒性。(3)结合现存的深度卷积神经网络和循环神经网络模型,本论文提出一个基于纵向脑部医学图像深度学习特征的疾病分类方法,用于更精准的计算机辅助诊断。具体而言,首先,本论文对最先进的深度卷积神经网络模型进行迁移学习,从脑部切片图像中提取特征;其次,利用词袋模型整合切片图像特征,得到纵向图像特征;最后,设计一个循环神经网络从纵向图像特征中学习疾病的变化特征,用于更准确的辅助诊断。实验表明,本研究提出的方法取得了较高的分类准确率和较好的执行效率(本文来源于《哈尔滨工程大学》期刊2018-04-19)

吴瑕,唐祖锴,祝园园,彭煜玮,彭智勇[4](2018)在《近似到达时间约束下的语义轨迹频繁模式挖掘》一文中研究指出随着GPS定位技术的不断发展与智能移动设备的普及,轨迹数据的获取变得越来越容易,同时,轨迹数据相关应用的需求也逐渐增多.在轨迹数据上加入语义信息,可以得到体积较小、质量较高、能够更好地反映用户行为的语义轨迹,在其上实现旅游线路推荐、路线预测、用户生活模式挖掘、朋友推荐等应用,可以更好地满足用户需求.挖掘语义轨迹的频繁模式是实现这些应用的技术基础,而在很多情况下,用户对语义轨迹频繁模式常存在到达时间方面的需求,比如按特定时间游玩热门景点的同时需要按时到达车站候车.现有的语义轨迹模式挖掘方法大多没有考虑到达时间的约束,挖掘出的频繁模式缺少到达时间信息;少数方法考虑了精确的到达时间,但因为约束太强会导致无法挖掘到频繁的模式.因此,首次对近似到达时间约束下的语义轨迹频繁模式(approximatearrival-time constrained frequent pattern,简称AAFP)挖掘方法进行了研究,并给出了其形式化定义;通过时间轴划分提出了挖掘AAFP的基线算法,并通过建立索引AAP-tree提出了改进后的高效、灵活的AAFP挖掘算法;之后提出了信息熵增量公式,并给出了时间轴划分及AAP-tree的高效维护方法;最后在真实数据集上进行实验,验证了方法的有效性及高效性.(本文来源于《软件学报》期刊2018年10期)

张旭东[5](2017)在《基于最小哈希方法的多元时间序列近似关联规则挖掘》一文中研究指出随着各行各业产生的数据规模不断增长,当传统的关联规则挖掘算法直接应用到大规模数据上时,往往不能及时地从数据中发掘出知识。时间序列数据作为一种典型的流数据,具有海量性、生成速率快等特点,并且数据中的知识会随着时间的推移而发生改变。因此,关联规则挖掘算法应用于时间序列时,算法效率低的问题变得尤为突出。为解决这一问题,一些研究者提出挖掘近似关联规则的方案。虽然近似规则对比原始规则具有一定的误差,但是却可以节省关联规则挖掘算法执行时间,在许多实际场景下比精确挖掘更加实用。目前国内外已有一些关于近似关联规则挖掘的研究,其中大部分研究都采用传统关联规则算法配合数据采样的方式进行。采样是一种获取近似规则的简单有效手段,但具有过于依赖数据集的问题。不同的类型的数据集、样本集与样本集之间都是存在着信息差异的。因此,取样方法可能对一些数据效果好,但对另一些的数据集效率不好。并且多数近似关联规则算法是基于Apriori算法进行的研究,由于该算法本身计算复杂,所以近似之后效率仍然相对比较低。本文基于最小哈希技术和传统关联规则算法Eclat,提出了一种新型的近似关联规则挖掘算法Hash Eclat。该算法使用最小哈希技术估算集合之间交集的大小,克服了Eclat算法计算频繁项集效率低的问题。衡量一个近似算法设计的优劣主要是看速度有多少提升和误差是否可控。通过理论分析和对比实验,证明了Hash Eclat算法的近似误差可以根据需求控制在合理的范围内,并且相对于其他近似关联规则挖掘算法,Hash Eclat在挖掘速度方面具有明显的优势。为了进一步验证近似关联规则的有效性,本文对比了原始关联规则与近似关联规则在对时间序列预测时的准确度差异。实验表明,近似关联规则在预测时与原始关联规则差异很小。但是由于关联规则挖掘时需要从原始数据中提取出事务集,所以直接将关联规则用于时间序列预测问题会导致一些时间序列特征的丢失。这些特征,例如序列先后顺序和形状等,对最终预测结果有着重要的影响。针对这一问题,本文提出一种基于动态时间弯曲的关联规则预测算法Sim TSConf。该算法结合时间序列之间的相似度和关联规则的置信度值,对挖掘到的关联规则进行更加合理的评价。本文通过在实际热电厂的数据上进行对比实验,验证了Sim TSConf算法的有效性。(本文来源于《哈尔滨工业大学》期刊2017-12-01)

聂力海[6](2017)在《不确定数据库的近似极大频繁项集挖掘》一文中研究指出近些年来,概率数据库或不确定数据库广泛地应用到了多个领域中,例如地下煤矿检测、移动物体搜索等。对于一个不确定数据库,其概率频繁项集的挖掘是国内外学者关注的热点问题。为了更好地转译和利用不确定数据库的概率属性,可能世界模型的概念经常被用到。不过,由于一个不确定数据库能产生指数级个可能世界,对于较大规模数据库,直接在可能世界上挖掘极大概率频繁项集是一项极具有挑战性的工作。研究人员提出了一些算法以解决在可能世界上计算代价过大的问题,例如引入动态规划算法(DP)或者分治算法(DC)。这些算法计算的结果和通过可能世界得到的结果是相同的,但是这些方法的效率更高、计算速度更快。原因是这些算法只需要计算项集支持度的概率分布而不是生成所有的可能世界。计算卷积值的时间复杂度为O(nlogn)(n为数据库规模大小),显然,这种方式远比在指数级的可能世界上计算项集的组合高效。不过,随着数据集的增大,动态规划算法(DP)和分治算法(DC)不再十分有效。原因是当数据库规模n足够大时,算法复杂度O(nlogn)也会变得过大。为了解决这个问题,本文提出一种使用近似算法来计算极大概率频繁项集的方法,该方法以较小的精度损失为代价,极大地提高挖掘频繁项集的效率。算法包括两个过程:候选集产生和极大概率频繁项集确认。在候选集的产生阶段,论文结合切诺夫定理得到频繁项集支持度期望的界限,大大降低了频繁项候选集的规模;在极大概率频繁项集确认阶段,论文利用中心极限定理,给出了高效估计项集的频繁度的方法。同时,论文也给出了算法中涉及的相关定理的证明,进一步增强了论文提出算法的理论性和可信性。为了进一步说明算法的有效性和性能,论文在六个不同类型的数据库上进行了数值实验和性能分析。在候选集产生上,论文与经典的Apriori算法进行了比较,分析了数据库规模、支持度阈值等参数对于不同算法的影响;在极大频繁项挖掘上,论文与主流的TODIS-MAX算法进行了比较,从运行时间、频繁项的精确度等方面评价了不同算法的优缺点。大量的实验结果表明,论文提出的算法有效地降低了频繁项候选集的规模,以较小挖掘精度的损失为代价,极大地提高的极大概率频繁项集的挖掘效率。(本文来源于《大连海事大学》期刊2017-12-01)

袁二毛[7](2017)在《生物序列近似频繁模式挖掘研究》一文中研究指出随着生物信息学的快速发展,人类基因、蛋白质测序的实施和完成,积累了大量的生物数据。从生物数据中挖掘频繁模式有助于发现生物序列中潜在的信息、生物基因和蛋白质同源性的检测等。生物序列中频繁模式的挖掘已经成为生物信息领域研究的重要任务。本文深入研究了生物序列中带可变长度间隔约束的近似频繁模式挖掘问题,序列之间相似性的度量使用了编辑距离和生物字符间的评分。此外,本文定义了插入、替换和删除字符叁种近似操作,克服了已有的近似频繁模式挖掘算法仅仅包含替换字符一种近似操作的不足。本文的主要工作如下:(1)给出了包含插入、替换和删除字符的叁种近似操作的定义,及近似模式匹配与挖掘的相关定义。为了使用模式的出现频率判断该模式是否是频繁模式,本文给出了近似模式匹配中补偿序列数(N_(l,editmax))的推导。由于带可变长度的近似频繁模式挖掘具有较大的候选解空间,本文设计了Apriori-like剪枝策略用于降低候选解空间的维度。(2)本文基于编辑距离度量序列间的相似性,设计了编辑距离矩阵(A-EDM)和其构造函数,编辑距离矩阵记录了模式子字符串与序列子字符串之间的最小编辑距离(误差)。在A-EDM的基础上,本文设计了候选模式解集合的矩阵结构(MST)和近似模式匹配算法(APM)计算模式在序列中的近似出现次数和出现位置。然后本文给出了近似频繁模式挖掘算法(MAPA),当编辑距离阈值edit_(max)=0时,MAPA算法转变为精确频繁模式挖掘算法。(3)为了对生物序列频繁模式的挖掘更具有针对性,本文在编辑距离约束的基础上结合了生物字符的评分矩阵,设计了模式与序列之间的匹配得分矩阵(MSM),MSM中记录了模式子字符串与序列子字符串之间的最大匹配得分。基于MSM,本文设计了针对生物序列的近似模式匹配方法(S-APM),S-APM采用回溯MSM的方式计算模式在序列中的近似出现次数。随后本文给出了针对生物序列的近似频繁模式挖掘算法(MAPS)和多序列共同频繁模式挖掘算法(co-fp-miner)。co-fp-miner算法中对Apriori-like剪枝规则进行了改进,设计了Pruning剪枝策略,Pruning剪枝策略具有较好的剪枝效果。实验验证本文提出的算法较经典的精确频繁模式挖掘算法MPP和近似频繁模式挖掘算法ArpGap具有较好的性能和解的优势。(本文来源于《合肥工业大学》期刊2017-04-01)

任泺锟,李慧嘉,贾传亮[8](2016)在《近似线性时间的社团结构动态演化挖掘算法》一文中研究指出探测网络社团结构对于分析、设计复杂的自然或工程网络至关重要,然而现有的探测技术主要依托于最优化和启发式算法,不能兼顾计算效率和准确性。因此提出了一种基于演化迭代技术的动态社团探测算法,它能准确高效地发现网络中的社团结构。首先引入了一个离散时间的动态系统,通过描述社团划分收敛到特定指标最优的演化轨迹来确定社团划分。接着提出了一个一般化的指标函数,以确定网络中最优的社团数量及最稳定的社团结构。该指标函数极具概括性,改变相应的参数即可引申到各种已广泛应用的指标函数。针对参数选择的困难,利用图生成模型自动确定社团划分的指标函数。此算法效率很高,计算复杂度与稀疏网络中的节点数量呈近似线性关系。最后,在人工和真实网络中进行了大量的仿真实验来测试算法表现,结果显示所提算法能够揭示很多有价值的信息。(本文来源于《计算机科学》期刊2016年S1期)

苗东菁,刘显敏,李建中[9](2015)在《概率数据库中近似函数依赖挖掘算法》一文中研究指出一个近似函数依赖(approximate functional dependency,AFD)是一个几乎成立的函数依赖,目前大部分工作仅限于从一般数据上挖掘近似函数依赖.有时数据是被组织成概率数据的形式,为了从挖掘概率数据中挖掘出可用的近似函数依赖,定义了概率近似函数依赖,它不同于任何一种以往的定义,并给出了在不确定数据中,置信概率的动态规划求解算法,由于动态规划算法复杂度较高,导出了候选依赖的概率下界来进行剪枝,随后给出了基于字典序的挖掘方法以及相应的剪枝策略,最后,在真实和合成的数据集上进行充分的实验,说明了挖掘算法的可扩展性和剪枝策略的高效性,并展示了有趣的挖掘结果.(本文来源于《计算机研究与发展》期刊2015年12期)

郑海雁,王远方,熊政,李昆明,崇志宏[10](2015)在《标签集约束近似频繁模式的并行挖掘》一文中研究指出近似频繁模式衍生于频繁模式,综合了频繁项集与频繁子图的特点。针对该模式的研究集中在无标签图上,其应用场景主要为社交网络、语义网络、智能电网等。近似频繁模式挖掘过程同时涉及频繁项集挖掘和频繁子图挖掘,因此已有的处理频繁模式挖掘算法无法较好地解决近似频繁模式挖掘问题。基于近似频繁模式结构,将其拓展到带标签图中,引入标签集约束,并设计标签集约束近似频繁模式挖掘算法LCPP(Label-Constraint Proximity Pattern),该算法并行部署在Map Reduce计算模型中,弥补了开源p FP算法处理大规模数据时效率不高的缺点。实验结果验证了该算法的有效性和可扩展性,表明了LCPP算法是p FP算法的极佳补充。(本文来源于《计算机工程与应用》期刊2015年09期)

近似挖掘论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

研究一类在多粒度时间下单事件同属性不同状态之间有一定关联的近似周期规律挖掘问题。给出了多粒度近似周期关联规则模型形式化的数学定义和性质,构造了相关模型,提出了利用聚类算法挖掘周期模式并应用于股票数据进行实验,实验结果表明算法是有效的。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

近似挖掘论文参考文献

[1].窦建凯.单图中子图大小相关的近似频繁子图挖掘[D].华东师范大学.2019

[2].姜华,周克江.一类多粒度近似周期关联规则问题的挖掘研究[J].计算技术与自动化.2019

[3].高琳琳.面向脑部医学图像的频繁近似子图挖掘与分类方法的研究[D].哈尔滨工程大学.2018

[4].吴瑕,唐祖锴,祝园园,彭煜玮,彭智勇.近似到达时间约束下的语义轨迹频繁模式挖掘[J].软件学报.2018

[5].张旭东.基于最小哈希方法的多元时间序列近似关联规则挖掘[D].哈尔滨工业大学.2017

[6].聂力海.不确定数据库的近似极大频繁项集挖掘[D].大连海事大学.2017

[7].袁二毛.生物序列近似频繁模式挖掘研究[D].合肥工业大学.2017

[8].任泺锟,李慧嘉,贾传亮.近似线性时间的社团结构动态演化挖掘算法[J].计算机科学.2016

[9].苗东菁,刘显敏,李建中.概率数据库中近似函数依赖挖掘算法[J].计算机研究与发展.2015

[10].郑海雁,王远方,熊政,李昆明,崇志宏.标签集约束近似频繁模式的并行挖掘[J].计算机工程与应用.2015

标签:;  ;  ;  ;  

近似挖掘论文-窦建凯
下载Doc文档

猜你喜欢