导读:本文包含了子树挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:数据挖掘,频繁模式挖掘,频繁子树
子树挖掘论文文献综述
唐知毅[1](2016)在《闭合频繁子树挖掘算法研究》一文中研究指出互联网技术飞速发展使我们进入了一个大数据时代,大数据应用已经无时无刻、无处不在地改变着我们的日常生活。伴随着互联网技术的深入应用,互联网上的半结构化数据急剧增加,如何高效地挖掘利用半结构化数据已经成为了学术界的研究热点。随着频繁模式挖掘算法的不断发展,对树结构进行挖掘已经成为处理半结构化数据的有效手段。对频繁子树的挖掘,能够有效地提取半结构化数据中隐藏的信息,因而被广范应用于医疗、互联网、通信、生物信息、web挖掘等领域中。本文主要研究闭合频繁子树挖掘算法,文中提出了一种闭合频繁子树挖掘算法——PCTM算法。PCTM算法采用了模式增长策略,算法的主要思想是对数据集中的数据,从频繁度最大开始,逐步降低频繁度,在每次迭代中,将满足本次频繁度的边进行压缩,每轮将挖掘被压缩的树结构中的频繁子树。在频繁度逐步下降的过程中,每棵树结构都会被压缩,当树结构的所有边都被处理完成时,整棵树会被压缩为一个节点。当数据集中的所有树都压缩完成时,算法终止从而得到了所需要的频繁子树集合。PCTM算法采用了一种自上而下的方法,先从最大的支持度的边开始,不断地处理大支持度的边,同时,由于采用了压缩的树结构模型,每次迭代的过程中,可以压缩处理多条边而不是一次产生处理一个节点,这样在算法的过程中,会快速的处理多个节点,提高了算法的效率。在得到压缩的子结构后,对于整体不是频繁的子结构,需要判断该子结构是否含有频繁子树,通过前缀匹配的方法,依次以该压缩结构中的节点作为根节点,来生成频繁子树。在每次构建新的频繁子树的过程中,依次将不频繁子结构中的节点作为根节点来寻找可能的频繁子树,在较小的数据集上挖掘频繁子树,有效地降低了问题的复杂度,保证了算法能够快速地挖掘所有可能的频繁子树。最后在人工生成数据和真实数据集上进行实验,验证了PCTM算法的可行性与高效性。(本文来源于《吉林大学》期刊2016-10-01)
雷向欣,杨智应,黄少寅,胡运发[2](2012)在《XML数据流分页频繁子树挖掘研究》一文中研究指出随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率.(本文来源于《计算机研究与发展》期刊2012年09期)
唐德权,谢文君[3](2012)在《一种新的频繁子树挖掘算法研究与实现》一文中研究指出为提高频繁子树挖掘算法效率,结合原有频繁子树挖掘算法FSubtreeM的相关技术提出了新的全局树引导结构及其相关引理,并证明了其正确性。最后提出了新的频繁子树挖掘算法FSM_CGTG,并通过实验证明了该算法在现实数据集上的有效性且比现有频繁子树挖掘算法FSubtreeM性能优越。(本文来源于《计算机应用与软件》期刊2012年04期)
吴小科[4](2012)在《快速高效挖掘最大化频繁子树的研究》一文中研究指出互联网的快速发展,使得网络通信已成为当前一种最重要的信息传递和交换的手段。数据量快速递增,并且大多数以半结构化形式存在。同时,树形结构的数据又是半结构化数据中最常用且重要的特征数据。因此,如何快速高效地从海量数据中挖掘具有相关特征的有趣的信息-频繁子树,并进而获得包含完整信息的最大化频繁子树已经成为当前重要的研究课题。本文提出了一种基于融合压缩技术和FP树原理的最大化频繁子树挖掘新算法-MFPTM算法。MFPTM算法首先对原数据集进行融合压缩预处理,删除不频繁的节点,然后根据FP树原理挖掘最大化频繁子树,从而解决基于Apriori的频繁子树算法的不足之处:连接步生成大量的候选项集,其中包含有许多的实际不存在的候选子树;重复扫描数据库,导致I/O开销大。这样不仅可以避免产生大量的实际不存在的候选子树,而且可以避免重复扫描数据库,在一定程度上提高了挖掘的效率。考虑到当前数据量递增的现状,如何能够充分利用先前计算结果又是提高挖掘效率的关键。因此,在原数据集预处理过程中,本文通过保留先前原数据集的计算结果,直接为后续数据集的挖掘提供其包含的信息,从而避免了重复计算的问题,缩短了一定的挖掘时间。通过实验结果分析,MFPTM算法在频繁子树总数和时间效率上都是优于PathJoin算法。因此,我们得出的结论是MFPTM算法作为一种可行有效的算法,提高了频繁子树挖掘的效率。本文在频繁子树挖掘方面开展了相关研究工作,并取得了相应的研究成果,公开发表了论文。(本文来源于《吉林大学》期刊2012-04-01)
韩心慧,龚晓锐,诸葛建伟,邹磊,邹维[5](2011)在《基于频繁子树挖掘算法的网页木马检测技术》一文中研究指出针对目前互联网安全的主要威胁之一网页木马,基于网页木马的树状链接结构特征,引入频繁子树挖掘算法,对前期积累的4万多个恶意网页木马场景进行子树模式挖掘,提取了35个网页木马场景共同子树结构特征,利用这些特征在网页木马动态分析过程中辅助检测。实验表明:在加入基于子树特征的检测方法判定的网页木马中,动态检测方法有近20%的漏报。因此,基于子树特征的检测方法有效地提高了动态检测的检测能力和效率,同时挖掘出的典型子树模式提供了网页木马分类和溯源的依据。(本文来源于《清华大学学报(自然科学版)》期刊2011年10期)
周溜溜,业宁,徐升,严敏利[6](2011)在《基于频繁子树挖掘的DNA重复序列识别方法》一文中研究指出提出了一种基于频繁子树挖掘策略说我DNA重复序列识别方法.绕开了传统的序列比对方式,将序列按照后缀树结构方式进行组织,再对后缀树形式做了约减改进,使其更加适合子树挖掘操作,最后利用频繁子树挖掘的方法对其进行学习.算法可以直接识别出满足设定阈值的重复序列,避免了由短重复体拼接所造成的时间浪费,设计的"二次识别技术"使得算法对模糊重复体也有着很好的识别效果,提高了识别完整度.实验证明:算法在识别效率性能方面较升,尤其当识别较长重复体时,优势体现的更为明显,同时在识别完整度方面也高度可比.(本文来源于《微电子学与计算机》期刊2011年09期)
李娟,杨珺[7](2011)在《基于分区的频繁子树挖掘算法研究》一文中研究指出针对基于模式增长原理的嵌入式子树挖掘算法——TreeGrowth(TG)算法挖掘子树过大与内存消耗大缺点,在分区挖掘思想的基础上,提出了一种新算法——PTG(partition tree growth)算法。PTG算法将数据库划分成多个分区,先用TG算法进行挖掘,得到每个分区的局部频繁子树。根据全局支持数进行筛选,得到全局频繁子树,有效地减少了挖掘的子树,有效地降低了内存的开销。仿真实验结果表明,PTG算法能够解决在大数据集上挖掘时出现内存空间不足的问题,验证了其有效性与健壮性。(本文来源于《计算机工程与设计》期刊2011年06期)
郭鑫,董坚峰,周清平[8](2011)在《动态数据库中的频繁子树挖掘算法》一文中研究指出针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支持度计算方法和子树搜索空间,从而解决了数据动态变化的频繁子树挖掘问题。随着子树搜索的进行,算法定义裁剪公式和混合数据结构,能有效地减少子树搜索空间和提高频繁子树的同构速度。实验结果表明,新算法有效可行,且具有较好的运行效率。(本文来源于《计算机科学》期刊2011年05期)
张亚萍[9](2011)在《树型数据流中内置无序闭子树挖掘算法》一文中研究指出随着信息技术的发展,流数据挖掘是数据挖掘中具有挑战性的问题之一。实时应用中通常会形成大量的数据流,比如传感网络中的传感数据,web中的web记录等等。传统“先存储后处理”的数据挖掘技术不能解决流数据速度快,不能重复扫描,数据量大等特性,对于数据流数据挖掘已经越来越力不从心。而树型数据流是数据流中应用最广的领域之一,因此在树型数据流中挖掘频繁的子树是非常有用的。候选子树数目和支持度计算效率一直是影响树型数据流中频繁子树挖掘的主要因素。本文首先从理论上提出线性扩展策略,该策略可以简单确定待插入结点的位置和新候选子树的二项编码;然后提出数据结构全属向导LTPS,基于该数据结构提出广度线性扩展算法DFLinApri,该算法可枚举树型数据流中内置无序闭子树,并可有效计算候选子树的支持度,但该算法产生冗余闭子树;最后提出基于数据结构部属向导LTD的算法深度线性扩展算法BFLinApri,算法BFLinApri对算法DFLinApri进行改进,消除冗余。本文实验分别采用合成数据集F5、D10和真实数据集cslogs。实验结果表明本文的两个算法在F5和D10这两个不同规模的数据集上时间效率比PrefixTreeISpan和TreeMine都有明显提高,产生的闭子树数目比PrefixTreeISpan产生的频繁子树数目明显减少。在数据集cslogs上BFLinApri的耗时是TreeMiner的1/2。(本文来源于《郑州大学》期刊2011-05-01)
陈建国[10](2011)在《基于频繁子树序列的挖掘方法研究》一文中研究指出由于在频繁项集和频繁序列挖掘方法上取得的成功,数据挖掘技术越来越多地转向结构化模式挖掘问题——频繁子图(子树)挖掘,尤其是从有序标号图中挖掘完整的频繁子图序列变得很普遍,但是针对从树序列数据库中挖掘树的频繁子序列的方法很少。目前,随着互联网和数据库技术的迅猛发展,频繁子图(子树)序列挖掘广泛应用于生物信息、WEB日志、XML、化合物结构分析等方面。本文在对频繁子树和频繁序列挖掘研究的基础上,通过定义由子树构成的序列,尝试性地提出一种挖掘频繁子树变换序列(Transformation Rule)的方法。首先,在一个由子树构成的序列中,提出一种子树序列中任意连续的两棵子树之间的转换规则,从而将一个子树序列表示为其子树转换序列。为了保证生成候选规则序列的唯一性,提出一种可采纳性定理。其次,从子树序列到子树变换序列,给出了其转换的算法。最后,针对子树变换序列,通过定义并树(Union Tree)及映射函数(Proj)的概念,提出一种挖掘频繁变换子树序列的方法TreeFTSSMiner(Tree Frequent Transformation Sequences Miner)并给出其算法。在对实验结果进行分析的基础上提出下一步的工作内容。(本文来源于《兰州大学》期刊2011-05-01)
子树挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
子树挖掘论文参考文献
[1].唐知毅.闭合频繁子树挖掘算法研究[D].吉林大学.2016
[2].雷向欣,杨智应,黄少寅,胡运发.XML数据流分页频繁子树挖掘研究[J].计算机研究与发展.2012
[3].唐德权,谢文君.一种新的频繁子树挖掘算法研究与实现[J].计算机应用与软件.2012
[4].吴小科.快速高效挖掘最大化频繁子树的研究[D].吉林大学.2012
[5].韩心慧,龚晓锐,诸葛建伟,邹磊,邹维.基于频繁子树挖掘算法的网页木马检测技术[J].清华大学学报(自然科学版).2011
[6].周溜溜,业宁,徐升,严敏利.基于频繁子树挖掘的DNA重复序列识别方法[J].微电子学与计算机.2011
[7].李娟,杨珺.基于分区的频繁子树挖掘算法研究[J].计算机工程与设计.2011
[8].郭鑫,董坚峰,周清平.动态数据库中的频繁子树挖掘算法[J].计算机科学.2011
[9].张亚萍.树型数据流中内置无序闭子树挖掘算法[D].郑州大学.2011
[10].陈建国.基于频繁子树序列的挖掘方法研究[D].兰州大学.2011