分布式序列模式论文-苏云

分布式序列模式论文-苏云

导读:本文包含了分布式序列模式论文开题报告文献综述及选题提纲参考文献,主要关键词:数据挖掘,分布式,序列模式,闭合序列模式

分布式序列模式论文文献综述

苏云[1](2014)在《分布式闭合序列模式挖掘算法的研究》一文中研究指出随着网络技术的不断革新,愈来愈多的数据存储在使用更为普及化的分布式数据库中。怎样从这些大规模分布式存储的数据中挖掘出为实际应用所需要的、可利用的信息已成为当前数据挖掘领域的重点。现有的分布式序列模式挖掘技术在处理分布式储存的大规模序列数据时多数致力于挖掘序列模式完全集,普遍存在运行效率较差等问题。分布式闭合序列模式集的挖掘能够在维系信息完备性的前提下,比分布式序列模式集挖掘愈发精简有效。为此,着重对分布式闭合序列模式挖掘开展了研究。针对挖掘分布式储存的、大规模序列数据时现有分布式序列模式挖掘算法存在的结果集庞大、网络通信开销高问题,并在充分掌握了分布式序列模式挖掘技术及闭合序列模式特性的前提下,首先,提出了基于改进序列树的分布式闭合序列模式挖掘算法。该算法在分布式环境下挖掘闭合序列模式,结果集规模小且无冗余序列模式。同时,该算法采用主从设计模式,主站点和从站点分工协同完成挖掘任务,使算法具有较低的通信开销和较高的并行性。其次,序列的闭合性检测是分布式全局闭合序列模式挖掘中必要且重要的操作,为辅助序列的闭合性检测操作,对序列树进行了改进,并在改进序列树的基础上,利用闭合序列模式的特性,提出了基于改进序列树的闭合性检测方法,该方法极大缩小了搜索空间,有效避免了序列间不必要的包含关系检查。最后,通过实验分析了本文所提算法的性能,实验结果表明了该算法具有较好的执行效率和有效性。综上所述,首先介绍了分布式、闭合序列模式挖掘中涉及的相关概念及技术,然后提出了基于改进序列树的分布式闭合序列模式挖掘算法,而后提出了分布式环境下的序列的闭合性检测方案,并进一步给出了基于改进序列树的序列闭合性检测方法。最后,通过实验验证了本文所提算法的可行性。(本文来源于《辽宁大学》期刊2014-05-01)

郑苏杭[2](2011)在《面向海量交通信息流的分布式序列模式挖掘研究》一文中研究指出近年来,随着我国经济建设持续不断的高速发展和人们生活水平的不断提高,城市机动车保有量连年持续增长,机动车已成为各城镇居民出行的主要交通工具之一。但与此同时,利用机动车进行的违法犯罪活动也越来越多,如:机动车假牌假证、机动车伴随、机动车违章逃逸及盗抢等。由于涉案机动车辆往往具有灵活、隐蔽性强、机动性高等特点,这给公安交警部门对犯罪嫌疑车辆的侦查和追踪增大了难题。目前,随着道路监控技术的发展,我国各大城市普遍布设了车牌识别监控点,其不断积累的交通信息流过车记录为涉案车辆的检测、追踪或预测预警提供了有效的数据支持。序列模式挖掘作为数据挖掘的一个重要研究领域,可用于分析和挖掘带时间特征的交通信息流中隐藏的有价值模式,从而为社会有关部门提供更好的决策与服务。然而,由于交通信息流数据量的不断增大,传统的序列模式挖掘算法在数据存储空间和处理效率上已无法满足实际应用需求,分布式计算平台的出现解决了海量数据的存储和计算瓶颈,从而使针对海量交通信息流的序列模式挖掘成为可能。Hadoop作为一个方便、快速的分布式计算平台,利用分布式文件系统HDFS实现了对大文件或超大文件的存储和容错,并使用MapRedcue编程模型实现了快速运算。但是,由于传统的序列模式挖掘算法只适用于对集中存储的数据进行分析处理,因此如何设计适合在Hadoop平台上运行的分布式序列模式挖掘算法是有效实现海量数据处理的关键。针对分布式平台特性,深入研究序列模式挖掘的具体实现步骤并尽可能增大算法并行化实现部分,有利于提高海量数据的序列模式挖掘效率。本文将基于Hadoop的分布式序列模式挖掘与针对交通信息流领域的实际应用相结合,利用Hadoop分布式平台的优势来解决传统序列模式挖掘在海量数据处理上的不足。首先,本文详细介绍了分布式文件系统HDFS的存储设计原理及文件读写流程,并据此实现了交通信息流的数据预处理。通过对过车记录数据进行有效的清理、转换和归约,实现了其从传统关系型数据库到分布式文件系统HDFS中的转移与转换,以方便后续的分布式序列模式挖掘。然后,本文剖析了MapReduce编程模式的运行机制,给出了序列模式挖掘相关概念在交通信息流中的新定义,并设计了基于MapReduce的交通信息流分布式序列模式挖掘算法。本文给出了算法的详细实现过程及算法优缺点,并针对该算法挖掘结果的局限性,结合闭合序列模式挖掘的BIDE算法,实现了BIDE算法的并行化及到Hadoop分布式平台的有效移植,从而满足更完整、更全面的应用需求。最后,本文搭建了Hadoop集群实验环境,并将相关算法应用于公安、交警等部门基于海量交通信息流的伴随车辆识别案例中,从理论和实验两方面对比和验证了算法的有效性与实用价值。综上所述,本文所提出的分布式序列模式挖掘算法是可行的、有意义的。其在Hadoop分布式平台上所展现的较好适应性与扩展性,反映了在实际应用中引入分布式模型解决海量数据序列模式挖掘问题的必要性,同时也为其他序列模式挖掘算法在Hadoop平台上的有效运用提供了一定的参考。(本文来源于《杭州电子科技大学》期刊2011-12-01)

常鹏,陈耿,朱玉全[3](2008)在《一种分布式序列模式挖掘算法》一文中研究指出针对分布式环境下的序列模式挖掘问题,提出了一种分布式序列模式挖掘(DSPM)算法。DSPM以PrefixSpan算法为基础,使用抽样检测技术平衡了任务负载,将挖掘任务分解后分配到多台计算机上以多进程、多线程并行执行。另外采用了伪投影技术来降低生成投影数据库的开销。实验结果表明,DSPM算法能够快速有效地挖掘分布式环境下的全局序列模式。(本文来源于《计算机应用》期刊2008年11期)

常鹏[4](2008)在《基于隐私保护的分布式序列模式挖掘算法研究》一文中研究指出随着网络的迅速发展,行业应用中产生的大量数据可能分布存储在通过网络连接的多个站点上。在对这些数据进行序列模式挖掘时,一些特殊应用要求不能对这些数据进行传输,原有的针对单机运行环境设计的序列模式挖掘算法可能不再有效。另一方面,在序列模式挖掘过程中还存在着敏感信息泄露的问题,尤其在分布式环境下更加值得关注。现有的分布式数据挖掘和隐私保护问题的研究主要集中于关联规则挖掘方面,对于序列模式挖掘隐私保护的研究却较少,因此,研究基于隐私保护的分布式序列模式挖掘算法具有重要的理论和实际意义。本文在研究现有的序列模式挖掘和隐私保护算法的基础上,结合分布式环境的特点,对PrefixSpan算法进行改进,并利用关联规则隐私保护算法思想,研究了基于隐私保护的分布式序列模式挖掘的问题。主要工作包括以下几个方面:1.对典型的序列模式挖掘算法和分布式数据挖掘算法进行研究,分析PrefixSpan算法的特点,以PrefixSpan算法为基础,结合分布式计算的特点,研究并提出了一种分布式序列模式挖掘算法DSPM(Distributed Sequential Pattern Mining),详细介绍了算法思想和流程;2.针对分布式环境下信息传递耗费大、任务可并行执行等特点,对DSPM算法进行了进一步的改进,提出了几个能够提高挖掘效率的策略,并将这些策略应用到了原型系统中,进一步提高了系统的性能;3.分析研究了典型的关联规则隐私保护算法思想,比较关联规则挖掘与序列模式挖掘的异同,在此基础上研究并提出了一种分布式序列模式挖掘的隐私保护算法CLSD(Current Least Sequences Delete),该方法通过删除原始序列来降低敏感序列的支持数达到隐藏的目的;4.以DSPM算法和CLSD算法为基础,使用Java语言实现了一个基于隐私保护的分布式序列模式挖掘原型系统。该系统采用了序列化/反序列化、多线程等技术,进一步确保系统具有更高的执行效率。(本文来源于《江苏大学》期刊2008-10-01)

张长海[5](2008)在《分布式序列模式挖掘算法研究》一文中研究指出目前信息主导的时代,海量数据存储在数据库或者数据仓库中。面对这种“信息爆炸”的现实,如何从海量数据中提取有价值的信息已显得尤为重要。数据挖掘技术的出现和发展为人们解决了这一难题。所谓数据挖掘技术是利用各种分析工具从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取潜在有用的信息和知识的过程。在本文中,我们对序列模式挖掘技术做了深入研究。序列模式挖掘是数据挖掘研究的一个重要课题,挖掘基于时间或者其他顺序出现频率高的模式,是对关联规则挖掘的进一步推广,但克服了关联规则中不能反映事件在时间顺序上的前后相关性。序列模式挖掘技术已在顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、DNA序列模式的分析等方面广泛应用。在研究现有的单机和分布式序列模式挖掘算法的基础上,本文围绕着单机下基于位图序列模式挖掘、分布式序列模式挖掘以及分布式多维序列模式的近似挖掘等几方面做了深入研究,主要创新点如下:1)基于传统序列模式挖掘方法不能有效地解决候选序列费时难题,本文提出一种基于位图的序列模式挖掘方法SMBR(sequential patterns mining based onbitmap representation)。SMBR算法采用一种简化的位图表示结构表示数据库的方法。该方法首先由序列扩展和项扩展产生候选序列,然后通过原序列位图和被扩展项位图位置快速运算生成频繁序列,有效地获得序列模式。2)由于分布式环境下挖掘全局序列模式常常产生过多候选序列,加大了网络通信代价。为此提出一种基于分布式环境下的挖掘全局序列模式算法-FMGSP(fastmining of global sequential pattern)。FMGSP算法将各站点得到的局部序列模式压缩到一种语法序列树上,避免了重复的序列前缀传输;基于合并树中结点序列规则、简单的特点,提出一种I/S-E(Item Extension and Sequence Extension)剪枝策略,有效地约减了候选序列,减少了网络传输量,从而快速生成全局序列模式。3)提出一种多维序列模式近似挖掘算法AMSP(Approximate Mining of GlobalMultidimensional Sequential Patterns),以解决分布式环境中大型数据库中多维序列模式挖掘问题。该方法不同于传统的分布式多维序列模式挖掘方法,具备较好的伸缩性。首先将维度信息嵌入相应序列中,使多维序列模式挖掘转化为序列模式挖掘;然后在各分站点对转换后序列聚类、概化和分析,采用有效的近似挖掘方法获得局部模式;最后集中所有局部模式,通过高频度序列模式模型挖掘全局多维序列模式,有效地解决通信代价大、维度高等难题。(本文来源于《扬州大学》期刊2008-05-01)

胡孔法,张长海,陈崚,宋爱波,达庆利[6](2007)在《分布式环境下全局序列模式挖掘技术研究》一文中研究指出由于分布式环境下挖掘全局序列模式常常产生过多候选序列,加大了网络通信代价。为此提出一种基于分布式环境下的全局序列模式快速挖掘算法。该算法将各站点得到的局部序列模式压缩到一种语法序列树上,避免了重复的序列前缀传输;基于合并树中节点序列规则和简单的特点,提出一种项扩展和序列扩展剪枝策略,有效地约减了候选序列,减少了网络传输量,从而快速生成全局序列模式。理论和实验表明,在大数据集环境下该算法性能优越,能够有效地挖掘全局序列模式。(本文来源于《计算机集成制造系统》期刊2007年11期)

王红侠,胡学钢[7](2007)在《基于分布式概念格的序列模式挖掘》一文中研究指出给出解决海量数据库序列模式的挖掘问题的算法.首先采用分布式概念格的思想对数据进行划分,根据子全概念生成相应的子形式背景,选择最优的算法对子形式背景上建格(即子格),所有子格建好后,再对子格进行序列模式的挖掘,合并后得到整个数据库的序列模式.(本文来源于《合肥学院学报(自然科学版)》期刊2007年04期)

王红侠[8](2007)在《基于分布式概念格的序列模式发现研究》一文中研究指出知识发现和数据挖掘是人工智能、机器学习、数据库和统计理论等相结合而形成的新的研究与应用领域,序列模式发现是数据挖掘的一个重要分支,具有广阔的应用前景。随着信息技术日新月异的发展和应用,从更大规模数据中高效地提取序列模式已经成为一挑战。本文将具有坚实的理论基础、完备的结构以及并行性特征的概念格模型引入到序列模式挖掘中,以实现当前大规模分布式数据的序列模式挖掘。主要工作如下:(1)概述了知识发现和数据挖掘的研究动态,相关的数据挖掘技术及应用,以及几种典型模式发现问题。(2)分析了AprioriAll算法、GSP算法和PrefixSpan算法等几种经典序列模式挖掘算法,并做了必要的比较。介绍了概念格的模型以及基于概念格的序列模式的数据挖掘研究成果和性能。(3)针对当前的数据库的大规模现象,基于子全概念的概念格构造算法SEA,提出一种新的基于分布式概念格的序列模式挖掘算法,以实现大规模数据的频繁序列模式挖掘。(4)针对序列模式的可信度的评价展开研究,提出了挖掘满足支持度条件的有高可信度的序列模式的算法。研究了先清理(取高可信度)数据库再挖掘满足高支持度的序列模式,以及先挖掘满足高支持度的序列模式,再清理两种不同方式,结果表明第一种方式效率高。(本文来源于《合肥工业大学》期刊2007-11-01)

龚振志,胡孔法,达庆利,张长海[9](2007)在《DMGSP:一种快速分布式全局序列模式挖掘算法》一文中研究指出为了解决分布式环境下挖掘全局序列模式常产生过多候选序列,加大网络通信代价问题,提出了一种基于分布式环境下的快速挖掘全局序列模式算法——DMGSP.该算法将分布式环境下的各站点得到的局部序列模式压缩到一种语法序列树上,避免了重复的序列前缀传输.采用合并树中结点序列规则和项序扩展策略,对非频繁序列进行剪枝,有效地约简了候选序列,减少了网络传输量,从而快速生成全局序列模式.算法分析和实验结果表明,在大数据集环境下的DMGSP算法性能优越,能够有效地挖掘全局序列模式.(本文来源于《东南大学学报(自然科学版)》期刊2007年04期)

石冰,杨晓春,王斌,康宁,周春华[10](2006)在《无线传感器网络中基于模式序列分类的分布式数据流过滤技术》一文中研究指出研究了无线传感器网络中产生的分布式数据流的过滤技术.在传感器网络中,传感器感知到的是无限、连续、实时、快速的数据.然而,在一些实际的应用中,由于传感器能量的有限性,传感器传送所有感知数据是不实际的.针对这一问题,提出一种基于模式序列分类的数据过滤技术,来减少数据的传输量,从而达到节省资源的目的.基于模式序列分类的数据过滤技术不考虑内网聚集,在传感器的缓存中存有一些模式序列,给定一个相似度衡量阈值,对传感器在某一段时间里感知到的数据做出处理,在已有的模式序列中寻找与当前传感器采集感知到的这段数据的相似序列,传感器只用传送部分数据.通过实验验证了提出算法和策略的有效性.(本文来源于《第二十叁届中国数据库学术会议论文集(研究报告篇)》期刊2006-11-10)

分布式序列模式论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近年来,随着我国经济建设持续不断的高速发展和人们生活水平的不断提高,城市机动车保有量连年持续增长,机动车已成为各城镇居民出行的主要交通工具之一。但与此同时,利用机动车进行的违法犯罪活动也越来越多,如:机动车假牌假证、机动车伴随、机动车违章逃逸及盗抢等。由于涉案机动车辆往往具有灵活、隐蔽性强、机动性高等特点,这给公安交警部门对犯罪嫌疑车辆的侦查和追踪增大了难题。目前,随着道路监控技术的发展,我国各大城市普遍布设了车牌识别监控点,其不断积累的交通信息流过车记录为涉案车辆的检测、追踪或预测预警提供了有效的数据支持。序列模式挖掘作为数据挖掘的一个重要研究领域,可用于分析和挖掘带时间特征的交通信息流中隐藏的有价值模式,从而为社会有关部门提供更好的决策与服务。然而,由于交通信息流数据量的不断增大,传统的序列模式挖掘算法在数据存储空间和处理效率上已无法满足实际应用需求,分布式计算平台的出现解决了海量数据的存储和计算瓶颈,从而使针对海量交通信息流的序列模式挖掘成为可能。Hadoop作为一个方便、快速的分布式计算平台,利用分布式文件系统HDFS实现了对大文件或超大文件的存储和容错,并使用MapRedcue编程模型实现了快速运算。但是,由于传统的序列模式挖掘算法只适用于对集中存储的数据进行分析处理,因此如何设计适合在Hadoop平台上运行的分布式序列模式挖掘算法是有效实现海量数据处理的关键。针对分布式平台特性,深入研究序列模式挖掘的具体实现步骤并尽可能增大算法并行化实现部分,有利于提高海量数据的序列模式挖掘效率。本文将基于Hadoop的分布式序列模式挖掘与针对交通信息流领域的实际应用相结合,利用Hadoop分布式平台的优势来解决传统序列模式挖掘在海量数据处理上的不足。首先,本文详细介绍了分布式文件系统HDFS的存储设计原理及文件读写流程,并据此实现了交通信息流的数据预处理。通过对过车记录数据进行有效的清理、转换和归约,实现了其从传统关系型数据库到分布式文件系统HDFS中的转移与转换,以方便后续的分布式序列模式挖掘。然后,本文剖析了MapReduce编程模式的运行机制,给出了序列模式挖掘相关概念在交通信息流中的新定义,并设计了基于MapReduce的交通信息流分布式序列模式挖掘算法。本文给出了算法的详细实现过程及算法优缺点,并针对该算法挖掘结果的局限性,结合闭合序列模式挖掘的BIDE算法,实现了BIDE算法的并行化及到Hadoop分布式平台的有效移植,从而满足更完整、更全面的应用需求。最后,本文搭建了Hadoop集群实验环境,并将相关算法应用于公安、交警等部门基于海量交通信息流的伴随车辆识别案例中,从理论和实验两方面对比和验证了算法的有效性与实用价值。综上所述,本文所提出的分布式序列模式挖掘算法是可行的、有意义的。其在Hadoop分布式平台上所展现的较好适应性与扩展性,反映了在实际应用中引入分布式模型解决海量数据序列模式挖掘问题的必要性,同时也为其他序列模式挖掘算法在Hadoop平台上的有效运用提供了一定的参考。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式序列模式论文参考文献

[1].苏云.分布式闭合序列模式挖掘算法的研究[D].辽宁大学.2014

[2].郑苏杭.面向海量交通信息流的分布式序列模式挖掘研究[D].杭州电子科技大学.2011

[3].常鹏,陈耿,朱玉全.一种分布式序列模式挖掘算法[J].计算机应用.2008

[4].常鹏.基于隐私保护的分布式序列模式挖掘算法研究[D].江苏大学.2008

[5].张长海.分布式序列模式挖掘算法研究[D].扬州大学.2008

[6].胡孔法,张长海,陈崚,宋爱波,达庆利.分布式环境下全局序列模式挖掘技术研究[J].计算机集成制造系统.2007

[7].王红侠,胡学钢.基于分布式概念格的序列模式挖掘[J].合肥学院学报(自然科学版).2007

[8].王红侠.基于分布式概念格的序列模式发现研究[D].合肥工业大学.2007

[9].龚振志,胡孔法,达庆利,张长海.DMGSP:一种快速分布式全局序列模式挖掘算法[J].东南大学学报(自然科学版).2007

[10].石冰,杨晓春,王斌,康宁,周春华.无线传感器网络中基于模式序列分类的分布式数据流过滤技术[C].第二十叁届中国数据库学术会议论文集(研究报告篇).2006

标签:;  ;  ;  ;  

分布式序列模式论文-苏云
下载Doc文档

猜你喜欢