导读:本文包含了频繁序列挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:TF-IDF,PrefixSpan,频繁故障序列
频繁序列挖掘论文文献综述
邹安康,孙启涛,银磊[1](2019)在《基于PrefixSpan和TF‐IDF的频繁故障序列挖掘》一文中研究指出本论文以所有风电场的风力发电机组的历史故障数据为研究对象,通过对过去所有的历史数据进行数据处理后,采用PrefixSpan算法挖掘各个风场的频繁故障序列,并用TF-IDF算法对挖掘出的故障序列计算其单机级重要度和风场级重要度,不仅可以过滤去除次要冗余信息,提炼出有效主导报警故障,大大减少了报警量,还可以挖掘不同部件的关联性,起到提前预防的作用,对风场的运维决策起到了极大的参考作用。(本文来源于《第六届中国风电后市场交流合作大会论文集》期刊2019-06-13)
葛慧晗[2](2019)在《基于频繁序列挖掘的银行风险用户检测的研究与实现》一文中研究指出随着现代经济的高速发展,银行不断创新,电子银行已成为银行业务中最重要的板块之一。然而近年来,利用电子银行业务漏洞获取用户信息从而进行资金盗取的案件越来越多,使得大量用户处于危险之中,这危害了银行与用户的财产安全,破坏社会稳定。而银行目前针对此类处于风险中的用户仍使用规则和验证的迭加方式进行检测,效率低,效果差。如何及时发现此类风险用户,即用户信息可能存在泄露,其账户内资金有被窃取风险的用户成为了一个重要课题。本文对银行用户风险检测的相关研究进行了总结,并对数据挖掘、异常发现等理论进行了深入研究,以此为理论基础,对此类风险用户特征进行分析,提出一种基于频繁序列挖掘的银行风险用户检测模型,即首先对已有风险用户进行频繁序列挖掘,再将挖掘结果作为风险用户特征序列与待检测用户相匹配以实现风险用户检测。通过对风险用户银行流水数据进行分析发现,风险用户具有高度相似行为序列的同时,时间间隔对用户风险程度影响极大。因此,本文在银行风险用户检测模型中引入时间间隔属性,通过对时间间隔进行聚类处理改进了带有时间间隔的频繁序列挖掘算法,并且在传统序列模式匹配算法中加入时间间隔约束,以提升检测准确率。并根据上述算法,对提出的银行风险用户检测模型进行了设计与Hadoop环境上的并行化实现。最后,本文对提出的银行风险用户检测模型进行了实验与分析。实验结果表明,本文所述的风险用户检测方法具有一定的有效性与准确性。可以有效地提升银行风险用户检测的准确率与效率,从而使银行可以及时对风险用户进行处理,保障账户内资金安全。同时可以将风险用户信息提供给相关法律或监管部门,对犯罪行为进行追踪与调查,维护国家安全与社会安定。(本文来源于《北京邮电大学》期刊2019-06-10)
孙文平,常亮,宾辰忠,古天龙,孙彦鹏[3](2019)在《基于知识图谱和频繁序列挖掘的旅游路线推荐》一文中研究指出大数据在提供海量多源信息的同时,也带来了信息过载问题,这在旅游领域内表现得尤为突出。针对当前游客在制定旅行路线时需要花费大量时间和精力的现状,首先,提出一种融合多源旅游数据构建知识图谱的方法,有效地抽取相关旅游领域知识;其次,利用知识图谱及大量旅行游记生成旅游路线数据库,并提出一种能够根据游客类型生成海量候选路线的频繁路线序列模式挖掘算法;最后,设计了一种多维度路线搜索和排序机制来为用户推荐个性化的旅游路线。基于真实旅游大数据的实验结果表明,该方法可以同时考虑旅行天数、人物类型和景点类型喜好等多方面因素,帮助游客快速制定个性化的旅行路线,有效提升游览体验。(本文来源于《计算机科学》期刊2019年02期)
温彦,马立健,陈明[4](2019)在《基于频繁序列挖掘的后续行程序列推荐》一文中研究指出个性化旅游发展迅速,已有方法主要集中在单个旅游产品推荐上,而旅游行程存在明显的序列性,并受到当前已有行程轨迹影响。因此,提出一种旅行中后续行程序列的推荐方法 SeqRem,基于所有用户的行程序列挖掘频繁序列模式,并以此为依据利用最大点权独立集方法对用户的历史行程序列进行分割,以发现最优序列推荐内容。实验证明,SeqRem在单点推荐和序列推荐准确率与召回率均具有较好效果。(本文来源于《软件导刊》期刊2019年03期)
李之天[5](2018)在《基于多个时间序列的周期频繁模式挖掘研究》一文中研究指出数据挖掘已经成为一项利用这些数据的重要的科技手段,对这个技术领域的科学研究也正在以越来越快的速度蓬勃发展。关联规则挖掘又称频繁项集挖掘,是数据挖掘科研领域的一个热门研究方向,它的主要目的是找到所有的项的集合,并且这些集合满足在数据库中出现的次数不小于一个最小支持度阈值的条件。关联规则挖掘在现实生活中具有很多应用场景,例如图的分类,恶意软件检测,顾客消费行为分析,社区关系查找等等。很多研究工作都致力于高效地找出所有的频繁项集,从大量的数据当中发掘出有用的信息。可是,传统的频繁项集挖掘算法忽视了数据库中不同事务或者事件之间的前后时间顺序的重要性,无法提供和事件发生的先后顺序有关的有用信息。在生物信息科技,在线学习,文本数据分析和智能家居中的节能等诸多领域,都需要将事件发生的前后顺序和传统的数据挖掘结合起来,以提供更多具有实际应用意义的模式。最近几年,很多学者提出的新的算法,都将事件的时间顺序考虑了进去,并且成功在实际中加以应用。其中非常重要的一个分支就是序列模式挖掘,将频繁项集挖掘和时间序列相结合,找到那些频繁出现的子序列。然而,序列模式挖掘算法无法挖掘出那些周期性出现的模式,而周期模式却在分析顾客消费行为,基因序列分析,网站功能区设计等众多领域具有很大的作用。例如牛奶面包这个消耗品组合在网上超市当中的购买量一般都很大,而对于单个顾客来说,他可能每隔一段时间就需要网上购买一些牛奶面包。分析顾客的这种周期性发生的行为有助于更精准的为他们提供推荐服务,促进消费。又比如,在基因序列的分析当中,DNA分子的不同排列顺序携带了完全不同的基因信息。而如果一些DNA分子组合序列在整个基因序列当中周期性地出现的话,这些组合序列也会呈现出不同的表达形式,从而为人类基因分析工作提供一些新的可能和研究方向。因此,近几年来,周期模式挖掘渐渐成为关联规则挖掘当中的一个热门研究方向,针对周期模式挖掘已经有很多学者做了充分的研究。但是,先前的周期模式挖掘算法都是针对单个时间序列进行挖掘,而现实中遇到的数据大多都为多个序列组成的序列数据库。据我们所知,在我们之前,仅有一篇发表于2017年的论文曾做过多序列的周期模式挖掘的研究工作。这篇论文提出了一种新的被表示为PHUPSM的算法,用来挖掘多个序列中的周期性高效用项集。然而,这个算法仅仅将多个序列当做一个序列来进行处理,而忽视了单个序列之内的模式的周期性,导致挖掘出的模式不具有太大的实际意义。所以,之前所提出的算法都不适合用于很多序列组成的数据库的周期模式挖掘。为解决这个问题,本课题致力于基于多个时间序列的周期频繁模式挖掘算法的研究。这篇论文定义了两个新的衡量方法,分别称为周期标准差和序列周期率。周期标准差是用来挖掘单个时间序列中的周期模式。之前的研究中采用的最大周期数的衡量方法条件太过苛刻。当最大周期数被设定为一个较大的数值时,挖掘出的模式很多都是无用的信息;而这个阈值被设定为一个较小的数值时,又会丢失大量周期时间长的周期模式。所以,合适的最大周期数的阈值总是难以确定。而本论文提出的周期标准差方法很好的解决了这个问题,使得最大周期数可以被设置为一个较大的值,而通过周期标准差来过滤那些非周期模式。并且,通过这个方法挖掘出来的模式的周期差别也可以被控制在一个很小的范围之内。序列周期率则代表数据库中的模式在序列中具有周期性的序列个数的最小阈值,用来确保挖掘出的模式在多个序列中都具有周期性行为。通过这两种衡量方法,数据库中同时在多个序列中都具备周期性行为的所有模式就都能被挖掘出来。为了更加高效地挖掘出这些周期模式,本课题项目提出了两种算法,分别表示为MPFPS_(BFS)和MPFPS_(DFS)。这两种算法分别采用了广度优先搜索和深度优先搜索的空间搜索方式。广度优先搜索列举出所有的项集集合,之后再判断这些项集是否具有频繁性和周期性。例如,对于一个包含了a,b和c这叁个不同的项的数据库来说,广度优先搜索策略首先判断这叁个项是否满足频繁性和周期性地要求,之后再进行两两组合得到包含了两个项的项集{a,b},{a,c}和{b,c}。然后,再对这叁个项集进行判断,再之后产生包含了叁个项的项集{a,b,c}……广度优先搜索则采用了另外一种搜索策略。首先判断a是否满足条件。然后,产生a的所有包含了两个项的父集{a,b}和{a,c},再判断频繁性和周期性。最后产生a的所有包含了叁个项的父集{a,b,c},再进行判断。对于b和c采取同样的操作。这样就保证所有的项集集合都被检查了一遍,没有遗漏。然而,无论是广度优先搜索还是深度优先搜索,挖掘周期频繁模式的搜索空间都极大。对于含有n个不同项的数据库来说,这些项组合形成的项集个数则为2~n-1.如果对这个指数级大小的搜索空间直接进行挖掘,算法的效率将会十分的低下。另一方面,新提出的序列周期率方法并不满足单调性或是反单调性,也就无法直接用来对搜索空间进行剪枝。为了解决搜索空间过大的问题,本论文提出了一种被表示为boundRa的新参数和两个基于boundRa的剪枝策略。boundRa实际上是序列周期率的一个上界,满足向下闭包的特性。提出的两个剪枝策略都是基于这个特性。第一个策略的理论基础是,假设最小序列周期率的值为minRa,对于一个项集X’,如果boundRa(X’)<minRa,那么项集X’以及它的所有超集X?X’都不会是周期模式。第二个策略是,如果项集X’存在子集X’’?X’的boundRa值小于minRa,那么X’就不可能是一个周期频繁模式,X’的所有超集也不是周期频繁模式。新提出的两种算法MPFPS_(BFS)和MPFPS_(DFS)都具有四个参数,分别是minSup,maxStd,minRa和maxPr。实验结果表明这四个参数都有助于过滤那些不满足频繁性和周期性的项集。所以,这两个算法可以用来找出所有的周期频繁模式,并且挖掘出的模式数量也可以被控制在一定的范围之内。另外,结果表明这些参数也可以被用来减少降低算法运行的时间和占用的空间。如何来设置这些参数则需要根据不同数据库来具体问题具体分析。因为不同的数据库中的模式的周期长度都不尽相同,周期变化的幅度大小也各不一样。从结果中可以发现,参数minSup对算法的结果输出以及性能的影响很小,故而本论文建议将minSup设置为一个较小的值,只在性能受到很大影响时才改为一个较大的值。同时,鉴于maxPr这个参数本身条件太过严苛,本论文建议将其设置为一个相对来讲非常大的数值,以过滤掉那些周期太大的周期模式。因此,综合来看,maxStd和minRa这两个新提出的参数在整个周期频繁模式挖掘的过程当中具有更加重要的作用。前者允许指定周期频繁模式随时间变化的周期的最大范围值,对于一个模式来说,只要它的周期的标准差在这个范围之内,那么它的周期性就呈现出了一个非常固定的趋势。后者指定了一个模式呈现出周期性的序列在整个序列数据库中的最小比例值。此参数将可被用来找到在多个序列中呈现出周期性的所有模式。综上所述,本论文在这几年研究成果比较多的周期模式挖掘方面,提出了一个新的问题,即在多个序列当中挖掘出所有的呈现出周期性的频繁模式。针对这个问题提出了两个新的衡量方法,分别是周期标准差和序列周期率。因为序列周期率这个方法不满足向下闭包的特性,故而设计出一个新的参数boundRa。在这个参数的基础上提出了两个剪枝策略,对周期模式挖掘中的庞大的搜索空间进行剪枝,以提升算法效率。最后设计了两个算法MPFPS_(BFS)和MPFPS_(DFS),实验结果表明这两个算法具有很好的时间效率和空间效率。另外,由于MPFPS_(DFS)采用的是深度优先的搜索策略,因而通过剪枝所带来的性能的提升相较MPFPS_(BFS)来说更加巨大,所以性能和可扩展性都更好。在参数设置的值比较严格时,将会产生百倍以上的性能差距。(本文来源于《哈尔滨工业大学》期刊2018-12-01)
陈倩,刘云,高钰莹[6](2018)在《并行动态位向量频繁闭合序列模式挖掘算法》一文中研究指出针对在时间和空间上都具有高计算成本的长序列数据库,一个更有效和更紧凑且可以完全提取信息的挖掘模式是当前的研究热点。提出一种并行动态位向量频繁闭合序列模式的挖掘算法(PDBVFCSP),该算法采用多核处理器架构和DBV数据结构相结合的方式,有效加快了序列数据库的处理速度,并对搜索空间进行划分,尽早执行预处理序列的闭合检查,减少了所需的存储空间和挖掘频繁闭合序列模式的执行时间,克服了现有并行挖掘算法通信开销、同步和数据复制等问题。利用重新分配工作的动态负载平衡机制,解决处理器之间的负载均衡问题,最大限度地减少了CPU空闲时间。对DBV-VDF算法和PDBV-FCSP(2-4核)算法进行仿真比较,结果表明,PDBV-FCSP算法在运行时间、内存使用和可伸缩性等方面都有较优的性能提升,且当内核数增加时,性能更优。(本文来源于《计算机工程与科学》期刊2018年10期)
李勇男[7](2018)在《基于频繁序列模式挖掘的反恐情报关联分析》一文中研究指出[目的/意义]时间序列模式挖掘可以识别不同暴恐案件中各种因素的时间序列关系,为反恐预警提供参考。[方法/过程]首先设定最小支持度阈值参数和最小反恐情报序列长度参数,对样本集进行常规数据预处理和合并同类项,统计频繁1-序列,然后不断迭代生成候选i-序列和筛选频繁i-序列的过程,直到达到终止条件为止,最后选取满足最小长度阈值的反恐情报序列。[结果/结论]该方法通过总结各种暴恐活动中较为频繁的时序关系,可以在反恐预警系统中设定触发警报的条件,预测部分恐怖袭击并提前处置。[局限]该方法只能发现这类有时序关系的信息,在实际反恐情报分析中,需要与其他方法整合才能覆盖更多的情报。(本文来源于《情报理论与实践》期刊2018年10期)
戴瑀君,徐周波[8](2018)在《基于SAT和BDD的频繁序列挖掘技术》一文中研究指出【目的】研究模式挖掘领域中的频繁序列挖掘技术,由于序列模式挖掘存在指数级的搜索空间,且传统的SAT求解算法无法高效求解大规模数据集的缺点,因此研究符号表示和操作技术,用来避免冗余计算。【方法】提出基于SAT的频繁序列挖掘的符号OBDD算法,基于深度优先算法的思想,首先将频繁序列挖掘问题构建为SAT模型,其次对变量进行排序并将约束子句分类后分别描述为OBDD,利用OBDD的"与"操作得到满足SAT的所有频繁序列模式。【结果】实例结果表明,该方法准确可行。【结论】该方法能有效缩减搜索空间,提高求解效率。(本文来源于《广西科学院学报》期刊2018年02期)
张皓[9](2018)在《海量数据下基于层级树的频繁序列模式挖掘》一文中研究指出频繁序列模式的挖掘长久以来就被广泛地应用到各种实际场景中为商家或企业提供各种生产销售方面的决策支持。而随着科学技术的发展,数据获取和存储能力的不断加强,各种实际场景中需要进行频繁序列模式挖掘的数据也经历了爆炸式的增长并最终达到了海量。海量的数据能得到更多频繁序列信息,但传统频繁序列挖掘算法在对海量数据进行挖掘时,其效率已经远远不能满足实际场景中的效率需求。不仅如此,实际场景中的数据集中的各元素通常并不是扁平化的,其自身通常拥有若干的类别信息,所有元素的类别信息能够组合为层级树。传统的频繁序列挖掘算法只能针对数据集中存在的元素挖掘出只包含这些元素的频繁序列模式。借助层级树来进行频繁序列的挖掘,我们能够得到传统算法不能挖掘到的更具一般性的频繁序列。已有的基于层级树在海量数据下进行频繁序列挖掘的算法还有很大的挖掘效率提升空间。同时,在基于层级树进行频繁序列挖掘时,其挖掘结果存在冗余的问题,已有部分研究提到该问题,但它们都没有对冗余结果做精确的定义,也并没有给出解决方法。此外,在挖掘频繁序列模式的时候,特别是在基于层级树对海量数据进行挖掘时,其挖掘到的结果序列会极其多,而用户感兴趣的可能只是其中的一部分符合特定模式的序列。因此我们需要在挖掘时对结果序列给出若干形式的约束,如最大间隔约束、最大序列长度约束、正则表达式约束等。正则表达式约束能够使算法只挖掘出涉及特定内容的结果序列。但目前还没有将正则表达式约束结合到海量数据下基于层级树的分布式频繁序列挖掘算法中的研究。本文提出了框架RUMMAGE来解决上述问题。RUMMAGE分为预处理、Map、Reduce、Cleanup四个阶段。本文在Map阶段基于LASH的投影算法提出更高效的投影算法PUT;在Reduce阶段,首先基于PSM算法提出不含冗余操作的算法MINE,接着定义了适用于层级树的正则表达式RE-Hierarchy,并提出算法REC-MINE以接受正则表达式约束在海量数据下基于层级树进行频繁序列挖掘;最后,在Cleanup阶段提出了算法REI以高效解决挖掘结果冗余的问题,极大地减少了结果序列的数量。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
李健[10](2018)在《基于Spark的频繁序列情节挖掘算法研究》一文中研究指出在现今的信息化时代,如何对各种设备采集到的各类信息进行有效分析和处理已成为众多研究者关注的焦点。频繁情节挖掘技术从诞生起,便在处理这些信息时发挥了重要的作用。在工程应用中,只有那些发生在短时间段内的情节才对实际生产有较好的指导作用,但现有的大部分研究成果在挖掘频繁序列情节时并未考虑情节的时间跨度这一因素,故由其挖掘到的频繁情节存在数量庞大、质量低下等不足,以致难以满足实际需求。鉴于此,本文在引入时间约束的基础上,通过利用情节发生的第一个事件与最后一个事件存在的最大时间间隔特性,提出了相应的序列情节频繁度计数算法和频繁序列情节挖掘算法,以提升序列情节挖掘的质量和算法的执行效率。另外,由于Spark平台是基于内存计算的,故本文将其引入到新提出的算法中以加快运行速度。本文主要工作如下:1.提出了带时间约束的序列情节频繁度计数算法。针对许多研究成果在设计算法时未考虑时间约束的问题,本文专门为带时间约束的序列情节e~?设计了一种基于双重字典内嵌双端队列的数据结构OccDict,以存储和统计目标序列情节中事件发生的时间戳,在对事件序列S进行一次扫描时,通过维护该数据结构的状态、验证情节的候选最小发生及对无效状态的清理等过程来求出e~?在S中的频繁度。通过在移动网络告警数据集和人工数据集上进行的多组实验分析了各因素对本文算法性能的影响,并验证了该算法与其他算法相比具有高效性、能满足实时监测的要求。2.针对文中提出的带时间约束的序列情节频繁度计数算法具有串行化的特点:一个事件该如何处理依赖于前一个事件的处理结果,创新性地通过将事件序列S分段的形式,完成了对该问题的基于Spark的并行化算法设计,并通过实验验证了其性能。3.以文中提出的序列情节频繁度计数算法为基础,通过采用迭代方式不断将一项频繁情节中的任一事件插入到k项频繁情节的任意位置来生成的k(10)1项候选情节,进一步提出了带时间约束的频繁序列情节挖掘算法。使用移动网络告警数据集和人工数据集上的测试结果表明,本文算法可有效提高频繁序列情节的质量和算法效率。4.针对带时间约束的频繁序列情节挖掘算法在处理数量庞大的序列情节时效率不佳的问题,本文利用Spark的一个执行者来完成一个序列情节的发生计数,对该算法进行了基于Spark的并行化设计,实验结果表明了该方案的有效性。(本文来源于《西安电子科技大学》期刊2018-06-01)
频繁序列挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着现代经济的高速发展,银行不断创新,电子银行已成为银行业务中最重要的板块之一。然而近年来,利用电子银行业务漏洞获取用户信息从而进行资金盗取的案件越来越多,使得大量用户处于危险之中,这危害了银行与用户的财产安全,破坏社会稳定。而银行目前针对此类处于风险中的用户仍使用规则和验证的迭加方式进行检测,效率低,效果差。如何及时发现此类风险用户,即用户信息可能存在泄露,其账户内资金有被窃取风险的用户成为了一个重要课题。本文对银行用户风险检测的相关研究进行了总结,并对数据挖掘、异常发现等理论进行了深入研究,以此为理论基础,对此类风险用户特征进行分析,提出一种基于频繁序列挖掘的银行风险用户检测模型,即首先对已有风险用户进行频繁序列挖掘,再将挖掘结果作为风险用户特征序列与待检测用户相匹配以实现风险用户检测。通过对风险用户银行流水数据进行分析发现,风险用户具有高度相似行为序列的同时,时间间隔对用户风险程度影响极大。因此,本文在银行风险用户检测模型中引入时间间隔属性,通过对时间间隔进行聚类处理改进了带有时间间隔的频繁序列挖掘算法,并且在传统序列模式匹配算法中加入时间间隔约束,以提升检测准确率。并根据上述算法,对提出的银行风险用户检测模型进行了设计与Hadoop环境上的并行化实现。最后,本文对提出的银行风险用户检测模型进行了实验与分析。实验结果表明,本文所述的风险用户检测方法具有一定的有效性与准确性。可以有效地提升银行风险用户检测的准确率与效率,从而使银行可以及时对风险用户进行处理,保障账户内资金安全。同时可以将风险用户信息提供给相关法律或监管部门,对犯罪行为进行追踪与调查,维护国家安全与社会安定。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
频繁序列挖掘论文参考文献
[1].邹安康,孙启涛,银磊.基于PrefixSpan和TF‐IDF的频繁故障序列挖掘[C].第六届中国风电后市场交流合作大会论文集.2019
[2].葛慧晗.基于频繁序列挖掘的银行风险用户检测的研究与实现[D].北京邮电大学.2019
[3].孙文平,常亮,宾辰忠,古天龙,孙彦鹏.基于知识图谱和频繁序列挖掘的旅游路线推荐[J].计算机科学.2019
[4].温彦,马立健,陈明.基于频繁序列挖掘的后续行程序列推荐[J].软件导刊.2019
[5].李之天.基于多个时间序列的周期频繁模式挖掘研究[D].哈尔滨工业大学.2018
[6].陈倩,刘云,高钰莹.并行动态位向量频繁闭合序列模式挖掘算法[J].计算机工程与科学.2018
[7].李勇男.基于频繁序列模式挖掘的反恐情报关联分析[J].情报理论与实践.2018
[8].戴瑀君,徐周波.基于SAT和BDD的频繁序列挖掘技术[J].广西科学院学报.2018
[9].张皓.海量数据下基于层级树的频繁序列模式挖掘[D].哈尔滨工业大学.2018
[10].李健.基于Spark的频繁序列情节挖掘算法研究[D].西安电子科技大学.2018
标签:TF-IDF; PrefixSpan; 频繁故障序列;