时间序列数据挖掘方法论文-胡宇鹏

时间序列数据挖掘方法论文-胡宇鹏

导读:本文包含了时间序列数据挖掘方法论文开题报告文献综述及选题提纲参考文献,主要关键词:数据挖掘,时间序列流数据,时间序列特征表示,时间序列分类

时间序列数据挖掘方法论文文献综述

胡宇鹏[1](2018)在《时间序列数据挖掘中的特征表示与分类方法的研究》一文中研究指出时间序列作为一种与时间相关的海量高维数据,广泛遍布于现实世界几乎所有的应用领域中。时间序列不仅具有“海量、高维”的传统大数据特性,还同时具有“实时更新”的“流数据”特性,因此被称为时间序列流数据(Streaming Time Series)。基于上述数据特性,传统的基于静态时间序列的数据挖掘方法往往无法直接应用于时间序列流数据上并获得相对理想的研究结果。因此如何从“海量、高维、实时更新”时间序列中发现潜在的知识已成为当前数据挖掘研究中的热点和难点问题。根据相关研究成果表明,时间序列数据挖掘已成为21世纪数据挖掘领域10大最具挑战性的研究问题之一,并受到国内外研究者的广泛关注。本学位论文将对时间序列数据挖掘研究中的两个关键问题:时间序列特征表示和时间序列分类展开相应的研究,主要工作和创新性可以归纳为以下几个方面:(1)本文提出一种基于转折点的时间序列在线特征表示方法。该方法以“在线”的方式对具有流数据特性的时间序列进行持续地特征表示,并从单点误差和分段误差两个不同的角度对该方法的表示精度进行约束,同时利用转折点和优化合并策略确保该方法具有相对理想的运行效率。实验结果显示:本文所提出的时间序列表示方法不仅具有更高的表示精度,同时具有较高的运行效率,此外该方法受参数变化的影响较小,具有良好的鲁棒性。(2)本文提出了一种基于自适应表示索引的时间序列“多分辨率”混合表示方法。该方法是时间序列“多分辨率”分段表示和“多分辨率”符号表示的通用方法。它可以根据不同的表示需求,利用自适应表示索引快速生成不同类型的多分辨率表示结果(分段线性表示结果,分段聚合近似结果,符号聚合近似结果)。此外,该方法还支持对已经获取的分段线性表示结果进行局部调整,并能迅速获得调整后的相关表示结果的完整表示信息,从而避免了不必要的重复计算并提高了相应的表示效率。实验结果表明:本文所提出的方法不仅具有更高的索引创建效率和更高的“分段线性表示”效率,而且能够同时提供基于“分段聚合近似”以及“符号聚合近似”的多分辨率表示结果。(3)本文提出了 一种高效的局部特征选取方法对基于局部特征的时间序列分类算法进行加速。该方法通过:生成代表性时间序列集合以及精简局部特征候选集合两个相互独立的加速策略,对基于局部特征分类方法的“特征选取”效率进行提升,进而实现了分类算法整体效率的提升。实验结果表明:本文所提出的局部特征高效选取策略能够对原始分类方法的特征选取效率进行较大幅度的提升。与此同时,经本方法“加速”后的分类方法与原始分类方法的分类准确率基本处于同一精度水平。(4)本文提出了一种基于多表示深度学习模型的时间序列分类方法。该模型将基于不同时间序列特征表示方法所产生的相应表示结果看作时序特征的不同表示形式,随后利用不同的信道从不同角度学习并获取当前表示结果中的相应数据特征,并根据其获取关键数据特征对时间序列分类进行有效的指导。实验结果表明:本文提出的模型具有更加全面的特征学习能力,相比于采用单一分类器的时间序列分类方法,该模型具有更高的分类准确率。与此同时,本文所提出的深度学习模型还能利用平行注意力机制对所获取的数据特征进行重要性评分,在一定程度上实现了时间序列分类结果的可解释性。(本文来源于《山东大学》期刊2018-10-20)

王培屹[2](2018)在《时间序列数据挖掘中的特征表示与相似性度量方法研究分析》一文中研究指出随着信息技术的快速发展,时间序列的数据量增长速度也逐步加快。与此同时,数据挖掘技术在时间序列数据库中的应用也越来越普遍。通过将把相同长度和不同长度的时间序列作为对象进行深入的研究,探讨各种表示方法的内涵与特征,使这些表示方法更加完善以及更好地应用于时间序列数据的挖掘工作中,从而能够更加方便有效地获取有价值的信息。(本文来源于《电脑与电信》期刊2018年06期)

薛钰,梅雪,支有冉,许志兴,史翔[3](2018)在《基于时间序列数据挖掘的地铁车门亚健康状态识别方法》一文中研究指出针对地铁门在开关过程出现的一些亚健康状态难以识别情况,提出一种基于时间序列数据挖掘的地铁车门亚健康状态识别的方法。该方法首先通过多尺度滑动窗口的方法并结合拓展符号聚集近似(ESAX)字符化算法对车门电机的转角、转速和电流数据进行字符化;然后计算其与车门正常运行状态下模板曲线之间的距离作为特征量,并使用主成分分析(PCA)法进行降维;最后结合基础特征利用分层模式识别模型对各类亚健康状态由粗到细逐层进行识别。以实测车门电机数据为例验证了所提方法的有效性。实验结果表明,该方法能够有效区分各类亚健康状态,识别率可达到99%。(本文来源于《计算机应用》期刊2018年03期)

龙婧[4](2018)在《面向金融时间序列奇异性特征的数据挖掘方法研究与应用》一文中研究指出股市是一个受内因和外因影响的复杂系统,具有互动的参与人数众多的特性,其市场行情也是千变万化、错综复杂。股市的金融时间序列是对金融变量变化发展的历史数据的真实测量和记录,蕴含了金融市场内在的规律和行为特征,所以如何从中挖掘更多潜在信息和规律对金融分析者执行决策和风险投资管理具有极为重要的意义。金融时间序列具有的奇异性特征对分析者的决策起着指导性作用,而传统的依靠数学建模和统计方法的技术分析模型由于涉及多个复杂参数,难以被分析者所理解和掌握。所以,为了更好地为分析者提供一个研究市场行情波动规律的新角度,本文从寻找时间序列中有意义模式入手来获取金融时间序列中隐含特征信息。虽然时间序列挖掘作为目前的研究热点,且已取得很多成果,而针对从金融时间序列中获得有价值信息或有意义片段的理论方法和研究依然匮乏。所以本文针对其中存在的关键问题,应用数据挖掘的方法展开研究,具体工作如下:(1)结合金融时间序列特性对挖掘的影响,本文采用小波方法对数据进行去噪预处理。并在此过程中研究了小波软阈值法去噪过程、阈值确定准则、小波函数和分解层次等参数的选取。(2)结合k线形态理论,通过数值计算检测了不同K线形态对应的奇异性特征序列,并通过基于小波变换的d-近邻聚类方法对特征序列分类别聚类,并通过实验数据纵向分析了金融时间序列奇异性特征的异常程度对挖掘金融时间序列有意义模式具有的重要意义。(3)从时间序列中挖掘隐含模式的意义就是希望能得到对未来预测有价值的信息。本文从分析金融时间序列奇异性特征的角度出发,提出了一个能挖掘K线形态Motif模式,且能主动预警股价反转趋势的技术分析模型。该模型将基序理论应用于K线形态理论,得到K线形态的特征序列。然后运用数据挖掘技术对特征序列进行分类学习,得出K线形态Motif模式的统计特征,最后通过实验验证了K线形态Motif模式对股价反转趋势及反转点的预测效果。(4)最后,通过对沪深A股的历史交易数据进行实证分析,结果表明:本文提出的K线形态Motif模式真实存在并能被较好的识别,且根据提出的K线形态Motif模式模拟短期趋势的投资收益计算,证明该模式应用于时间序列的短期趋势理论判断对股票后期趋势的影响是有效的。(本文来源于《昆明理工大学》期刊2018-03-01)

潘力,黄继海,王磊[5](2017)在《基于分层有限状态机的时间序列数据挖掘与预测方法》一文中研究指出针对非平稳非线性时间序列的数据挖掘与预测问题,提出一种基于分层有限状态机的预测方法 .首先,将时间序列构建成有限状态机(FSM)模型,将时间序列的相对序列模式作为状态.然后,构建一种层次模型,通过关联特定模式形成中间状态,并以递归方式对模式进行分组,以此解决长序列造成的过度训练问题.最后,通过梯度下降法结合所有有限状态(FS)预测器的输出,生成最终预测结果 .实验结果表明,该方法能够对时间序列进行有效的规则挖掘,具有较高的预测精度.(本文来源于《湘潭大学自然科学学报》期刊2017年04期)

李海林,郭崇慧,杨丽彬[6](2016)在《基于时间序列数据挖掘的故障检测方法》一文中研究指出为了有效地检测发动机试车实验中性能参数发生的异常,提出一种基于时间序列数据挖掘的发动机故障检测方法。通过基于形态特征的时间序列特征表示方法,将发动机参数时间序列转化为符号序列,再根据符号语义对发动机参数序列实现稳态特征和过渡态特征识别。同时,根据稳态序列的数据特征,利用基于统计特征的时间序列相似性度量结合最不相似模式发现方法实现发动机的故障检测。数值实验结果表明,与传统方法相比,本文方法能够有效地对发动机性能参数进行故障检测,并且具有较强的鲁棒性。(本文来源于《数据采集与处理》期刊2016年04期)

叶燕清[7](2015)在《多元时间序列数据挖掘相似性分析方法及应用研究》一文中研究指出多元时间序列在各个领域中广泛存在,如何从维度高、序列长度日益增长的时间序列中挖掘有效信息,发现隐藏模式,是一个具有重要意义的课题。作为时间序列数据挖掘的基础性工作,相比于一元时间序列,相似性分析在多元时间序列中的发展还不够成熟。通过阅读研究大量现有的时间序列相似性分析相关文献,针对目前已有方法中只能容忍一到两种变形、不能有效考虑变量的内部相关性及依赖参数设置等问题,本文分别从多元时间序列降维和改进现有一元时间序列方法两个角度出发,提出了两种面向多元时间序列的相似性度量方法。同时,在相似性度量的基础上,探索研究了基于K-近邻网络的多元时间序列聚类算法。本文的研究内容如下:(1)针对多元时间序列维度高、变量相关性强、序列不等长等特征,本文提出了一种基于分段范数表示和加权动态时间弯曲的多元时间序列相似性度量方法。首先,提出分层检测算法逐步检测多元时间序列的特征重要点,并通过基于误差的方法对多元时间序列进行统一分段。在分段基础上,引入Frobenius范数对分段矩阵及其协方差矩阵进行统一表示,从而得到降维压缩后的一元模式序列。最后,引入加权动态时间弯曲算法,对不等长的模式序列进行相似性度量,即可获得多元时间序列的相似性度量指标。(2)针对现有方法中忽略变量相关性和序列的局部形状特性问题,提出了一种基于共同主成分分析和局部特征改进的加权动态时间弯曲的多元时间序列相似性度量方法。首先,为了消除变量的内部相关性,并将各变量转换到同一个维度空间,引入并改进主成分分析方法,将多元时间序列转换为相互独立的主成分序列,并用各个主成分序列的方差贡献率作为该序列的权重。为了同时考虑时间序列的值特性和形态特征,引入时间序列点的特征值,改进加权动态时间弯曲算法,对变换后的主成分序列进行相似性度量。(3)针对现有聚类算法自发性弱、聚类效果差等问题,本文探索研究了基于K-近邻网络的多元时间序列聚类算法。基于前文提出的相似性度量指标,以多元时间序列对象为点,K-近邻关系为边建立有向加权K-近邻网络,权重值即为多元时间序列对象之间的相似度。在网络模型基础上,引入BGLL层次化社团结构划分算法,对网络中的时间序列对象进行聚类。为了对本文提出的多元时间序列相似性度量方法及聚类算法进行验证,本文分别采用了六个数据集进行相似性搜索、1-NN分类及网络聚类实验。实验结果表明,本文提出的方法具有切实可行性和有效性。(本文来源于《国防科学技术大学》期刊2015-11-01)

闵盈盈[8](2014)在《基于ARIMA模型的时间序列数据挖掘方法改进》一文中研究指出ARIMA模型是一种很重要的时间序列数据挖掘模型,但是这个模型往往只是对某个时间点进行研究.事实上一段时间往往影响未来的预测结果,就ARIMA模型的数据挖掘方法进行改进,并用美国IT界的股票价格数据对改进的模型进行了实证分析.结果显示改进后的模型与未来股票价格的预测更加准确.(本文来源于《哈尔滨商业大学学报(自然科学版)》期刊2014年06期)

孙友强[9](2014)在《时间序列数据挖掘中的维数约简与预测方法研究》一文中研究指出时间序列数据是一种常见的数据形式,广泛存在于各种现实应用中。相应地,利用数据挖掘技术从时间序列中发现其中蕴含的信息和知识也成为了研究的热点,其研究成果在金融、工业、农业、医药、气象、交通、计算机网络等领域取得了成功的应用。然而不同于传统静态数据,时间序列数据通常具有时序性、数量大、维数高、特征多等特性。因此,研究如何有效地通过时间序列数据挖掘技术来处理和分析时间序列数据具有重要的意义。本文以时间序列数据为研究对象,针对时间序列的高维特性,主要研究时间序列的维数约简技术,包括特征提取方法与特征表示方法。从时间序列的应用角度出发,主要研究时间序列的预测方法,包括单变量时间序列的预测与多变量时间序列的预测。时间序列的特征提取是通过选择数量较少且反映原序列主要信息的特征子集实现维数约简的技术。针对时间序列的时序特性,本文提出了一种基于因果关系挖掘的多变量时间序列特征提取方法。该方法是一个二维的特征提取,即不仅提取出特征变量,也提取特征变量的有效滞后期。同时,利用Granger因果关系挖掘的因变量及滞后期所组成的特征子集对结果也有较好的因果解释性。时间序列的特征表示是将高维的时间序列数据转换为低维表示并尽可能保留原始时间序列的特征信息。针对传统符号表示方法中只根据均值特征描述原始时间序列可能造成信息丢失的不足,本文提出了基于趋势距离的时间序列符号聚集近似表示方法,并构造了满足距离下界性的距离度量。首先提出了基于序列段起点值和终点值的趋势距离度量方法来量化不同趋势的差异,然后把趋势因素集成到原符号聚合近似表示方法中,实现利用均值特征和趋势特征共同表示原始时间序列。单变量时间序列预测是利用时间序列自身的历史值来预测未来的数据。针对传统的基于自回归滑动平均模型的预测模型建立后不能更新最新时间序列信息的不足,本文通过将自回归滑动平均模型的差分方程形式与传递形式结合,构建了一种预测值实时自修正的预测模型。新的预测模型会包含新的观测值的影响,从而提高预测的精度并减少运算量。多变量时间序列预测是利用多个变量时间序列对目标时间序列进行预测。本文的预测方法首先利用基于因果关系挖掘的特征提取方法对多变量时间序列进行特征选择,然后使用支持向量回归对目标序列进行预测。特征提取过程中剔除冗余变量和无关变量,从而达到降低支持向量回归的输入维数并提升预测准确率的效果。(本文来源于《中国科学技术大学》期刊2014-05-01)

李海林[10](2012)在《时间序列数据挖掘中的特征表示与相似性度量方法研究》一文中研究指出随着社会经济和信息技术的发展,时间序列的数据量增长越来越快。相应地,利用数据挖掘技术在时间序列数据库中发现潜在的有价值的信息和知识也越来越倍受关注,其研究成果已被成功地运用于经济、金融、电子信息、医疗卫生、教育、工业和工程等领域中。然而,时间序列特征表示和相似性度量是时间序列数据挖掘任务中最为基础和关键的工作,其质量的好坏直接关系到时间序列数据挖掘的结果。时间序列数据随时间的推移而不断增长,数据的高维、动态、不确定等特性阻碍了传统数据挖掘技术性能的发挥。特征表示方法的主要目的是利用少量特征近似表示原时间序列,起到有效降维的作用,进而提高数据挖掘任务的效率。同时,相似性度量是测量时间序列之间差异性的方法,通常结合特征表示方法对时间序列之间的相似性进行快速有效地度量,其度量结果可用于分类、聚类、相似性搜索和异常模式发现等时间序列数据挖掘任务中。本文分别以等长和不等长时间序列为主要研究对象,探讨利用不同的方法对这两种类型时间序列数据进行特征表示和相似性度量,使得方法能更为完善和有效地运用于时间序列数据挖掘中,进而获取潜在有价值的信息和知识。本文的主要研究工作如下:(1)从等长时间序列的整体特征出发,提出基于正交多项式回归系数特征表示的相似性度量方法。通过分析多项式最高项次数对时间序列整体形态拟合效果的影响,选取合适的特征系数反映时间序列的主要形态趋势,提出更适合于特征序列的相似性度量方法,并且在理论上证明其满足下界性,提高它在时间序列相似性搜索中的性能。(2)针对分段聚合近似对等长时间序列进行特征表示的问题,利用多维特征对等长时间序列进行特征表示,并构造满足下界性的相似性度量方法。通过对传统分段聚合近似方法及其相似性度量方法满足下界性的剖析,利用不同维度的特征来近似表示分段序列,分别提出了基于二维统计特征和基于二维形态特征的分段聚合近似方法,提高了传统分段聚合近似方法在时间序列数据挖掘中的应用效率。同时,将分段序列的二维形态特征表示推广到更高维形态特征表示,使得较高维数的分段特征表示方法在较大数据压缩率的情况下其距离度量函数的性能有所提高。(3)以云模型理论为基础对等长时间序列实现分段特征表示,并提出了具有较高性能的相似性度量方法。利用云模型反映分段序列数据分布的不确定性,并且给出了云模型相似性度量函数,进而实现云特征序列之间的相似性度量。虽然基于云模型的时间序列相似性度量方法不能满足下界性,但它从局部和全局的角度来考虑时间序列的波动性和不确定性,具有较高的相似性度量质量,有效地提高了时间序列数据挖掘相关算法的性能。(4)针对传统动态时间弯曲方法度量不等长时间序列需要较高时间代价的问题,提出了两种改良后的弯曲度量方法。首先,在权衡计算速度和度量精度的情况下,通过自适应快速分段线性表示对时间序列进行特征表示,再结合导数动态时间弯曲方法来快速有效地对不等长时间序列进行弯曲度量,提出了基于分段线性近似和导数动态时间弯曲的时间序列相似性度量方法。其次,为解决动态时间弯曲方法带来较大计算量的问题,通过缩小最优弯曲路径的搜索范围和提前终止计算最优弯曲路径的策略,提高传统动态时间弯曲方法在时间序列相似性搜索中的计算效率。(5)时间序列特征表示和相似性度量方法在发动机数据挖掘中的应用。根据发动机性能参数时间序列数据的特性,利用新的时间序列特征表示和相似性度量方法来实现发动机性能参数的数据挖掘,进而有效地对发动机性能参数进行特征识别和故障检测,给发动机设计过程中的知识发现增加了新的视角,为管理和保障发动机的运行安全提供参考依据。以上研究成果通过数值实验检验了它们对不同类型时间序列数据进行特征表示和相似性度量的有效性,并且比较了它们在时间序列数据挖掘中提高相关算法的性能,进一步完善了时间序列数据挖掘中的特征表示和相似性度量的研究。(本文来源于《大连理工大学》期刊2012-09-12)

时间序列数据挖掘方法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息技术的快速发展,时间序列的数据量增长速度也逐步加快。与此同时,数据挖掘技术在时间序列数据库中的应用也越来越普遍。通过将把相同长度和不同长度的时间序列作为对象进行深入的研究,探讨各种表示方法的内涵与特征,使这些表示方法更加完善以及更好地应用于时间序列数据的挖掘工作中,从而能够更加方便有效地获取有价值的信息。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

时间序列数据挖掘方法论文参考文献

[1].胡宇鹏.时间序列数据挖掘中的特征表示与分类方法的研究[D].山东大学.2018

[2].王培屹.时间序列数据挖掘中的特征表示与相似性度量方法研究分析[J].电脑与电信.2018

[3].薛钰,梅雪,支有冉,许志兴,史翔.基于时间序列数据挖掘的地铁车门亚健康状态识别方法[J].计算机应用.2018

[4].龙婧.面向金融时间序列奇异性特征的数据挖掘方法研究与应用[D].昆明理工大学.2018

[5].潘力,黄继海,王磊.基于分层有限状态机的时间序列数据挖掘与预测方法[J].湘潭大学自然科学学报.2017

[6].李海林,郭崇慧,杨丽彬.基于时间序列数据挖掘的故障检测方法[J].数据采集与处理.2016

[7].叶燕清.多元时间序列数据挖掘相似性分析方法及应用研究[D].国防科学技术大学.2015

[8].闵盈盈.基于ARIMA模型的时间序列数据挖掘方法改进[J].哈尔滨商业大学学报(自然科学版).2014

[9].孙友强.时间序列数据挖掘中的维数约简与预测方法研究[D].中国科学技术大学.2014

[10].李海林.时间序列数据挖掘中的特征表示与相似性度量方法研究[D].大连理工大学.2012

标签:;  ;  ;  ;  

时间序列数据挖掘方法论文-胡宇鹏
下载Doc文档

猜你喜欢