导读:本文包含了数据挖掘框架论文开题报告文献综述及选题提纲参考文献,主要关键词:信息安全,行为监管,监测框架,数据挖掘
数据挖掘框架论文文献综述
袁磊[1](2019)在《数据挖掘视角下征信信息安全行为监测框架设计与应用》一文中研究指出在基层央行日常征信监管实践的基础上,立足主体监管引入行为监测理念,利用数据挖掘研究思路和工具,构建征信信息安全行为监测框架,并探讨其应用方向:完善指标分析和预警功能,构建行为风险地图;建立行为检测报告制度,实施差异化管理;践行服务型监管理念,提供全方位服务支持。(本文来源于《征信》期刊2019年10期)
张婷,马世发,李少英,邱俊良[2](2019)在《土地利用时空大数据挖掘框架设计与应用》一文中研究指出随着城镇化进程的推进,土地供需矛盾日益加剧。土地利用调查是一个记录每宗地块时空演变的重要大数据,对其变化规律及趋势进行挖掘,可为国土资源管理相关政策制定提供直观的、科学的数据支撑与决策依据,进而实现国土资源的"精细化"管理。研究结合大量统计数据,探讨了土地利用动态度、建设用地扩张速度、城镇增长空间模式、土地利用综合效益、基于马尔科夫链的土地数量预测、土地利用空间格局模拟等挖掘模型,开发了土地利用时空大数据挖掘管理系统,实现了对数据的管理、分析与展示。(本文来源于《国土与自然资源研究》期刊2019年02期)
李爽,陈瑞瑞,林楠[3](2018)在《面向大数据挖掘的Hadoop框架K均值聚类算法》一文中研究指出为提高大数据聚类效率,提出一种基于Hadoop框架的K均值聚类算法。采用Hadoop框架所用的MapReduce模型,将大数据划分成许多数据块。在Map阶段提出权重K均值聚类算法,对每一个数据块独立聚类,得到聚类中心和权重;在Reduce阶段提出加权融合K均值聚类算法,对Map阶段得到的聚类中心和权重进行融合,得到最终的聚类结果。在HIGGS数据集上进行聚类实验,实验结果表明,该算法在保持聚类准确率的前提下大幅提升了大数据聚类时K均值聚类算法的运算效率。(本文来源于《计算机工程与设计》期刊2018年12期)
黄艳丽,葛文谦[4](2018)在《面向航天制造业数据挖掘的数据源框架研究》一文中研究指出文章针对航天制造业数据来源多样性、分散性的问题,并且为实现数据挖掘技术在航天制造业上的应用,依托目前主流信息化系统构建数据源框架。通过梳理企业信息化系统的功能以及业务场景,明确数据源报表,搭建各数据源间的框架,同时,可根据企业业务系统进行扩展与完善。通过建立此框架,一方面能够快速了解航天制造业的信息化系统及其数据结构,同时能够基于此框架有效、快速地开展数据挖掘工作。(本文来源于《信息化研究》期刊2018年05期)
孙曙辉,刘邦奇,李鑫[5](2018)在《面向智慧课堂的数据挖掘与学习分析框架及应用》一文中研究指出国内外对教育大数据的研究正从概念、理念层面走向建模分析与应用层面,而应用层面的研究也从教育质量监测统计、教育决策等宏观层面向学校教学、学生学习等微观层面深入发展。该文在教育数据挖掘与学习分析内涵讨论的基础上,结合智慧教学实际提出了智慧课堂的数据模型和体系架构,阐述了"四建模叁分析"的教育大数据研究方法论,构建了智慧课堂数据挖掘分析的"整体棋盘"及13个具体研究问题,并提出了智慧课堂数据挖掘分析的四类应用模式,最后基于真实数据探讨了学生主观行为对成绩的影响分析应用案例。(本文来源于《中国电化教育》期刊2018年02期)
桂伟[6](2018)在《基于Spark框架的大规模数据挖掘技术研究》一文中研究指出大数据背景下如何从海量信息数据中发掘价值讯息成为了重要研究课题。在数据挖掘算法基础上实现对海量数据的计算是该课题的重要研究内容。然而,传统单机环境下基于串行算法对海量数据进行处理需耗费大量时间,较难满足规模日益激增的数据计算任务。分布式计算技术为实现海量数据的挖掘提供了技术方案,Spark作为基于内存的计算框架,高迭代类型的数据挖掘算法在该框架上往往快于Hadoop。本文通过构建Spark分布式集群,完成了对经典算法的并行化改进。针对单机环境下的FP-Growth算法无法满足海量数据频繁项集挖掘任务需求的问题,本文基于Spark Core的理论与技术,在有向无环图DAG(Directed Acyclic Graph)的内存计算框架体系下对该算法的支持度计数和分组过程进行了并行化改进,对Spark核心资源调度参数进行了性能调优,合理设置了各子节点的进程数及其对应的CPU核心数实现了算法运行过程中计算资源的均衡分配。实验结果证明改进后的并行算法具有更高的时间性能,能够高效完成大规模数据的频繁项集挖掘任务。经典K-means中K值选择不确定且中心点随机选取造成误差较大,本文通过定义概率函数对初始簇中心点选取过程进行了改进,同时简化了其距离计算公式,最终在Spark框架下实现了改进后算法的并行化过程。实验仿真阶段,通过多次聚类的方法结合最小误差平方和的评估结果给出了合理的K值选择方案。对比实验结果证明改进策略后的算法具有更高的时间性能以及聚类精度。在上述并行改进算法基础上,以山东济南海量出租车行驶数据为研究实例,利用GIS(Geographic Information System)技术绘制了济南市路网拓扑,结合频繁项集挖掘的实验结果对数据集进行筛选以获取居民出行的频繁区域据此构建了出租车运营的交通热点图,并以筛选后的数据集为研究实例进行聚类实验完成了对山东济南市交通路网系统的静态子区划分,最终为临时候车点的选址提供了技术支持。(本文来源于《安徽工业大学》期刊2018-01-08)
卜琪[7](2017)在《一种基于CR树的数据挖掘可视化框架》一文中研究指出随着数据挖掘技术的逐渐发展,数据挖掘模型越来越复杂,使得数据挖掘可视化的需求越来越强烈。数据挖掘可视化有叁个方面动机:1.帮助初学者和用户理解数据挖掘模型的工作原理;2.解释数据挖掘的过程、中间结果等细节;3.辅助数据挖掘技术的研究。虽然有许多文献提出朴素贝叶斯、决策树、神经网络的可视化方案,但是这些方案都局限于UI的设计,并未提出通用的数据挖掘可视化解决方案。本文针对决策树和神经网络是图结构的特点,研究将模型可视化所涉及的数据表示方法、储存结构和UI。同时兼顾考虑用户搭建可视化系统的易用性,最终形成一种基于CR树的数据挖掘可视化框架CR-DMVF。CR-DMVF框架主要解决两个问题。第一是数据挖掘数据如何表示和存储。针对这一问题本文将决策树和神经网络训练中间数据统一使用(时间,节点,边,属性)四元组表示,并提出CR树作为数据的索引结构。第二是数据挖掘模型的UI表示。针对这一问题框架定义了导航视图、模型视图、数据视图、时间轴及其操作。本文的主要工作包括以下叁个方面:1.提出一种基于CR树的数据挖掘可视化框架CR-DMVF。CR-DMVF框架将数据挖掘可视化系统分成UI、可视化、数据管理和数据挖掘模型四层。UI层包括数据视图、导航视图、模型视图和时间轴。可视化层主要包括导航视图的初始化。数据管理由原始数据索引、节点索引、中间数据索引和数据过滤器组成。数据挖掘模型层从数据挖掘模型获取模型训练过程的中间数据。本文通过搭建决策树可视化系统展示CR-DMVF的使用方法。2.通过分析决策树和神经网络算法,提出这两类算法的中间数据最多需要时刻、节点、边和属性四个属性表示。从而将决策树和神经网络的中间数据使用统一的四元组表示,为这两类数据挖掘模型可视化提供便利。3.改进R树插入算法,提出CR树多维数据索引结构。针对R树建树会产生细长矩形,降低搜索效率的问题,提出应当抑制细长矩形的产生。当数据点插入已满的CR节点时,会使节点分裂。首先计算待分裂节点矩形和坐标空间矩形的各边比例,选择比值最大的边作为分裂边;然后通过分裂边确定两个标准点,根据待分裂节点子节点质心与两个标准点距离,将子节点分为两组完成分裂。最后通过实验证明CR树的有效性。(本文来源于《南京大学》期刊2017-08-01)
罗纯,张应山[8](2016)在《多边矩阵框架的基阵表示和数据挖掘——处理复杂系统的新思维系列之二十七》一文中研究指出作为系列论文的第27篇,介绍了多边矩阵框架的基阵表示概念,给出了多边矩阵框架的基阵表示的基本性质.作为应用,研究了多边矩阵框架的基阵表示和数据挖掘之间的关系.(本文来源于《上海应用技术学院学报(自然科学版)》期刊2016年02期)
赵梁滨[9](2016)在《船舶轨迹的数据挖掘框架及应用》一文中研究指出随着世界经济的发展,水上交通的运输任务日益繁重,水域交通状况越发繁杂。为了保障人员财产安全、保护海洋环境、维护国家主权,加强对海上交通态势的了解及交通监管十分重要。长久以来,船舶的交通流观测仍以视觉和雷达观测为主,缺乏船舶具体信息,且低效。此外海事监管部门的主要监管手段是通过低效的人工值守完成的,容易随着值守人员的注意力下降、疲劳等人为因素,发生误报和漏报现象。本文旨在挖掘大量累积的AIS轨迹数据,获得船舶运动模式,为航道建设、航路规划提供辅助决策,实现异常船舶的识别,从而提高监管效率,降低风险,优化通行效率,节省货物运输成本。本文以船舶运动轨迹为研究对象,采用了数理统计分析、聚类分析等技术,对船舶轨迹的数据挖掘方法进行了研究,主要工作包括以下4个方面。(1)总结归纳了包括噪声清洗手段在内的AIS轨迹数据预处理方法,并对在天津VTS中心采集AIS报文过程中出现的校验位错乱的异常现象进行了分析,发现了 AIS报文数据中存在着标识符封装错乱的问题,并提出标识符循环代入验证的优化采集方法。实验结果表明新的采集方法能够规避封装错乱的问题,提升AIS报文的采集质量。(2)提出利用"子轨迹长度和"量化压缩精度的方法,通过数理统计,选取能够保留较多轨迹特征点的阈值,从而确定Douglas-Peucker算法的压缩上限,并通过琼州海峡水域的实船数据验证了该方法能够在压缩数据量的同时,保留原数据的交通流特性,以此划分出的船舶轨迹是有效的。(3)提出了通过统计核心距离的分布密度,利用Inverse Gaussian拟合曲线的极值和拟聚类后的噪声数量变化规律,确定密度聚类算法参数的方法,以及提出通过层次进行密度聚类的具体流程,以适应密度分布不均的船舶轨迹数据。实例分析说明了该方法能够区分不同相似性的轨迹,聚合相似性较高的轨迹,可以用以建立船舶行为的模型。(4)建立了基于"Douglas-Peucker船舶轨迹划分—结构化相似性度量—自适应层次密度聚类/谱聚类/轨迹核密度估计"的船舶轨迹数据挖掘框架,提出基于样本模型的异常检测应用方法,并利用VisualStudio2013、MatlabR2014a、电子海图系统进行了琼州海峡水域船舶数据的实例分析,利用基于该框架开发的船舶异常检测仿真模拟系统,进行了船舶监测的仿真实验。结果证明了该框架在掌握水上交通流态势、海事实时监管上的可行性,并且能够在零散杂乱的船舶轨迹中发现船舶轨迹的分布规律,动态及时地识别存在异常行为的船舶,具有一定的应用价值。(本文来源于《大连海事大学》期刊2016-05-01)
徐啸[10](2016)在《Hadoop数据挖掘并行算法框架》一文中研究指出论文提出了hadoop云平台实现数据挖掘并行算法的编程框架。首先对数据挖掘算法和应用和原理进行了分析,然后介绍了Map/Reduce并行编程流程,从input split,到map()的(key,value),和reduce对(key,list{value})的简答计算。详细设计了数据挖掘算法的通用Map/Reduce编程框架,分析了算法关键技术。最后应用在sprint和k-mean算法上,实验结果说明hadoop云平台能实现数据挖掘并行算法,提高加速比。(本文来源于《电子技术与软件工程》期刊2016年07期)
数据挖掘框架论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着城镇化进程的推进,土地供需矛盾日益加剧。土地利用调查是一个记录每宗地块时空演变的重要大数据,对其变化规律及趋势进行挖掘,可为国土资源管理相关政策制定提供直观的、科学的数据支撑与决策依据,进而实现国土资源的"精细化"管理。研究结合大量统计数据,探讨了土地利用动态度、建设用地扩张速度、城镇增长空间模式、土地利用综合效益、基于马尔科夫链的土地数量预测、土地利用空间格局模拟等挖掘模型,开发了土地利用时空大数据挖掘管理系统,实现了对数据的管理、分析与展示。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
数据挖掘框架论文参考文献
[1].袁磊.数据挖掘视角下征信信息安全行为监测框架设计与应用[J].征信.2019
[2].张婷,马世发,李少英,邱俊良.土地利用时空大数据挖掘框架设计与应用[J].国土与自然资源研究.2019
[3].李爽,陈瑞瑞,林楠.面向大数据挖掘的Hadoop框架K均值聚类算法[J].计算机工程与设计.2018
[4].黄艳丽,葛文谦.面向航天制造业数据挖掘的数据源框架研究[J].信息化研究.2018
[5].孙曙辉,刘邦奇,李鑫.面向智慧课堂的数据挖掘与学习分析框架及应用[J].中国电化教育.2018
[6].桂伟.基于Spark框架的大规模数据挖掘技术研究[D].安徽工业大学.2018
[7].卜琪.一种基于CR树的数据挖掘可视化框架[D].南京大学.2017
[8].罗纯,张应山.多边矩阵框架的基阵表示和数据挖掘——处理复杂系统的新思维系列之二十七[J].上海应用技术学院学报(自然科学版).2016
[9].赵梁滨.船舶轨迹的数据挖掘框架及应用[D].大连海事大学.2016
[10].徐啸.Hadoop数据挖掘并行算法框架[J].电子技术与软件工程.2016