数据偏斜论文-高立群

数据偏斜论文-高立群

导读:本文包含了数据偏斜论文开题报告文献综述及选题提纲参考文献,主要关键词:个人文本数据管理,数据偏斜,文本分类,特征选择

数据偏斜论文文献综述

高立群[1](2017)在《数据偏斜条件下个人文本数据分类的研究与实现》一文中研究指出随着智能化时代的到来,计算机数据管理正逐步由手工化向智能化转变,个人信息的智能管理也成为了热门的研究领域。如何高效管理日益增多的个人文档,提高工作效率,是数据分析与挖掘领域的重要研究课题。近年来,文本分类技术的不断进步使得在文本数据管理方向上有了更多改进空间,将文本分类技术应用在个人数据管理的想法随之产生。在文本数据快速增长的现状下,对个人文本文档进行快速自动归类是提高个人信息管理效率的一种有效举措。然而,个人文本文档分类问题的一个难点在于,每个用户所存储的文本文档的侧重点各不相同,在分类时不可避免的存在数据偏斜问题。数据偏斜会造成文本分类过程中结果偏向偏斜(样本数多)的类而忽视了样本数少类,因而造成结果偏差甚至错误。对于上述问题,本文主要完成如下工作:面对个人文档数据的偏斜问题,本文提出了一种快速有效的特征选择方法TDA算法。结合个人文本数据所具有的高维空间与数据偏斜的特性,先通过TextRank算法对文本快速降维,并选出可用特征词集;在此基础上,通过最强区分力特征选择方法,进一步选择每一类最具区分力的特征词构成“类特征向量”;最后,基于类特征向量提出一种根据T-DA算法特点的词匹配的分类方法,该分类方法具有可以推送多可能结果的作用,可以通过与用户交互实现精确的分类。最后基于复旦新闻语料和解放军报分类数据评估了算法的性能和可行性,验证了上述方法对个人文本数据分类有较好的实用性。在算法研究的基础上,本文还设计并实现了一种基于上述算法的文本文档分类原型系统,通过编程实现了文本文档判断模块,预处理模块、T-DA特征选择模块、类特征向量图构造模块、分类模块,界面的设计,综合研究了个人文本文档分类原型系统的工程实现,提供了一种个人文本文档自动归类的解决方案,可以有效提高用户对文本数据的管理效率。(本文来源于《国防科学技术大学》期刊2017-03-01)

张葵,毛会,杜为公[2](2016)在《面向偏斜数据的压缩季节性预测模型及应用》一文中研究指出面向短时间序列的季节性预测方法能更为准确的抓住数据特征,提高预测精度。文章首先在分析目前常见的面向短时间序列的季节性预测方法的基础上,推出新的Lemon-Krutchkoff季节性预测模型,以解决偏斜分布数据预测精度不高的难题;并通过两套实际销售数据对新旧模型进行实验比较,以证实新模型在处理大噪声偏斜数据上的优势。(本文来源于《统计与决策》期刊2016年10期)

马稳[3](2016)在《基于数据偏斜条件下Reduce任务放置机制的研究》一文中研究指出随着网络技术的不断发展,互联网己经越来越普及,各行各业都受到它的影响,网络用户数目不断攀升,这也使得互联网中所产生的数据朝着大和杂的方向发展,对这类型数据的分析处理和挖掘搜索已经成为互联网行业新的方向,同时这些都为分布式计算和云计算的发展提供了新的发展机遇。MapReduce是Google提出用于处理海量数据的分布式并行计算编程模型,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个机器组成的大集群上,具有自动并行处理作业、可靠性高、具有容错能力以及编程简单,能够并行地处理上TB级别的海量数据集等特点。在大多数运行的Hadoop系统中,对于频繁的磁盘I/O和跨机架和不同物理节点的大数据量的传输,中间数据的传输已经成为制约性能的的瓶颈。本文提出reduce任务放置算法,将目标任务调度到其相关map任务所在的物理节点或者同一机架内以此来获得中数据,提高本地化读取数据性能。由于key值是需要直到map任务结束之后才能被计算,本轮提出了一种基于水池抽样的方法来获取中间键值的分布情况。基于这个抽样的出来的数据分布比较好的接近原始数据的分布,基于这个中间键值的分布来执行分区策略,跨机架之间通信通过考虑它的距离和损耗将对应于map任务相关的reduce任务调度值其相近的物理节点来获取中间数据的本地性。论文基于 Hadoop 2.4.0 来实现 CORP(Correlation-oriented reduce placement)算法并且通过sort,grep,join这叁种作业类型来对其性能进行评估,实验的结果也显示该算法在对其数据本地性和reduce负载有了较大的改善,但是由于前期的抽样带来的额外的负担使得论文中CORP算法对于执行时间方面的优化不是特别的大。本论文不仅在Hadoop的集群环境中基于数据倾斜实现了任务的放置的研究,并且将该方法至于云环境中通过虚拟机来实现任务的放置。任务虚机启动的位置越是靠近存储节点,获得的本地化数据就越多。基于现有的模型和工作提出了虚拟机启发式迁移HM(Heuristic Migration)策略,实验中与随机模式的迁移和不迁移策略相比HM有较大的优化,实验显示机架内的流量交换越小,数据的本地化程度就越大,在执行时间的优化就越好。(本文来源于《湖南大学》期刊2016-05-05)

祁玲[4](2016)在《数据偏斜条件下面向性能与能耗的任务调度算法研究》一文中研究指出随着互联网技术的不断蓬勃发展,信息化已经逐渐渗透到各行各业,与人类的生活密不可分。互联网用户数量的成倍增长,直接导致了海量数据爆发式的增长,使得分布式计算与云计算有了发展的平台。如何使用更为高效的计算框架来从海量数据中提取出对企业有用的信息,进而推动企业的发展,是企业长期研究的课题。作为云计算平台中炙手可热的成员,MapReduce计算框架受到了各大企业和研究机构的关注。MapReduce是由Google公司于2006年提出的分布式计算框架,经过近十年的演化,它已变得越来越完美。其简便的编程模型,使得用户只需要编写简单的map函数和reduce函数就可以实现各自的需求,而不用考虑底层的容错、冗余、节点通信等复杂问题。但是,随着海量数据出现数据分布不均衡,MapReduce框架中自带的Hash分配策略已不能满足用户的需求了。因为Hash算法按<key,value>键值对分配任务给Reduce的策略在数据偏斜时会导致Reducer负载分布不均,使得系统中出现很多“拖后腿”的任务。本文就该问题提出了一个高效的CSRA算法,该算法通过对任务队列更合理的调度,并对系统判定出的大任务进行分割,从而达到减少任务的执行时间以及在Reduce阶段的变异系数的目的。该算法将任务的实时状态考虑到计算模型中,有效的提高系统的资源利用率。在Hadoop平台上实现CSRA算法的实验结果表明,该算法能很大程度的减少常见应用的执行时间。基于CSRA算法,本文还研究了并行分布式系统的能耗问题。异构分布式系统凭借着低成本、良好的可扩展性和容错性,使得很多企业纷纷将平台建立在分布式系统之上。随着互联网企业的不断壮大发展,数据中心像雨后春笋般不断增长,如何高效的管理数据中心的资源,合理的进行任务调度,已经成为绿色计算亟待解决的问题。本文基于DVFS技术提出了任务节能调度算法DEWTS,该算法首先通过CSRA算法提出的启发式任务时间估算方法估算出任务的执行时间,确定任务的优先级别,并对任务进行合理的调度,在调度完成后,根据处理器上的任务数和处理器的资源利用率对处理器进行合并,之后重新利用CSRA算法对任务进行调度。在调度完成后,利用DVFS技术合理的调节任务在执行过程中的电压/频率。实验结果表明DEWTS算法能保证任务的整体完成时间,降低系统的总能耗。(本文来源于《湖南大学》期刊2016-04-25)

孙德,陈水星,杨鹏[5](2016)在《化探数据的分布型式检验及偏斜校正》一文中研究指出在勘查地球化学异常下限值的确定过程中,无论采用直方图解法、概率格子法或者统计计算法,都有一个不容忽视但容易被忽略的前提---元素在地质体中呈正态分布(或对数正态分布)。在不满足这个前提条件下得到的异常下限值都是值得商榷的,甚至可以说是错误的。因此元素的分布型式检验至关重要。本文以陕西省汉王城地区岩石地球化学测量工作中的Ag元素为例,详细阐述如何利用常用的Excel软件来确定元素的分布型式及如何在元素偏斜分布时进行校正。(本文来源于《世界有色金属》期刊2016年03期)

王先文[6](2015)在《基于偏斜t混合模型的流式数据细胞类群自动识别算法研究》一文中研究指出目的:流式细胞术是一种对大量细胞的物理和化学特性进行快速分析的技术。通过将荧光标记的抗体与细胞结合,并对细胞在激光照射下的光学信息进行分析,流式技术在细胞癌变诊断、肿瘤检测、艾滋病检测、细胞免疫表型分析、外周血干细胞移植及育苗研制等众多领域得到了广泛应用。然而,在目前流式技术的应用中,流式数据的分析仍然采用人工分析方式。人工分析数据不仅效率较低,浪费资源,而且分析结果的主观性较强,结果的可靠性和可重复性低。随着流式技术向着多通道、高通量方向发展,快速自动的数据分析平台已成为流式技术发展的迫切需求。流式数据分析的主要过程是对样本中细胞群进行划分,即设门。人工设门方法是将多维数据逐次投影到二维空间,然后通过划定区域将同一类细胞归为一类。人工设门主要基于主观经验进行区域设定,不仅缺乏统一标准,而且很难准确识别含有多维特征的细胞类群。流式数据自动设门在机器学习领域称为非监督聚类,针对这一过程目前虽然提出了一些自动聚类算法,然而由于流式技术检测样本的多样性,许多流式数据通常包含了一部分数量稀少且高度非对称分布的类群,对于这些类群,目前的聚类算法无法进行准确识别。另外,由于流式技术的多参数特点,流式数据通常包含了多个维度的特征信息。对于多维度流式数据,目前的算法主要通过先将数据投影或降维到二维空间,然后进行聚类分析。降维或投影的过程不仅可能丢失一部分数据特征,而且其分析过程需要人工操作,其属于一种半自动聚类算法。综上所述,有必要对流式数据细胞类群自动识别算法进行研究,实现多维流式数据的直接聚类分析,尤其是数量稀少且高度非对称分布类群的准确分析。方法与内容:本课题以流式数据细胞类群自动识别为目标,重点解决数据中数量稀少且高度非对称分布类群的识别,实现多维流式数据的直接聚类分析。课题按照算法设计和实验验证两个过程展开研究,主要进行了以下工作:(1)针对数量稀少且高度非对称分布类群的识别,提出了偏斜t混合模型聚类算法。通过对混合模型进行研究,确定了偏斜t分布为混合模型的分量密度。通过分析偏斜正态分布的定义方法,以及t分布与正态分布的转化关系,定义了一种偏斜t分布概率密度。基于混合模型极大似然估计及其EM算法的研究,对定义的偏斜t分布混合模型进行EM算法推导,并得到了EM算法相关计算表达式。针对EM算法计算可能出现的局部最优解问题,提出了一种基于K-means和极大似然的参数初始化方法,该方法保证E算法计算过程收敛到全局最优解。(2)针对目前混合模型方法计算效率低,无法识别不规则形状类群的问题,提出了基于偏斜t混合模型的层次聚类算法。该算法通过类群数量估计、偏斜t混合模型聚类和结果合并叁个主要步骤完成对数据的聚类分析。对于数据中类群数量的估计,要求估计的类群数必须限制在一个合理范围,提出了一种基于直方图的类群数量快速估计算法,该算法利用最大后验概率计算最优组数,并通过直方图组间频数变化趋势识别类群峰,实现了流式数据中类群数量的快速估计。对偏斜t混合模型冗余的聚类结果,定义了一种类群间相似度判断准则,该准则同时兼顾类群间的空间距离和类群的空间分布状态。对合并过程的结果,采用两段回归拟合方法实现了结果的最优选择。(3)仿真实验分析。由于前一个过程的结果会影响后一过程的计算时间,因此,基于流式数据的基本属性(事件数、类群数和维度),首先仿真3组不同属性的数据,分析影响算法时间复杂度的主要过程。然后,在此基础上,仿真3组不同属性的数据,分析影响算法时间复杂度的主要因素。接下来,通过分析两个模仿真实流式数据特征的仿真数据,分别评价偏斜t混合模型识别不同形状类群和算法识别数量稀少且高度非对称分布类群的有效性。在此过程中,分别对比其他混合模型和非基于概率模型聚类算法的分析结果。最后,通过分析一个含有凹形类群的仿真数据,评价算法分析不规则形状数据的有效性。(4)生物实验验证。首先进行微生物细胞活性分析实验,通过分析酵母菌细胞活性实验中的流式数据,评价算法在分析该类型数据的有效性。然后进行淋巴细胞亚群分析实验,通过分析CD8+T淋巴细胞相对计数实验和NK细胞与B细胞相对计数实验数据,评价算法分析淋巴细胞亚群数据的有效性。叁个实验数据分析过程中,同时对比目前其他基于概率模型的算法和非基于概率模型算法的分析结果。结果(1)仿真实验结果:通过对叁组(共30个)不同属性的数据进行分析,并记录叁个过程的计算时间,得出偏斜t混合模型EM算法的计算时间占据了算法计算的主要时间,约为97%。通过采用偏斜t混合模型对叁组(共60个)不同属性的数据进行分析,得出偏斜t混合模型EM算法计算时间与数据中包含的事件数和类群数成线性关系,与数据的维度成平方关系。并且,对于通常条件下的流式数据(p<20,g<20,n<50000),算法计算时间主要与数据中的类群数和事件数相关。由于其他基于混合模型的聚类算法采用信息准则识别类群数量,因此,实验结果同时验证了本文算法相比其他混合模型算法具有更高的计算效率。在算法有效性评价实验中,偏斜t混合模型分析仿真数据结果的F-measure(F值)为:0.99234,高于其他混合模型分析结果的F值:0.98281,0.97989,0.98302,验证了本文设计的偏斜t混合模型识别多种分布形状类群的能力。本文算法分析含数量稀少且高度非对称分布类群的仿真数据结果的F值为0.99899,高于其他算法分析结果的F值:0.98002,0.98395,0.99264,验证了本文算法识别数量稀少且高度非对称分布细胞群的能力。通过分析包含凹形类群的仿真数据,验证了本文算法识别数据中不规则分布类群的能力。(2)生物实验结果:以直接聚类方式对实验数据进行分析,本文算法分析酵母菌细胞活性检测实验数据结果的F值为0.91637,高于其他算法分析结果的F-measure值(F值):0.78126、0.81928、0.89472、0.76438,验证了本文算法分析该类型数据的有效性;本文算法分析CD8+T淋巴细胞亚群相对计数流式数据结果的F值为0.95642,高于其他算法分析结果的F值:0.78453、0.88642、0.89013、0.89691;本文算法分析B细胞和NK细胞相对计数流式数据结果的F值为0.95807,高于其他算法分析结果的F值:0.80149、0.90826、0.92682、0.93041,验证了本文算法分析淋巴细胞亚群数据的有效性。叁个实验的结果验证了本文算法直接分析多维流式数据结果的可靠性。结论:相比基于概率模型的软聚类算法,本文提出的算法不仅能够准确识别数据中凹形及不规则分布类群,而且分析时间少于其他算法。相比非基于概率模型的硬聚类算法,本文提出的算法不仅能够识别数量稀少且呈现高度非对称性的类群,而且实现了多维流式数据的直接聚类分析。因此,就效率和准确性而言,本文提出的算法是目前流式数据自动聚类分析较好的算法。(本文来源于《中国人民解放军军事医学科学院》期刊2015-06-10)

郭文锋,王勇[7](2015)在《基于累积正样本的偏斜数据流集成分类方法》一文中研究指出针对现有处理偏斜数据流的方法存在过拟合或者未充分利用现有数据这一问题,提出一种基于累积正样本的偏斜数据流集成分类方法 EAMIDS。该算法把目前达到的所有数据块的正样本收集起来生成集合AP,然后采用KNN算法和Over-sampling方法来平衡数据块的类分布。当基分类器数量超过最大值时,根据F-Measure值来更新集成分类器。通过在模拟数据集SEA和SPH上的实验,与IDSL算法和SMOTE算法相比,表明EAMIDS具有更高的准确率。(本文来源于《计算机与现代化》期刊2015年03期)

王先文,陈锋,程智,杜耀华,暴洪涛[8](2014)在《基于偏斜t混合模型的流式数据自动聚类方法研究》一文中研究指出流式数据分析的主要过程是以设门的方式对样本数据中的细胞群进行类群划分.由于传统人工设门方式的缺点,提出了一种基于偏斜t混合模型的流式数据自动聚类方法.该方法采用有限混合模型形式,以偏斜t布为模型密度函数,并通过期望最大化方法估计模型参数.通过对两组不同类型实验数据进行分析,结果表明:相比于非基于模型的聚类方法,基于混合模型的聚类方法对于流式数据的分析具有更好的鲁棒性,能够降低数据中离群值对结果分析的影响;相比于高斯混合模型、偏斜正态混合模型、t混合模型,基于偏斜t分布的混合模型具有更好的灵活性,不仅能够拟合流式数据中椭圆对称分布的数据,而且对于高度非对称分布数据的分析也具有很好的效果.(本文来源于《电子学报》期刊2014年12期)

刘振岩,孟丹,王伟平,王勇[9](2014)在《基于偏斜数据集的文本分类特征选择方法研究》一文中研究指出对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果。该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异。然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数—相对类别差异(Relative Category Difference,RCD)。与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优。(本文来源于《中文信息学报》期刊2014年02期)

李雄飞,李军,屈成伟,刘丽娟,孙涛[10](2012)在《数据挖掘中平衡偏斜训练集的方法研究》一文中研究指出分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.(本文来源于《计算机研究与发展》期刊2012年02期)

数据偏斜论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

面向短时间序列的季节性预测方法能更为准确的抓住数据特征,提高预测精度。文章首先在分析目前常见的面向短时间序列的季节性预测方法的基础上,推出新的Lemon-Krutchkoff季节性预测模型,以解决偏斜分布数据预测精度不高的难题;并通过两套实际销售数据对新旧模型进行实验比较,以证实新模型在处理大噪声偏斜数据上的优势。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据偏斜论文参考文献

[1].高立群.数据偏斜条件下个人文本数据分类的研究与实现[D].国防科学技术大学.2017

[2].张葵,毛会,杜为公.面向偏斜数据的压缩季节性预测模型及应用[J].统计与决策.2016

[3].马稳.基于数据偏斜条件下Reduce任务放置机制的研究[D].湖南大学.2016

[4].祁玲.数据偏斜条件下面向性能与能耗的任务调度算法研究[D].湖南大学.2016

[5].孙德,陈水星,杨鹏.化探数据的分布型式检验及偏斜校正[J].世界有色金属.2016

[6].王先文.基于偏斜t混合模型的流式数据细胞类群自动识别算法研究[D].中国人民解放军军事医学科学院.2015

[7].郭文锋,王勇.基于累积正样本的偏斜数据流集成分类方法[J].计算机与现代化.2015

[8].王先文,陈锋,程智,杜耀华,暴洪涛.基于偏斜t混合模型的流式数据自动聚类方法研究[J].电子学报.2014

[9].刘振岩,孟丹,王伟平,王勇.基于偏斜数据集的文本分类特征选择方法研究[J].中文信息学报.2014

[10].李雄飞,李军,屈成伟,刘丽娟,孙涛.数据挖掘中平衡偏斜训练集的方法研究[J].计算机研究与发展.2012

标签:;  ;  ;  ;  

数据偏斜论文-高立群
下载Doc文档

猜你喜欢