层次分类标签论文-张春焰

层次分类标签论文-张春焰

导读:本文包含了层次分类标签论文开题报告文献综述及选题提纲参考文献,主要关键词:多标签分类,层次多标签分类,神经网络,路径选择

层次分类标签论文文献综述

张春焰[1](2018)在《层次多标签分类算法研究与应用》一文中研究指出在常见的分类任务中,一条样本通常属于类别标签之间没有关系的标签集合中的一个标签,而在更加复杂的分类任务中,一条样本可以属于多个标签,通常称为多标签分类。此外,还有一种情况是标签集合中的类别标签以分层的方式进行组织,并且必须将一条样本关联到这个层次结构中的单一路径,即所谓的分层分类。最后,在更复杂的场景中,类别标签同样被组织成一个层次结构,并且一条样本可以关联到这个层次结构的多条路径,即层次多标签分类问题,本文提出两种分类算法去解决这个问题。一种是基于路径选择的层次多标签分类算法,该算法为每一个父节点训练一个多类分类器。在分类阶段,当某条标签路径的概率较低时就将该节点所包含的子树剪去,以达到预测路径未到达叶子节点就终止的情况。该方法考虑层次结构中从根节点开始的所有可能路径,通过结合路径上的节点在层次结构中的层次和局部分类器的预测值来计算各条路径的得分,最后通过选择路径得分超过给定阈值的一条或者多条路径上的标签节点作为最后预测结果。另外一种是基于神经网络的层次多标签分类算法,该算法为层次标签树的每一层都单独训练一个神经网络模型,并将这些神经网络模型链接成神经网络链做为最终预测模型。同时,拼接各层神经网络的输出作为最终输出。最后,再分别通过单阈值选择和多阈值选择来预测最后的标签集。本文将层次多标签分类算法应用于大规模网络智能运维工作票分类任务,并开发基于BS架构的层次多标签分类系统。实际的运行结果表明:本系统可以很好地实现层次多标签分类,并对多标签分类树和多标签分类结果进行有效可视化。(本文来源于《南京邮电大学》期刊2018-11-14)

徐智康[2](2018)在《基于可变贝叶斯风险的层次多标签分类算法研究》一文中研究指出多标签分类方法被广泛应用于各个领域,如文本情感分类、图像标注、个性化推荐、生物学分类等。层次多标签分类方法是依据标签间的相关性将标签进行层次化组织,并将这种层次结构作为一种监督信息用于学习过程,从而更好地解决多标签分类问题。现有的层次多标签分类方法有两种,一种可称为损失无关方法,另一种可称为损失敏感方法。HMC-loss常作为损失敏感方法的损失函数,该损失函数可对假正和假负两种错误给予不同的权重,并将层次信息添加到损失函数当中。在使用基于HMC-loss损失的HIROM算法进行预测时,会产生预测标签数却远多于真实标签数的情况。此外,层次信息的引入会对标签结点的决策顺序产生不利影响,并且HIROM算法中利用的CSSA算法合并结点的过程是部分失效的。针对上述问题,本文首先提出了一种改进的损失函数IMH-loss;然后,基于最小风险贝叶斯决策理论,提出了一种改进HIROM的层次多标签分类方法HIROM-T,该算法在改变标签结点决策的顺序的同时,舍弃CSSA算法合并结点过程,降低了算法的复杂度。针对HIROM算法预测正类标签数远多于真实标签数的问题,本文提出了一种风险随决策进行而可变的层次多标签分类算法HIRVM。实验表明,该算法可大大减少了预测正类标签个数,提高分类精度。(本文来源于《山西大学》期刊2018-06-01)

张春焰,李涛,刘峥[3](2018)在《基于路径选择的层次多标签分类》一文中研究指出多标签分类为每一个实例分配多个标签,当这些标签存在一种预定义的层次化结构时,该机器学习任务称为层次多标签分类(HMC)。传统的分类问题(二分类和多标签分类)往往会忽略各标签之间的结构关系,而层次多标签分类充分考虑标签集之间的层次结构关系,并以此来提高分类的效果。层次多标签分类是输出结构化预测结果的分类任务,其中类标签被组织成某种预定义(树形或者有向无环图)的结构,并且一个实例可以属于多个类。在HMC中有基于全局标签集的分类方法和基于单个标签的局部分类方法。全局方法将整个问题作为一个整体来处理,但往往会随着数据集的增长而出现性能瓶颈,而局部方法将问题分解为基于单个标签的二分类方法,但未充分考虑层次结构信息,并且无法处理预测节点终止于层次标签树内节点的分类问题。在分类阶段,修剪掉概率较低的分支,达到预测标签不一定到达叶子节点的目的。基于路径选择的层次多标签分类充分考虑修剪后的层次标签树从根节点出发的所有可能路径,结合各节点的预测概率值和节点所在的层次来选出得分最高的标签路径。该方法和现有的层次多标签分类方法在叁种不同的数据集上进行实验对比,结果表明该方法在处理层次较深且叶子节点稠密的层次结构时获得了较好的结果。(本文来源于《计算机技术与发展》期刊2018年10期)

谢晨阳[4](2018)在《基于层次监督的多标签文档分类问题研究》一文中研究指出文本分类是数据挖掘领域的热门话题。从文本数据中快速有效地发掘文本内容信息并根据文本的内容自动对文本进行分类成为数据挖掘领域的主流方向。传统的单标签文档分类假定每个文档属于一个类别,而且不同类别之间彼此独立。但是在实际应用中,一个文档可以绑定到多个标签上,不同文档之间可以共享标签。多标签分类的任务是基于训练得到文档分类模型,对未知标签的测试样本准确的定位到多个类别,更加全面的反映文档的实际特性。文档分类问题可用的机器学习方法包括决策树模型,贝叶斯分类,神经网络模型、主题模型和支持向量机等,通过构建文本分类系统对未知的样本进行自动归类。本文重点在于对多标签文档进行分类,在已知多标签文本的层次结构或者可以发掘数据集层次结构的情况下,对传统的基于主题模型的分类模型进行改进。本文的主要工作包括以下叁个部分:1)基于文档标签固有的层次结构,引入隐藏层提出NLDA模型。隐藏层是“主题-标签”对,上层主题和下层标签通过对偶形成全连接结构。对隐藏层计数统计得到下层标签分布,自上而下对文档生成过程进行监督以提高分类精度。2)在NLDA模型的基础上,引入主题层次监督提出NSLDA模型。我们的观察是:文档中主题数量远小于标签数量,因此主题层次的分类精度远大于标签层次的分类精度。研究基于LDA模型得到每个文档主题层的稳定概率分布,并将该概率分布作为输入对NLDA模型的Gibbs采样过程进行调谐得到NSLDA模型。同时,根据层次结构的多样性对NSLDA模型进行扩充,提高模型的通用性。3)构建正负例模型进行模型融合。借鉴集成学习的思想引入增强学习。将主题模型的训练分为两个(正负)训练模型,分别预测得到预测集的标签概率分布,将标签概率按照一定的权重融合得到最终的概率分布,降低模型过拟合的风险。实验结果表明,本文提出的NLDA模型与NSLDA模型在标签层次结构已知的数据集中有良好的分类效果,NSLDA模型又优于NLDA模型。合理选择正负例样本训练模型,并对预测的标签概率分布混合会进一步提升模型的分类性能。(本文来源于《武汉大学》期刊2018-05-01)

徐智康,李旸,李德玉[5](2017)在《基于可变最小贝叶斯风险的层次多标签分类方法》一文中研究指出层次多标签分类方法,依据标签之间的相关性组织成层次结构,并将这种层次结构作为一种监督信息,从而更好地解决多标签分类问题.在层次多标签分类问题中常用的方法有两种,一种可称为损失无关方法,另一种可称为损失敏感方法.对于损失敏感方法,常用的损失函数有HMC-loss,该损失函数可对假正和假负两种错误给予不同的权重,并将层次信息添加到损失函数当中.当利用HMC-loss预测时,尽管得到的损失值是理想的,但实际预测的标签数却远多于真实的标签数.另外,层次信息的引入会对标签结点的决策顺序产生不利影响.针对这些问题,首先提出改进的损失函数IMH-loss,其次使用贝叶斯决策理论,提出了一种贝叶斯风险随决策过程可变的层次多标签分类方法.在真实数据集上的实验结果表明,该方法在保证召回率的同时,提升了标签预测精度.(本文来源于《南京大学学报(自然科学)》期刊2017年06期)

林世杭[6](2017)在《基于层次化随机森林的多标签分类算法研究》一文中研究指出多标签分类问题广泛存在于图像识别、文本分类、医学诊断、基因分析、信息检索、个性化推荐等领域,具有非常广阔的应用场景,近些年来受到越来越多人的研究和关注。多标签分类问题中的数据通常对应一个由多个标签组成的集合,且不同标签间是相互依赖的,这反映了样本所具有的多种语义意义。目前解决多标签分类问题的策略主要是问题转换和算法适应,虽然已经有很多解决多标签分类问题的算法被提出,但是大部分的算法都存在一些不足,比如没有考虑到标签相互之间的联系,算法准确率较低,算法复杂度高计算时间长等。本文将随机森林推广到多标签分类领域,并结合多标签分类问题的特性,提出两种新的用于解决多标签分类问题的算法:(1)我们提出一种基于极度随机森林的多标签分类算法,它通过对极度随机树进行改进,通过采用一种新的标签重用机制来捕获多标签学习数据集的标签依赖性,它的想法是与父节点相关联的标签可以重复用于相关的子节点,并结合随机森林的特点来提高分类效果。(2)我们还提出一种基于层次化随机森林的多标签分类算法,该算法使用分而治之的策略,将大的标签集合分成小的标签集合,并且利用聚类的方式解决了标签相互之间的关联性问题,再结合上随机森林算法具有不容易过拟合、抗噪音能力强等优点。最后通过实验证明我们的算法能够很好的解决多标签分类问题。(本文来源于《华南理工大学》期刊2017-03-01)

刘苏祺,白光伟,沈航[7](2016)在《基于用户自描述标签的层次分类体系构建方法》一文中研究指出模式层知识对于语义万维网的发展非常重要,然而当前开放链接数据(LOD)中模式层知识的数量十分有限,为突破这一局限,提出一种基于社交网络中用户自描述标签的层次分类体系构建方法。该方法首先设计基于搜索引擎的标签分块算法,将描述相同话题的标签划分到同一标签块中,然后采用基于半监督学习的标签传播算法挖掘相同标签块中标签间的上下位关系,最后运用基于启发式规则的贪心算法来构建层次分类体系,从而在社交站点中构建出大规模且高质量的层次分类体系。实验结果表明,该构建方法与现有相关工作相比在准确率、召回率以及F值上均有明显提高。(本文来源于《计算机科学》期刊2016年07期)

王景峰[8](2016)在《基于层次多标签分类的适用法律识别》一文中研究指出在案件审理过程中,根据案件事实确定其适用的法律条文,是司法机关以及案件相关的律师和当事人都要关心的重要问题。随着司法公开化改革的推进,海量的包含了案件事实及其适用法律条文信息的裁判文书逐渐在互联网上公开,使得借助数据挖掘方法实现案件适用法律的自动识别成为可能。利用数据挖掘方法实现案件适用法律自动识别的复杂性体现在两方面:一是可供挖掘的数据即裁判文书是以文本形式存在,一般的分类算法无法直接处理这样的非结构化数据;二是案件适用法律自动识别问题是一个层次多标签分类问题,法律条文的组织呈树形层次结构,同一案件可能适用多项法律条文,而且各项法律条文的具体程度也可能不同。因此,要构建实用而有效的案件适用法律自动识别系统,必须针对问题的上述特点,探索相应的解决方案。本文通过对裁判文书的挖掘,尝试构建案件适用法律的自动识别系统,其中主要包括以下几方面工作:1.提出了一种惰性的层次多标签分类算法Lazy-HMC。作为一种惰性学习方法,Lazy-HMC算法支持增量学习,能够很好地应对案件适用法律自动识别这类数据规模较大且不断增长的分类问题。Lazy-HMC算法是一种全局算法,通过考察标签空间的层次结构,对训练样本的类别标签进行扩展,使得算法的预测结果能够满足层次限制。在预测阶段,算法首先找到未见实例在训练集中的k个近邻样本,根据这些近邻样本对各个类别的分类权重来确定实例属于各个类别的置信度,进而预测未见实例所属的类别。2.借助爬虫技术实现了裁判文书的收集,然后从裁判文书中提取出案件事实及其适用的法律条文,分别构成案件样本的特征和类别标签。利用向量空间模型等文本挖掘技术,将案件事实文本进一步转化为结构化的文本特征向量,并通过特征选择来降低特征向量的维度,从而构建了包含大量案件事实及其适用法律条文的结构化样本数据集。在此基础上,应用Lazy-HMC算法学习得到案件适用法律的预测模型,实现了案件适用法律的自动识别。实验结果表明,基于Lazy-HMC层次多标签分类算法可以实现有效的案件适用法律自动识别;相比两种常见的层次多标签分类算法,Lazy-HMC算法可以取得更好的预测性能。(本文来源于《南京大学》期刊2016-05-20)

何伟骏[9](2015)在《基于层次—互斥模型的多标签分类算法的研究与应用》一文中研究指出在现实生活中,分类问题是一个热门的话题,它是指对样本进行识别,最后给出样本所属的类别。而近年来很热门的有监督分类问题大多是多标签分类,它根据已知训练标签提供的样本,通过计算得到特征的参数,建立判别函数以对样本进行多标签分类。现阶段多标签分类问题的主流做法是将标签降维处理或者涉及到复杂的优化处理,这些方法在现阶段的多标签分类中取得的一定的成果,但抛开方法涉及到的计算量,它们最主要的问题在于没有考虑到多标签之间的各种关系。多标签分类对同一个实例对象可以归属于多个标签,而这些标签到达一定数量后,它们会出现层次结构,彼此之间也有各种关系,如何有效利用到这些关系在分类问题上,是现今多标签分类问题的一大挑战。近年最新的研究提出了一种基于层次-互斥关系图的算法模型,它可以灵活处理多标签之间的各种关系,并且可以有效利用这些标签之间的先验信息进行多标签分类。本文针对该问题做了研究,主要工作包括:1.基于“以图搜图”的衣服搜索问题的标签特点,设计和实现了一种基于层次-互斥模型和卷积神经网络,对衣服图片的多标签分类方法。我们在真实的在线购物网站衣服图片数据上进行了实验比较和分析,实验结果表明,与其它常用的多标签分类模型相比,层次-互斥模型能够有效地利用标签与标签之间的关系先验信息,并将其运用到判别函数上,而且比现有的主流算法拥有更好的分类准确率;2.基于上述的层次-互斥模型和卷积神经网络学习得出来的判别模型,实现了一个简单的服装多标签分类系统。(本文来源于《中山大学》期刊2015-06-30)

罗鹏程,陈翀[10](2013)在《从大众分类到层次式资源组织体系——利用聚类信息构建标签树》一文中研究指出提出一种合理运用大众标注数据自动构建资源导航体系的方法,首先使用聚类技术将标签分成主题相近的簇,然后在簇内按标签的泛指度和相似性构造标签树。将该方法用在公开的标签数据集SocialODP-2k9上进行实效评价,结果表明,本方法减少了以往标签树构造方法中"意义漂移"的缺陷,使组织结构有更好的语义一致性,且具有更好的导航效率,从而使本研究能适应信息组织与服务的实际需要。(本文来源于《图书情报工作》期刊2013年22期)

层次分类标签论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

多标签分类方法被广泛应用于各个领域,如文本情感分类、图像标注、个性化推荐、生物学分类等。层次多标签分类方法是依据标签间的相关性将标签进行层次化组织,并将这种层次结构作为一种监督信息用于学习过程,从而更好地解决多标签分类问题。现有的层次多标签分类方法有两种,一种可称为损失无关方法,另一种可称为损失敏感方法。HMC-loss常作为损失敏感方法的损失函数,该损失函数可对假正和假负两种错误给予不同的权重,并将层次信息添加到损失函数当中。在使用基于HMC-loss损失的HIROM算法进行预测时,会产生预测标签数却远多于真实标签数的情况。此外,层次信息的引入会对标签结点的决策顺序产生不利影响,并且HIROM算法中利用的CSSA算法合并结点的过程是部分失效的。针对上述问题,本文首先提出了一种改进的损失函数IMH-loss;然后,基于最小风险贝叶斯决策理论,提出了一种改进HIROM的层次多标签分类方法HIROM-T,该算法在改变标签结点决策的顺序的同时,舍弃CSSA算法合并结点过程,降低了算法的复杂度。针对HIROM算法预测正类标签数远多于真实标签数的问题,本文提出了一种风险随决策进行而可变的层次多标签分类算法HIRVM。实验表明,该算法可大大减少了预测正类标签个数,提高分类精度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

层次分类标签论文参考文献

[1].张春焰.层次多标签分类算法研究与应用[D].南京邮电大学.2018

[2].徐智康.基于可变贝叶斯风险的层次多标签分类算法研究[D].山西大学.2018

[3].张春焰,李涛,刘峥.基于路径选择的层次多标签分类[J].计算机技术与发展.2018

[4].谢晨阳.基于层次监督的多标签文档分类问题研究[D].武汉大学.2018

[5].徐智康,李旸,李德玉.基于可变最小贝叶斯风险的层次多标签分类方法[J].南京大学学报(自然科学).2017

[6].林世杭.基于层次化随机森林的多标签分类算法研究[D].华南理工大学.2017

[7].刘苏祺,白光伟,沈航.基于用户自描述标签的层次分类体系构建方法[J].计算机科学.2016

[8].王景峰.基于层次多标签分类的适用法律识别[D].南京大学.2016

[9].何伟骏.基于层次—互斥模型的多标签分类算法的研究与应用[D].中山大学.2015

[10].罗鹏程,陈翀.从大众分类到层次式资源组织体系——利用聚类信息构建标签树[J].图书情报工作.2013

标签:;  ;  ;  ;  

层次分类标签论文-张春焰
下载Doc文档

猜你喜欢