导读:本文包含了层次型文本分类论文开题报告文献综述及选题提纲参考文献,主要关键词:两阶段,层次文本分类,邻居辅助策略,置信度
层次型文本分类论文文献综述
王春元[1](2016)在《基于邻居辅助策略的两阶段层次文本分类模型研究》一文中研究指出传统的文本分类方法在类别数目较少时取得了很好的分类效果。然而,随着类别数目越来越大,如LookSmart、ODP等都有成千上万的类别,如果还利用扁平化方式组织这些类别,那么为一个文档正确的指定其目标类别的难度就变得非常大。所以,实际应用中通常将这些类别组织成层次结构。基于层次结构,学者们引入了层次文本分类方法。比较常用的层次文本分类方法有Big-bang分类方法和Top-down分类方法。由于Big-bang分类方法的时间开销和空间开销较大以及Top-down分类方法“阻滞”现象的不可避免性,传统的层次文本分类方法并不能很好的应用到大规模层次文本分类中。而新近提出的两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法。相对于传统层次文本分类方法,THTC模型在分类性能和时间效率上都有了显着提高,但是该模型在分类过程中仍然存在很多不足。因此,本文在THTC模型的基础上提出了基于邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。本文的主要工作包括以下叁个方面:(1)系统的研究了层次文本分类中的方法和应用,并在THTC模型的基础上提出了THTC-NA模型。THTC-NA模型包含搜索和分类两个阶段,搜索阶段通过引入基于类别的搜索策略进行候选搜索,对原类别层次结构进行虚拟剪枝,以减小数据规模。并采用Top-down方法将候选类别组织成层次结构,这样可以保持该层次结构在原类别层次结构中的位置不变,从而可以不用对每一个待分类文档都训练一个特殊的分类器。(2)分类阶段利用类别层次结构中各个节点的邻居节点的分类结果辅助对该节点的分类判决,并针对邻居节点可靠性未知的问题引入了置信度。同时,以层次路径做全局搜索,避免了由于单一节点误判可能导致局部最优陷阱。在数据集Newsgroups-18828上的实验表明,邻居节点的分类结果对指定待分类文档的目标类别有很好的辅助作用。(3)针对THTC模型未能充分利用搜索阶段的信息的问题,THTC-NA模型提出一种新的分类判决方法。该方法将搜索阶段的结果和分类阶段的结果都融入到分类模型中,以加权累加的结果作为最后的分类判决。实验结果表明:融合两阶段的结果判定待分类文档的目标类别的方法在分类准确率和宏平均F1值上都要优于只使用分类阶段的结果判定文档的目标类别的方法。(本文来源于《重庆大学》期刊2016-04-01)
李保利[2](2015)在《基于类别层次结构的多层文本分类样本扩展策略》一文中研究指出针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。(本文来源于《北京大学学报(自然科学版)》期刊2015年02期)
何力,谭霜,贾焰,韩伟红[3](2014)在《基于无标记Web数据的层次式文本分类》一文中研究指出传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。(本文来源于《智能系统学报》期刊2014年03期)
史良[4](2012)在《一种基于特征选择的层次化文本分类算法》一文中研究指出随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的文本输入到构建好的文本分类器中,然后将其划分到相应的类别中。但是在传统的文本分类中,并没有考虑类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面中,从而使得特征间存在着大量的冗余,因此如何结合类别的之间的层次结构对文本进行分类就是一个具有实际意义的课题。此外当数据集的分布不均衡时,如何提高不均衡数据集的分类精度,这也是目前文本分类方面一个重要的研究方向。本文首先对文本分类以及特征选择的背景和理论进行了概述,同时简要的介绍了目前文本分类的国内外研究现状与热点。在此基础上,进一步对层次化文本分类进行了深入的分析与研究,从两个方面重点分析了层次化文本分类中影响其性能和效果的因素,首先从特征选择的角度,对特征选择方法进行了分析,引入了层次相关度和层次冗余度等概念,提出了一种rrHTC算法用于剔除文本的冗余特征,减少了冗余特征对文本分类精度的影响,其次从改进分类算法的角度,针对SVM-KNN分类算法在面对不均衡数据集时的分类精度不高这一不足,通过引入样本中心距等概念,对SVM-KNN算法进行了改进,提出了c-SVM-KNN算法。最后本文通过采用20NewsGroups以及从门户网站网易上抓取的网页这两个数据集,对rrHTC算法以及c-SVM-KNN算法进行验证,并对它们的结果进行分析,实验结果表明,通过rrHTC算法进行特征选择后,利用c-SVM-KNN算法进行文本分类,可以有效的提高分类的精度。(本文来源于《哈尔滨工程大学》期刊2012-12-01)
罗俊[5](2010)在《一种基于图的层次多标记文本分类方法》一文中研究指出由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中人们实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphHMLTC方法比非层次分类方法的代表之一BoosTexter.MH在较大程度上改善了分类精度。该工作体现了基于层次图的分类方法的可行性和优越性。(本文来源于《计算机应用研究》期刊2010年03期)
郭冯凤[6](2010)在《基于粗糙集的SVM层次文本分类技术研究》一文中研究指出文本分类处理的对象是关系复杂且不断被更新的数据,本文主要针对文本分类层次分类和增量训练中存在的问题进行了深入研究。通过分析粗糙集理论中属性约简的算法思想,提出了基于粗糙集的特征词选择算法,选择出更具代表性的特征词语,避免了文本表示中维数过大的问题。在特征选择的基础上,基于虚拟树结构提出了一种新的层次文本分类算法。该方法通过预选择策略对分布不均衡训练样本进行调整,防止对大类样本过学习;在上层分类器采用多标签分类的方法,以降低上层错分类对下层分类器性能的影响;最后采用阈值策略淘汰历史样本,从而减少了增量训练时历史分类信息丢失,并基于此提出了一种基于边缘向量的增量式训练方法。最后,本文阐述了一个层次分类系统的设计与实现,并通过实验证明了本系统在分类性能上相对于传统分类方法的优势。(本文来源于《西安电子科技大学》期刊2010-01-01)
吴春颖,王士同,杨林波[7](2009)在《一种结合层次结构和KNN的Web文本分类方法》一文中研究指出在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果.(本文来源于《小型微型计算机系统》期刊2009年08期)
刘晓军[8](2009)在《层次型文本分类阻塞问题研究》一文中研究指出互联网快速发展带来了电子信息的爆炸性增长,也促进了与电子信息组织和管理相关的技术发展。平面型文本分类以及层次型文本分类都是有效管理海量信息的重要手段。相对于平面型文本分类,层次型文本分类能够充分利用类别之间的层次结构关系,进一步提高文本分类的性能和速度,同时分类结果的层次结构也便于用户更好地检索。然而,层次型文本分类在分类过程存在“阻塞”问题:当一个文本在被划分到叶类别之前发生错分时,它将永远不可能划分到正确的叶类别。层次型文本分类中的阻塞现象会严重影响分类系统的性能,因此它也越来越受到研究者们的关注。本文是在前人的基础上,对控制层次型文本分类阻塞现象的各种策略进行总结,并进一步提出一种基于可信节点裁剪的阻塞控制策略。本文在第二章对平面型文本分类和层次型文本分类的基础知识进行了系统介绍,并进一步分析了层次型文本分类之于平面型文本分类的优点:特征词具有更高的类别区分度,文本的表示效力更高,分类器过拟合学习的可能性降低,同时分类速度更快。在第叁章,本文系统总结了控制阻塞的叁种策略:阈值降低法、投票法、最优路径法(累乘法),并比较了叁种方法各自的优缺点。在此基础上,本文改进了最优路径法,提出了可信节点裁剪法。可信裁剪法主要通过叁个步骤达到控制层次型文本分类阻塞的目的,首先通过过滤发生阻塞的分类路径获得候选分类路径,其次是通过改进的分类路径权重计算方法,从候选分类路径中选择最优分类路径,最后在最优分类路径上的可信节点进行裁剪。实验表明可信节点裁剪法能够很好地控制阻塞问题,提高层次型文本分类系统的性能。最后,本文采用Reuters21578语料训练层次型文本分类系统。在相同的类别层次结构上,本文分别采用最优路径法,可信节点裁剪法两种阻塞控制策略做比较实验,并最终将结果同标准层次型文本分类的结果进行比较。实验表明,可信节点裁剪法在保证系统精确度的同时较好地控制了阻塞现象,性能优于最优路径法。(本文来源于《哈尔滨工业大学》期刊2009-06-01)
张博锋,苏金树,徐昕[9](2008)在《层次式文本分类的Nave Bayes改进方法》一文中研究指出Nave Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Nave Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Nave Bayes方法有显着提高。(本文来源于《计算机工程与科学》期刊2008年04期)
张成宝,王志玲[10](2007)在《基于层次分析法的中文文本分类系统评价》一文中研究指出论文利用层次分析法(AHP)的原理和方法,探讨了中文文本分类系统影响因素的评价问题。首先提出了影响文本分类系统性能的指标体系,建立了文本分类系统评价的层次结构模型;其次,根据专家调查的结果,构建比较判断矩阵;最后利用AHP专用软件Expert Choice计算各层次评价指标的权重,并对结果进行了分析说明。(本文来源于《农业图书情报学刊》期刊2007年12期)
层次型文本分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
层次型文本分类论文参考文献
[1].王春元.基于邻居辅助策略的两阶段层次文本分类模型研究[D].重庆大学.2016
[2].李保利.基于类别层次结构的多层文本分类样本扩展策略[J].北京大学学报(自然科学版).2015
[3].何力,谭霜,贾焰,韩伟红.基于无标记Web数据的层次式文本分类[J].智能系统学报.2014
[4].史良.一种基于特征选择的层次化文本分类算法[D].哈尔滨工程大学.2012
[5].罗俊.一种基于图的层次多标记文本分类方法[J].计算机应用研究.2010
[6].郭冯凤.基于粗糙集的SVM层次文本分类技术研究[D].西安电子科技大学.2010
[7].吴春颖,王士同,杨林波.一种结合层次结构和KNN的Web文本分类方法[J].小型微型计算机系统.2009
[8].刘晓军.层次型文本分类阻塞问题研究[D].哈尔滨工业大学.2009
[9].张博锋,苏金树,徐昕.层次式文本分类的NaveBayes改进方法[J].计算机工程与科学.2008
[10].张成宝,王志玲.基于层次分析法的中文文本分类系统评价[J].农业图书情报学刊.2007