快速文本分类论文-杜锦波

快速文本分类论文-杜锦波

导读:本文包含了快速文本分类论文开题报告文献综述及选题提纲参考文献,主要关键词:文本分类,不平衡数据,快速文本分类,欠采样

快速文本分类论文文献综述

杜锦波[1](2018)在《基于快速文本分类器与不平衡数据的研究》一文中研究指出数据不平衡问题一直是统计、机器学习以及计算机科学等领域的重点研究课题。如果直接应用基于平衡数据的统计方法由于没有考虑到数据的不平衡性而导致模型性能较差。许多学者都对这一问题进行了深入的研究,并取得了显着的成果。FastText算法在文本分类中有着广泛的应用。该算法是文本分类的单层神经网络,可以快速且准确的对于平衡数据进行分类,但对于不平衡数据的处理能力有所不足。为了解决这个问题,本文通过采用不等比例的欠采样方式来训练单一的FastText分类器,再通过Bootstrap组合多个弱分类器,这样可以充分利用多数类的数据信息,达到提升分类器性能的目标。将本文提出的方法应用到文本情感分类的实际场景中,对于不平衡的情感数据可以训练出拟合程度更高的模型,有效的提高情感分类的准确率、召回率以及F-score。(本文来源于《暨南大学》期刊2018-06-15)

邵燕[2](2016)在《基于代价敏感的快速多标记文本分类算法研究》一文中研究指出近十年来,随着人类进入信息时代,数据信息不断呈指数式增长,对海量信息数据进行有效而快速的管理与检索成为新时期的挑战。其中,文本分类作为一项重要的智能信息处理技术,在信息过滤、信息检索、文本数据库和数字图书馆等方面极具应用价值。为了解决文本分类问题,人们提出了多种解决方案,具体有传统的监督学习、非监督学习、多标记学习等新的学习模型。然而,面对海量文本信息,如何快速有效的进行多标记分类,还是一个亟待解决的问题。本文以应用多标记学习方法解决多标记文本分类为目标,结合文本预处理、文本变换、特征选择等技术。并且将局部敏感哈希技术融入到多标记学习算法中,提出了一种基于代价敏感的快速多标记文本分类算法,可以快速进行近邻查找,提高多标记学习文本分类的效率。并且,对于文本分类中的类不平衡问题,本文利用代价敏感的学习算法进行文本分类,可以提高算法的准确度,最后,在实际数据的基础上,通过仿真验证了提出算法的有效性。(本文来源于《南京邮电大学》期刊2016-11-18)

周杭霞,叶佳骏,任欢[3](2016)在《基于快速自编码的RELM的文本分类》一文中研究指出正则化极限学习机RELM是一种单隐层前馈神经网络,不同于传统神经网络算法,RELM通过随机设置输入层权重和偏置值,可以快速求得输出层权重,并且引入正则化因子,能够提高模型的泛化能力。针对文本信息高维度、多类别的问题,提出一种基于快速自编码的正则化极限学习机FARELM。将由RELM改进后的快速自编码神经网络对样本进行无监督特征学习,并对特征提取后的数据使用RELM进行分类。实验表明,FA-RELM的学习速度和分类精度较优。(本文来源于《计算机工程与科学》期刊2016年05期)

程柯[4](2015)在《一种基于累计适应度遗传算法的快速文本分类器》一文中研究指出在数据挖掘文本分类研究领域中,同时基于遗传算法与基于支持向量机的多分类技术开始引起部分学者的关注,该算法体系的特色是在借鉴遗传算法的自适应寻优秀特征以构造最优二叉树结构的同时,采用支持向量机技术在高维度环境下突出的效果,自动构建二叉树节点,分类效果得到广泛认可。针对基于遗传算法(Genetic Algorithm,GA)的支持向量机(Support Vector Machine,SVM)多分类决策树算法(GA-SVM)中全局优化缺陷以及时间复杂度较高的问题,做了两方面工作,其一是通过重新定义遗传适应度函数(fitness),提出一种累计适应度(cumulative fitness),进而衍生出新算法CFGA-SVM,其二在CFGA-SVM的基础上,修改了多项式核函数的选择算子,产生新的改进的基于遗传算法的支持向量机快速多类文本分类算法BCFGA-SVM,降低了CFGA-SVM算法的时间复杂度,同时也能保证分类精度与全局寻优能力。BCFGA-SVM算法同CFGA-SVM算法思路相同,都是从根节点开始逐层构造二叉树,首先对根节点基因实值编码,通过基因分裂操作产生子代种群,然后利用累计适应度筛选出新的种群,筛选出的种群并不一定是当代局部最优,但一定是所得二叉树中全局最优,从而提高分类精度,最后以此循环直至算法结束,与CFGA-SVM算法不同的是,在计算适应度时,BCFGA-SVM采用自动选择核函数映射的方法,根据当前样本的分布情况,灵活的选取多项式核函数的参数d,避免了多余的高维向量计算,在一定程度上能缩小时间复杂度。最后利用实验结果表明:BCFGA-SVM较之传统的GA-SVM算法在全局优化能力、分类精度上有明显提高,并且在时间复杂度方面较CFGA-SVM更小,进而验证了该算法的应用可行性与性能有效性,可在高维度样本的分类应用中推广。(本文来源于《重庆大学》期刊2015-04-01)

夏青松[5](2012)在《基于改进哈希算法的快速KNN文本分类方法》一文中研究指出网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需要的数据已经成为一个重要的话题。对此,国内外的专家提出了各种各样的技术,如数据库技术、关键词匹配技术和文本分类技术等。对文本进行分类能够有效的降低搜索感兴趣内容的时间,并且提高结果的准确率,在一定的程度上提高了用户的体验度。常用的分类技术如贝叶斯分类技术、支持向量机分类法、决策树等需要大量的时间来训练分类器,如果更新训练用的语料库的话,需要重新训练文本分类器。传统中的KNN分类器的一大优点在于其能够在语料增加的情况下,不用重新训练分类器,同时分类准确率也比较高,因此一直很是受欢迎。但是,KNN算法也有其瓶颈:需要计算待分类文本与所有训练文本之间的相似度,这会浪费大量的时间。本文提出了一种改进的KNN文本分类方法,根据具有最小方差的若干个特征建立相应的文本列表,搜索近邻文本时,先确定待分类文本的近邻文本在这些特征上的大致取值范围,从而依据哈希算法直接剔除掉绝大多数的文本,对于剩下的文本计算与待分类文本的相似度并找出最近邻的若干个,如果不满足K的要求,可以适当的扩展特征的取值范围直到满足为止。这种做法会极大的提高文本检索的速度。同时根据训练文本的类别与待分类文本的距离溢出率,对该类别中的文本与待分类文本之间的相似度进行适当的权重调整,从而提高分类的准确率。在筛选特征的时候,改进了传统的tf-idf算法,并且根据特征的词性、在句子中的成分、文章标题、摘要、所在段落的位置、所在句子的位置以及句子中的提示词对特征进行适当的权重调整。实验结果说明了这些做法能够非常有效的提高文本分类的准确性。(本文来源于《安徽大学》期刊2012-04-01)

孙荣宗,苗夺谦,卫志华,李文[6](2010)在《基于粗糙集的快速KNN文本分类算法》一文中研究指出传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显着提高分类效率。(本文来源于《计算机工程》期刊2010年24期)

张建兴[7](2010)在《一种提取类核的快速文本分类方法》一文中研究指出随着电子文本呈指数级的增长,自动文本分类技术得到了越来越多的关注,这种根据文本内容自动将文本分门别类的技术为人们快速有效地组织文本和挖掘有价值的信息提供了有力的帮助。近年来,自动文本分类技术的研究获得了长足的发展,涌现出了许多新的技术和方法,但是,这些技术与方法在大规模的应用背景下仍然存在很多困难,仍然有许多课题值得研究。从研究路线角度来看,文本分类方法大致分为两种:经验主义的方法和理性主义的方法,前者的典型代表是基于机器学习的文本分类,是当今的主流方法,而后者则以基于概念的文本分类为代表。在综合分析二者的优势与不足的基础上,并受人工分类时认知过程的启发,提出了一种提取类核的文本分类方法。该方法是两条路线的有机结合,采用理性主义的方法搭建分类框架,但分类知识采用经验主义的方法由机器自动获取。提取类核的中心思想是:在自然语言中,词语是用来表达概念的,因此如果文本中那些含有类别信息的词语能够被发现,那么通过为每个类别构造具有这种性质的特征集合,即类核,计算机也同样能够根据文本内容,以类核为指导,实现自动的文本分类。本文设计了两种具体的类核提取方法:经验法和圆心法,定义了指标——类别贡献度作为衡量特征入选类核的唯一标准。类别贡献度反映了特征项包含类别信息的多少和对分类贡献程度的大小,类别贡献度的计算充分考虑了特征项在类内、类间的词频分布和文档频率分布。类别贡献度不仅是选择类核特征的依据,而且作为一种分类知识被保留下来,为后续分类提供指导。在类核的基础上设计了一种称之为彩票算法的分类算法,本质上是一种特殊的集合运算。相比于传统的分类模型,提取类核的分类模型更为简洁,在设计的实验系统中,将本文方法与四种常用的特征选择方法和两种经典的分类算法进行了对比,结果表明,本文方法很好的兼顾了分类的精度与速度两项主要指标,分类性能稳定,分类速度上有较大优势。(本文来源于《兰州理工大学》期刊2010-04-20)

孙荣宗[8](2010)在《一种快速KNN文本分类算法》一文中研究指出KNN(K-Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率就会大大降低。该文提出了一种提高KNN分类效率的改进算法。算法在训练过程中计算出各类文本的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验表明改进的算法可以在保持KNN分类性能基本不变的情况下,显着提高分类效率。(本文来源于《电脑知识与技术》期刊2010年01期)

陈艳秋,熊耀华[9](2009)在《新型快速中文文本分类器的设计与实现》一文中研究指出为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。(本文来源于《计算机工程与应用》期刊2009年22期)

黄波,陈怀熹,马培羽[10](2009)在《基于自反馈Hopfield网络的快速文本分类器》一文中研究指出根据大规模中文文本分类的特点,提出了一种基于最大特征值选取的快速文本正交编码方法,并构造了一种具有较快收敛速度的Hopfield神经网络模型。采用神经动力学方法,对自反馈Hopfield神经网络的网络结构进行了稳定性分析。在Hopfield神经网络中引入KNN再预测机制,使进入伪状态而被拒收的样本能有效地逃离伪状态。实验结果表明,该方法应用到大规模的中文文本分类时,效果良好。(本文来源于《计算机工程与设计》期刊2009年11期)

快速文本分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近十年来,随着人类进入信息时代,数据信息不断呈指数式增长,对海量信息数据进行有效而快速的管理与检索成为新时期的挑战。其中,文本分类作为一项重要的智能信息处理技术,在信息过滤、信息检索、文本数据库和数字图书馆等方面极具应用价值。为了解决文本分类问题,人们提出了多种解决方案,具体有传统的监督学习、非监督学习、多标记学习等新的学习模型。然而,面对海量文本信息,如何快速有效的进行多标记分类,还是一个亟待解决的问题。本文以应用多标记学习方法解决多标记文本分类为目标,结合文本预处理、文本变换、特征选择等技术。并且将局部敏感哈希技术融入到多标记学习算法中,提出了一种基于代价敏感的快速多标记文本分类算法,可以快速进行近邻查找,提高多标记学习文本分类的效率。并且,对于文本分类中的类不平衡问题,本文利用代价敏感的学习算法进行文本分类,可以提高算法的准确度,最后,在实际数据的基础上,通过仿真验证了提出算法的有效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

快速文本分类论文参考文献

[1].杜锦波.基于快速文本分类器与不平衡数据的研究[D].暨南大学.2018

[2].邵燕.基于代价敏感的快速多标记文本分类算法研究[D].南京邮电大学.2016

[3].周杭霞,叶佳骏,任欢.基于快速自编码的RELM的文本分类[J].计算机工程与科学.2016

[4].程柯.一种基于累计适应度遗传算法的快速文本分类器[D].重庆大学.2015

[5].夏青松.基于改进哈希算法的快速KNN文本分类方法[D].安徽大学.2012

[6].孙荣宗,苗夺谦,卫志华,李文.基于粗糙集的快速KNN文本分类算法[J].计算机工程.2010

[7].张建兴.一种提取类核的快速文本分类方法[D].兰州理工大学.2010

[8].孙荣宗.一种快速KNN文本分类算法[J].电脑知识与技术.2010

[9].陈艳秋,熊耀华.新型快速中文文本分类器的设计与实现[J].计算机工程与应用.2009

[10].黄波,陈怀熹,马培羽.基于自反馈Hopfield网络的快速文本分类器[J].计算机工程与设计.2009

标签:;  ;  ;  ;  

快速文本分类论文-杜锦波
下载Doc文档

猜你喜欢