文本分类学习论文-徐彤阳,尹凯

文本分类学习论文-徐彤阳,尹凯

导读:本文包含了文本分类学习论文开题报告文献综述及选题提纲参考文献,主要关键词:人工智能,数字图书馆,文本分类,深度学习

文本分类学习论文文献综述

徐彤阳,尹凯[1](2019)在《基于深度学习的数字图书馆文本分类研究》一文中研究指出【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智能化程度,还可以提高数字图书馆信息服务的效率和质量。(本文来源于《情报科学》期刊2019年10期)

韦灵,倪志平[2](2019)在《基于自然语言处理和机器学习的文本分类及其运用》一文中研究指出文本分类工作是计算机应用过程当中常见的一种工作形式,在日常工作过程中,如何对不同类别的文本进行准确高效的分类工作是相关工作人员目前正在研究的主要工作问题。基于信息技术的发展进步,新时期,自然语言处理技术及机器学习技术等人工智能领域范畴的技术操作方式都在文本分类工作当中发挥了极为重要的作用,引起了人们的广泛关注。但是,具体的操作过程对员工的工作能力要求比较高,而且相应的影响因素也比较多。基于此,为了保证文本分类工作的有序开展,本文主要对这两项技术操作方法的具体运用方法及相关注意事项进行详细的讨论和研究。(本文来源于《科技视界》期刊2019年27期)

向志华,邓怡辰[3](2019)在《基于机器学习的文本分类技术研究》一文中研究指出随着科学技术的不断发展,机器领域得到了越来越广泛的应用。作为机器学习中最重要的组成部分,要实现对信息的有效检索以及对数据的充分挖掘就必须要全面掌握文本自动分类技术。在社会持续发展的过程中,文本分类技术也取得了显着的发展。但是在其实践过程中也尚存在一些问题,需要从多方面入手对其进行深入研究与综合评判。本文就对基于机器学习的几种文本分类技术进行了系统的研究,并指出了文本分类技术的未来发展方向。(本文来源于《软件》期刊2019年09期)

杨帆,陈建峡,郑吟秋,黄煜俊,李超[4](2019)在《基于深度学习的法院信息文本分类》一文中研究指出为解决在法院数据信息化过程中,海量的法院文书存在缺乏自动管理分类的问题,提出一种基于字符级卷积神经网络的文本分类模型。模型通过卷积神经网络进行特征提取,能够精确有效地解决文本分类问题。实验结果证明,该模型可以实现在测试集上准确率99.67%的分类,且训练用时只有常用循环神经网络算法的50%。(本文来源于《湖北工业大学学报》期刊2019年04期)

兴艳云[5](2019)在《基于机器学习的文本分类技术研究》一文中研究指出随着信息技术的发展网络数据和资源迅速增长,如何有效地对这些信息进行分类、管理和利用,已经成为备受关注的研究课题。文本分类作为信息检索和数据挖掘的重要基础,广泛应用于内容信息过滤、自然语言处理与理解和新闻分类等领域。基于机器学习的文本分类技术,基于统计理论,使用算法对已知的训练数据进行统计分析以获得规律,然后运用该规律对未知数据进行预测和分析。本文对基于机器学习的文本分类技术进行研究,在对文本分类的一般过程以及文本预处理、文本表示、空间降维、分类方法和分类性能评价进行详细研究介绍的基础上,选择机器学习分类算法中的随机森林算法进行重点研究,分析算法存在的问题以及优化空间,并对其进行优化改进。一方面,对于传统随机森林算法投票时存在的忽略强弱分类器的问题,优化算法的投票机制,基于决策树的分类效果对决策树赋予相应权重,之后结合决策树输出的样本属于各个类的概率进行加权概率投票。另一方面,随机森林算法中的超参数取值对算法性能具有很大的影响,而且算法应用于文本分类时超参数个数多且取值范围大,对此提出结合随机搜索算法和网格搜索算法的超参数优化算法,解决超参数的取值优化问题。针对提出的算法设计基于Python的文本分类实验,将优化投票机制的随机森林算法与传统随机森林算法进行对比,并验证优化投票机制和超参数选择的随机森林算法的有效性。本文提出的随机森林优化算法可以提高算法分类性能,其中的超参数优化算法对于机器学习算法的超参数优化问题,尤其是算法用于文本分类时的超参数优化问题具有一定的参考意义。(本文来源于《青岛科技大学》期刊2019-06-12)

冀俊忠,庞皓明,杨翠翠,刘金铎[6](2019)在《基于多隐层极限学习机的文本分类方法》一文中研究指出针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取出高层文本特征并通过最小二乘的方法对文本数据进行分类.与多个算法的实验对比表明,该算法在20newsgroup、Reuters和复旦大学中文语料库这3个数据集上都具有良好的分类性能.(本文来源于《北京工业大学学报》期刊2019年06期)

姜璐[7](2019)在《基于深度学习的新闻文本分类模型研究》一文中研究指出在自然语言处理领域,文本分类作为一种信息处理的基础技术一直是热门的研究方向。文本分类中的每一个环节都会影响最终分类的效果,包括文本预处理、文本表示、特征选择和分类算法,这些过程中所涉及到的诸多算法都是学者们研究的焦点。随着深度学习的兴起,许多网络模型在文本分类领域表现优异。新闻文本数据具有易获取、数据量大等特点,新闻文本分类技术研究成本相对较低且属于一种支撑类的基础技术。因此,对新闻文本做自动分类技术的研究对于新闻推荐、数据新闻、广告推送等领域也都具有十分重要的影响。为了提高对新闻文本分类精度,本文主要工作以及创新点如下:1.深入研究并介绍了自然语言处理领域文本分类的基本过程,详细解释了过程中所涉及到的机器学习技术和深度学习技术。在文本表示和特征选择过程中,针对新闻文本的特点,选择词嵌入方法,借助Word2Vec工具表示文本数据,该模型既可以保证词向量的语义关系又能避免维度灾难问题,提高分类性能。2.基于已有工作,分别研究并改进了 SRB文本简化模型和嵌套LSTM模型,提出了一种基于文本简化方法的混合模型。首先,该模型通过SRB网络逐句简化新闻文本,并生成具有高语义相关性的简单句子,既简化后面句子层面的模型训练难度,又不丢失语义信息。其次,将句子向量输入到嵌套LSTM网络以学习句子间的相关性及其特征表示。3.混合模型采用了注意机制来突出关键句子的特征表达,既能适应新闻文本的特点将句子简化,又能在获取上下文特征相关性的同时突出关键句的作用,运用混合模型的思想将各个模型优势结合。4.将本文提出的模型与五种典型的深度学习模型进行比较,在叁个流行的不同中文新闻数据集上设计多组对比实验,实验表明,本文所提出的模型实现了最先进的分类精度。最后,通过参数调整,探究了参数对结果的影响。(本文来源于《山东师范大学》期刊2019-06-10)

朱梦[8](2019)在《基于机器学习的中文文本分类算法的研究与实现》一文中研究指出随着大数据时代的快速发展,文本信息数据量急剧增加,为了获取有价值的信息,提升信息获取效率,就需对这些文本信息进行分类。因此,文本分类系统的研究与实现具有重要意义。新闻文本是文本信息的一个重要组成部分,也是人们获取信息的重要方式。本文以新闻文本分类为依托,对当下文本分类算法进行改进,以新闻文本分类系统为实例对文本分类系统的设计与实现进行说明,完成文本分类算法的研究工作。本文以大数据时代背景及分类技术的发展为背景,对贝叶斯分类算法以及卷积神经网络分类算法进行了改进,以提升分类的准确度,主要工作内容有以下几个方面:第一,本文针对不同种类的文本分类方法做了调研,通过阅读文献资料,了解了文本分类的发展历史,分析了贝叶斯、KNN、SVM、决策树、Fasttext及CNN等各分类算法的利与弊;第二,对朴素贝叶斯分类算法进行了改进,提出了一种结合特征词分布情况的k-Bayes分类算法,增加了意义突出的特征词的权重,提升文本分类效率;第叁,对卷积神经网络分类算法进行了改进,加入了注意力层的特征提取操作,形成基于注意力层的卷积神将网络,重新分配特征词权重值,将特征词进行进一步提炼,符合人们对于分类的理解——专注于有意义的某些词语,这对提升文本分类的准确度有较好的效果;第四,本文以新闻文本分类系统为例说明了文本分类系统的设计与实现。系统可以为用户展示直观的分类结果。分类算法的改进都是从精炼特征词的角度出发,通过实验验证,本文的分类算法确实提升了分类的准确率。(本文来源于《北京邮电大学》期刊2019-06-05)

付豪[9](2019)在《基于同异性迁移学习的短文本分类技术研究与应用》一文中研究指出随着人工智能及自然语言处理技术的快速发展,智能客服系统在学术与工业界获得了越来越多的关注。其中,基于常见问题及解答库(Frequently Asked Question,FAQ)的智能客服系统,由于其简单、高效、正确率高等优点,被广泛应用于许多商业服务。目前,基于FAQ的智能客服系统所依赖的短文本分类技术已取得长足进步,尤其在具有大规模平衡数据的前提下有良好表现。然而,实际的FAQ数据往往是不平衡的,即一些标准问题具有多个扩展问题,而另一些标准问题只有极少数甚至无扩展问题,这就导致依赖大规模平衡数据的短文本分类技术在实际的智能客服系统中难以取得令人满意的效果。本文提出了一种基于同异性迁移学习的短文本分类技术。通过发现大样本和小样本间的共同性和差异性,生成小样本的虚拟样本,进而缓解数据不平衡的现状,提升短文本分类正确率,最终提升智能客服系统的性能。具体说来,首先采用文本相似度度量技术,为小样本发现可迁移的大样本;接着构建基于词模板的样本生成器得到基础虚拟样本;然后以小样本和相似大样本为输入、以基础虚拟样本为输出,训练一个基于编解码框架的虚拟样本生成器,为更多的小样本生成大量的虚拟样本;最后将模型自动生成的虚拟样本做为小样本的扩充数据添加至训练语料,用于训练最终的短文本分类器。实验表明,本文提出的方法在英文和中文两个不同的数据集上,对短文本分类的性能尤其是小样本分类的性能提升效果显着,其中英文小样本上正确率由7.46%提升至59.34%,中文小样本上正确率由1.96%提升至42.67%。此外,本文还深入研究和对比了不同假设下生成的虚拟样本的质量及其对最终分类性能的影响,从多个角度验证了方法的有效性和鲁棒性。基于上述研究,本文实现了一个基于FAQ的智能客服系统,实验测试表明,通过迁移学习技术,该系统可以为小样本问题提供更加精准的回答。(本文来源于《北京邮电大学》期刊2019-06-04)

王国薇[10](2019)在《基于深度学习的文本分类方法研究》一文中研究指出近年来,随着网络技术的快速发展,网络用户的数量呈现出了爆发式的增长。每天都会有数以万计的短文本形成。这些短文本包含天气、政治、经济、文化、对电影的评价等,如何对这些短文本进行有效的分类从而更好地为网络用户服务成为了研究的关键,而文本分类技术可以为其提供一种有效的解决途径。本文研究设计了一种基于集成学习的文本分类方法。首先,本文介绍了目前较为主流的传统机器学习文本分类方法和深度学习文本分类方法。其中传统机器学习方法包括:朴素贝叶斯(Na?ve Bayes)、K-最近邻(K-nearest Neighbor,KNN)、决策树(Decision Tree)。神经网络方法包括:卷积神经网络(Convolutional Neural Networks,CNN)、双向长短时记忆网络(Bidirectional Long Short Term Network,Bi-LSTM)、卷积循环神经网络(Convolutional-Long Short Term Memory,C-LSTM)、循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN)和分层注意力机制网络(Hierarchical Attention Networks,HAN)。在进行试验的基础上,分析了这些分类算法各自的优缺点。其次,本文详细阐述了集成学习的相关理论知识。在此基础上,设计并实现了用上述算法中分类效果最好的五种算法作为集成学习的基分类器,使用Bagging和Stacking的集成方法依次进行实验。实验结果表明集成学习方法的分类准确率均高于基分类器模型分类准确率,进一步将基分类器进行两两集成验证了单个模型对短文本分类性能的贡献率。最后,在概括全文和总结实验结果的基础上,提出了对下一步工作的展望。(本文来源于《新疆大学》期刊2019-06-03)

文本分类学习论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文本分类工作是计算机应用过程当中常见的一种工作形式,在日常工作过程中,如何对不同类别的文本进行准确高效的分类工作是相关工作人员目前正在研究的主要工作问题。基于信息技术的发展进步,新时期,自然语言处理技术及机器学习技术等人工智能领域范畴的技术操作方式都在文本分类工作当中发挥了极为重要的作用,引起了人们的广泛关注。但是,具体的操作过程对员工的工作能力要求比较高,而且相应的影响因素也比较多。基于此,为了保证文本分类工作的有序开展,本文主要对这两项技术操作方法的具体运用方法及相关注意事项进行详细的讨论和研究。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本分类学习论文参考文献

[1].徐彤阳,尹凯.基于深度学习的数字图书馆文本分类研究[J].情报科学.2019

[2].韦灵,倪志平.基于自然语言处理和机器学习的文本分类及其运用[J].科技视界.2019

[3].向志华,邓怡辰.基于机器学习的文本分类技术研究[J].软件.2019

[4].杨帆,陈建峡,郑吟秋,黄煜俊,李超.基于深度学习的法院信息文本分类[J].湖北工业大学学报.2019

[5].兴艳云.基于机器学习的文本分类技术研究[D].青岛科技大学.2019

[6].冀俊忠,庞皓明,杨翠翠,刘金铎.基于多隐层极限学习机的文本分类方法[J].北京工业大学学报.2019

[7].姜璐.基于深度学习的新闻文本分类模型研究[D].山东师范大学.2019

[8].朱梦.基于机器学习的中文文本分类算法的研究与实现[D].北京邮电大学.2019

[9].付豪.基于同异性迁移学习的短文本分类技术研究与应用[D].北京邮电大学.2019

[10].王国薇.基于深度学习的文本分类方法研究[D].新疆大学.2019

标签:;  ;  ;  ;  

文本分类学习论文-徐彤阳,尹凯
下载Doc文档

猜你喜欢