导读:本文包含了文本分类方法论文开题报告文献综述及选题提纲参考文献,主要关键词:文本分类,注意力机制,最大池化,机器学习
文本分类方法论文文献综述
陶永才,杨朝阳,石磊,卫琳[1](2019)在《池化和注意力相结合的新闻文本分类方法》一文中研究指出信息时代互联网上产生了海量的文本数据,它们蕴含着巨大的商业和科研价值,由此文本分类技术得到了广泛的关注.文本分类在信息检索等应用领域占据着重要地位,同时也是自然语言处理等研究的关键技术.本文针对新闻文本的特点以及深度学习分类方法训练时间长的问题,提出了一种池化和注意力相结合的模型,并将其应用于中文新闻文本分类.该模型首先利用最大池化和平均池化提取出文本特征,然后利用注意力机制为句子生成权重,使用两者的拼接结果进行分类.模型在NLPCC2014新闻文本分类的数据集上进行了实验,一级类别的分类正确率达到了83. 96%,接近该数据集上的最优结果,而且比标准深度学习算法的收敛时间更短.(本文来源于《小型微型计算机系统》期刊2019年11期)
马思丹,刘东苏[2](2019)在《基于加权Word2vec的文本分类方法研究》一文中研究指出【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重迭部分和非重迭部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模型的分类效果有所提升,是一种有效的文本分类方法。(本文来源于《情报科学》期刊2019年11期)
于游,付钰,吴晓平[3](2019)在《中文文本分类方法综述》一文中研究指出如何高效地文本分类是当前研究的一个热点。首先对文本分类概念及流程中的分词、特征提取和文本分类方法等相关技术及研究现状进行了介绍和阐述,然后分析了现有文本分类相关技术面临的挑战,最后对文本分类的发展趋势进行了总结。(本文来源于《网络与信息安全学报》期刊2019年05期)
邵云飞,刘东苏[4](2019)在《基于类别特征扩展的短文本分类方法研究》一文中研究指出【目的】针对短文本分类中的内容稀疏问题,提出一种基于类别特征扩展的短文本分类方法。【方法】使用改进后的TF-IDF模型以及LDA主题模型构建基于类别特征的关键词集与主题分布集,完成对短文本内容及词汇向量表征上的扩充,并在此基础上通过卷积神经网络对短文本分类。【结果】实验结果表明,基于类别特征扩展后的短文本在分类的准确率上提升3%,在召回率上提升4.1%。【局限】仅使用卷积神经网络进行验证。【结论】基于类别特征扩展的短文本分类方法能够克服短文本分类中的内容稀疏问题,提高短文本分类的性能。(本文来源于《数据分析与知识发现》期刊2019年09期)
王浩铭[5](2019)在《基于句式内容表的电网安全隐患文本分类方法》一文中研究指出文章使用构建的句式内容表配合机器学习的方式对长白电网历年储存的电网安全隐患信息进行精准分词并将其按要求分类,方便按类别精准取用信息为日后进一步数据分析打下基础。(本文来源于《信息通信》期刊2019年09期)
朱弘扬,马海斌,葛天祎[6](2019)在《基于卷积神经网络的高精度文本分类方法》一文中研究指出本文给出了一种基于卷积神经网络的高精度文本分类方法,其思路是:读取数据集进行分词和停用词处理,将处理后的语料库送入统计共现矩阵,训练出词向量,进而保存向量矩阵,最后把矩阵向量集导入卷积神经网络进行分类处理得到预测结果。该方法包括五个步骤:步骤一,将源数据集预处理成为统一格式,再进行分词处理。步骤二,将数据集送入训练glove模型,保存模型;步骤叁,将语句以词向量的矩阵形式保存为数据集;步骤四,将数据导入文本分类CNN模型训练;步骤五,用训练好的模型对数据进行分类并与标准进行比对。仿真结果表明,本文所给出的方法输出准确度高达99%。(本文来源于《电脑知识与技术》期刊2019年21期)
古倩[7](2019)在《基于特征向量构建的文本分类方法研究》一文中研究指出文本是多样信息的来源,由于其非结构化特性,从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题,是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术,是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息,但易呈现高稀疏性,且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题,本文进行了如下研究:(1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题,本文提出了一种基于WT-GloVe的词向量加权模型。首先,借助基于词间距和类间贡献度的特征加权算法进行特征词提取;其次,根据GloVe模型的自身缺点提出了一种过滤无关词方法,以提高词向量训练质量;最后,结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型,有效获取特征词的重要程度及语义信息,构成新的词向量加权模型。实验结果表明,相同环境下与其它同类模型相比,基于WT-GloVe的词向量加权模型能有效提高分类效果。(2)文本分类方面。针对fastText模型在中文文本分类时,子词嵌入方法所获取词信息效果不明显且产生大量冗余词条的问题,本文提出了一种基于STL-fastText的文本分类模型。首先,在TF-IDF算法基础上提出了基于相关性的低频词加权算法;其次,将整个语料库作为LDA模型的输入,对文本内容进行主题分析以便学习其主题词分布,将所得结果作为低频高区分度特征的补充;最后,对fastText模型的输入层进行词典重构,将特征补充后所得新词典作为隐藏层的输入,完成STL-fastText模型的构建。实验结果表明,相同环境下与其它同类模型相比,基于STL-fastText的文本分类模型能有效提高了中文短文本的分类效果。(本文来源于《西安理工大学》期刊2019-06-30)
唐焕玲,窦全胜,于立萍,宋英杰,鲁明羽[8](2019)在《有监督主题模型的SLDA-TC文本分类新方法》一文中研究指出本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能.(本文来源于《电子学报》期刊2019年06期)
靳一凡,傅颖勋,马礼[9](2019)在《基于频繁项特征扩展的短文本分类方法》一文中研究指出短文本具有特征维度高且稀疏等特点,导致将传统的分类方法应用于短文本分类时效果较差。针对此问题,提出基于频繁项特征扩展的短文本分类方法(Short Text Classification Based on Frequent Item Feature Extension,STCFIFE)。首先通过FP-growth算法挖掘背景语料库的频繁项集,结合上下文的关联特征,计算出扩展特征权重;然后将新特征加入到原短文本的特征空间中,在此基础上训练SVM(Support Vector Machine,SVM)分类器,并进行分类。实验结果表明,与传统的SVM算法和LDA+KNN算法相比,STCFIFE方法能有效缓解短文本特征不足、高维稀疏的问题,使F1值提升了2%~10%,提高了短文本的分类效果。(本文来源于《计算机科学》期刊2019年S1期)
韩飞,柴玉梅,王黎明,刘箴[10](2019)在《一种结合随机游走和粗糙决策的文本分类方法》一文中研究指出情感分析一直是社交媒体领域所研究的热点,为克服有些情感词语在文本中模糊性强的问题,本文引入了两个模型.随机游走模型在互联网分析及页面排序中有了一些成熟的应用,但在文本倾向性分析中少有涉及.文中提出基于扩展随机游走模型的情感词极性判别算法,对模糊性词语的情感词极性进行分析,通过建立文本向量空间,提出基于情感词极性权重序的属性离散化算法,对候选属性进行离散化处理.最后通过粗糙决策置信度模型,对文本最终情感类别进行判定.实验通过词极性判别、离散化、粗糙决策置信分类叁个阶段,把各阶段得到的结果与其他方法进行对比,最后通过多种评价指标对情感分类的最终分类结果进行评判,实验结果证明了方法的有效性.(本文来源于《小型微型计算机系统》期刊2019年06期)
文本分类方法论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重迭部分和非重迭部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模型的分类效果有所提升,是一种有效的文本分类方法。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本分类方法论文参考文献
[1].陶永才,杨朝阳,石磊,卫琳.池化和注意力相结合的新闻文本分类方法[J].小型微型计算机系统.2019
[2].马思丹,刘东苏.基于加权Word2vec的文本分类方法研究[J].情报科学.2019
[3].于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报.2019
[4].邵云飞,刘东苏.基于类别特征扩展的短文本分类方法研究[J].数据分析与知识发现.2019
[5].王浩铭.基于句式内容表的电网安全隐患文本分类方法[J].信息通信.2019
[6].朱弘扬,马海斌,葛天祎.基于卷积神经网络的高精度文本分类方法[J].电脑知识与技术.2019
[7].古倩.基于特征向量构建的文本分类方法研究[D].西安理工大学.2019
[8].唐焕玲,窦全胜,于立萍,宋英杰,鲁明羽.有监督主题模型的SLDA-TC文本分类新方法[J].电子学报.2019
[9].靳一凡,傅颖勋,马礼.基于频繁项特征扩展的短文本分类方法[J].计算机科学.2019
[10].韩飞,柴玉梅,王黎明,刘箴.一种结合随机游走和粗糙决策的文本分类方法[J].小型微型计算机系统.2019