文本特征选择论文-文武,赵成,赵学华,刘颖,范荣妹

文本特征选择论文-文武,赵成,赵学华,刘颖,范荣妹

导读:本文包含了文本特征选择论文开题报告文献综述及选题提纲参考文献,主要关键词:信息增益,萤火虫算法,特征选择,步长因子

文本特征选择论文文献综述

文武,赵成,赵学华,刘颖,范荣妹[1](2019)在《基于信息增益和萤火虫算法的文本特征选择》一文中研究指出针对传统的文本特征选择方法所选特征子集精度不高的问题,提出一种结合信息增益和萤火虫算法的特征选择方法。计算所有特征词的信息增益并按从高到低排序,在排序靠前的特征集合上利用萤火虫算法寻优搜索得到最优特征子集。为避免萤火虫算法求解速度慢和陷入局部最优,对步长因子α进行改进,使其动态更新。在KNN上的文本分类实验结果表明,萤火虫算法选择的特征子集与信息增益和遗传算法相比,具有更好的分类效果。(本文来源于《计算机工程与设计》期刊2019年12期)

吕建新,郑伟,马林,李明,谷翠梅[2](2019)在《基于词向量语义扩展的网络文本特征选择方法研究》一文中研究指出【目的/意义】现有特征选择方法可以计算特征所携带的类别信息量,但却不能计算出与主题相关的语义信息。针对其不足,为了提高分类准确率,提出一种基于词向量语义扩展的特征选择方法。【方法/过程】该方法引入了词向量进行主题语义计算,筛选出具有类别语义信息的词条实现特征候选集的特征扩展,并采用K近邻分类方法进行分类实验。【结果/结论】实验结果显示新方法能够有效提取主题语义特征并提高分类准确率。(本文来源于《情报科学》期刊2019年12期)

管江红[3](2019)在《基于χ~2统计量的不良文本过滤特征选择方法》一文中研究指出针对现有以χ~2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别。所改良的特征选择方法能够弥补现有χ~2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求。通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果。(本文来源于《现代电子技术》期刊2019年21期)

侯乔,陈宏伟[4](2019)在《基于多策略改进蝙蝠算法的文本特征选择》一文中研究指出特征选择是文本分类过程的重要处理步骤,在其他分类预处理环节和分类算法确定的条件下,通过传统特征选择方法很难大幅度提高文本分类的准确率。针对此问题,介绍了一个基于改进蝙蝠优化的新的文本特征选择方法,即利用传统的特征选择方法对原始特征进行预选,在此基础上使用高斯局部扰动和自适应调节权重机制改进传统蝙蝠群算法,并以二进制编码形式对预选特征进行优选,分类准确率作为个体的适应度,提出了多策略改进蝙蝠算法的文本特征选择算法MS-BA,实现对文本特征选择优化模型的高效求解。结果表明,采用MS-BA进行特征优选后,其分类准确率得到有效提高。(本文来源于《湖北工业大学学报》期刊2019年05期)

刘永芬,程丽,陈志安[5](2019)在《基于特征选择的M-SVM中文文本分类》一文中研究指出在文本分类领域,中文文本需要经过数据处理,将文档表达成计算机可以理解并处理的信息。本文采用TF-IDF作为文本表示方法,针对中文文章的多分类问题,对传统支持向量机进行改进,提出了一种基于特征选择的多类支持向量机分类方法。在中文文章数据集的对比实验结果表明,本文的方法在多分类性能上较优于其他模式识别方法。(本文来源于《软件》期刊2019年09期)

万志超,胡峰,邓维斌[6](2019)在《面向不平衡文本情感分类的叁支决策特征选择方法》一文中研究指出传统的特征选择方法在面对不平衡文本情感倾向性分类时会有很大的局限性,这种局限性主要体现在特征维数过高、特征过于稀疏和特征分布不平衡,这会使得分类的准确度大幅度下降。根据不平衡文本情感特征分布的特点,结合叁支决策的思想,提出了一种面向不平衡文本情感分类的叁支决策特征选择方法(TWD-FS)。该方法将两种有监督特征选择方法相结合,将选择出的特征词进一步筛选,使得最终选择出的特征词同时满足类间离散度最大和类内离散度最小的特点,有效地减少了特征词的数量,降低了特征维度;此外,通过组合正负类情感特征,缓解了情感特征的不平衡性,有效提高了不平衡样本中少数类情感的分类效果。在COAE2013中文微博非平衡数据集等多个数据集上的实验结果表明,所提的特征选择算法TWD-FS可以有效提高不平衡文本情感分类的准确度。(本文来源于《计算机应用》期刊2019年11期)

李培强[7](2019)在《文本的特征选择与分类算法研究》一文中研究指出随着在21世纪互联网信息技术的不断发展,文本分类作为对文本数据管理的有效手段越来越成为当今的研究热点。但文本数据大多以杂乱的形式存在,造成文档特征数量多、分布不均等问题,严重影响文本数据的分类准确率和分类效率。基于此,本文在前人的基础上对文本分类中的特征选择和文本分类算法进行研究,分别给出改进的互信息特征选择模型、基于K中心点和粗糙集理论的KNN分类算法(K Center Point and Rough Set KNN,KRS-KNN)以解决这些问题。针对传统的互信息特征选择算法没有考虑特征词频率、词性及特征词分布问题,分别在传统的互信息模型的基础上结合类内特征频度、特征覆盖率及词性系数这叁个指标,构造出新的互信息评估函数。然后通过向量空间模型对特征向量化,并结合KNN分类模型对文本特征集合分类。最后通过实验对该算法进行验证,实验结果表明该算法在特征选择上具有显着的效果,提高了文本分类的准确率。同时相比于传统的互信息模型在分类上的查全率和F1值也得到了一定提升,证明了该算法应用于文本分类中的有效性和可行性。在文本分类过程中,由于特征维度高,计算难度大,使得分类效率低下,因此引入一种基于K中心点和粗糙集的KNN分类算法。首先该方法在K中心算法的基础上,把文本数据集合聚类为簇,并分别计算每个簇中簇心及其它文本数据的代价函数值,并设定阈值,将代价值较大的数据样本剔除,以降低文本集合的数据规模,减少计算量。然后运用粗糙集理论对已经确定类别的数据样本不再判断所属类别,对不确定的数据利用KNN分类算法对其分类。最后通过实验验证该算法的有效性,结果表明该算法在K中心点的代价函数和粗糙集的帮助下能够有效剔除无用文本数据,降低文本集合的计算规模,使得数据处理时间大大降低,有效提高了文本数据的分类效率。(本文来源于《重庆邮电大学》期刊2019-06-02)

高梦园[8](2019)在《基于卷积神经网络的特征选择和特征表示文本分类研究》一文中研究指出移动通信经历了从1G到4G发展过程,目前5G正在蓬勃发展,互联网每时每刻都会产生包含文本、图片和影音等信息的海量数据,存储在云服务器、个人计算机或移动通信设备上。如何高效、快捷地获得有价值的信息是互联网用户最关心的问题,因此,对海量信息能进行智能自动分类处理、排除无价值或不健康信息的网络技术成为研究的热门领域。文本分类作为自然语言处理领域的研究热点之一,对优化网络环境、处理海量文本信息有重要意义。本文以提高文本分类准确率和缩短文本分类模型的训练时间为目标,主要研究内容如下:(1)本文首先对目前比较主流的分词工具进行性能测试,以分词结果的准确率和分词时间为判断依据,选用Jieba分词工具对文本进行分词。针对文档中的停用词种类繁多,且开源的停用词表各有千秋,本文重新整理了一套停用词表。为文本预处理奠定了良好的工作基础。(2)本文通过研究四种传统特征选择算法:词频(Document Frequency,DF)、卡方(?~2)检验(Chi-Square Test,CHI)、互信息(Mutual Information,MI)、信息增益(Information Grain,IG)。针对CHI特征选择算法的“低频词缺陷”,从词频和类离散度两个角度出发提出了改进方法,并在朴素贝叶斯分类器上进行实验。改进后的CHI-M特征提取算法分类平均准确率为87.49%,召回率为86.73%,较改进之前的平均分类准确率和召回率分别提升了4.88%和4.94%,验证了本文改进算法的有效性。(3)文本特征表示是文本分类任务中的重要环节。本文首先重点研究了基于概率模型的LDA主题向量模型和基于神经网络的word2vec词向量模型,并且对两个模型的重要参数进行训练,然后从语义表达和词义联合两个方面考虑,结合以上两种文本特征表示方法,设计了一种新的文本特征表示模型LDA-word。(4)为验证LDA-word文本特征表示模型的有效性,突破传统机器学习分类准确率提高的极限,本文通过深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)实现文本分类。同时为加快模型收敛速度,在卷积层使用了ReLU激活函数。其次,采用Dropout策略减弱卷积神经网络模型的过拟合现象。最后在输出层引入Sigmoid函数,来提高模型输出的稳定性。(5)本文通过深度学习框架TensorFlow中的tensorboard可视化工具来监督叁种文本特征表示模型的训练过程,并分别使用LDA主题向量模型、word2vec词向量模型和LDA-word模型进行文本特征表示,然后输入CNN实现文本分类。实验结果表明,本文提出的LDA-word模型的分类结果在准确率、召回率上均有明显提升,并且通过该模型将训练语料库输入CNN之后的训练时间相较于LDA主题向量模型和word2vec词向量模型分别提高了0.71倍和1.56倍。(本文来源于《广西师范大学》期刊2019-06-01)

柴芳[9](2019)在《基于模糊熵与粒子群优化的短文本特征选择算法研究》一文中研究指出互联网技术的持续发展与深入渗透,使得微博、微信、QQ等用于普通用户进行日常交流的网络社交软件逐步拓展到包括国家领导、新闻主持和娱乐传媒等特殊人群进行信息发布的一个公众平台。大数据时代环境下,这些平台每天都会产生海量的数据信息,文本的长度也逐渐由长变短,其根本原因在于短文本发布更加便捷,且占用用户时间少。然而,短文本的长度较短,用户编写较为随意通常会夹杂着俚语、文本字符少、信息量庞大、特征集维数相对较高。这些特点使得社交媒体短文本数据的处理成为一个巨大的挑战。在文本分类流程中,文本特征选择起着举足轻重的作用,因此,本文针对短文本特征选择进行深入分析与研究,具体如下:一、针对短文本样本特征的类别归属可能归为一类或多类问题,引入了模糊熵概念,对其隶属函数的设计分别从局部和全局两个方面进行考虑:局部方面在进行短文本分类时考虑类别与类别之间以及特定类内部的关系引入类间离散度和类内分散度并综合两者特性分析;全局方面加入特征类频度,即特征词在特定类中出现次数占其在整个训练集中出现次数的比例。最后将此算法引入到特征选择中,并通过仿真实验对引入模糊熵算法前后进行了比对与分析,以证实该算法的有效与可行性。二、短文本内容少、数据量大,极易造成维度灾难。在进行特征选择时为了达到降维的目的,普遍做法是选取能够最大可能性代表短文本主题内容的k个样本特征作为特征子集,然而常用的特征选择算法如互信息、卡方统计包括本文提出的模糊熵算法都存在k值难以确定的问题。本文引入了粒子群优化算法,在搜索过程中粒子一直不断的更新自身速度和最佳位置来查找极佳解k,然而,该算法有可能会出现早熟收敛、发散、收敛精度低等问题。因此,本文的改进:对于早熟收敛采取动态调整其惯性因子权重值的办法;对于粒子速度造成的发散、低收敛度等问题,通过简化粒子群优化方程来消除粒子速度对其造成的影响。叁、设计仿真对比实验验证本文提出的改进算法的可行性与有效性,并做了理论分析与总结。(本文来源于《华中师范大学》期刊2019-05-01)

何明[10](2019)在《一种基于改进信息增益特征选择的最大熵模型文本分类方法》一文中研究指出针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.(本文来源于《西南师范大学学报(自然科学版)》期刊2019年03期)

文本特征选择论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

【目的/意义】现有特征选择方法可以计算特征所携带的类别信息量,但却不能计算出与主题相关的语义信息。针对其不足,为了提高分类准确率,提出一种基于词向量语义扩展的特征选择方法。【方法/过程】该方法引入了词向量进行主题语义计算,筛选出具有类别语义信息的词条实现特征候选集的特征扩展,并采用K近邻分类方法进行分类实验。【结果/结论】实验结果显示新方法能够有效提取主题语义特征并提高分类准确率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本特征选择论文参考文献

[1].文武,赵成,赵学华,刘颖,范荣妹.基于信息增益和萤火虫算法的文本特征选择[J].计算机工程与设计.2019

[2].吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学.2019

[3].管江红.基于χ~2统计量的不良文本过滤特征选择方法[J].现代电子技术.2019

[4].侯乔,陈宏伟.基于多策略改进蝙蝠算法的文本特征选择[J].湖北工业大学学报.2019

[5].刘永芬,程丽,陈志安.基于特征选择的M-SVM中文文本分类[J].软件.2019

[6].万志超,胡峰,邓维斌.面向不平衡文本情感分类的叁支决策特征选择方法[J].计算机应用.2019

[7].李培强.文本的特征选择与分类算法研究[D].重庆邮电大学.2019

[8].高梦园.基于卷积神经网络的特征选择和特征表示文本分类研究[D].广西师范大学.2019

[9].柴芳.基于模糊熵与粒子群优化的短文本特征选择算法研究[D].华中师范大学.2019

[10].何明.一种基于改进信息增益特征选择的最大熵模型文本分类方法[J].西南师范大学学报(自然科学版).2019

标签:;  ;  ;  ;  

文本特征选择论文-文武,赵成,赵学华,刘颖,范荣妹
下载Doc文档

猜你喜欢