特征权重计算论文-阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆

特征权重计算论文-阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆

导读:本文包含了特征权重计算论文开题报告文献综述及选题提纲参考文献,主要关键词:文本分类,文本特征,权重计算,类别频率

特征权重计算论文文献综述

阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆[1](2019)在《基于类别信息和特征熵的文本特征权重计算》一文中研究指出基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。(本文来源于《计算机应用研究》期刊2019年11期)

Ahsan,Khadim[2](2019)在《融合特征权重计算方法的短文本技术研究》一文中研究指出文本分类是自然语言处理(NLP)应用中的基本任务之一。卷积神经网络(CNN)广泛用于NLP任务。然而,应用卷积神经网络进行文本分类忽略了文本分类类别中词语的区分能力。特征权重计算方法广泛用于数据检索和文本分类模型。最近,有研究者提出了一种有监督的特征权重计算方法,用来选择文本中对文本分类类别具有高区分能力的那些词。为了改进基于CNN的文本分类,我们引入了一种特征权重计算方法来改进基于CNN的文本分类。具体说来,我们使用两个单独的模型来进行文本分类任务。一种是使用特征权重计算方法来选择具有高类别区分度的单词,然后使用它们来表示文本。另一个是使用卷积神网络从新文本表示中提取特征并进行分类。我们在数据集Reuters-21578上进行了文本分类的实验。通过使用这种方法,我们提高了句子的准确性。(本文来源于《华南理工大学》期刊2019-04-25)

ANA,MADELEYN,OPORTO,GUZMAN[3](2019)在《基于特征权重计算方法的情感分析》一文中研究指出近年来,情感分析一直是自然语言处理研究者群体日益关注的主题。情感分析可以帮助公司和公共管理部门的人员更多地了解客户的意见,并帮助他们做出一些决定。在本文中,我们首先介绍了情感分析任务的背景,定义,以便读者更好地理解本文的研究目标以及论文的贡献。我们还介绍了最近的几种情感分析的方法,如概率算法(朴素贝叶斯),最近邻算法和变量算法,决策树或分类和矢量支持机器。然后介绍了构建情感分析系统的步骤,包括预处理,特征提取和性能评估。最后,我们更加关注由在线酒店评论组成的数据集,并应用监督机器学习方法Na?ve Bayes使用unigram特征和两种类型的信息(频率和TF-IDF)来实现文档的极性分类。如我们的实验结果所示,在准确性,精确度,召回率和F_score方面,我们的模型优于其他模型。(本文来源于《华南理工大学》期刊2019-04-18)

罗衎,马佳佳[4](2019)在《基于文档结构的特征权重计算方法研究》一文中研究指出针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。(本文来源于《软件导刊》期刊2019年05期)

孙丽莉,张小刚[5](2018)在《一种基于HowNet语义计算的综合特征词权重计算方法》一文中研究指出传统文本特征词提取方法采用TF-IDF计算文本特征词的权重,但TF-IDF方法只使用了文本中的词频因素,体现不出特征词的位置信息,也忽略了特征词之间的语义相似关系,降低了提取特征词的准确性。针对此问题,文章提出了一种综合的文本特征词权重计算方法,该方法在计算特征词权重时兼顾了特征词的词频、位置和词义信息。实验结果表明,该方法是有效的,且能在一定程度上提高文本相似度结果的区分度和聚类效果。(本文来源于《统计与决策》期刊2018年18期)

王勇,王李福,邹辉,何养明[6](2018)在《结合类别与语义贡献度的特征权重计算方法》一文中研究指出为解决在文本处理实际应用中,各文本通常没有包含明确的类别信息,以及在传统的基于向量空间模型的TFIDF方法中特征项权重计算时,缺乏语义关系和类别区分度的问题,对特征项权重计算方法进行改进。提出特征项的语义贡献度,通过结合模糊聚类得到含有类别信息的文本集合;针对类别对特征项权重的影响提出类别信息熵,结合语义贡献度对传统的TF-IDF方法进行改进。在复旦大学中文文本分类语料库数据集上的测试结果表明,改进后的权重计算方法优于传统的权重计算方法。(本文来源于《计算机工程与设计》期刊2018年06期)

胡雯雯,高俊波,施志伟,刘志远[7](2018)在《基于词性特征的特征权重计算方法》一文中研究指出短文本因其具有特征稀疏、动态交错等特点,令传统的权重加权计算方法难以得到有效使用.本文通过引入翻译决策模型,将某种词性出现的概率作为特征,提出一种新的基于词性特征的特征权重计算方法,并用文本聚类算法进行测试.测试结果表明:与TF-IDF、QPSO两种权重计算算法相比,改进的特征权重计算算法取得更好的聚类效果.(本文来源于《计算机系统应用》期刊2018年01期)

夏冰[8](2016)在《基于MIDF(t)的短文本特征权重计算方法研究》一文中研究指出随着互联网的飞速发展,传统的文本分类已经不能满足人们对信息服务系统的要求,为了实现大规模海量信息的有效利用,高准确率的分类算法成为近年的研究热点。通常情况下,网络上的影评属于短文本,文本中可供抽取的信息词量较少,而对文本分类不起作用的停用词比例相对较大,产生了向量维度高和特征稀疏这两大难题,因而研究难度更大。针对短文本特征稀疏和样本高度不均衡等特点,本文提出方法作为短文本特征权重的计算方法,既考虑了特征项在单个样本中的分布,又考虑了文本的类别特征,提高了短文本分类的查准率和查全率。实验结果表明,与传统的特征权重计算方法相比,该方法更适合短文本的分类。(本文来源于《黑龙江科学》期刊2016年16期)

姚海英[9](2016)在《中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究》一文中研究指出随着互联网的迅速普及和信息技术的飞速发展,人们可获取的信息量成雪崩式增长,而大多数信息是以文本的形式存在的,如何从海量文本信息中快速、准确、全面地找到所需要的信息已经成为目前研究的热点。能够对庞大的文本数据进行处理和使用的文本分类技术,作为信息检索的关键技术之一,已经应用在多个领域。特征选择和特征加权在中文文本分类过程中占据非常重要的地位,特征选择方法目的是降低特征空间维数,通过选取类别区分度较大的词作为特征项,过滤作用小的词,使分类的准确率得到提升;为了区分特征项的分类能力,特征加权方法根据其类别区分度的不同设置不同的权重值。特征加权算法的选择以及特征选择结果的好坏直接影响文本分类效果,因此寻求一种有效的特征选择和特征词权重计算方法就成为文本分类中极为关键的问题。本文主要从特征选择和特征加权两方面对文本分类进行分析和讨论。首先,论文介绍了文本分类的基础工作和理论知识,从文本预处理、模型表示以及分类器等方面进行说明。其次,对文本分类中的特征选择方法进行重点阐述,介绍了几种常用的特征选择方法,分析各方法的优缺点。针对卡方统计方法忽略了低频词缺陷问题及忽略了特征项在类别内部分布情况的不足,引入了特征项频度和类内信息熵两个因子,针对卡方统计方法倾向于选择与类别负相关的特征词的问题,引入修正因子进行改进,提出了一种基于特征项频度和类内信息熵的卡方统计方法ICHI。同时本文还对常用的特征权重计算方法进行了研究和讨论,针对TF-IDF权重计算方法忽略了特征项在类内部分布情况的不足,引入类内信息熵因子对该方法加以改进,针对TF-IDF权重计算方法忽略了特征项在类别之间的分布情况的不足,用卡方统计方法(CHI)来描述特征词在类间的分布信息和其分类能力,对IDF因子加以修正,提出了一种结合卡方统计方法和类内信息熵的TF-IDF权重计算方法。最后,为了验证本文提出的卡方统计的改进算法和TF-IDF改进算法的可行性和有效性,本文以复旦大学中文语料集作为数据集,在中文文本分类平台上进行两组对比实验,用准确率、召回率、F1值等多个评价指标进行评估,实验结果验证了本文改进的卡方统计算法要比传统方法具有更好的降维效果,TF-IDF改进算法在计算特征项权重方面要比传统方法有明显的优化,可以使中文文本分类的精度和效率进一步提高。(本文来源于《吉林大学》期刊2016-05-24)

吴金源,冀俊忠,赵学武,吴晨生,杜芳华[10](2016)在《基于特征选择技术的情感词权重计算》一文中研究指出在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难.针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法.首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益(information gain,IG)和卡方统计量(chi-square,CHI),将特征选择技术应用于情感词权重计算.实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.(本文来源于《北京工业大学学报》期刊2016年01期)

特征权重计算论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文本分类是自然语言处理(NLP)应用中的基本任务之一。卷积神经网络(CNN)广泛用于NLP任务。然而,应用卷积神经网络进行文本分类忽略了文本分类类别中词语的区分能力。特征权重计算方法广泛用于数据检索和文本分类模型。最近,有研究者提出了一种有监督的特征权重计算方法,用来选择文本中对文本分类类别具有高区分能力的那些词。为了改进基于CNN的文本分类,我们引入了一种特征权重计算方法来改进基于CNN的文本分类。具体说来,我们使用两个单独的模型来进行文本分类任务。一种是使用特征权重计算方法来选择具有高类别区分度的单词,然后使用它们来表示文本。另一个是使用卷积神网络从新文本表示中提取特征并进行分类。我们在数据集Reuters-21578上进行了文本分类的实验。通过使用这种方法,我们提高了句子的准确性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

特征权重计算论文参考文献

[1].阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.基于类别信息和特征熵的文本特征权重计算[J].计算机应用研究.2019

[2].Ahsan,Khadim.融合特征权重计算方法的短文本技术研究[D].华南理工大学.2019

[3].ANA,MADELEYN,OPORTO,GUZMAN.基于特征权重计算方法的情感分析[D].华南理工大学.2019

[4].罗衎,马佳佳.基于文档结构的特征权重计算方法研究[J].软件导刊.2019

[5].孙丽莉,张小刚.一种基于HowNet语义计算的综合特征词权重计算方法[J].统计与决策.2018

[6].王勇,王李福,邹辉,何养明.结合类别与语义贡献度的特征权重计算方法[J].计算机工程与设计.2018

[7].胡雯雯,高俊波,施志伟,刘志远.基于词性特征的特征权重计算方法[J].计算机系统应用.2018

[8].夏冰.基于MIDF(t)的短文本特征权重计算方法研究[J].黑龙江科学.2016

[9].姚海英.中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D].吉林大学.2016

[10].吴金源,冀俊忠,赵学武,吴晨生,杜芳华.基于特征选择技术的情感词权重计算[J].北京工业大学学报.2016

标签:;  ;  ;  ;  

特征权重计算论文-阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆
下载Doc文档

猜你喜欢