导读:本文包含了停用词论文开题报告文献综述及选题提纲参考文献,主要关键词:情感分析,预处理,停用词,特征数量
停用词论文文献综述
高巍,孙盼盼,李大舟[1](2019)在《Twitter情感分析中停用词处理》一文中研究指出在Twitter情感分析中首先要对数据预处理去除噪声,为了解文本预处理方法中去除停用词对Twitter情感分析分类性能的影响,使用4种特征模型和5种分类器对3个数据集保留和去除停用词分别进行分析,为自然语言处理的研究者提供在常用算法下对Twitter情感分类分析时是否去除停用词及特征数量选择的参考依据。实验结果表明,对Twitter情感分类,去除停用词降低了文本噪声,但多数情况下不会提高分类器的性能,且提取特征时适当的特征数量有助于加快分类过程。(本文来源于《计算机工程与设计》期刊2019年11期)
塞麦提·麦麦提敏,司马义·阿不都热依木[2](2019)在《维吾尔语停用词抽取方法研究》一文中研究指出为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。(本文来源于《计算机工程》期刊2019年10期)
俞琰,赵乃瑄[3](2018)在《基于辅助集的专利主题分析领域停用词选取》一文中研究指出[目的]提出一种领域停用词自动选取方法,以提高专利主题分析的区分度和质量。[方法]针对要进行专利主题分析的目标集,引入专利辅助集,提出基于辅助集文档频率和类别熵两个指标,衡量词语在辅助集中分布情况,自动识别领域停用词。[结果]实验结果表明,基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。[局限]辅助集的选取类型和数量有待进一步研究。[结论]基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征,从而更准确地选取专利主题分析中的领域停用词。(本文来源于《数据分析与知识发现》期刊2018年11期)
俞琰,赵乃瑄[4](2018)在《专利文本主题建模中领域停用词自动选取研究》一文中研究指出[目的 /意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法 /过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果 /结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。(本文来源于《图书情报工作》期刊2018年11期)
韩雪娇[5](2018)在《基于众智数据的软件工程停用词生成及分析》一文中研究指出信息检索技术和自然语言处理技术是解决软件工程问题中最广泛使用的方法。在这些技术中,一个关键的操作是停用词移除,其目的是通过利用停用词表来移除传递较少语义信息的一些经常出现的词。因此,停用词表在决定这些技术在解决软件工程问题中的性能方面起着重要作用。软件工程领域目前广泛应用的通用英语停用词表已经过时且不具有领域相关性,人工基于任务总结的新的停用词表通常具有主观性及不完善性。据本文所知,软件工程领域目前并没有领域通用停用词表。为了填补这一空白同时解决上述问题,本文试图生成软件工程领域通用停用词表并对其进行分析。本文主要贡献如下:(1)总结了软件工程中停用词表的应用现状。本文通过系统地搜索、分析总结一些顶级期刊和会议的相关文献,将软件工程历史上已出现的停用词表进行了分类。(2)首次生成软件工程领域停用词表。本文基于Stack Overflow中的众智数据,在分析及预处理语料库的基础上,实现基于词频及文档频率分布的算法,分析生成了软件工程领域停用词表。同时,分析了本文使用的语料库与通用英语语料库的不同、以及停用表的内容。(3)基于无监督bug报告摘要任务对停用词表应用效果进行了分析。在任务中分别应用本文生成的软件工程停用词表及通用英语停用词表来预处理数据集,以通用英语停用词表应用效果作为对比基准,通过采取相同的评价标准、实验平台和实验步骤来排除其他因素的影响。分析结果表明本文生成的软件工程停用词表应用效果最好。(4)基于无监督推荐API相关教程片段任务对停用词表应用效果进行了分析。在任务中分别应用本文生成的软件工程停用词表及通用英语停用词表来预处理数据集,以通用英语停用词表应用效果作为对比基准,通过采取相同的评价标准、实验平台和实验步骤来排除其他因素的影响。分析结果表明本文生成的软件工程停用词表应用效果最好。(本文来源于《大连理工大学》期刊2018-03-01)
珠杰,李天瑞[6](2015)在《藏文停用词选取与自动处理方法研究》一文中研究指出停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。(本文来源于《中文信息学报》期刊2015年02期)
马治涛[7](2014)在《文本分类停用词处理和特征选择技术研究》一文中研究指出21世纪步入了信息时代,越来越多的信息以电子文档的形式出现,自动文本分类可以帮助人们快速、准确的获取所需信息,具有重要的研究意义和价值。本文就文本分类的关键技术:文本预处理和特征选择方面进行了探究。在文本预处理阶段,停用词的处理对分类效率和分类精度都有一定的影响。传统的停用词一般由人工根据经验判断并加入到停用词集合中,这种方法得到的停用词没有考虑不同的训练集合的特性。本文引入差异系数来描述特征词在出现类别中的文档频数的离散程度,提出了一种结合语料库基于差异系数的动态停用词处理方法。方法通过统计特征词在各个类别中出现的文档频数,并设定特征词出现的最小类别数,计算其差异系数,进而判断该词是否为停用词。实验证明这种方法针对不同的语料库可以选出特定的停用词集,具有较强的自适应性。在特征选择阶段,好的特征选择算法可以更好的选出更有代表性的词汇,提升分类性能。本文分析传统卡方检验的不足之处:(1)仅仅考虑了一个特征词是否出现在一篇文档中,没有考虑特征词出现的频度,引发低频词缺陷,影响分类精度。(2)若特征词出现在指定类别中的文档频数较小,在其余类别中出现的文档频数高的话,卡方检验会赋予该词较高的卡方值,引发负相关现象。针对卡方检验的不足之处,本文引入了标准分数和类内特征词分布两个参数,分别解决负相关和低频词缺点,提出了改进卡方检验特征选择。新的方法使用标准分数来描述特征词在某个类别中出现的文档频数和该特征词在训练集出现的平均文档频数之间的距离,使用类内特征词分布来描述特征词在指定类中的分布情况。实验结果表明,新的方法可以提好分类结果的准确率,是一种有效的方法。(本文来源于《西安电子科技大学》期刊2014-12-01)
巩政,关高娃[8](2011)在《蒙古文停用词和英文停用词比较研究》一文中研究指出该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,比用英文停用词翻译成蒙古文进行蒙古文文档检索的准确率更高。(本文来源于《中文信息学报》期刊2011年04期)
关高娃[9](2011)在《蒙古文停用词和英文停用词比较研究》一文中研究指出随着互联网的普及和社会信息化的发展,使用检索系统的用户变得越来越多,文档的语言种类及内容也越来越多。由于蒙古文的独特性,相对英文、汉文等语种而言,对蒙古文信息检索的研究还不够深入,尤其对蒙古文信息检索中的细节问题的研究更少,例如对蒙古文停用词的研究。本文首先采用TF、DF、EC和UE方法初步获得蒙古文停用词表。由于本文所采用的蒙古文文档集的内容有局限性,初步获得的停用词表中含有与文档主题关系较大的实体名词,同时还含有蒙古文中的同形异义词。为了比较研究信息检索中蒙古文停用词表和英文停用词表,本文结合蒙古文的特点对以上四种方法初步获得的蒙古文停用词的交集进行了优化。优化方法是先从初步获得的蒙古文停用词表中去掉与文档主题关系较大的名词和蒙古文同形异义词,然后再从词性角度分析两种停用词表,最后将英文停用词翻译成蒙古文应用到蒙古文文档集中与蒙古文停用词进行了检索比较,又将蒙古文停用词翻译成英文应用到英文文档集中与英文停用词进行了检索比较。从25412篇蒙古文测试文档的实验结果可知,UE方法获得的蒙古文停用词表优于EC方法获得的蒙古文停用词表;优化后的蒙古文停用词表优于用以上四种方法获得的停用词交集的蒙古文停用词表;优化后的蒙古文停用词表优于翻译成蒙古文的英文停用词表;而英文停用词表优于翻译成英文的蒙古文停用词表。因此不能直接将英文停用词翻译成蒙古文作为蒙古文停用词,而是要根据蒙古文的特点与相关算法结合来获取蒙古文停用词表。(本文来源于《内蒙古大学》期刊2011-06-12)
江兆中[10](2010)在《基于语境和停用词驱动的中文自动分词研究》一文中研究指出随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越来越高,成为中文信息处理的一个前沿课题。未登录词对分词精度的影响超过歧义切分,因而成为提高中文分词质量的关键。语境和停用词中隐含着有助于未登录词识别的信息,合理利用能提高识别的质量。为此,本文针对以上关键问题进行研究,主要工作如下:(1)提出一种基于语境的中文分词模型。以往的分词算法大多只考虑语料信息或语境信息,这样会产生局部概率偏见问题。理论分析及实验表明综合考虑语料信息和语境信息可有效提高分词的质量。(2)提出一种基于停用词驱动的未登录词识别方法ROWS。以往大多方法基于停用词干扰未登录词识别这一理念,将其去除后再进行处理。只有很少方法利用规则对停用词进行了后处理,这种在切分结束后对其进行处理不但代价大而且效果不明显。基于此,在结合语料信息和语境信息或上下文信息的同时,对停用词进行建模,减少了局部概率偏见的影响,有效提高未登录词识别的质量。(本文来源于《合肥工业大学》期刊2010-04-01)
停用词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
停用词论文参考文献
[1].高巍,孙盼盼,李大舟.Twitter情感分析中停用词处理[J].计算机工程与设计.2019
[2].塞麦提·麦麦提敏,司马义·阿不都热依木.维吾尔语停用词抽取方法研究[J].计算机工程.2019
[3].俞琰,赵乃瑄.基于辅助集的专利主题分析领域停用词选取[J].数据分析与知识发现.2018
[4].俞琰,赵乃瑄.专利文本主题建模中领域停用词自动选取研究[J].图书情报工作.2018
[5].韩雪娇.基于众智数据的软件工程停用词生成及分析[D].大连理工大学.2018
[6].珠杰,李天瑞.藏文停用词选取与自动处理方法研究[J].中文信息学报.2015
[7].马治涛.文本分类停用词处理和特征选择技术研究[D].西安电子科技大学.2014
[8].巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报.2011
[9].关高娃.蒙古文停用词和英文停用词比较研究[D].内蒙古大学.2011
[10].江兆中.基于语境和停用词驱动的中文自动分词研究[D].合肥工业大学.2010