导读:本文包含了不良文本识别论文开题报告文献综述及选题提纲参考文献,主要关键词:机器学习,特征提取,文本风格特征,2元语法
不良文本识别论文文献综述
韩伟[1](2018)在《基于机器学习的不良短文本识别研究》一文中研究指出近年来,移动互联网发展迅猛,随之而来的大数据技术的发展,使得社交网络变得尤为发达,并由此产生了大量的文本数据。微博和直播等平台的兴起,使网络文本更多的以弹幕和评论等短文本为主。这些文本在丰富大家交流的同时,一些夹杂其中的不良文本也给互联网健康带来了一些的危害。这些不良短文本主要以反动文本,侮辱性不雅文本和广告文本为主。这些不良文本严重阻碍了人们对有效信息的获取,同时其中的一些色情暴力信息也对青少年造成了很大的不良影响。如何有效地过滤这些不良文本信息,净化社交网络环境,成为社交网络时代一个重要的话题。现有的过滤方法分为两种,一种是基于规则的不良文本过滤系统,一种是基于机器学习的不良文本过滤系统,即文本分类系统。但是,因为网络短文本存在变形词较多,文本普遍很短且口语化严重,特征稀疏以及样本数量不平衡等因素,普通的过滤方法不能起到很好的效果。针对不良短文本的识别,本文从减少文本噪声,降低文本特征的稀疏性和增加文本语义特征等几个方面提高不良短文本的识别精度。本文的主要研究工作有:(1)改进了文本预处理方法。普通的文本预处理方法对于不良短文本的噪音不能有效的去除。我们通过对大量不良短文本内容的分析,改进了文本的预处理方法,从文本去噪、杂乱信息归一化以及去停用词等多个方面对文本预处理。(2)多角度提取不良短文本特征。短文本本身口语化较为严重,并且变形词以及错别字也广泛存在于网络短文本中,这降低了普通中文分词方法的分词效果。在本研究中,我们加入了短文本的2元语法(Bi-gram)特征所提取的特征作为文本的基础特征。另外,我们从不良短文本的整体出发,增加了文本的整体特征,最后,我们发现上述文本特征会损失文本的语义信息,因此我们加入基于word2vec的文本语义特征。(3)特征权重分析与特征融合。我们针对短文本提取了Bi-gram特征,文本风格特征以及文本语义特征等特征,对于不同种类的特征,我们分别赋予权重,然后再用特征融合的方法进行文本表示。(4)使用本研究中所提取的短文本特征对不良文本识别进行实验。我们从互联网上爬取了含有不良文本的数据集并进行标注,并使用不同的分类器进行不良短文本识别实验。实验结果表明,本文的不良短文本特征提取方法和SVM分类器组成的不良文本识别效果最优。(本文来源于《上海师范大学》期刊2018-03-01)
吕洪艳,杜鹃[2](2015)在《基于SVM的不良文本信息识别》一文中研究指出不良文本识别的实际应用中,大多数文本之间总有交界甚至彼此掺杂,这种非线性不可分问题给不良文本识别带来了难度.应用SVM通过非线性变换可以使原空间转化为某个高维空间中的线性问题,而选择合适的核函数是SVM的关键.由于单核无法兼顾对独立的不良词汇和词汇组合的识别,使识别准确率不高,而且也无法兼顾召回率.针对不良文本识别的特定应用,依据Mercer定理结合线性核与多项式核提出了一种新的组合核函数,这种组合核函数能兼顾线性核与多项式核的优势,能够实现对独立的不良词汇以及词汇组合进行识别.在仿真实验中评估了线性核、齐次多项式核以及组合核函数,实验结果表明组合核函数的识别准确率与召回率都比较理想.(本文来源于《计算机系统应用》期刊2015年06期)
李少卿,吴承荣,曾剑平,钟亦平[3](2015)在《不良文本变体关键词识别的词汇串相似度计算》一文中研究指出随着网络技术的发展,网络空间出现了各种各样的文本交流类网络应用,如聊天室、BBS等。为维护网络环境的文明,这些网络应用中会将用户发表的"脏话"词汇进行过滤。有些恶意用户为了避免所发信息被系统过滤,经常会将"脏话"词汇进行变形处理,如何识别这些变形后的"脏话"词汇,是一个重要的问题。通过计算变异敏感词汇相似度,来对变形词汇进行识别。该方法具有如下特点:(1)计算结果接近于人脑识别的结果;(2)计算所用的时间复杂度较低;(3)对变体识别率较高。根据计算的相似度值,来决定是否对该疑似敏感词进行过滤。实验数据表明,所提出的相似度计算方法好于现有的算法。(本文来源于《计算机应用与软件》期刊2015年03期)
刘梅彦,张仰森,张涛[4](2014)在《基于语义分析的不良倾向文本的识别算法研究》一文中研究指出分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此算法能够较好地提高不良文本识别效率和准确率。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2014年04期)
仁青诺布,苏亚超,孙亚东[5](2014)在《基于最大熵模型的藏文不良文本识别系统的设计和实现》一文中研究指出随着互联网不断发展,境外反动势力利用网络传播不良信息呈愈演愈烈之势,尤其在藏文信息方面。利用最大熵模型,可对网络藏文文本进行分类,识别不良藏文文本及正常藏文文本。用互信息进行特征提取,建立藏文不良文本库用以训练最大熵模型,利用Opennlp最大熵工具包实现功能,利用最大熵模型求出文档属于不良文本和合法文本的概率,通过分析准确率、召回率对识别结果进行分析。通过实验实现了最大熵算法进行藏文文本分类功能,用最大熵算法进行藏文不良文本识别效果比较明显。(本文来源于《西藏科技》期刊2014年03期)
戴永清,章月丽[6](2011)在《一种基于文本倾向性的不良文本识别方法》一文中研究指出针对网络不良文本信息的过滤问题提出了一种基于文本倾向性的不良文本识别方法。首先采用基于主题的文本分类方法,然后对不良主题的相关文本利用倾向性分析方法识别不良文本。基于文本倾向性由文本主题词的上下文词汇确定的假设,提出了一种基于主题词上下文的文本倾向性分类方法。实验结果显示该方法对已有基于主题分类方法很难区分的文本具有较好识别效果。(本文来源于《计算机应用与软件》期刊2011年05期)
张永奎,高峰[7](2010)在《一种不良文本识别特征选择方法》一文中研究指出针对不良文本的特殊性,提出一种两步特征选择方法。首先对训练文本用有限自动机识别其中的特殊词作为特征加入特征集,同时将原文还原为不含特殊词的文本。对还原后文本用"组合特征选择方法"选择特征加入特征集。实验结果表明利用两步特征选择方法能有效提高非法文本识别精度。(本文来源于《计算机工程与应用》期刊2010年02期)
高峰[8](2009)在《基于最大熵模型的不良文本识别方法研究》一文中研究指出互联网以其巨大的信息资源和快捷的传播速度给人们的信息交流带来了前所未有的便利,但同时,由于互联网的开放性、匿名性等特点,使它在为人们提供便利的同时,也将许多不良信息(反动、色情、暴力、迷信内容等等)携带而来。这些不良信息严重干扰着互联网的正常秩序,成为用户获得有效信息的障碍。其中的一些不健康的言论及思想,给国家和个人的信息安全带来了诸多隐患,特别是对青少年的健康成长有着极其不利的影响。因此如何有效监管互联网上的信息,阻止不良信息的传播,保障网络的内容安全,成为当前重要研究课题之一。本文通过对各类不良文本特征的深入分析,结合中文信息处理、模式识别、机器学习等学科的相关知识,对不良文本信息过滤的文本预处理方法、文本特征选择方法等作了深入的研究,并通过实验对研究结果进行了验证。具体工作如下:(1)从传播途径、内容形式、统计等不同角度深入分析了不良文本的特征,并对其中的特殊形式的不良文本进行了相应的预处理。采用有限自动机对其中的特殊词进行识别,将其作为不良文本特有的特征加以利用,并建立拼音汉字对照表和部首汉字对照表,对这些不良文本进行还原,使其能适合于基于分词的方法处理。(2)介绍最大熵模型的原理,及其在特征选择和参数估计中所用的相应方法。比较了目前常用的文本分类特征选择方法,结合不良文本的特点,提出了一种适合于不良文本识别的特征选择方法——两步特征选择方法。并对其效果进行了验证。(3)设计并实现了一个不良文本识别的实验系统。先对训练文本进行预处理,用两步特征选择方法生成特征集,根据特征集将训练文本表示成特征向量,训练得到最大熵模型,对测试文本用同样方法表示成特征向量,用训练得到的模型测试,根据测试结果进行识别。实验结果表明两步特征选择方法可适用于不良文本的识别并取得较高的准确率和召回率。(本文来源于《山西大学》期刊2009-06-01)
高峰,张永奎[9](2009)在《基于最大熵模型的不良文本识别》一文中研究指出构建了一个基于最大熵原理的不良文本识别模型,该模型分为训练和测试两个模块,先从训练语料中抽取特征,利用最大熵方法对特征进行训练,然后使用经过训练的特征,对测试集中的不良文本进行识别,达到了比较满意的识别效果,最后对实验结果进行了分析。(本文来源于《电脑开发与应用》期刊2009年01期)
李艳玲[10](2007)在《基于内容的不良信息文本实时识别方法研究》一文中研究指出本文对信息过滤中的关键技术不良信息识别方法进行了研究,提出了一个基于内容的不良信息过滤模型,并结合现有的分类方法,给出了几种适用于不良信息文本实时识别的方法,对各算法用于不良信息识别的原理进行了描述.(本文来源于《计算机与信息技术》期刊2007年05期)
不良文本识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
不良文本识别的实际应用中,大多数文本之间总有交界甚至彼此掺杂,这种非线性不可分问题给不良文本识别带来了难度.应用SVM通过非线性变换可以使原空间转化为某个高维空间中的线性问题,而选择合适的核函数是SVM的关键.由于单核无法兼顾对独立的不良词汇和词汇组合的识别,使识别准确率不高,而且也无法兼顾召回率.针对不良文本识别的特定应用,依据Mercer定理结合线性核与多项式核提出了一种新的组合核函数,这种组合核函数能兼顾线性核与多项式核的优势,能够实现对独立的不良词汇以及词汇组合进行识别.在仿真实验中评估了线性核、齐次多项式核以及组合核函数,实验结果表明组合核函数的识别准确率与召回率都比较理想.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
不良文本识别论文参考文献
[1].韩伟.基于机器学习的不良短文本识别研究[D].上海师范大学.2018
[2].吕洪艳,杜鹃.基于SVM的不良文本信息识别[J].计算机系统应用.2015
[3].李少卿,吴承荣,曾剑平,钟亦平.不良文本变体关键词识别的词汇串相似度计算[J].计算机应用与软件.2015
[4].刘梅彦,张仰森,张涛.基于语义分析的不良倾向文本的识别算法研究[J].北京信息科技大学学报(自然科学版).2014
[5].仁青诺布,苏亚超,孙亚东.基于最大熵模型的藏文不良文本识别系统的设计和实现[J].西藏科技.2014
[6].戴永清,章月丽.一种基于文本倾向性的不良文本识别方法[J].计算机应用与软件.2011
[7].张永奎,高峰.一种不良文本识别特征选择方法[J].计算机工程与应用.2010
[8].高峰.基于最大熵模型的不良文本识别方法研究[D].山西大学.2009
[9].高峰,张永奎.基于最大熵模型的不良文本识别[J].电脑开发与应用.2009
[10].李艳玲.基于内容的不良信息文本实时识别方法研究[J].计算机与信息技术.2007