导读:本文包含了垃圾内容识别论文开题报告文献综述及选题提纲参考文献,主要关键词:垃圾内容识别,AC自动机,贝叶斯方法
垃圾内容识别论文文献综述
丁川芸,兰全祥[1](2019)在《基于AC自动机和贝叶斯方法的垃圾内容识别》一文中研究指出针对目前垃圾内容识别算法存在的问题,研究一种垃圾内容识别率高、准确率高的识别方法。对常用识别方法 AC自动机和贝叶斯方法进行分析,指出这些方法存在的问题,提出一种基于AC自动机和贝叶斯方法的垃圾内容识别方法。首先,利用AC自动机按照设定的类别关键词库圈定关键词,然后利用贝叶斯方法训练所得的策略对关键词进行二次筛查,进而判断是否为垃圾内容。AC自动机与贝叶斯方法的结合能够在保证高效识别关键词的情况下尽可能地减少误伤,提高用户体验感。(本文来源于《黑龙江工业学院学报(综合版)》期刊2019年02期)
尚长春[2](2017)在《基于文本内容二元混合特征的垃圾短信识别研究》一文中研究指出随着大数据时代的来临,通讯技术的不断发展和各种智能信息终端不断进步,使垃圾短信息群发技术更新迅速且成本低廉,导致人们普遍使用的手机短信成为利益驱使者和不法分子的重点“关注对象”.据12321举报受理中心调查显示,几乎所有人都受过垃圾短信的困扰.虽然政府和运营商都提出一系列方法治理垃圾短信,也取得了一定的成效,但技术的不断革新使垃圾短信具有多样性和时效性等特点,因此对垃圾短信的识别和治理是一项长期且艰巨的任务,具有重要意义.本文以2015年大数据竞赛移动发布的部分短信数据为基础,以短信文本分类技术为研究对象,首先介绍了当前短信业务发展现状、垃圾短信泛滥所造成的严重后果、垃圾短信的特点和种类、垃圾短信治理取得的成效以及垃圾短信分类技术研究的重要意义,并介绍了国内外垃圾短信识别与治理的现状.然后介绍了传统的基于内容的文本分类技术,包括中文分词、文本预处理、文本表示、特征选择,并介绍了支持向量机和随机森林分类器以及模型评价方法,并基于移动短信数据集对垃圾短信分类实验,分类效果有待提高,原因主要为数据不平衡问题和短信文本短、语义稀疏的问题.其次,针对数据不平衡问题,提出了几种常用的处理方法,本文针对短信数据集自身的特点提出先用LDA主题模型对正常短信类进行主题结构探索,再用K-means聚类方法对其文本-主题分布进行聚类,并对各子类别按照一定的比例随机欠采样即基于LDA-Kmeans聚类的降采样方法,得到相对平衡数据集,在此基础上构建随机森林分类器,在一定程度上对垃圾短信的识别率有所提高.最后,针对短信数据集文本短、语义稀疏问题,提出针对短信文本统计特性构建新特征对文本特征进行特征扩展,形成二元混合特征,并基于LDA-Kmeans聚类的降采样技术构建随机森林分类器,使垃圾短信的识别率大大增加,取得了较好的结果.在文章结尾,对本文进行了总结,并提出了垃圾短信识别今后的研究方向.(本文来源于《云南大学》期刊2017-05-01)
张树华[3](2017)在《基于内容和用户标识的混合型垃圾弹幕识别与过滤研究》一文中研究指出随着互联网的不断发展和推进,网络信息技术的快速发展为电影、电视剧、综艺节目等视频内容创作开启了一个崭新时代。网络在线视频已经在人们观看视频过程中占据了重要地位,成为大众视频消费的主流。“弹幕”因其高互动性和娱乐性开始进入人们的视野,弹幕是指用户在视频网站上观看视频时,可以直接将评论发送并显示在屏幕上方的一种显示方式。在国内最早使用弹幕技术的是动漫圈内的视频吐槽网站Acfun(A站)和bilibili(B站),随着弹幕的发展,弹幕也不再仅仅使用在弹幕视频网站中,如今,国内弹幕应用虽然火爆,但是国内弹幕文化和技术的整体发展时间较短,当前针对弹幕的研究还相对匮乏,对弹幕的有效管理与研究还较少。本文以提高用户的弹幕使用体验为目的,探讨对弹幕文本的识别与处理,提出一种新的基于内容和用户身份标识的混合型垃圾弹幕识别算法,对已有算法进行改进,以更好的引导我国弹幕文化的积极发展,改善用户在使用与观看弹幕时的用户体验,提高网站的用户使用度和黏性,绿化弹幕使用环境。本文针对弹幕文本特征进行分析,对比以往垃圾文本识别研究中较多涉及的邮件以及短信等文本类型,总结出弹幕文本的自身特征,结合其自身特性以进一步加深垃圾弹幕识别的研究。结合弹幕文本自身特点,本文以基于内容的文本分类算法和基于用户身份标识的分类算法为基础展开研究,在已有研究基础上提出一种新的基于以上两种文本分类算法相结合的混合型垃圾弹幕识别算法,并据此进行垃圾弹幕识别与过滤。本文利用从土豆网热播电视剧《琅琊榜》中爬取的弹幕数据作为数据来源进行试验分析,以验证本文提出算法模型的表现效果。通过实验研究可以看出,本文提出改进算法能够有效提高垃圾弹幕识别的准确性。(本文来源于《杭州电子科技大学》期刊2017-02-01)
叶志雄,朱丽芳,刘钢庭,李启文,王丹弘[4](2016)在《基于Hadoop平台的内容相似度与PageRank的垃圾短信识别融合模型》一文中研究指出垃圾短信是一种包含有欺诈、骚扰等内容的异常短信,不仅损害通信行业的形象,浪费通信卡资源,还会产生商业诈骗,引发客户不满。垃圾短信以商业、广告类和欺骗类信息为主要内容,其特征明显区别于正常短信;同时,客户之间的短信发送行为是一种真实的社交关系。基于此,论文对垃圾短信的识别采用基于Hadoop大数据平台的模型融合方法,在常规的内容相似度模型基础上,对短信发送行为构建PageRank社交技术模型,通过对上述模型加权融合,最后得出批量的高疑似垃圾短信,实验结果表明融合模型效果较优。(本文来源于《广东通信技术》期刊2016年09期)
龚之闻[5](2011)在《不基于短信内容的垃圾短信识别模型》一文中研究指出本文主要阐述了一种不用扫描短信内容就能完成对垃圾短信识别判定的方法,通过数据挖掘建立不基于内容的垃圾短信识别模型,使得高性能高准确度的垃圾短信识别成为可能。(本文来源于《科技信息》期刊2011年07期)
垃圾内容识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着大数据时代的来临,通讯技术的不断发展和各种智能信息终端不断进步,使垃圾短信息群发技术更新迅速且成本低廉,导致人们普遍使用的手机短信成为利益驱使者和不法分子的重点“关注对象”.据12321举报受理中心调查显示,几乎所有人都受过垃圾短信的困扰.虽然政府和运营商都提出一系列方法治理垃圾短信,也取得了一定的成效,但技术的不断革新使垃圾短信具有多样性和时效性等特点,因此对垃圾短信的识别和治理是一项长期且艰巨的任务,具有重要意义.本文以2015年大数据竞赛移动发布的部分短信数据为基础,以短信文本分类技术为研究对象,首先介绍了当前短信业务发展现状、垃圾短信泛滥所造成的严重后果、垃圾短信的特点和种类、垃圾短信治理取得的成效以及垃圾短信分类技术研究的重要意义,并介绍了国内外垃圾短信识别与治理的现状.然后介绍了传统的基于内容的文本分类技术,包括中文分词、文本预处理、文本表示、特征选择,并介绍了支持向量机和随机森林分类器以及模型评价方法,并基于移动短信数据集对垃圾短信分类实验,分类效果有待提高,原因主要为数据不平衡问题和短信文本短、语义稀疏的问题.其次,针对数据不平衡问题,提出了几种常用的处理方法,本文针对短信数据集自身的特点提出先用LDA主题模型对正常短信类进行主题结构探索,再用K-means聚类方法对其文本-主题分布进行聚类,并对各子类别按照一定的比例随机欠采样即基于LDA-Kmeans聚类的降采样方法,得到相对平衡数据集,在此基础上构建随机森林分类器,在一定程度上对垃圾短信的识别率有所提高.最后,针对短信数据集文本短、语义稀疏问题,提出针对短信文本统计特性构建新特征对文本特征进行特征扩展,形成二元混合特征,并基于LDA-Kmeans聚类的降采样技术构建随机森林分类器,使垃圾短信的识别率大大增加,取得了较好的结果.在文章结尾,对本文进行了总结,并提出了垃圾短信识别今后的研究方向.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
垃圾内容识别论文参考文献
[1].丁川芸,兰全祥.基于AC自动机和贝叶斯方法的垃圾内容识别[J].黑龙江工业学院学报(综合版).2019
[2].尚长春.基于文本内容二元混合特征的垃圾短信识别研究[D].云南大学.2017
[3].张树华.基于内容和用户标识的混合型垃圾弹幕识别与过滤研究[D].杭州电子科技大学.2017
[4].叶志雄,朱丽芳,刘钢庭,李启文,王丹弘.基于Hadoop平台的内容相似度与PageRank的垃圾短信识别融合模型[J].广东通信技术.2016
[5].龚之闻.不基于短信内容的垃圾短信识别模型[J].科技信息.2011