导读:本文包含了短信内容过滤论文开题报告文献综述及选题提纲参考文献,主要关键词:垃圾短信,过滤,文本分类,特征扩展
短信内容过滤论文文献综述
米婧[1](2015)在《基于文本内容的垃圾短信过滤系统》一文中研究指出随着短信的表现形式和文本特点的不断更新变化,如何更加准确并且快速地过滤垃圾短信,是短信拦截面临的主要问题之一。现有的垃圾短信过滤方案主要包括设置黑白名单、关键词匹配的过滤、用户主动举报或者标注的过滤、基于内容的过滤等。其中,基于内容的垃圾短信过滤方案可以更有效地应对文本的多样性变化,而不依赖短信其他的附属特征。但是现有的基于文本的垃圾短信过滤方法忽略了垃圾文本中包含的垃圾短信明显特点,且对于短文本造成的稀疏向量问题,没有较好的解决方案。本文对未经预处理的原始短信样本分析其对垃圾短信的判定有突出贡献的噪音信息,将该信息抽象为自定义特征实现第一层过滤方案,进而提前过滤出一部分具有特定特点的垃圾短信,且该部分短信在预处理之后由于丢失噪音信息易被错分为合法短信;其次结合LDA主题模型对样本进行主题预测,有效实现特征扩展,缓解短文本所造成的稀疏向量对分类结果的负面影响。最后,本文采用真实的用户短信数据作为实验中的训练集和测试集,对特征扩展、分类进行实验对比,对各阶段的可变参数在一定取值范围内多次取值对比分类效果,得出更适应过滤系统的参数取值。对实验结果则是采用准确率、召回率和F-Measure对垃圾短信、合法短信、综合效果叁方面进行评估。最终的实验结果表明,本文提出的垃圾短信过滤框架可以有效地提高基于文本内容的垃圾短信过滤的准确度。(本文来源于《北京理工大学》期刊2015-12-01)
马楠[2](2013)在《基于内容的垃圾短信过滤技术研究》一文中研究指出随着移动电话的不断普及,短信业务发展迅猛,但它却是一把双刃剑,给生活带来便捷的同时,垃圾短信泛滥问题也一直困扰着人们,甚至带来一定的社会危害。为了还给用户一个绿色清洁的短信使用环境,进行垃圾短信的治理和过滤势在必行。本文主要研究了基于内容的垃圾短信过滤技术,设计了基于决策树和基于支持向量机的两种过滤系统。所做的主要工作包括前期调研相关背景技术知识;收集7155条短信(包含正常短信3600条,垃圾短信3555条),构建短信语料库;设计实现基于决策树和支持向量机的垃圾短信过滤系统,并进行对比实验。在基于决策树的垃圾短信过滤系统中,秉承业界广泛认可的“宁可放过、不可错杀”的垃圾短信过滤原则,提出采用传统短信特征与正常短信关键词新特征相结合,并将非常用字符所占短信比例新特征替代传统特征中的高危标点特征,以降低其带来误报率升高的风险。据此,本文设计实现了该系统,并进行了五组对比实验验证。在基于支持向量机的垃圾短信过滤系统中,创新性地提出采用二阶词特征,以提高单纯使用一阶词特征的垃圾短信过滤系统的准确率。据此,本文设计实现了该系统,并进行了九组对比实验验证。实验结果表明,本文提出的所有新特征均能够提升现有垃圾短信过滤系统的性能。(本文来源于《北京邮电大学》期刊2013-12-25)
徐英慧,刘梅彦[3](2013)在《基于内容的手机端垃圾短信过滤策略研究》一文中研究指出针对目前垃圾短信日益猖獗的现象,研究了一种基于内容的垃圾短信过滤策略。对训练语料进行分词和统计,计算信息增益并通过选取信息增益较大的若干特征项实现特征降维。在短信分类器的设计上,依据朴素贝叶斯算法,进行改进,减小了个别特征项对判断结果的直接影响,使得分类策略更能综合所有特征项的影响因素。实验结果表明,该方法对于手机用户能取得较好的垃圾短信过滤效果。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2013年01期)
颜世莹[4](2011)在《基于行为和内容协作分析的垃圾短信过滤系统》一文中研究指出随着移动网络的发展,垃圾短信已经成为亟需解决的重要课题。当前的垃圾短信过滤技术在应用于大规模垃圾短信过滤时,很难兼顾过滤的准确性和实时性要求。本文针对垃圾短信的特点,提出一种基于行为和内容协作分析的垃圾短信过滤机制并构建了原型系统。为了提升过滤及时性和过滤效果,采用行为分析为主、内容分析为辅的策略,并引入概率理论对归一化中文短信进行分析建模。该系统克服了当前垃圾短信过滤方法的不足,完善了垃圾短信过滤机制。通过真实垃圾短信数据对该原型系统进行验证,表明其可以大幅提高大规模垃圾短信的过滤效率和效果。(本文来源于《电信工程技术与标准化》期刊2011年09期)
刘豫[5](2011)在《基于内容的手机垃圾短信过滤软件的设计与实现》一文中研究指出随着3G网络在中国的普及,手机已经成为人们日常生活中必不可少的通信工具,在人们利用手机短信进行沟通的同时,社会上垃圾短信的泛滥对广大手机用户造成了极大的不便,同时也带来了一定的社会危害。因此,垃圾短信过滤是广大用户的迫切需求,也是当前研究的热点。本文主要研究基于内容的手机端垃圾短息过滤系统,通过研究各种文本挖掘分类方法,同时与原有的过滤技术相结合,设计并实现了适合手机端的垃圾短信过滤软件。首先,阐述了文本挖掘的相关理论和技术以及软件所用到的BREW平台技术,分析比较了基于统计的文本分类方法;其次,介绍了手机端垃圾短信过滤软件各个模块的详细设计和过滤流程,给出了各个模块的具体实现。然后给出了软件的性能试验结果;最后总结了本文的工作并对未来的工作作出了展望。经过试验表明,本文所设计实现的手机过滤软件基本满足手机用户的实际使用要求,并且通过给用户提供的黑白名单功能,使他们能够根据个人需求更好的提高垃圾短信过滤的效率。(本文来源于《西安电子科技大学》期刊2011-01-01)
李辉,张琦,卢湖川[6](2008)在《基于内容的垃圾短信过滤》一文中研究指出研究一种基于最小风险贝叶斯决策的垃圾短信过滤方法。对于以文本信息为主的短信,采用信息增益的方法进行特征选择,使用基于最小风险贝叶斯决策方法进行分类。通过自建短信语料库对该方法进行了实验。实验结果表明,该方法能够准确地对短信进行分类,降低合法短信的分类错误率,分类正确率达到99.3%,符合了短信分类要求。(本文来源于《计算机工程》期刊2008年12期)
关婧[7](2008)在《基于内容的客户端垃圾短信过滤系统的研究》一文中研究指出当今社会垃圾短信泛滥,严重骚扰着手机用户,并且为人们正常使用手机进行交流和沟通带来了极大的不便,有些违法短信和不良短信也带来了一定的社会危害。因此垃圾短信过滤是当今学术界研究的一大热点也是难点,但它同时也是广大手机用户的迫切需求。本文主要研究了基于内容的垃圾短信过滤,它可以看成是一个不规则短文本的分类问题。其核心是分类算法。主要工作包括短信语料的采集和分析、过滤系统的研究设计、核心过滤算法的选择和实验、实验系统的搭建和测试等。在短信语料方面,本文采集了2089条短信,并且从中选择了部分语料进行深入分析,总结提取了短信和垃圾短信的特征,为以后的过滤研究打下了基础。同时这些短信语料也将作为实验系统的训练和测试语料。在系统框架设计中,首先考虑了实现途径和过滤原则。通过对比选择了基于客户端的垃圾短信过滤途径。并且根据手机用户对垃圾短信的过滤需求,提出了垃圾短信过滤原则,即“宁可放过,不能错杀”。在核心过滤算法方面,借鉴了目前成熟垃圾邮件过滤方法,选取了叁种过滤方法,即决策树算法、最大熵算法和显式规则算法,并实现了基于PC机的垃圾短信过滤实验系统。都取得了较好的过滤效果,其中决策树算法的平均正确率为97.2%,平均召回率为96.71%。最大熵算法的平均正确率为96.55%,平均召回率为95.85%,基于显式规则的过滤系统在保证了100%的正确的情况下,召回率达到76.79%。最后对叁种算法从过滤效果,时间复杂度和灵活性方面进行了对比,阐述了基于显式规则的过滤算法的优越性。(本文来源于《北京邮电大学》期刊2008-03-14)
陈欣[8](2008)在《移动平台下的中文短信内容过滤技术的研究与实现》一文中研究指出面向中文的短信过滤技术是中文移动市场迫切需要的一种技术。目前移动平台上的中文短信过滤技术以黑名单过滤和关键词过滤为主。本论文主要介绍了一个与当前主流中文短信过滤不同的新型过滤技术。该技术是便于在移动设备上实现,结合了中文短信的内容特征,以规则库过滤为基础的内容过滤技术。该技术提高了短信过滤准确率、垃圾短信召回率,降低了正常短信错判率。短信内容过滤是文本分类技术的一种,目前应用最广泛的文本分类技术有很多,最大熵和决策树两种算法分别作为基于统计的和基于规则的文本分类技术的代表算法大量应用于内容过滤。本文也将这两种算法与本文提出的基于轻量级规则库的内容过滤技术进行对比实验,以验证本文提出的基于轻量级规则库的内容过滤技术是否满足实际要求。本文提出的基于轻量级规则库的内容过滤技术由两部分构成:第一部分,规则匹配。规则匹配是短信内容过滤的第一阶段。在该阶段中关键词规则匹配是核心。关键词规则的匹配需要使用中文多模式字符串匹配算法。国际上经典的字符串匹配算法都是针对英文字符串进行匹配的。多模式串匹配算法也是如此,例如,AC,WM等等。本文提出一种针对中文的多模式串匹配算法UIAC。同时,与UIAC算法配合还有其他规则匹配方法:短信文本长度,文本中含有的标点,电话号码,URL等等特征。另外,在该阶段还要做手机平台上中文编码的转换等处理工作。该阶段的输出是中间向量文件。第二部分,过滤。过滤是短信过滤处理的第二阶段。本文提出了轻量级规则库过滤算法。该算法与最大熵和决策树两种经典算法相比,更加有利于在资源有限的移动设备上实现。作为对比,在规则匹配的试验阶段除了产生轻量级规则库过滤中间向量文件外还产生了最大熵中间向量文件和决策树中间向量文件,并且分别用最大熵模型和决策树模型进行处理。之后对比了轻量级规则库和其他两种算法的准确率、召回率以及正常短信误判率。实验使用的短信条数为1000条,正常短信和垃圾短信各500条。对轻量级规则库、最大熵、决策树分别进行了实验,并且将叁种算法结果进行比较。实验结果显示,轻量级规则库与其它两种方法相比,性能接近,在正常短信误判率方面有较大提高,并且更便于在手机平台上实现。(本文来源于《电子科技大学》期刊2008-03-01)
贺曼丽[9](2007)在《基于内容挖掘的垃圾短信过滤分类方法研究》一文中研究指出短信息已经成为人们日常生活中通信、交流的重要手段之一,但垃圾短信问题也日益严峻,用户平均每天收到的垃圾短信数量已超过了正常短信。垃圾短信过滤是当前人们生活急需解决的一个重要任务。目前经常采用的垃圾短信过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。针对目前使用的过滤方法的缺点以及具体情况,提出将自动文本分类的信息过滤技术应用在短信过滤中,信息过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树、boosting等。本文设计并实现了一种基于改进贝叶斯的垃圾短信过滤系统。利用贝叶斯理论和最小风险决策算法对用户给定的正常/垃圾短信集合进行训练,得到短信过滤模型。这个模型包括了短信处理、中文分词、特征选取以及短信分类与过滤几个主要功能模块。接着分析了各模块的主要算法和Java实现方法。最后对文本短信自动分类器进行了实验,对我们所构建的文本短信自动分类工具的性能进行了评估,实验表明此工具有较高的分类准确度,达到了设计的要求。本文的工作主要包含下列内容:(1)概述垃圾短信过滤问题的研究现状。包括垃圾短信的定义、危害以及常用的过滤技术。(2)对文本短信自动分类器进行了总体设计,制订了它的各个功能模块及每个模块的主要功能。同时也阐述了所使用的新方法。(3)分析和比较了多种中文分词实现方法,对最大匹配分词法进行了改进,提高了中文分词的效率和准确度。并给出了实现的技术细节,特别是对中文词典的实现方法作了详细介绍。(4)分析了多种特征选取算法,比较了它们的优缺点,提出了文档频度与词条频度相结合的特征选取算法,并对此方法的实现进行阐述。(5)分析了贝叶斯机器学习方法的主要思想,对贝叶斯方法用于文档归类的原理进行了剖析。详细介绍了贝叶斯分类方法的算法与实现。(6)讲述了文本分类的评价标准,通过实验对本课题所构建的分类工具进行了评估。总结了研究成果,指出了不足并提出了改进意见。(本文来源于《湖南大学》期刊2007-05-10)
短信内容过滤论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着移动电话的不断普及,短信业务发展迅猛,但它却是一把双刃剑,给生活带来便捷的同时,垃圾短信泛滥问题也一直困扰着人们,甚至带来一定的社会危害。为了还给用户一个绿色清洁的短信使用环境,进行垃圾短信的治理和过滤势在必行。本文主要研究了基于内容的垃圾短信过滤技术,设计了基于决策树和基于支持向量机的两种过滤系统。所做的主要工作包括前期调研相关背景技术知识;收集7155条短信(包含正常短信3600条,垃圾短信3555条),构建短信语料库;设计实现基于决策树和支持向量机的垃圾短信过滤系统,并进行对比实验。在基于决策树的垃圾短信过滤系统中,秉承业界广泛认可的“宁可放过、不可错杀”的垃圾短信过滤原则,提出采用传统短信特征与正常短信关键词新特征相结合,并将非常用字符所占短信比例新特征替代传统特征中的高危标点特征,以降低其带来误报率升高的风险。据此,本文设计实现了该系统,并进行了五组对比实验验证。在基于支持向量机的垃圾短信过滤系统中,创新性地提出采用二阶词特征,以提高单纯使用一阶词特征的垃圾短信过滤系统的准确率。据此,本文设计实现了该系统,并进行了九组对比实验验证。实验结果表明,本文提出的所有新特征均能够提升现有垃圾短信过滤系统的性能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
短信内容过滤论文参考文献
[1].米婧.基于文本内容的垃圾短信过滤系统[D].北京理工大学.2015
[2].马楠.基于内容的垃圾短信过滤技术研究[D].北京邮电大学.2013
[3].徐英慧,刘梅彦.基于内容的手机端垃圾短信过滤策略研究[J].北京信息科技大学学报(自然科学版).2013
[4].颜世莹.基于行为和内容协作分析的垃圾短信过滤系统[J].电信工程技术与标准化.2011
[5].刘豫.基于内容的手机垃圾短信过滤软件的设计与实现[D].西安电子科技大学.2011
[6].李辉,张琦,卢湖川.基于内容的垃圾短信过滤[J].计算机工程.2008
[7].关婧.基于内容的客户端垃圾短信过滤系统的研究[D].北京邮电大学.2008
[8].陈欣.移动平台下的中文短信内容过滤技术的研究与实现[D].电子科技大学.2008
[9].贺曼丽.基于内容挖掘的垃圾短信过滤分类方法研究[D].湖南大学.2007