垃圾博客论文-李赫元,俞晓明,刘悦,程学旗,程工

垃圾博客论文-李赫元,俞晓明,刘悦,程学旗,程工

导读:本文包含了垃圾博客论文开题报告文献综述及选题提纲参考文献,主要关键词:微博客,垃圾用户,检测

垃圾博客论文文献综述

李赫元,俞晓明,刘悦,程学旗,程工[1](2014)在《中文微博客的垃圾用户检测》一文中研究指出微博客的出现改变了我们获取信息的方式。然而,大量垃圾消息却此起彼伏,危害着微博的健康发展。该文研究了中文微博客中的垃圾用户检测问题。我们首先对垃圾用户的行为进行了分析,提出了基于用户图、用户资料、微博内容的3大类7种检测特征。随后,讨论了基于SVM分类器的垃圾用户检测方法。最后,我们对采集的微博数据进行了标注,并评价了分类器的效果。实验表明:分类器具有较高的准确率和召回率,该文提出的特征具有较好的区分度。(本文来源于《中文信息学报》期刊2014年03期)

祁景辉[2](2014)在《垃圾博客检测技术的研究与实现》一文中研究指出随着Web2.0的飞速发展,人们正在从网络内容的使用者向网络内容的提供者转变,网络上出现了各种各样的用户生成内容,其中以博客最具代表性。随着博客的飞速发展,博客数量激增,博客已经成为人们日常生活中必不可少的一部分。博客的到来正在逐渐改变着人们日常生活中的交流方式,人们通过在博客中发帖子来表达自己的心情或者心得体会。博客的飞速发展也带来了大量的垃圾博客。垃圾博客的泛滥不仅浪费了大量的网络带宽资源和网络存储空间,更恶劣的是它严重损害了Web的可信度和博客的内容质量,降低了用户进行网络信息共享的满意度。垃圾博客的检测是一个分类问题。传统的垃圾博客检测过程中存在叁点不足之处:一、把博客中的博文看做是一个网页分别进行检测,没有把一个博客看做是一个整体;二、在博客的特征提取方面,只是提取了博客的内容特征和链接特征,没有考虑博客区别于网页的特征;叁、单分类器越来越不适用于日益复杂的数据形式。本文对这些不足之处进行了研究,在对垃圾博客进行检测时,把一个博客中的所有博文看做一个集合,在博客的特征方面本文中不仅提取了基于内容和链接的特征,而且经过对垃圾博客的研究加入了5个统计特征和博客的3个时间动态性特征。在分类器方面,本文设计了基于旋转森林的SVM集成分类器对垃圾博客进行检测。最后,本文设计了多组实验进行对比。实验结果表明,本文设计的垃圾博客检测系统有着良好的效果。(本文来源于《西南交通大学》期刊2014-04-25)

何苑,郝梦岩,谭红叶[3](2014)在《基于最小风险贝叶斯的垃圾博客识别算法研究》一文中研究指出针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。(本文来源于《山西大学学报(自然科学版)》期刊2014年01期)

任永功,尹明飞,杨荣杰[4](2012)在《基于组合特征的动态垃圾博客过滤算法》一文中研究指出近几年,垃圾博客过滤成为国际上新的热点研究领域。现有的过滤算法大多基于词频特征分类,特征冗余并缺乏关联性。为了解决此问题,提出一种基于组合特征的动态垃圾博客过滤算法(CFDSD),该算法采用作者属性和自相似特征来解决特征冗余和关联性低的问题,并应用贝叶斯分类算法优化词频特征分类。实验表明,该算法能适应博客随时间变化而动态更新的特点,同时提高了过滤效率。(本文来源于《计算机科学》期刊2012年05期)

尹明飞[5](2012)在《垃圾博客检测及相关技术的研究》一文中研究指出近年来随着internet技术的发展,博客(Web blog)通过为作者和读者之间提供交互式交流平台和动态更新的社会网络而成为极受欢迎的一种新媒体的社会沟通机制。据调查科学研究、统计调查、公共建设、教育、社会福利等研究领域都会应用博客的分析结果,所以博客巨大的信息源和信息量具有极其宝贵的价值。但随之产生的垃圾博客(spam blog or splog)也肆意猖獗。它产生的主要方式是盗窃他人内容或机器自动生成,其目的是提高目标网站在搜索引擎中的排名以链接盈利广告。垃圾博客造成的问题包括:1)严重降低博客的检索质量;2)明显浪费网络和存储资源。因此,为保护博客世界的良好环境,必须对垃圾博客进行过滤。首先本文根据博客的各种特征分析,提取了两种高效特征并结合传统的内容特征,采用特征组合的方法对博客进行分类。鉴于Yuuki Sato Takehito Utsuro对垃圾博客的统计规律以及对垃圾博客作者属性的分析,挖掘出博客的作者属性在博客分类中的重要性。这表明博客的作者属性具有十分重要的研究价值。博客作者常会无规律地发表博客,而垃圾博客为提高网页的点击率进而提高网站在ALEXA中的排名,须在短时间内发表大量的博文,同时机器生成垃圾博文的速度非常快。因此正常博客与垃圾博客在时间自相似特征上存在较大差异。本文根据文章中的作者属性和自相似特征的不同,对博客文章进行首次过滤,同时结合提取出的内容特征,增加特征之间的互补性,使垃圾博客过滤的效率大大提高。其次,本文设计了一种针对垃圾博客特征筛选的特征关联树分类算法。该算法根据特征之间的相关性构造出一种特征关联树结构来筛选特征,剪枝掉不相关和冗余特征,保留强相关和弱相关特征,同时利用期望交叉熵对特征关联树进行二次筛选[2]。与传统的特征选择算法相比,该算法可以消除博客样本数据非平衡的影响,根据特征的相似度和期望交叉熵的大小,自适应地调整特征关联树的规模,降低特征维度。垃圾博客过滤的对比实验表明,该算法用于垃圾博客过滤时,可以获得较好的准确率和召回率。本文提出的上述两种垃圾博客检测算法,均属于动态文本二分类算法。在分析传统的垃圾博客特征基础上,挖掘出检测垃圾博客的高效特征以及特征间的关联性,有效缩减了特征维度的规模,提高检测速度。经典分类器上进行对比实验测试,结果表明本文提出的垃圾博客检测算法具有良好的分类效果。(本文来源于《辽宁师范大学》期刊2012-05-01)

郭利强[6](2012)在《网络博客空间中基于半监督学习的垃圾评论检测》一文中研究指出针对网络博客空间中垃圾评论泛滥的问题,给出一种半监督学习式网络垃圾评论检测方案。基于评论内容的统计分析,设计相关度、词组重复率、超链接数目、内容淫秽度、句子长度共5个特征指标,给出网络垃圾评论检测系统的框架,并进行实验验证。实验结果表明,本方法能有效检测出网络博客空间中的垃圾评论,具有较好的应用价值。(本文来源于《图书情报工作》期刊2012年04期)

何苑[7](2011)在《基于多结构特征的垃圾博客识别研究》一文中研究指出博客作为基于Internet的社交类应用,近年来保持了迅猛的发展势头,成为继Email、BBS和ICQ之后出现的第四种网络交流方式。博客在人际关系建立、维系和发展中发挥了越来越重要的作用,并已融入了人们的日常生活。随着博客影响力的不断加强,其副产品—垃圾博客也不断涌现。垃圾博客的大量出现已给博客的继续使用构成了一个很严重的威胁,不仅浪费存储资源和网络带宽,并通过增加搜索引擎的索引和计算开销,影响搜索结果的排名,从而降低了用户的搜索体验的满意度,影响用户获取高质量的信息。因此,如何精确的判断垃圾博客已成为信息检索领域亟待解决的难题之一,以及研究博客不能回避的一个问题。本文在已有的基于内容的垃圾博客特征提取基础上,提出了基于多结构特征对垃圾博客特征进行进一步提取的方法。本文从分析制造垃圾博客的作弊者的目的出发,分析了垃圾博客表现出的基于目录页和博文页面的各种结构特征,并对每种特征给出了特征提取的算法。从搜索引擎的结果中获取采集对象的地址,进而建立了更为真实和有针对性的垃圾博客识别数据集。提出了基于朴素贝叶斯和支持向量机分类方法的多结构特征垃圾博客识别模型。通过训练数据集进行参数设置,并使用测试数据集对识别模型进行检测。主要的研究内容包括以下几个方面:1.结合已有的研究,从基于作弊目的角度出发对垃圾博客表现出的结构特征进行了分析,并给出了特征提取算法。2.构建了博客采集系统。从搜索引擎的结果中获取采集对象的地址,采集用于垃圾博客识别的博客数据集,进行了预处理,并根据垃圾博客的定义对采集到的博客进行了人为的区分。3.提出了基于多结构特征的垃圾博客识别方法,并将上述识别方法分别与朴素贝叶斯方法和SVM结合构建了识别系统模型,利用训练数据集对模型训练后,使用测试数据集进行检测,将实验结果与基于内容的方法的结果进行了对比分析。(本文来源于《山西大学》期刊2011-06-01)

邓冰娜[8](2011)在《面向博客的垃圾评论识别方法研究》一文中研究指出博客本身所具有的免费、自由和可共享的特点,使博客评论中出现了大量包含有广告、超链接、谩骂或是诽谤等信息的垃圾评论。这给网络用户阅读评论和与他人交流带来了不便,同时还影响了对评论内容的挖掘。本文面向博客领域进行垃圾评论的识别研究,主要工作如下:在评论识别时,考虑到评论的长短不一,对只包含网络常用语的短小评论,如果用评论与对应文章比较相似度的方法来识别,容易将正常的短小评论识别为垃圾评论。因此,本文对不同长度的评论采取了不同的识别方法。针对短小评论,通过比较短小评论中包含的垃圾常用语和正常的网络常用语的个数来判断短小评论的类别,进而过滤出短小的垃圾评论。识别较长评论时,本文改进了传统的余弦相似度公式,将词语间的近义关系、词语存在的位置信息和主题词相似度信息融入了公式中,弥补了传统的相似度公式无法识别近义词的不足。同时,考虑到主题词与话题之间的相关程度会随着话题的转移而有所变化,提出了利用上述改进的相似度公式对较长评论进行k轮识别的方法。在每轮的识别过程中,结合识别出的正常评论和词语间的近义关系对主题词的权重进行调整,从而体现主题词与话题之间的相关程度;然后再从正常评论中选出主题词的近义词和评论中的高频词汇来对主题词进行扩展,以适应话题的发展变化。最后,在所有评论识别完毕后,利用网络常用语和更新后的主题词对识别出的垃圾评论进行二次过滤,降低了正常评论被识别为垃圾评论的可能性。实验结果表明,利用本文的方法进行评论的识别,在一定程度上提高了识别垃圾评论的准确率和召回率。(本文来源于《河北大学》期刊2011-06-01)

邓冰娜,王煜,刘宇[9](2011)在《一种应用于博客的垃圾评论识别方法》一文中研究指出针对博客垃圾评论泛滥的问题,提出了一种识别博客垃圾评论的新方法.利用网络常用语对短小评论先进行评论的识别,然后利用改进的相似度公式对评论进行了K轮评论的识别,在每轮识别之后,对主题词进行权重的调整和主题词扩展;待所有评论识别完毕,再利用网络常用语和主题词对识别出的垃圾评论进行第二次过滤,过滤出垃圾评论中的合法评论.实验结果表明,利用该方法进行评论识别在一定程度上提高了识别垃圾评论的准确率和召回率.(本文来源于《郑州大学学报(理学版)》期刊2011年01期)

刁宇峰,杨亮,林鸿飞[10](2011)在《基于LDA模型的博客垃圾评论发现》一文中研究指出Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。(本文来源于《中文信息学报》期刊2011年01期)

垃圾博客论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着Web2.0的飞速发展,人们正在从网络内容的使用者向网络内容的提供者转变,网络上出现了各种各样的用户生成内容,其中以博客最具代表性。随着博客的飞速发展,博客数量激增,博客已经成为人们日常生活中必不可少的一部分。博客的到来正在逐渐改变着人们日常生活中的交流方式,人们通过在博客中发帖子来表达自己的心情或者心得体会。博客的飞速发展也带来了大量的垃圾博客。垃圾博客的泛滥不仅浪费了大量的网络带宽资源和网络存储空间,更恶劣的是它严重损害了Web的可信度和博客的内容质量,降低了用户进行网络信息共享的满意度。垃圾博客的检测是一个分类问题。传统的垃圾博客检测过程中存在叁点不足之处:一、把博客中的博文看做是一个网页分别进行检测,没有把一个博客看做是一个整体;二、在博客的特征提取方面,只是提取了博客的内容特征和链接特征,没有考虑博客区别于网页的特征;叁、单分类器越来越不适用于日益复杂的数据形式。本文对这些不足之处进行了研究,在对垃圾博客进行检测时,把一个博客中的所有博文看做一个集合,在博客的特征方面本文中不仅提取了基于内容和链接的特征,而且经过对垃圾博客的研究加入了5个统计特征和博客的3个时间动态性特征。在分类器方面,本文设计了基于旋转森林的SVM集成分类器对垃圾博客进行检测。最后,本文设计了多组实验进行对比。实验结果表明,本文设计的垃圾博客检测系统有着良好的效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

垃圾博客论文参考文献

[1].李赫元,俞晓明,刘悦,程学旗,程工.中文微博客的垃圾用户检测[J].中文信息学报.2014

[2].祁景辉.垃圾博客检测技术的研究与实现[D].西南交通大学.2014

[3].何苑,郝梦岩,谭红叶.基于最小风险贝叶斯的垃圾博客识别算法研究[J].山西大学学报(自然科学版).2014

[4].任永功,尹明飞,杨荣杰.基于组合特征的动态垃圾博客过滤算法[J].计算机科学.2012

[5].尹明飞.垃圾博客检测及相关技术的研究[D].辽宁师范大学.2012

[6].郭利强.网络博客空间中基于半监督学习的垃圾评论检测[J].图书情报工作.2012

[7].何苑.基于多结构特征的垃圾博客识别研究[D].山西大学.2011

[8].邓冰娜.面向博客的垃圾评论识别方法研究[D].河北大学.2011

[9].邓冰娜,王煜,刘宇.一种应用于博客的垃圾评论识别方法[J].郑州大学学报(理学版).2011

[10].刁宇峰,杨亮,林鸿飞.基于LDA模型的博客垃圾评论发现[J].中文信息学报.2011

标签:;  ;  ;  

垃圾博客论文-李赫元,俞晓明,刘悦,程学旗,程工
下载Doc文档

猜你喜欢