搜索引擎作弊论文-王庆福,王兴国

搜索引擎作弊论文-王庆福,王兴国

导读:本文包含了搜索引擎作弊论文开题报告文献综述及选题提纲参考文献,主要关键词:搜索引擎,内容排序,作弊和反作弊

搜索引擎作弊论文文献综述

王庆福,王兴国[1](2016)在《搜索引擎反作弊方法研究》一文中研究指出互联网时代人们检索信息的方式主要通过搜索引擎完成。不管是通用的全文搜索引擎还是分类别的垂直搜索引擎都需要面临的问题是作弊行为,网站站长会通过多种作弊行为来提高在搜索引擎上的排名,作弊行为的方式也千差万别。搜索引擎需要通过不断优化和完善内部的排序算法来杜绝作弊行为。(本文来源于《电脑知识与技术》期刊2016年15期)

冯亚飞[2](2016)在《基于社区发现的搜索引擎反作弊方法》一文中研究指出如今,人们越来越倾向于通过搜索引擎来获取自己所需要的信息,由于与某一查询词相关的网页数量非常之多,因此搜索引擎采用不同的排名算法来评估页面权重。基于链接的排名算法(比如PageRank)就是基于这样的一个假设:网页中的超链接代表该网页对目标网页的推荐,基于链接的搜索排名算法主要采用这一思想进行排序。传统的信任传播算法被应用于搜索引擎反作弊,该类算法以等概率的方式传播信任值,均等地将其信任值传播给邻居网页,但是这类算法没有考虑邻居网页是否值得信任。考虑到作弊网页之间通常会紧密链接,本文提出了基于社区发现的信任值区分传播算法。算法第一步将一些已知的作弊网页作为种子,通过这些种子和相应的社区发现算法,找到大量的作弊社区,这些作弊社区中的网页大部分都被验证是作弊网页。本文采用了两种社区发现算法,全局社区发现和局部社区发现分别进行作弊社区的提取。由于不加区分地传播信任值会使得部分作弊页面排名得到提升,因此,算法第二步需要采用相应的降权方法来区分对待不同邻居。在本文框架中,利用发现的可疑作弊社区来实现限制跨社区信任传播,也就是说,当有信任值从非社区网页传播到作弊社区网页中时,对该条链接的权值进行降级,通过该方法实现带区分的信任传播,使得正常页面指向作弊页面的链接得到了限制,同时,该惩罚机制可以与大部分信任传播算法相结合。在真实数据集上的实验结果表明,本文所提出的框架对比传统TrustRank、LCRank、CPV和TDR等基于信任传播算法,反作弊效果会有显着提升。(本文来源于《大连理工大学》期刊2016-03-10)

王洪伟,王伟,孟园[3](2015)在《搜索引擎排序作弊的识别:基于文本内容和链接结构的分析》一文中研究指出搜索引擎排序作弊通过提高网页与搜索请求的相关性,达到提高搜索排名的目的.为此,根据作弊网页的特征,引入作弊倾向系数这一概念来衡量网页作弊的可能性.网页作弊通过多种手段实现,鉴于此本文基于网页内容本身的名词密度特征,衡量页面内容作弊的可能性,由于搜索关键词大部分为名词,超过一定名词比例阈值的页面,其内容作弊的可能性越大.根据页面的链接特征,衡量页面链接作弊的可能性,从黑名单页面通过迭代计算链接作弊系数,并根据与黑名单页面的距离设置权重.最终从上述两方面特征来综合考量页面的作弊倾向系数.选取PageRank,TrustRank,BadRank为基线实验,实验结果验证了关于检索词性分析的假设以及链接作弊检测算法的有效性.(本文来源于《系统工程理论与实践》期刊2015年02期)

牟南[4](2013)在《基于限制标记传播的搜索引擎反链接作弊方法》一文中研究指出当今网络环境下,搜索引擎是人们获取信息的一条主要途径。然而搜索引擎的发展受到了搜索引擎作弊行为的挑战。搜索引擎作弊行为定义为采用一些刻意设计的机制来提高网站或网页在搜索引擎结果中排名的行为。进行搜索引擎作弊行为的网站就叫做作弊网站。作弊者为了达到他们的目的,会仔细研究搜索引擎的排名算法,找出排名依据的主要因素加以利用。所以,搜索引擎作弊是搜索引擎面对的最主要挑战,如果不采取措施,搜索引擎的结果会被严重干扰,导致许多人不再信任搜索引擎。由于搜索引擎作弊技术在不断进化,其方法也多种多样,再加上互联网数据的庞大性,这些因素都给反搜索引擎作弊工作带来了困难。从搜索引擎作弊出现至今,人们已经提出了多种多样的应对不同类型搜索引擎作弊的策略。本文首先分类说明了了常见的搜索引擎作弊方法,包括基于内容的、基于链接的和基于隐藏页面的。之后详细介绍了已有的几种代表性的搜索引擎反作弊算法。同时提出了已有的主流反作弊方法,即基于标记传播的方法的缺陷。本文进一步提出了限制标记传播的反作弊方法,先使用随机游走获取到作弊社区群,然后根据作弊社区群的信息对信任值标记和作弊值标记在网络中的传播进行限制,在一定程度上弥补了已有算法的缺陷。通过在多个真实数据集上的实验,证明了限制标记传播的算法相比已有的标记传播算法效果的提升,改进了搜索引擎反作弊的质量。(本文来源于《大连理工大学》期刊2013-03-21)

李亚,黄地龙[5](2013)在《Web 2.0搜索引擎反作弊技术研究》一文中研究指出概述Web 2.0的基本含义和主要特征,并分析在Web 2.0下常见的网页作弊方法,博客作弊、点评作弊、微博作弊和SNS作弊等,提出反作弊的3种模型——信任传播模型、不信任传播模型和异常发现模型。最后提出一个基于人工手段和技术手段相结合的综合搜索引擎反作弊框架系统。(本文来源于《数字通信》期刊2013年01期)

肖卓磊[6](2011)在《搜索引擎作弊及反作弊技术探究》一文中研究指出一些网页为了更容易被用户检索访问,采用作弊手段欺骗搜索引擎来提高排名。搜索引擎作弊具备多样性和复杂性,而且往往是多种作弊方式相互结合共同作弊,给搜索引擎的反作弊检测带来了不小困难。文章从分析搜索引擎作弊流行原因出发,对当前比较流行的搜索引擎作弊方式进行了初步研究及分类,对作弊的工作过程及方式进行了综述,针对目前每种作弊技术对应的反作弊技术进行了比较分析,并对未来反作弊技术的发展方向进行了展望。(本文来源于《阜阳师范学院学报(自然科学版)》期刊2011年04期)

陈畅[7](2011)在《基于链接分析的搜索引擎反作弊技术研究》一文中研究指出随着互联网的飞速发展和广泛普及,人们网上活动日益频繁。资料显示,目前搜索引擎已经成为因特网的入口,成为人们在网络中获取信息的主要方式。搜索引擎通过分析用户提交的关键词,将之与索引库中已建立的网页进行对比,将相关性最高的网页返回给用户。由于搜索引擎一般索引了数以亿级的网页,而用户通常只关注前10~20条搜索结果,因而对返回结果页的排序成为搜索引擎的一个关键。而对网站建设者来说,获得更好地排名意味着巨大的利益,而建设与维护一个高质量的网站,往往需要花费大笔精力。于是,从搜索引擎诞生的那天开始,作弊也随之而生。作弊是指针对搜索引擎排序算法中存在的漏洞与不足,采取欺骗的手段,获得网站的不正当排名。目前,针对搜索引擎的排序原理,作弊一般分为内容作弊与链接作弊。作弊不仅增加搜索引擎的运行与维护成本,而且降低搜索效率,影响用户感受。因此,进行搜索引擎的反作弊研究,提出有效地反作弊技术对网络的健康发展与信息的迅速传播具有重要意义。本文在已有的链接反作弊技术的基础上,提出通过分析网站或网页的Rank时间序列值,挖掘出作弊页的序列特征。主要内容概括如下:1.首先对搜索引擎的原理,网络结构模型及基于链接的排名算法PageRank与HITS进行分析介绍,然后着重分析了目前针对基于链接的搜索引擎最为普遍的一种作弊方式:链接工厂及其联盟。最终,在分析了各种作弊与反作弊技术的基础上,我们提出可以结合现有反作弊技术,通过分析网页Rank的时间序列值检测作弊网页,并通过实验证实了这种方法的有效性与可行性。2.设计并实现了一个提取DR(Domain Rank)异常值序列的实验。实验利用了企业生产实践中数据比较新比较全的特点,结合链接作弊的特征,分析了DR值序列在作弊检测中的作用,并对实验中海量数据的处理方法进行了介绍。实验通过对比选取不同的统计特征得到的不同可疑作弊页,对实验结果进行了详细的分析,证实了DR值序列分析在反作弊研究中的合理性与有效性。同时,实验充分考虑了对异常值抽取策略的扩展性兼容,以便后续实验。最后,文章对以后还需要做的工作做了进行了总结展望。(本文来源于《华南理工大学》期刊2011-12-01)

王友[8](2011)在《基于信任和非信任传播的搜索引擎反作弊研究》一文中研究指出随着互联网的飞速发展,搜索引擎成了人们在互联网上查找有用信息的主要途径。网站在搜索引擎中的排名越高,从中获取的用户流量也就越多,流量越多也就意味着更多的利润。这就激励某些网站通过不正当的手段来操纵搜索引擎的排名。这种不正当的操纵就被定义为搜索引擎作弊。搜索引擎作弊不但会造成搜索引擎资源的浪费,还会降低用户的体验。商业搜索引擎不得不采取有效的措施,来减少搜索引擎作弊的不良影响。目前基于信任或非信任传播的链接反作弊算法被广泛用于抵抗搜索引擎作弊行为。相比传统的基于内容或启发式规则的反作弊算法,基于信任或非信任传播的链接反作弊算法不但对作弊者的攻击具有更高的鲁棒性,能抵抗多种作弊类型,而且由于只处理链接而拥有更好的性能。然而,不论是信任传播算法,还是非信任传播算法都存在两大问题。一方面,信任(非信任)传播的过程中好歹不分,即在传播的过程中,对权威页面和作弊页面同等对待。另一方面,虽然有很多学者都认为权威种子和作弊种子共同使用能带来更好的效果,但是之前没有研究者提出有效的利用办法。本文提出的TDR算法,认为一个网页具有两个方面,有价值的一面和作弊的一面,并给每个页面分配两个分数:T-Rank,代表该页面可信的一面;D-Rank,代表该页面不可信,即作弊的一面。TDR算法从权威种子和作弊种子出发,分别沿着链接或反向链接的方向同时传播T-Rank和D-Rank。在传播过程中,一个页面的T-Rank(D-Rank)的传播将受到当前该页面的D-Rank(T-Rank)的削弱。这样,上文提到的信任和非信任传播算法的两大问题都得到了很好的解决。在数据集WEBSPAM-UK2007和ClueWeb09上的实验结果表明,在众多标准下,TDR算法优于其他传统的反作弊算法。(本文来源于《大连理工大学》期刊2011-10-08)

朱丹梅[9](2011)在《搜索引擎作弊检测方法研究》一文中研究指出搜索引擎作弊,是指采用欺骗搜索引擎的手段使得Web页面在检索结果中的排名高于其实际应得排名的行为。搜索引擎作弊行为的猖獗导致搜索引擎检索结果的质量不断下降,被公认为是互联网搜索所面临的最大挑战之一。搜索引擎作弊检测方法的研究是一项有意义的课题。本文的主要工作和贡献在于:1.从网站自身角度进行作弊检测。有监督机器学习的搜索引擎作弊检测需要大量昂贵手工标号样本,针对这一问题,论文提出了一种基于调和函数的半监督学习方法。该方法通过在标签网页和未标签网页为顶点组成的无向带权图上进行半监督学习,充分利用未标签样本的信息。图中顶点通过网页间的相似性建立联系,避免了由于作弊网页和非作弊网页相链接而造成半监督学习不精确的问题。实验结果表明,基于调和函数的半监督学习垃圾网页检测方法在提高精度、召全率和F-measure方面是有效的。2.从搜索引擎用户角度进行作弊检测。搜索引擎查询日志记录了用户与搜索引擎的交互信息。日志中被点击的URL及其点击顺序等信息反映了用户的喜好。论文提出了一种改进的动态贝叶斯网络模型为日志点击行为建模,通过挖掘搜索引擎返回列表序列中URL之间的点击因果关系,得到从用户角度出发的网页与查询的相关性,从而对网页进行排名,降低作弊网页的排名位置。实验表明改进的动态贝叶斯网络模型是优于其它模型的。(本文来源于《南京邮电大学》期刊2011-03-01)

李俊[10](2011)在《反搜索引擎作弊的相关探讨》一文中研究指出随着互联网技术的发展和宽带应用的日益普及,搜索引擎已成为人们获取网络信息最重要的手段之一。基于网络利益的驱动,出现了一些靠欺骗搜索引擎的技术来实现目标网页排名的搜索引擎作弊行为。本文介绍了常见的搜索引擎作弊手法,并对反搜索引擎作弊做出了相关探讨,以防止在网站的搜索引擎优化操作过程中被搜索引擎误以作弊惩罚。(本文来源于《网络与信息》期刊2011年01期)

搜索引擎作弊论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

如今,人们越来越倾向于通过搜索引擎来获取自己所需要的信息,由于与某一查询词相关的网页数量非常之多,因此搜索引擎采用不同的排名算法来评估页面权重。基于链接的排名算法(比如PageRank)就是基于这样的一个假设:网页中的超链接代表该网页对目标网页的推荐,基于链接的搜索排名算法主要采用这一思想进行排序。传统的信任传播算法被应用于搜索引擎反作弊,该类算法以等概率的方式传播信任值,均等地将其信任值传播给邻居网页,但是这类算法没有考虑邻居网页是否值得信任。考虑到作弊网页之间通常会紧密链接,本文提出了基于社区发现的信任值区分传播算法。算法第一步将一些已知的作弊网页作为种子,通过这些种子和相应的社区发现算法,找到大量的作弊社区,这些作弊社区中的网页大部分都被验证是作弊网页。本文采用了两种社区发现算法,全局社区发现和局部社区发现分别进行作弊社区的提取。由于不加区分地传播信任值会使得部分作弊页面排名得到提升,因此,算法第二步需要采用相应的降权方法来区分对待不同邻居。在本文框架中,利用发现的可疑作弊社区来实现限制跨社区信任传播,也就是说,当有信任值从非社区网页传播到作弊社区网页中时,对该条链接的权值进行降级,通过该方法实现带区分的信任传播,使得正常页面指向作弊页面的链接得到了限制,同时,该惩罚机制可以与大部分信任传播算法相结合。在真实数据集上的实验结果表明,本文所提出的框架对比传统TrustRank、LCRank、CPV和TDR等基于信任传播算法,反作弊效果会有显着提升。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

搜索引擎作弊论文参考文献

[1].王庆福,王兴国.搜索引擎反作弊方法研究[J].电脑知识与技术.2016

[2].冯亚飞.基于社区发现的搜索引擎反作弊方法[D].大连理工大学.2016

[3].王洪伟,王伟,孟园.搜索引擎排序作弊的识别:基于文本内容和链接结构的分析[J].系统工程理论与实践.2015

[4].牟南.基于限制标记传播的搜索引擎反链接作弊方法[D].大连理工大学.2013

[5].李亚,黄地龙.Web2.0搜索引擎反作弊技术研究[J].数字通信.2013

[6].肖卓磊.搜索引擎作弊及反作弊技术探究[J].阜阳师范学院学报(自然科学版).2011

[7].陈畅.基于链接分析的搜索引擎反作弊技术研究[D].华南理工大学.2011

[8].王友.基于信任和非信任传播的搜索引擎反作弊研究[D].大连理工大学.2011

[9].朱丹梅.搜索引擎作弊检测方法研究[D].南京邮电大学.2011

[10].李俊.反搜索引擎作弊的相关探讨[J].网络与信息.2011

标签:;  ;  ;  

搜索引擎作弊论文-王庆福,王兴国
下载Doc文档

猜你喜欢