搜索爬虫论文-丁月

搜索爬虫论文-丁月

导读:本文包含了搜索爬虫论文开题报告文献综述及选题提纲参考文献,主要关键词:垂直搜素引擎,人工智能,主题爬虫,文本分类

搜索爬虫论文文献综述

丁月[1](2019)在《基于网络爬虫的垂直搜索引擎设计与实现》一文中研究指出互联网技术飞速发展,用户对搜索结果的准确性和高效性提出了更高的要求,为满足用户需求,垂直搜索引擎应运而生。随着人工智能时代的到来,越来越多的用户希望在互联网中对人工智能领域的相关信息进行精准搜索。因此,本文通过对互联网中海量信息进行有策略的爬取和准确的筛选,设计并实现了一个既专业又全面的面向人工智能领域的垂直搜索引擎,该系统主要由信息采集、索引建立、用户搜索、用户注册登录及后台管理五大模块构成,能够为用户提供精确的主题搜索服务,主要完成工作如下:(1)对传统朴素贝叶斯分类算法的不足进行了研究,提出了一种基于Jensen-Shannon(JS)散度特征加权的朴素贝叶斯分类算法。通过进一步分析得出,仅用JS散度值来表示特征词所能提供的信息量仍有改进空间,于是将词频、文本频、类频相结合对JS散度做了进一步的修正,依照特征词对分类结果所产生作用的大小赋与其不同的权值,完成了对朴素贝叶斯算法的改进。通过实验表明,基于JS散度特征加权的朴素贝叶斯分类算法是一种较好的分类算法。(2)完成了对人工智能领域相关信息的采集和处理。对Webmagic爬虫框架进行了深入研究,在其基础上增加了网页内容的主题相关性判断子模块及链接主题相关性排序子模块,并实现了面向人工智能领域的主题爬虫。首先建立人工智能主题词库及初始种子链接集合,作为后续网页分类工作的基础;然后以本系统的具体需求为标准,对Webmagic框架进行了二次开发,实现了网页下载、解析、抽取、持久化等主要功能,并将主题词库中的特征词作为网页分类的特征属性,使用基于JS散度特征加权的朴素贝叶斯算法实现网页内容的主题相关性判断,同时使用PageRank算法对网页中链接的重要程度进行量化,实现了链接主题相关性排序,以便爬取高质量的链接。(3)建立索引,完成用户搜索。将爬取的相关网页信息导入到Solr服务器中,并在Solr中配置IKAnalyzer分词器,以Solr服务器为核心完成索引的建立,进而完成面向人工智能领域垂直搜索引擎的用户搜索功能。(4)基于SSH框架实现了基于网络爬虫的面向人工智能领域垂直搜索引擎系统,实现用户注册登录、后台管理等功能,设计并实现了美观、交换性强的系统,并对该系统进行了有效测试。(本文来源于《贵州大学》期刊2019-06-01)

蒋鹏[2](2019)在《基于仿生学的主题爬虫搜索策略及关键技术研究》一文中研究指出主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集的网页群中的典型页面。然后,计算每个主题3种种子页面的权值,将权值作为粒子群爬虫的初始速度和方向值,使用本文提出的基于变异思想改进的粒子群算法抓取页面。其中,本文改进的算法将全局极值设置为完美但实际上并不存在的值,从而忽略了全局极值的影响并在算法陷入局部收敛时加入变异思想。最后通过对比实验并进行结果分析,对比于传统的爬虫方法,本文提出的主题爬虫模型可以获得更高的准确率,能够抓取高质量的网页。2.本文搭建了一种基于改进Louvain算法的种子页面选取框架。首先,基于搜索引擎获取一定数量的初始相关种子页面,将这些页面作为节点,使用本文改进Louvain算法对其进行社区划分。然后,计算初始划分社区的归一化互信息确定节点大小,通过删除多余节点构造出超级节点网络。最后,通过计算超级网络节点页面内容与主题的相似度得到超级网络节点页面权值,选取权值大于阈值的节点页面并去掉属于同一个社区的节点页面,得到种子页面集合。经过实验分析,证明本框架生成的种子页面能够有效提升主题爬虫的准确率和主题覆盖率。(本文来源于《重庆邮电大学》期刊2019-05-31)

刘思林[3](2018)在《Scrapy分布式爬虫搜索引擎》一文中研究指出随着大数据时代的到来,信息的获取与检索尤为重要。如何在海量的数据中快速准确获取到我们需要的内容显得十分重要。通过对网络爬虫的研究和爬虫框架Scrapy的深入探索,结合Redis这种NoSQL数据库搭建分布式爬虫框架,并结合Django框架搭建搜索引擎网站,将从知乎,拉钩,伯乐等网站抓取的有效信息存入ElasticSearch搜索引擎中,供用户搜索获取。研究结果表明分布式网络爬虫比单机网络爬虫效率更高,内容也更丰富准确。(本文来源于《电脑知识与技术》期刊2018年34期)

冯丹[4](2018)在《基于网络爬虫的搜索引擎的设计与实现》一文中研究指出互联网技术在当前取得了飞速的发展,在信息方面,人们有着很大的需求,这为负责Web信息采集的网络爬虫技术带来了很大的挑战。在很多情况下,单机的网络爬虫无法承担艰巨的任务,这就使得人们在Web信息的需求方面,要借助于分布式网络爬虫,这样才能有着很好的信息采集速度和规模。在众多的网络信息中,人们的对信息的需求也是很大的,这两者之间有着太多的矛盾,在此背景下,就迫切需求得到搜索引擎技术的支撑。但是,互联网的资源呈现出几何级数增长,在信息采集方面,需要在索引规模、更新速度以及个性化需求方面,有着更好的追求,借助于搜索引擎,不能较好地为人们需求的个性化、专业化信息检索服务,这就需要在搜索引擎服务方面,需要特定领域的主题搜索引擎。在网络数据挖掘领域中,有着很多的研究热点,而作为主题搜索引擎中占基础核心地位的主题爬虫的研究,更是有待深层次的研究。本研究对一个分布式网络爬虫的搜索引擎进行了设计与实现,主要包括两个方面,具体是硬件的构架以及软件的模块划分。在硬件方面,控制节点是一台PC机,爬行节点为N台PC机,全部连接在局域网中。在软件方面设计为控制节点软件和爬行节点。本研究同时对分布式系统的关键技术的解决方法进行了系统的阐述。在进行任务分割的过程中,系统主要借助二级哈希映射算法,从而让消息通信使节点进行协同工作,借助于非阻塞套接字,让URL在节点间进行有效传递。通过系统设计,最终设计出来的分布式网络爬虫搜索引擎呈现出良好的健壮性、可配置性和可扩展性,并且仔细剖析了分布式网络爬虫搜索引擎。(本文来源于《湖北工业大学》期刊2018-11-25)

高峰,刘震,高辉[5](2018)在《结合有监督广度优先搜索策略的通用垂直爬虫方法》一文中研究指出垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。(本文来源于《计算机工程》期刊2018年11期)

赵建华,蒋劲松[6](2018)在《基于聚焦爬虫的搜索引擎的设计与实现》一文中研究指出设计并实现了一种基于聚焦爬虫的搜索引擎。通过聚焦爬虫,获取了网站数据并建立了索引数据库。设置了2个角色,分别是普通用户和数据库管理员。普通用户可以实现网页搜索、图片搜索、关键字管理以及热点搜索排行等功能;数据库管理员可以实现网络爬虫和数据库的管理,同时实现网站数据的检索、修改和添加等功能。测试结果表明系统运行良好。(本文来源于《系统仿真技术》期刊2018年03期)

米建俊[7](2018)在《聚焦爬虫技术在互联网舆情搜索分析系统中的应用》一文中研究指出在信息发展多元化的今天,网络言论信息的发作体量、传布速度等方面都发生了重大改变。本文主要介绍聚焦爬虫技术及其工作原理,进一步探讨了爬虫技术在互联网舆情搜索与分析中的应用。不断加强互联网信息的深度监测和分析,对于及时应对突发的公共事件,全面掌握社情民意和把握新时代互联网舆论管理规范的政策走向具有积极作用。(本文来源于《数字传媒研究》期刊2018年06期)

田磊[8](2017)在《主题爬虫搜索策略的设计与实现》一文中研究指出在互联网迅速发展的大背景下,垂直搜索引擎发挥着越来越重要的作用,其提供了更加专业化的主题爬虫搜索和信息检索服务。主题爬虫是垂直搜索引擎的基础和关键,其搜索策略直接影响检索结果的质量。现有的主题爬虫在搜索覆盖率、效率以及主题判断精确度方面仍然存在可提升的空间。为了提高主题爬虫的整体性能,本文提出了一种主题爬虫搜索策略,主要研究成果如下。互联网蕴藏的信息是随时动态变化的,完全保证主题爬虫获取信息与互联网中信息的同步性比较困难。本文提出了一种更为合理的网页抓取优先级评估模型,从而达到最优的抓取效果。该模型从网页内容主题相关度、链接分析和网页更新频率叁个维度衡量网页的重要性,使得重要的网页可以优先进行再次抓取和信息更新,从而尽可能与互联网的动态信息保持同步。为了提高主题爬虫的搜索覆盖率和主题判断的精确度,本文设计了一种更加专业化的主题爬虫搜索策略。该策略增加网页类型判断和正文提取,使得主题爬虫的主题判断更有针对性。同时,增大主题不相关网页的搜索深度,进而提升主题爬虫的搜索覆盖率。另外,通过设置网页抓取间隔和抓取优先级,使得主题爬虫的工作效果更加优秀。添加网页去重和反作弊技术,完善主题爬虫的功能。为了提高主题爬虫的搜索效率和拓展性,本文使用了 Hadoop和HBase的大数据组件来实现主题爬虫搜索策略。(本文来源于《北京邮电大学》期刊2017-12-20)

刘志杰[9](2017)在《主题网络爬虫搜索策略及主题判别方法研究》一文中研究指出快速发展的互联网技术带来了网络信息资源的急剧增长,互联网在提供丰富的信息的同时,由于其开放共享的特征,使得通用搜索引擎在面对用户特定需求时难以提供较好的结果。针对这一情况,研究智能化的搜索引擎成为了一种趋势,其中主题网络爬虫起着重要的作用。因此,研究一种能够快速有效的获取相关主题信息,并将结果有效的反馈给用户的主题爬虫具有重要的意义。本文通过对主题网络爬虫问题的分析,着重研究了爬虫爬行过程中的正文抽取、主题页面判别以及爬虫爬行搜索策略问题,主要的研究工作如下:(1)分析了页面中正文内容的结构分布特征,给出一种基于文本行特征的网页正文信息抽取方法。该方法首先将非正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据正文特征进一步删除不符合要求的文本行,最后得到网页正文信息。(2)研究了页面内容中文本内部词语的分布特点,结合朴素贝叶斯分类和向量空间模型等方法的研究,采用一种基于向量空间模型改进的方法,在计算词频时改进公式来对词频权重进行调节,用于判断页面主题相关性。(3)分析了链接结构和页面内容的分布特征,采用一种页面内容和链接结构融合的主题搜索策略。该策略根据爬虫爬行不同的阶段使用的搜索策略来同时考虑网页内容和链接结构,并且在判定待爬取链接时,加入了一种高低阈值队列的思想,优化主题爬虫搜索策略。本文通过不同类型的页面链接以及语料库内容对以上方法进行实验,并根据实验评价指标来计算结果,实验结果分析表明,本文中的网页正文信息抽取方法对页面正文信息抽取有较好的效果,改进的页面主题判别方法以及主题爬虫搜索策略对爬虫爬取相关主题内容有所提升。(本文来源于《武汉工程大学》期刊2017-10-09)

冯祥,王玉倩[10](2017)在《运用聚焦爬虫技术内置搜索引擎侵犯着作权的认定》一文中研究指出【裁判要旨】APP(英文Application的简称,指第叁方应用程序)软件获取内容的高价值性与其获取渠道的便捷性之间具有利益冲突的可能性:一方面,作为内容提供者的传统作品网站,往往需要花费高额版权费才能获取作品资源;另一方面,APP服务商则通过内置链接的方式无偿利用源作品网站的资源库,以较低的成本进行牟利。显然该获利方式对内容的提供者而言是不公平的,其侵犯了作品源内容提供者的潜在经济利益。APP通过(本文来源于《人民司法(案例)》期刊2017年23期)

搜索爬虫论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集的网页群中的典型页面。然后,计算每个主题3种种子页面的权值,将权值作为粒子群爬虫的初始速度和方向值,使用本文提出的基于变异思想改进的粒子群算法抓取页面。其中,本文改进的算法将全局极值设置为完美但实际上并不存在的值,从而忽略了全局极值的影响并在算法陷入局部收敛时加入变异思想。最后通过对比实验并进行结果分析,对比于传统的爬虫方法,本文提出的主题爬虫模型可以获得更高的准确率,能够抓取高质量的网页。2.本文搭建了一种基于改进Louvain算法的种子页面选取框架。首先,基于搜索引擎获取一定数量的初始相关种子页面,将这些页面作为节点,使用本文改进Louvain算法对其进行社区划分。然后,计算初始划分社区的归一化互信息确定节点大小,通过删除多余节点构造出超级节点网络。最后,通过计算超级网络节点页面内容与主题的相似度得到超级网络节点页面权值,选取权值大于阈值的节点页面并去掉属于同一个社区的节点页面,得到种子页面集合。经过实验分析,证明本框架生成的种子页面能够有效提升主题爬虫的准确率和主题覆盖率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

搜索爬虫论文参考文献

[1].丁月.基于网络爬虫的垂直搜索引擎设计与实现[D].贵州大学.2019

[2].蒋鹏.基于仿生学的主题爬虫搜索策略及关键技术研究[D].重庆邮电大学.2019

[3].刘思林.Scrapy分布式爬虫搜索引擎[J].电脑知识与技术.2018

[4].冯丹.基于网络爬虫的搜索引擎的设计与实现[D].湖北工业大学.2018

[5].高峰,刘震,高辉.结合有监督广度优先搜索策略的通用垂直爬虫方法[J].计算机工程.2018

[6].赵建华,蒋劲松.基于聚焦爬虫的搜索引擎的设计与实现[J].系统仿真技术.2018

[7].米建俊.聚焦爬虫技术在互联网舆情搜索分析系统中的应用[J].数字传媒研究.2018

[8].田磊.主题爬虫搜索策略的设计与实现[D].北京邮电大学.2017

[9].刘志杰.主题网络爬虫搜索策略及主题判别方法研究[D].武汉工程大学.2017

[10].冯祥,王玉倩.运用聚焦爬虫技术内置搜索引擎侵犯着作权的认定[J].人民司法(案例).2017

标签:;  ;  ;  ;  

搜索爬虫论文-丁月
下载Doc文档

猜你喜欢