导读:本文包含了基于主题的网络爬虫论文开题报告文献综述及选题提纲参考文献,主要关键词:大数据,智慧审计,网络爬虫
基于主题的网络爬虫论文文献综述
吴则建,王鹏虎,庞瑞江,黄永平[1](2019)在《主题网络爬虫在商业银行内部审计中的应用》一文中研究指出本文介绍了网络爬虫及主题爬虫原理,结合商业银行内部审计工作实践,探索了主题网络爬虫在商业银行内部审计中的实践应用及未来展望。(本文来源于《中国内部审计》期刊2019年11期)
郑洪源[2](2019)在《基于主题网络爬虫的程序设计资源库建设研究》一文中研究指出目前,在国内高校中程序设计课程的资源库建设工作尚未普及,大多数教学资源存在较为严重的老旧、重复等问题,难以满足师生日益增长的对大量新颖教学资源的需求。针对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用Scrapyredis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。选用SimHash算法对爬取到的资源内容进行相似度判别,过滤掉相似度过高的资源,完成对资源库的增量更新,提高获取到的资源的质量。经测试,研究的系统初步满足资源库建设的自动化需求,能够获取有效的教学资源。(本文来源于《大学教育》期刊2019年09期)
赵康[3](2019)在《面向主题的网络爬虫系统的设计与实现》一文中研究指出随着互联网的普及和网络规模的扩大,网页数据量远远超过了通用搜索引擎的覆盖范围。为提高抓取资源的质量,产生了主题网络爬虫。在爬取过程中,主题网络爬虫倾向于访问主题相似度高的页面。传统的主题爬虫策略通常基于网页文本内容或网页链接结构对网页主题进行分析。基于网页文本内容的主题判定策略只关注了网页正文文本信息,由于没有关注链接结构容易陷入局部最优解;基于网页链接结构的主题判定策略能够通过多个网页链接预测网页主题,但是由于缺少文本辅助判定主题相关性,经常会导致爬虫出现“主题偏移”。尽管现在有混合主题爬行策略的相关研究,改进了主题判定和爬取算法,但在查全率、查准率以及爬取速度方面仍然存在可提升的空间。为了提升主题爬虫的主题判定性能,本文提出了基于HowNet的文本主题相似度判定算法。首先提出了基于“知网”(HowNet)的主题相似度评价方法,针对传统信息量(IC)评价方法计算不够准确的缺点,本文对传统IC计算模型进行了改进。在IC计算过程中增加上位词、同义词、近义词和多义词的处理。针对向量空间模型(VSM)向量维度过高的问题,提出了一种基于HowNet的文本特征降维方法。在利用词频-逆文档频率算法(TF-IDF)对文本内容进行预处理之后,利用HowNet对文本向量进行进一步降维。最后将网页的文本内容相似度与网页链接结构相结合,设计了一种改进的混合主题相似度判定算法。该算法基于前述的HowNet的主题相似度评价方法来计算文本相似度,将文本相似度与网页排名(PageRank)算法相结合共同计算网页的PageRank值。通过仿真实验验证,该算法能够提高主题相似度判定的准确性,同时避免在爬虫运行后期获取的网页主题偏离预定主题。基于提出的混合主题判定算法,设计实现了一个主题爬虫系统。本文对该系统的功能需求进行了详细的分析,利用WebCollector框架实现爬虫功能,利用Neo4j和Mysql对主题对比文本和主题相关网页进行持久化存储。主题爬虫系统主要包括网页解析模块、文本处理模块、主题策略模块和主题对比文本模块。网页解析模块可以提取网页中的文本内容,文本处理模块可以将网页文本进行预处理并转化为网页文本特征向量,主题策略模块可以对网页的主题相似度进行判定,主题对比文本模块可以提供主题相似度对比时所需的对比文本。测试结果表明,该系统可以有效的通过关键字确定爬取主题,通过对比文本模块获得高相关性对比文本,能够以种子链接为URL调度起点完成相关主题网页爬取与存储,在爬取过程中避免了对大量无关网页的爬取。在性能方面该系统具有较好的时间性能、并发性与兼容性。(本文来源于《北京邮电大学》期刊2019-06-01)
蒲文莹[4](2019)在《面向专用信息获取的用户定制主题网络爬虫技术探究》一文中研究指出随着人类社会步入大数据时代,在各个行业发展中互联网是信息采集的重要途径。面对庞大的网络信息资源,实现高效化信息筛选是当前需要解决的重点问题。目前要在互联网海量信息数据与信息采集人员之间构建满足信息获取要求的信息筛选机制,这样能够保障信息获取效率有效提升。在现阶段互联网信息获取中,主题网络爬虫是基础环节,要不断提升专用信息采集效率。对面向专用信息获取的用户定制主题网络爬虫技术进行了探析,旨在提升信息筛选精确度,从实际应用中判定其查准率。(本文来源于《电脑编程技巧与维护》期刊2019年01期)
杨凌云[5](2018)在《主题网络爬虫关键技术的应用探讨》一文中研究指出对于网络搜索而言,主题网络爬虫对于搜索引擎能够予以灵活的设计,从而顺利实现了全方位的主题搜索。与此同时,主题网络爬虫针对链接或者网页还能予以选择性访问,因此有助于简化访问整个网络的流程与步骤。与通用性的网络爬虫进行对比可见,主题网络爬虫体现为独特的网络引擎优势。由于运用主题网络爬虫能够拟定相应的网络搜索策略,对于主题相关性的页面也能进行妥善的保留。在实践中,针对关键性的主题网络爬虫技术应当着眼于灵活进行运用。(本文来源于《电脑编程技巧与维护》期刊2018年11期)
牟宁,郭英杰,陈杰,窦杰,余果芯[6](2018)在《面向社交网站的主题网络爬虫——以豆瓣网站为例》一文中研究指出以豆瓣网站为代表的社交网络空前繁荣,传统的网络爬虫无法满足人们对社交网络信息的爬取及分析的需求,爬取与特定主题内容相关网页的主题网络爬虫便应运而生,该文设计并实现了面向豆瓣网站的主题网络爬虫,实现对豆瓣网站的特定主题页面的爬取。最后,验证了主题网络爬虫设计方案的可行性。(本文来源于《电脑知识与技术》期刊2018年32期)
李俊,周玉英,唐志航[7](2018)在《基于主题网络爬虫的服装信息采集》一文中研究指出随着大数据技术的快速发展,许多"沉睡"的数据得以利用,然而数据的来源则是关键之处,以前获取数据的方法已不能满足需求,利用python网络爬虫对京东商城的羽绒服信息(商品编号、主要材质、填充物、含绒量和充绒量)进行爬取,并存入到MongoDB数据库中,用来做服装信息分析的数据源。(本文来源于《信息技术与信息化》期刊2018年08期)
马进[8](2018)在《主题网络爬虫关键技术研究》一文中研究指出随着互联网的迅速发展,Web的信息量越来越大,人们往往通过搜索引擎去从互联网上搜索想要的信息,如:百度,谷歌,搜狗等。这类搜索引擎称之为通用搜索引擎,其为所有的用户提供用户想要的所有信息。随着互联网上的信息量越来越大,用户搜索出来的信息可能与自己想要的信息大相径庭。对于这种问题,就需要更加专业的、面向特定领域的搜索引擎来解决。主题网络爬虫是垂直搜索引擎的关键部分,本文主要是对主题网络爬虫中的关键技术进行研究。主要研究内容如下:(1)主题内容的抽取是网页主题识别的重要步骤,本文结合网页内容分布特征以及主题内容的相关特征,设计了一种网页主题内容抽取方法。此方法首先将网页解析成dom树结构,然后根据对网页进行去噪去除掉网页的噪音节点,最后根据主题内容在页面中的分布特征去进行抽取。(2)提出了一种基于实体链接的主题识别算法,识别网页的主题。将基于知识库的实体链接方法运用于特征抽取,首先利用知识工厂提供的接口对原始语料进行分词并识别出语料中的实体,然后利用实体链接获取实体相关的信息,接着从实体信息中抽取出潜在的特征汇总到候选特征集合中,最后利用信息增益的方式从候选特征集合中挑选出最终的特征集合。最终利用抽取出的特征集合训练朴素贝叶斯分类器对网页主题进行识别。实验表明该方法提高了主题网页识别的准确率。(3)提出了一种改进的基于Best-First算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键,本文采用改进的基于Best-First算法的主题搜索策略。该策略主要思路是首先从待抓取链接列表中挑选出价值最大的链接进行抓取,然后从抓取到的网页中抽取链接,对这些链接的价值进行评估,如果链接价值小于设定的阈值则丢弃,反之则将其放入按照链接价值排序的待抓取队列中,循环此过程直到抓取深度到达预设值或者待抓取队列为空则停止。(本文来源于《湖南工业大学》期刊2018-06-02)
刘志杰[9](2017)在《主题网络爬虫搜索策略及主题判别方法研究》一文中研究指出快速发展的互联网技术带来了网络信息资源的急剧增长,互联网在提供丰富的信息的同时,由于其开放共享的特征,使得通用搜索引擎在面对用户特定需求时难以提供较好的结果。针对这一情况,研究智能化的搜索引擎成为了一种趋势,其中主题网络爬虫起着重要的作用。因此,研究一种能够快速有效的获取相关主题信息,并将结果有效的反馈给用户的主题爬虫具有重要的意义。本文通过对主题网络爬虫问题的分析,着重研究了爬虫爬行过程中的正文抽取、主题页面判别以及爬虫爬行搜索策略问题,主要的研究工作如下:(1)分析了页面中正文内容的结构分布特征,给出一种基于文本行特征的网页正文信息抽取方法。该方法首先将非正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据正文特征进一步删除不符合要求的文本行,最后得到网页正文信息。(2)研究了页面内容中文本内部词语的分布特点,结合朴素贝叶斯分类和向量空间模型等方法的研究,采用一种基于向量空间模型改进的方法,在计算词频时改进公式来对词频权重进行调节,用于判断页面主题相关性。(3)分析了链接结构和页面内容的分布特征,采用一种页面内容和链接结构融合的主题搜索策略。该策略根据爬虫爬行不同的阶段使用的搜索策略来同时考虑网页内容和链接结构,并且在判定待爬取链接时,加入了一种高低阈值队列的思想,优化主题爬虫搜索策略。本文通过不同类型的页面链接以及语料库内容对以上方法进行实验,并根据实验评价指标来计算结果,实验结果分析表明,本文中的网页正文信息抽取方法对页面正文信息抽取有较好的效果,改进的页面主题判别方法以及主题爬虫搜索策略对爬虫爬取相关主题内容有所提升。(本文来源于《武汉工程大学》期刊2017-10-09)
王锦阳[10](2017)在《主题网络爬虫的并行化研究与设计》一文中研究指出随着移动互联网的普及,数据产生的速度不断加快,数据量不断增长。搜索引擎提供的查询结果数量虽能够满足普通用户的需求,但不足以支持科研人员在主题领域的数据分析。本文以如何获取主题信息作为研究问题,根据实际需要,研究使用主题网络爬虫从互联网中高效地采集相关数据。文中采用集群并行化处理的思想以及改进的网页相似度判定算法采集网页并判定网页信息主题相关性,从而获取信息。研究工作分为叁部分:爬虫工作原理及相关知识、爬虫并行化改进和数据采集过程中文本主题相关性的判断。首先,爬虫是搜索引擎的重要组成部分,以搜索引擎和Web遵循的HTTP协议为起点,进而研究了爬虫的采集流程。其次,在普通爬虫流程的基础上,基于常用搜索策略提出了多策略融合的搜索算法,改进了原有搜索效率低下的问题,达到效率成倍提升的效果。接着,互联网的数据规模促使爬虫采用并行化方式提高效率,根据爬虫各部分的需求以及数据的特点采用了合适的并行框架:包括存放URL多队列的RabbitMQ、URL去重的内存级数据库Redis、处理网页数据的并行计算框架Storm和分布式数据库MongoDB。最后,提出以标题为中心的精简内容子树构建网页主要内容,并对其应用向量空间模型和语义结合的判别算法对网页进行主题识别,提高了网页主题相关的识别率。通过对系统架构以及各模块的设计与实现,并以“大数据”为主题对系统进行测试,结果表明系统能够识别与“大数据”相关的网页,准确率最高达到82%,且经过并行化的改进,系统效率和稳定性有所提升,解决了中小型爬虫自主采集相关主题网页的问题,获取到的数据对后续的分析也有着积极作用。(本文来源于《西南石油大学》期刊2017-09-01)
基于主题的网络爬虫论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
目前,在国内高校中程序设计课程的资源库建设工作尚未普及,大多数教学资源存在较为严重的老旧、重复等问题,难以满足师生日益增长的对大量新颖教学资源的需求。针对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用Scrapyredis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。选用SimHash算法对爬取到的资源内容进行相似度判别,过滤掉相似度过高的资源,完成对资源库的增量更新,提高获取到的资源的质量。经测试,研究的系统初步满足资源库建设的自动化需求,能够获取有效的教学资源。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
基于主题的网络爬虫论文参考文献
[1].吴则建,王鹏虎,庞瑞江,黄永平.主题网络爬虫在商业银行内部审计中的应用[J].中国内部审计.2019
[2].郑洪源.基于主题网络爬虫的程序设计资源库建设研究[J].大学教育.2019
[3].赵康.面向主题的网络爬虫系统的设计与实现[D].北京邮电大学.2019
[4].蒲文莹.面向专用信息获取的用户定制主题网络爬虫技术探究[J].电脑编程技巧与维护.2019
[5].杨凌云.主题网络爬虫关键技术的应用探讨[J].电脑编程技巧与维护.2018
[6].牟宁,郭英杰,陈杰,窦杰,余果芯.面向社交网站的主题网络爬虫——以豆瓣网站为例[J].电脑知识与技术.2018
[7].李俊,周玉英,唐志航.基于主题网络爬虫的服装信息采集[J].信息技术与信息化.2018
[8].马进.主题网络爬虫关键技术研究[D].湖南工业大学.2018
[9].刘志杰.主题网络爬虫搜索策略及主题判别方法研究[D].武汉工程大学.2017
[10].王锦阳.主题网络爬虫的并行化研究与设计[D].西南石油大学.2017