导读:本文包含了智能爬虫论文开题报告文献综述及选题提纲参考文献,主要关键词:水稻病害,Python,特征匹配,图像处理
智能爬虫论文文献综述
杨天乐,钱寅森,武威,刘涛,孙成明[1](2019)在《基于Python爬虫和特征匹配的水稻病害图像智能采集》一文中研究指出【研究背景】我国有30多个地区种植水稻(Oryza glaberrima),水稻的病害是影响水稻稳产、高产的重要因素之一,其中水稻常见的病害有稻瘟病,纹枯病、白叶枯病等。早期农作物病害监测手段通常是由专业的植保人员通过田间取样从而来判断病害的危害等级或者通过施药的方式来提前预防病害或是通过查询水稻病害图谱和互联网查询相关病害信息进行比较,近年来随着信息技术的高速发展,各类新兴技术开始广泛应用于农作物病害的监测,并且对多种作物的多项病害都已经能够成功的进行监测;【材料与方法】材料:Python爬虫技术、MatlabR2018a图像处理工具箱、百度图像网站;软件运行环境:本研究中使用的是Python3.7.0,MatlabR2018a版本,可以在绝大多数操作系统中运行。方法:利用爬虫技术批量获取水稻病害图像对于预防水稻病害及早期病害的识别提供更大的便利,相比于人力收集水稻病害图像,Python爬虫技术能够在短时间内获取更多的图像,在病害识别过程中,水稻病害数据库的内存量越大对于识别的精度越高,本研究基于此种目的,充分发挥Python爬虫技术对几种水稻常发病害图像进行收集。本研究基于此通过Matlab进行特征匹配,并计算图像间的相似度,筛选出同一病害的图像,去除其他干扰项,以提高水稻病害图像获取的准确性;【结果与分析】利用Python爬虫技术采集水稻病害图像能够快速获取目标数量图像,耗时主要受到网速和电脑配置的限制,但相较于手动获取速度优势明显。在只利用Python爬虫技术获取的水稻病害图像准确率在50%-70%之间,而通过特征匹配筛选后图像误检率在5%以下,极大的提高了数据采集的精度,也表明本研究提出的水稻病害图像智能采集方法是可行的;【结论】本研究则是利用Python爬虫技术进行水稻图像的采集,极大的提高了病害分类工作的效率。另一方面,研究更是针对爬虫爬取图像的不准确性,利用图像特征匹配进行改善,并达到了较为准确的水稻病害图像采集的效果。本研究利用结合了Python爬虫技术和图像特征匹配技术实现了水稻病害的快速采集,为水稻种类的快速判别提供一种新的技术手段,也为其他病害的研究提供了参考。(本文来源于《2019年中国作物学会学术年会论文摘要集》期刊2019-10-27)
冯昊,劳咏昶,叶玲洁,孙秋洁,康泰峰[2](2019)在《基于网络爬虫的电网大数据智能挖掘技术研究》一文中研究指出传统Libpcap电网大数据挖掘策略不能对网络占用资源进行按需分配,为解决此问题,设计基于网络爬虫的新型电网大数据智能挖掘技术模型。通过设置网络爬虫TCP/IP协议栈的方式,对电网大数据进行布局分配,进而达到校验与拷贝数据的目的,完成电网大数据的采集分析。在此基础上,利用最大挖掘权限匹配结果与网络爬虫聚类普的智能排序准则,解决层次结构间的挖掘数据传输问题,实现新型电网大数据智能挖掘技术模型的搭建。对比实验结果表明,与传统方法相比,应用所提技术模型后未占用网络资源上限提升明显,单位时间内资源分配量突破8.0×109T,网络占用资源实现了真正意义上的按需分配。(本文来源于《电子设计工程》期刊2019年16期)
陈太沁[3](2019)在《基于Node.js+MongoDB小型智能电视机顶盒爬虫系统的设计与实现》一文中研究指出智能电视中海量的音视频节目,在给观众带来更多节目选择性的同时,也给智能电视节目的监管带来巨大的挑战。研发智能电视节目爬虫系统,能更好地掌握和分析智能电视节目数据,这是监管者亟需研究与解决的问题。本文介绍了基于Node.js+MongoDB的智能电视节目爬虫系统的一种实现方法。(本文来源于《有线电视技术》期刊2019年08期)
宋劼,陈昕,董忠汶[4](2019)在《基于网络爬虫技术进行网站智能应用的探讨》一文中研究指出本文是关于网络爬虫技术的解决方案,详细介绍了以海量数据挖掘为基础的个性化推荐系统。同时提出了一种基于网络爬虫技术的网站应用方案,并进行了深入地研究和探讨,以帮助新闻类网站为其用户进行阅读推荐提供决策参考。(本文来源于《中国新通信》期刊2019年05期)
陈荣征,陈景涛,林泽铭[5](2019)在《基于网络爬虫和智能推荐的大学生精准就业服务系统研究》一文中研究指出为适应新时代国家关于大学生就业服务的要求,在LeanCloud云服务平台下,基于Scrapy网络爬虫技术和智能推荐算法,研究并设计了一个大学生精准就业服务系统。该系统可根据毕业生的求职意向,实现职位的智能推荐。实验证明,该系统能有效满足毕业生个性化就业需求,提高企业的招聘效率,提升学校精准就业服务的水平。(本文来源于《电脑与电信》期刊2019年Z1期)
侯美静,崔艳鹏,胡建伟[6](2018)在《基于爬虫的智能爬行算法研究》一文中研究指出为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法。对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的。实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率。(本文来源于《计算机应用与软件》期刊2018年11期)
车力军,曹华平[7](2018)在《基于自适应智能爬虫技术的网站备案安全态势感知平台设计》一文中研究指出一、前言习近平总书记在十九大报告中指出,网络安全等非传统安全威胁持续蔓延,人类面临许多共同挑战。而互联网网站是网络信息非常重要的来源,如果不进行管控备案,违法违规的涉黄涉恐涉诈网站将对国家、社会造成极大威胁。近年来国家行业主管部门先后出台系列管理及考核要求,如工信部《省级基础电信企业网络与信息安全工作考核要点与评分标准》《工业和信息化部(本文来源于《互联网天地》期刊2018年05期)
王俊驰[8](2018)在《基于网络爬虫的智能电视盒子监管方案》一文中研究指出智能电视具有节目源丰富,交互自由等优点,正被越来越多的用户所使用。在这样的情况下,如何对其进行有效监管就成了我们必须重视的问题。本文首先介绍了智能电视及智能电视盒子产品的功能描述,其次,对监管技术方案进行了叙述,最后介绍了该方案能够实现的主要功能。(本文来源于《广播电视信息》期刊2018年02期)
王松[9](2017)在《垂直搜索引擎中智能爬虫系统的研究与实现》一文中研究指出随着信息技术的发展,搜索引擎已经成为了互联网的入口。垂直搜索引擎在垂直领域深度采集数据并加工处理,提供精准和专业搜索服务,具有广泛的关注度和市场需求。智能爬虫是垂直搜索引擎的重要组成部分,完成数据采集的工作。由于其专业背景强,覆盖范围窄,不同的智能爬虫在架构和策略上差异性很大,同时也面临主题相关性的精确度、小范围的大量采集困难等问题。本文针对垂直搜索引擎中的智能爬虫的技术难点,研究相关技术,提出了解决方案,在插件化和分布式的设计原则下,设计和实现了一套完整的智能爬虫系统,同时对系统的功能和性能进行了测试。本文的主要工作包括:(1)设计了一个基于LDA的文本特征提取方法,用机器学习算法决策主题相关性,并建立了以锚文字特征和页面主题相关度为基础的链接预测模型。(2)设计了多策略的应对反爬虫方案和代理服务器筛选流程。(3)提出了基于Bloomfilter的两层叁实例的高可用,持久化URL去重方案,解决了海量URL的快速精准去重。(4)完成智能爬虫其它功能的设计,编码实现了完整的系统。通过搭建实验拓扑环境并部署爬虫系统,验证和测试了智能爬虫系统的功能和性能。试验结果表明,本文的设计和实现达到预期目标,提升了爬虫的智能性和效率。(本文来源于《北京邮电大学》期刊2017-03-09)
何国正[10](2016)在《分布式智能网络爬虫的设计与实现》一文中研究指出随着Internet的飞速发展,当前Web已经成为人们发布和检索信息的主要平台。在海量的网络信息资源中如何快速、精确地找到用户所需的信息成为当前人们迫切的需求,网络爬虫就是为了满足这一需求而出现的研究领域。不同的应用领域、不同背景的网络用户具有不同的数据检索目的和需求,产生了不同类型的爬虫。当前已经有大量的网络爬虫研究及开源实现,然而大多数现有研究工作都局限于整体的架构介绍或某个局部处理阶段,对网络爬虫的采集策略、数据抽取、数据存储、系统监控等方面缺少完整的研究且自动化程度较低,难以形成完备的可用的大规模采集系统。因此,对网络爬虫的研究与改进是具有实际重要意义的工作。本文在现有相关研究工作的基础上,设计和实现了一个分布式网络爬虫系统,其目标是为网络舆情系统提供高质量的数据支持。本文主要进行了以下几方面的研究工作:第一、种子智能管理。根据种子采集历史信息动态调整采集频率,通过分析详情页面样本集自动生成网页抽取模型,实现网页自动抽取。第二、Ajax动态网页采集。对单页及多页交互动态更新的网页进行了模型抽象,使用封装浏览器内核组件Phantomjs实现动态网页的渲染,同时也基于此设计和实现了基于Javscript语言的自动导航浏览脚本(NASScript)语言,使爬虫可以在动态网页上进行自动交互浏览操作,实现对动态网页的数据采集。第叁、爬虫系统智能管理。通过采用部署第叁方程序模块对爬虫服务节点进行实时监控,并根据预定维护规则对其进行自动维护处理,实现对整个爬虫系统的智能管理。本文设计和实现的网络爬虫系统,解决了单机爬虫效率低、可扩展性差、自动化程度低等问题,提高了网页采集的速度及数据抽取精度并扩大了网页采集的规模。在文章最后展示系统相关界面截图和测试结果,从测试结果可以看出,本爬虫系统能够对动态网页进行有效采集,对网页进行自动抽取的结果具有较高精度,同时也实现了整个爬虫系统的智能化管理。(本文来源于《中国科学院大学(工程管理与信息技术学院)》期刊2016-09-01)
智能爬虫论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
传统Libpcap电网大数据挖掘策略不能对网络占用资源进行按需分配,为解决此问题,设计基于网络爬虫的新型电网大数据智能挖掘技术模型。通过设置网络爬虫TCP/IP协议栈的方式,对电网大数据进行布局分配,进而达到校验与拷贝数据的目的,完成电网大数据的采集分析。在此基础上,利用最大挖掘权限匹配结果与网络爬虫聚类普的智能排序准则,解决层次结构间的挖掘数据传输问题,实现新型电网大数据智能挖掘技术模型的搭建。对比实验结果表明,与传统方法相比,应用所提技术模型后未占用网络资源上限提升明显,单位时间内资源分配量突破8.0×109T,网络占用资源实现了真正意义上的按需分配。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
智能爬虫论文参考文献
[1].杨天乐,钱寅森,武威,刘涛,孙成明.基于Python爬虫和特征匹配的水稻病害图像智能采集[C].2019年中国作物学会学术年会论文摘要集.2019
[2].冯昊,劳咏昶,叶玲洁,孙秋洁,康泰峰.基于网络爬虫的电网大数据智能挖掘技术研究[J].电子设计工程.2019
[3].陈太沁.基于Node.js+MongoDB小型智能电视机顶盒爬虫系统的设计与实现[J].有线电视技术.2019
[4].宋劼,陈昕,董忠汶.基于网络爬虫技术进行网站智能应用的探讨[J].中国新通信.2019
[5].陈荣征,陈景涛,林泽铭.基于网络爬虫和智能推荐的大学生精准就业服务系统研究[J].电脑与电信.2019
[6].侯美静,崔艳鹏,胡建伟.基于爬虫的智能爬行算法研究[J].计算机应用与软件.2018
[7].车力军,曹华平.基于自适应智能爬虫技术的网站备案安全态势感知平台设计[J].互联网天地.2018
[8].王俊驰.基于网络爬虫的智能电视盒子监管方案[J].广播电视信息.2018
[9].王松.垂直搜索引擎中智能爬虫系统的研究与实现[D].北京邮电大学.2017
[10].何国正.分布式智能网络爬虫的设计与实现[D].中国科学院大学(工程管理与信息技术学院).2016