网页解析论文-欧阳春

网页解析论文-欧阳春

导读:本文包含了网页解析论文开题报告文献综述及选题提纲参考文献,主要关键词:分布式网络爬虫,获取动态网页数据,反网络爬虫

网页解析论文文献综述

欧阳春[1](2017)在《支持动态网页解析的分布式网络爬虫系统的设计与实现》一文中研究指出网络爬虫技术,为获取互联网中的数据提供最为便捷的方式,它不仅是传统搜索引擎公司的底层基础,也是大数据时代获取web数据的利器。近年来,随着互联网技术的迅猛发展,web数据呈指数级增长,面对获取海量web数据的需求,单机网络爬虫技术不再实用,因此,采用分布式的网络爬虫技术成为获取海量web数据的先决条件。随着web前端技术的发展,反爬虫技术的增强,系统复杂性的增大,爬虫爬取数据时还存在一些问题:获取动态网页数据的问题,反网络爬虫的问题,集群稳定性的问题。这些问题,严重影响了爬虫系统获取目标数据(用户所需要的数据)的效率。本文在分布式网络爬虫的基础上,针对这些问题,进行研究并设计解决方案。本文主要工作如下:(1)获取动态网页数据方面:互联网中存在大量异步加载的动态网页数据,这些数据是普通网络爬虫不能直接获取的。目前程序切片方法[21]存在算法复杂度高和精确度低等缺陷,而调用浏览器API的方法[15][16]存在爬取效率低的缺陷。本文提出了一种基于规则库的方法,将网页分类处理,可以获取动态网页和静态网页数据,避免了算法复杂度高和精确度低的缺陷,提高了爬取数据效率。(2)应对反网络爬虫方面:大多数公司会对其网站的数据进行保护,采用各种技术手段,以防止被肆意抓取数据。目前解决反爬虫的策略[13][18],不能应对爬取少量站点中的大量数据。本文设计了 IP代理池策略和类人爬取策略,这些策略采用随机更换代理IP的方法和模仿人访问目标站点的方法,可以绕过反爬虫机制。(3)集群稳定性方面:复杂的集群系统在长期运行中,可能会出现节点不能正常工作或者退出集群系统的现象。目前维护集群稳定性的策略[15][48]存在功能简单、丢失任务等缺陷。本文设计了心跳检测策略和记录丢失任务策略,通过定时监测节点发送的各种消息以及检测丢失的任务,解决节点不正常工作、掉线以及任务丢失等问题。(4)经济成本方面:本文设计的爬虫系统基于灵活订制的开源框架,可以自由删减不必要的功能,从而实现轻量级的系统,使得集群节点可以运行在树莓派(只有信用卡大小的微型电脑,其系统基于Linux)之上,为搭建集群降低了经济成本,以便该系统更实用于预算相对紧张的科研机构、以及中小型企业。最后,通过设置对比实验,本文设计的40个节点的分布式爬虫集群,相比参照实验的单机40个线程的爬虫,性能至少提高了 3-4倍,成本节省了 30%;在获取动态网页数据方面,设置了本文设计策略和参考文献策略[15]的对比试验,实验表明消耗时间减少了约39%;在系统稳定性和反爬虫方面,设置了测试实验,结果表明能够顺利完成大量的爬取任务,系统具有较强的健壮性。综合实验测试结果表明达到了预期效果,并且拥有较好的性能。(本文来源于《东南大学》期刊2017-08-31)

程倩楠,谭龙,李浩飞[2](2017)在《面向BIU的网页解析》一文中研究指出随着大数据时代的到来,互联网已经成为人们最大的信息来源之一,对于网页处理多采用结构化方法。现有的面向结点的网页解析方法分割粒度过小,容易割裂文字的语义相关性;而基于分块的网页解析器无法过滤文字内部的噪音信息。针对以上两种传统结构化方法的不足,我们提出了一种面向基本信息单元(Basic Information unit)的网页解析方法。本文给出了BIU的定义,利用改进后的DOM解析工具生成了网页DOM树,通过剪枝和BIU识别等操作步骤,最终得到了以基本信息单元为粒度的网页结构,适合用于网页内容的提取。(本文来源于《科学中国人》期刊2017年23期)

钟明翔,唐晋韬,谢松县,王挺[3](2015)在《一种基于动态网页解析的微博数据抓取方法》一文中研究指出微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。(本文来源于《舰船电子工程》期刊2015年10期)

郭一晶,李兆才[4](2014)在《基于Android和网页解析的教务系统设计与实现》一文中研究指出介绍了基于Android系统开发的教务系统。该系统可帮助厦门大学嘉庚学院教师Android用户便捷访问教务系统和校园资源。在Eclipse开发环境下,使用Http通信协议、开源jsoup解析、json解析和SQLite数据库等开发技术完成系统开发,系统主要功能包括查询课程表、查询课程班信息、查看考试安排、查看今日课程、查看天气、查看开课通知单、查询学生评教、查看学院新闻和摇一摇点名等。(本文来源于《计算机时代》期刊2014年06期)

张开敏[5](2014)在《一种并行的网页解析算法》一文中研究指出如今,Web应用已经可以提供接近传统桌面应用的用户体验,其网页也相应地变得更加复杂,从而对Web浏览器的性能提出了巨大挑战.传统的Web浏览器通常使用单一线程处理网页,无法充分利用多处理器设备的运算能力,针对于此提出了一种并行的网页解析算法.与现有针对网页处理的并行算法不同,本算法基于数据并行的方案,通过将输入数据划分成多个部分,对其进行并行处理,再合并各个部分的结果以得到最终结果.本算法可以充分利用现有的高度优化的串行网页处理算法,并且兼容现有的Web标准和技术.在Webkit浏览器引擎上进行的实验指出,本并行算法可以有效利用多核处理器的运算能力,显着提高了网页解析过程的速度.(本文来源于《小型微型计算机系统》期刊2014年02期)

吴锐强[6](2011)在《嵌入式浏览器网页解析器的研究与实现》一文中研究指出随着信息化技术的飞速发展与互联网的广泛应用,嵌入式浏览器已成为人们日常网络生活中获取信息的重要工具。HTML和XML等网络语言实现在互联网上交换信息,而对这些网络语言进行解析是浏览器的核心技术之一,且解析的质量直接影响整个浏览器的性能。在这种情况下,对嵌入式浏览器中网页解析器的研究具有十分重要的意义。本文研究了WebKit浏览器引擎中网页解析的相关技术。针对不同的网页文档类型,介绍了HTML解析和XML解析。HTML解析部分首先从词法分析器、语法分析器以及标签词典设计这几个方面深入研究了HTML网页解析的工作机制以及所用到的数据结构;然后对一些特殊资源如图片、脚本、样式表等的不同引入方式进行了详细描述。XML解析部分则是首先描述了DOM、SAX以及VTD-XML这叁种不同的XML解析技术的工作原理;然后介绍了基于XML解析技术的几个个应用模块:XMLHttpRequest模块、XPATH模块、XSL模块,研究了它们的工作机制以及所用的数据结构,并扩展了基于XML解析技术的SVG应用模块。本课题研究并实现了嵌入式浏览器中的网页解析器;同时还提出了两个显着提高浏览器性能的方案:分屏解析方案和网页预取方案,介绍了这两个方案的工作机制;接着介绍了两个对基于XML解析技术的SVG应用模块的扩展:对SVGUseElement标签类的扩展和对SVGTRefElement标签类的扩展;最后对我们所做的嵌入式浏览器进行了功能与性能的测试,特别对分屏解析方案进行了性能测试,然后在SVG模块扩展的基础上进行了SVG1.1标准测试。(本文来源于《电子科技大学》期刊2011-03-25)

马俊[7](2010)在《基于购物搜索引擎的网页解析模块的设计与实现》一文中研究指出搜索引擎根据人们的查询要求,从浩瀚的Web资源中检索符合要求的记录返回给最终用户。如何提高搜索的质量和速度,成为当今的热门话题之一。专门针对某一领域的搜索引擎,即垂直搜索引擎,有效地缩小了搜索的范围,过滤掉一些无关信息,更具专业化,也可以节省大量的搜索时间。本课题研究的网上购物搜索引擎,是垂直搜索引擎的一个实例,是搜索引擎在电子商务领域的具体应用。该课题来源于阿尔卡特朗讯公司正在开发的实际项目,开发环境为Linux。本课题设计并实现了购物搜索引擎爬虫抓取、网页解析和索引查询叁个部分的功能,经测试性能符合要求。本文首先分析了相关领域的研究进展,然后介绍了系统实现的相关技术支持,之后详细描述了系统分析与设计,以及系统实现的内容。最后,又简要叙述了系统测试的工作内容。其中,重点叙述了网页解析部分的设计内容。网页解析部分由五个模块组成,分别是超链接分析,静态网页抽取,例外网页抽取,监控模块,实验测试模块。其中超链接分析其中的关键模块,它是Crawler(爬虫)与Parser(网页解析)之间互相交互过程的关键。它的主要任务是提取网页中的超链接,并返回给Crawler;另外,还抽取每一页的当前页码返回给爬虫,用于爬虫的爬取策略。爬虫可以设定爬取的最大页面数,与当前页页码比较,决定是否结束爬取。网页解析部分的目的是将半结构化的HTML数据转化为结构化的XML数据,然后再借助正则表达式实现HTML网页内容的抽取与过滤;索引查询部分借助正则表达式从XML文件中抽取到具体字段值,以建立索引。另外,知识库的建立为智能搜索提供了基础支撑。(本文来源于《北京邮电大学》期刊2010-11-01)

钟楚玲,朱丹,曹二堂[8](2009)在《一种提高搜索引擎检索质量的网页解析法》一文中研究指出通过实验对网页结构和特点进行综合分析,给出对网页分块的原则和方法,在分块的基础上根据网页中噪音的出现规则提出了一种消除网页噪音的方法,使搜索引擎对网页的预处理阶段有效消除网页中的无关项和间接项的超连接,从而大大提高了搜索引擎的检索质量。(本文来源于《信息化纵横》期刊2009年05期)

王璟琦[9](2008)在《基于内容单元的网页解析与内容提取》一文中研究指出随着互联网技术的发展,在线中文网页的数量迅速增加,互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户迅速地获取所需要的知识和信息。然而互联网上的网页普遍存在着一些与用户需求无关的噪声内容,这些内容影响了搜索引擎对网页的处理质量。因此,对全部网页的预处理工作就必不可少。本文的目的在于通过网页预处理技术,为搜索引擎建立一个内容精炼、格式完整、编码统一的净化网页库,为其他模块提供数据支持。网页处理技术经过多年的发展,逐渐形成了DOM结点解析与分块解析两种思路。然而由于对网页分划粒度的不当,前者容易割裂结点之间的语义关联,后者很难过滤分块内部的内容。为了弥补他们的缺陷,本文找到了一种介于二者之间的网页解析粒度,称为内容单元,并在内容单元粒度上完成了网页预处理工作。本文的研究内容主要包括以下几个方面:(1)提出网页内容单元的定义,并以内容单元为粒度完成网页分割解析;(2)利用内容单元反映出来的网页结构特征和语言特征,完成主题型网页的识别;根据内容单元的组成、结构和功能,利用启发式规则对其进行取舍,完成网页正文内容的提取;识别具有特定功能的内容单元,提取他们当中蕴含的网页题目、时间、导航等信息;(3)在单个网页的基础上构造并行净化程序,完成搜索引擎T级(terabyte)原始数据的净化,重组格式,统一编码。从实验中得到的结论证明了网页内容单元解析粒度的有效性,对比显示了基于内容单元的网页预处理对主题型网页识别和正文提取效果的提高。同时Inar网页预处理模块的效果在网页分类应用中得到了验证。(本文来源于《哈尔滨工业大学》期刊2008-12-01)

网页解析论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着大数据时代的到来,互联网已经成为人们最大的信息来源之一,对于网页处理多采用结构化方法。现有的面向结点的网页解析方法分割粒度过小,容易割裂文字的语义相关性;而基于分块的网页解析器无法过滤文字内部的噪音信息。针对以上两种传统结构化方法的不足,我们提出了一种面向基本信息单元(Basic Information unit)的网页解析方法。本文给出了BIU的定义,利用改进后的DOM解析工具生成了网页DOM树,通过剪枝和BIU识别等操作步骤,最终得到了以基本信息单元为粒度的网页结构,适合用于网页内容的提取。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

网页解析论文参考文献

[1].欧阳春.支持动态网页解析的分布式网络爬虫系统的设计与实现[D].东南大学.2017

[2].程倩楠,谭龙,李浩飞.面向BIU的网页解析[J].科学中国人.2017

[3].钟明翔,唐晋韬,谢松县,王挺.一种基于动态网页解析的微博数据抓取方法[J].舰船电子工程.2015

[4].郭一晶,李兆才.基于Android和网页解析的教务系统设计与实现[J].计算机时代.2014

[5].张开敏.一种并行的网页解析算法[J].小型微型计算机系统.2014

[6].吴锐强.嵌入式浏览器网页解析器的研究与实现[D].电子科技大学.2011

[7].马俊.基于购物搜索引擎的网页解析模块的设计与实现[D].北京邮电大学.2010

[8].钟楚玲,朱丹,曹二堂.一种提高搜索引擎检索质量的网页解析法[J].信息化纵横.2009

[9].王璟琦.基于内容单元的网页解析与内容提取[D].哈尔滨工业大学.2008

标签:;  ;  ;  

网页解析论文-欧阳春
下载Doc文档

猜你喜欢