导读:本文包含了网页信息抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:视觉特征,网络信息抽取,自动生成模板
网页信息抽取论文文献综述
王宪发,郭岩,刘悦,俞晓明,程学旗[1](2019)在《基于视觉特征的网页信息抽取方法研究》一文中研究指出面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显着提升了信息抽取的效率,实验结果验证了这一结论。(本文来源于《中文信息学报》期刊2019年05期)
刘志强,都云程,施水才[2](2019)在《基于改进的隐马尔科夫模型的网页新闻关键信息抽取》一文中研究指出【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进。【结果】使用隐马尔科夫模型的改进算法,在已构建抽取模型的网站中,平均准确率可达97%。【局限】抽取模型在分类能力上稍有不足,无法对细微差别信息进行准确抽取。【结论】该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点。(本文来源于《数据分析与知识发现》期刊2019年03期)
李志义,沈之锐[3](2019)在《基于重复模式识别的网页信息抽取研究》一文中研究指出【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别的信息提取新方法,通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤,提取到了详情页面的标题和主要内容。【结果/结论】对于结构稳定的页面,本文实现了较高质量的信息抽取。不足之处是聚类和相似度的计算量较大,时间较长。(本文来源于《情报科学》期刊2019年03期)
李丹[4](2019)在《面向深网网页的信息抽取算法研究》一文中研究指出海量结构化数据隐藏在深网中(Deep Web),对有价值的深网数据抽取研究变得十分重要。提出一种面向深网网页的信息抽取算法,创新性引入序列比对算法进行页面噪声去除,实验结果表明抽取效率和准确率大幅提升,同时具有较好的召回率和查准率。(本文来源于《信息记录材料》期刊2019年01期)
杨长虹[5](2018)在《基于XML描述的网页信息抽取技术研究》一文中研究指出如何对网页上海量的数据信息进行有效数据抽取,已经成了如今数据挖掘研究的一个热点。而XML(可扩展标记语言)这种面向语义语言的产生为解决这一热点问题提供了有利条件,即XML能够较好地为计算机所识别。(本文来源于《益阳职业技术学院学报》期刊2018年02期)
高兆远[6](2017)在《基于多特征挖掘的网页信息抽取方法研究》一文中研究指出随着互联网的快速发展,网络上每天产生的新网页多到数不胜数,其中新闻、博客类网页占据了大部分,也随着自媒体的火热,新闻、博客类网页的比例也在逐年增高。为了全自动获得网页中有用的主要信息而去除无用信息,出现了大量网页信息抽取算法。这些算法主要根据网页的文本统计特征或者网页的结构特征来简单高效地抽取网页信息,但是它们没有充分利用网页信息,导致在抽取网页时效果不稳定。因此,本文提出基于多特征挖掘的网页信息抽取算法,算法同时利用了网页的文本统计特征、网页结构特征以及网页的视觉信息特征,并使用基于精准率和召回率的CSS DOM节点选择算法来选择出网页正文内容所在节点。针对网页的CSS DOM节点的分类问题,本文提出基于多特征挖掘的CSS DOM节点分类算法。这个算法首先对网页CSS DOM节点提取网页文本统计特征、结构特征和视觉信息特征,然后使用机器学习分类算法对已经标注的特征数据训练分类模型,最后对于新网页中的CSS DOM节点提取同样的特征,并使用训练好的分类模型分类这些新特征数据。实验结果表明这个算法可以有效的将网页中正文内容节点和噪音内容节点区分开,实验也表明使用多特征的效果要优于只使用文本统计特征或只使用视觉信息特征的效果。针对网页的正文内容确定问题,本文提出基于精准率和召回率的CSS DOM节点选择算法。该算法和基于多特征挖掘的CSS DOM节点分类算法联合构成本文的基于多特征挖掘的网页信息抽取方法。实验结果表明本文提出的基于多特征挖掘的网页信息抽取方法有很好的抽取效果,同时算法的鲁棒性要优于现有算法。(本文来源于《哈尔滨工业大学》期刊2017-12-01)
李双洋[7](2017)在《一种高适应性的网页信息抽取机制的设计与实现》一文中研究指出随着互联网的高速发展,Web网页呈现爆炸式增长,web信息已经成为当今最具价值和潜力的信息来源,以此为基础的大数据分析和云计算也随之兴起。当前一些研究和应用,如数据融合、集成和分析系统、推荐系统、数据挖掘系统等都是基于海量的Web数据的研究。然而,Web页面上不仅仅包含重要的数据信息还有大量的噪声信息,面对如此庞大而复杂的Web信息,如何从中高效率准确地抽取出所需要的信息点来进一步获取数据更多的潜在价值,是一个非常有研究价值和实用意义的课题。Web信息抽取的核心是将分散在Internet上的半结构化的Web页面中含有的数据信息点抽取出来,并转化成结构、语义更为清晰的形式,以进行挖掘和利用的过程。本文的主要内容包括:首先介绍了网页信息抽取技术的相关概念和原理,深入分析研究了当前的网页信息抽取研究方法和技术,并对常用的信息抽取的特点进行研究;然后结合基于HTML结构的和基于模板规则的方式的网页信息抽取方法,设计了一套综合统一的基于规则配置的适应于不同领域抽取任务的Web信息抽取机制。在设计该网页信息抽取系统中,明确了网页信息抽取的模型,并就规则体系的定义包装、信息采集、信息抽取、自动导航等关键问题进行了详细阐述。系统将规则包装与信息采集抽取独立进行设计,设计了元素信息类型库,最终根据用户的需求配置,将抽取出的结构化数据信息存入相应的本地库。在此基础上,采用Java语言和Chrome扩展结合的方法实现了该网页信息抽取系统。在论文最后,给出了实验结果和系统分析。其结果证明本文研究设计的网页信息抽取系统能够适应各类站点常用的web信息抽取任务的需求,并且其模块独立式的设计,使得系统的信息抽取的效率和准确性都能达到较好的效果。(本文来源于《北京邮电大学》期刊2017-03-15)
鲁雷[8](2016)在《基于标签的网页信息抽取方法研究》一文中研究指出近年来,随着社会的发展,网络已经成为人们生活中不可缺少的一部分。电子商务领域的发展尤为突出,网购成为一种非常普遍的社会现象。但是,当前购物网站大部分都是基于用户请求动态生成的网页,展示在页面上的数据很难被直接利用。基于标签的网页信息抽取方法,能较好地对这些动态页面进行信息抽取。介绍了信息抽取技术的概念,阐述了网页信息抽取面临的主要问题,结合当前的一些主流抽取方法,对比分析了它们的优缺点。针对当前已有方法对数据区域的定位不够准确或者需要人工标记数据区域的问题,提出了一种根节点权值判断法,充分利用页面的特点并结合两种启发式的规则来定位数据区域,自动化程度高,并且解决了多数据区域给定位带来的影响。针对树编辑距离忽略了不同节点对树结构影响程度不同的问题,提出基于标签的网页信息抽取算法,利用标签信息,赋予各个节点权重,通过高层次节点权值来衡量子树之间的相似度,有效利用了列表式网页的特点,避免了大量对子树之间相似度的计算。针对部分属性信息可能缺失的问题,提出了模板比对方法,引入序列比对的概念,用多序列迭代比对的方法生成模板记录,以它为标准与所有的数据记录进行比对,能够补充可能缺失的属性信息。为了验证以上提出的方法,设计并实现了一个基于标签的网页信息抽取系统。实验表明,本文的方法自动化程度高,能有效降低噪声信息带来的影响,具有较高的查全率和查准率。(本文来源于《中国石油大学(华东)》期刊2016-06-01)
刘岩[9](2016)在《网页中实体表格信息抽取方法的研究》一文中研究指出随着互联网的迅猛发展,网页的信息量呈指数型增长,逐页浏览信息已经不能满足人们的要求,信息抽取技术应运而生。信息抽取技术使人们不用进一步人工筛选符合自己需求的内容而是直接帮助人们从海量网络数据中获取有价值的信息。网页信息提取技术主要围绕两个方向展开,包装器和结构识别。前者的缺点在于对网页的结构依赖性强,可重用性差,通用性差。本文则是结构识别的一种,该方法对网页中半结构化信息能良好的定位和识别,并且对大多数网页具有通用性,生成的结果能直接应用于本体生成,实用价值高。本文所研究的抽取系统中实现的爬虫是一个增量型的、深度优先爬取的定向爬虫。它通过配置文件来生成爬取任务,一个配置文件对应一个爬取任务。配置文件有特定的格式和配置字段,由人工编辑生成,只需配置大约十多个字段,就可以完成对于特定网站、特定领域、特定主题的内容的定向爬取配置。对网页进行清洗之后,本文针对有<TABLE>标签的表格提出了基于启发式规则的实体定位算法和基于网页URL归类的实体定位算法。基于标签特征、表格结构特征、表格内容特征本文总结了六条规则,依次通过对六条规则生成字符串,然后采用有穷自动机来识别字符串,最后根据停留在不同的状态判断是否是真表格。为提高定位的准确度,本文提出了URL归类实体定位法,通过对URL的类别分类,能将不含有表格的网页去除。这两种方法的结合使得表格定位具有较高的准确度。同时,本文针对有特殊符号的无<TABLE>标签的表格制定了启发式规则,针对用标签组织的无<TABLE>标签的表格提出了基于DOM树和启发式规则相结合的定位方法。在表格结构识别中,本文通过对表格属性名和属性值类型的不同构建了类型树,通过计算单元格之间的类型差异判断出表格的展开方式。同时,本文提出了将表格数字化,通过计算单元格之间长度差异判断出表格的展开方式,将两者判断的结果赋予不同的权值,最终判别出表格为横向展开还是纵向展开。并且本文根据类型差异和结构差异判断出表头所跨越的行数或列数。(本文来源于《北京工业大学》期刊2016-05-01)
高庆宁,吴鹏,张晶晶[10](2016)在《基于文档对象模型与行块分布算法的网页信息抽取》一文中研究指出[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。(本文来源于《情报理论与实践》期刊2016年04期)
网页信息抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进。【结果】使用隐马尔科夫模型的改进算法,在已构建抽取模型的网站中,平均准确率可达97%。【局限】抽取模型在分类能力上稍有不足,无法对细微差别信息进行准确抽取。【结论】该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网页信息抽取论文参考文献
[1].王宪发,郭岩,刘悦,俞晓明,程学旗.基于视觉特征的网页信息抽取方法研究[J].中文信息学报.2019
[2].刘志强,都云程,施水才.基于改进的隐马尔科夫模型的网页新闻关键信息抽取[J].数据分析与知识发现.2019
[3].李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学.2019
[4].李丹.面向深网网页的信息抽取算法研究[J].信息记录材料.2019
[5].杨长虹.基于XML描述的网页信息抽取技术研究[J].益阳职业技术学院学报.2018
[6].高兆远.基于多特征挖掘的网页信息抽取方法研究[D].哈尔滨工业大学.2017
[7].李双洋.一种高适应性的网页信息抽取机制的设计与实现[D].北京邮电大学.2017
[8].鲁雷.基于标签的网页信息抽取方法研究[D].中国石油大学(华东).2016
[9].刘岩.网页中实体表格信息抽取方法的研究[D].北京工业大学.2016
[10].高庆宁,吴鹏,张晶晶.基于文档对象模型与行块分布算法的网页信息抽取[J].情报理论与实践.2016