网页结构化论文-姜欣,杨国军

网页结构化论文-姜欣,杨国军

导读:本文包含了网页结构化论文开题报告文献综述及选题提纲参考文献,主要关键词:XML,提取规则,信息提取,Web

网页结构化论文文献综述

姜欣,杨国军[1](2015)在《基于XML半结构化的Web网页信息提取研究》一文中研究指出0引言Web信息提取(Web Information Extraction,简称为Web IE)是将Web作为信息源的一类信息进行提取。它的主要目的是从半结构或无结构的信息中提取出特定的事实信息(Factual Information)。比如,从新闻报道中提取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中提取出公司发布新产品的情况:公司名、产品名、发布(本文来源于《网络安全技术与应用》期刊2015年10期)

赵天宇[2](2014)在《微博舆情分析中的网页结构化信息抽取技术研究》一文中研究指出微博是一种基于用户关系的信息获取,分享和传播的平台。作为时下因特网中最流行的社交工具之一,微博在为人们带来便捷的同时,也正在成为虚假信息滋生和泛滥的温床。因此,针对微博的舆情监测对于国家政府以及网络监管部门来说是十分必要的。为了能够对微博这一重要的舆情源进行全局有效的分析,我们需要同时获取当前流行的多个微博站点的微博,并获取每条微博的作者,正文,评论数,转发数等结构化信息。针对此目的,本文提出了一种统一的基于层次聚类的微博网页结构化信息抽取方法。该方法可以在不借助业务提供商的API的情况下,从使用网络爬虫爬取的任意微博业务提供商的微博网页中逐条采集微博的结构化信息,为实现跨站点的全局性微博舆情分析奠定基础。本文的主要工作如下:1)研究了典型的微博舆情分析系统所分析的舆情指标以及系统架构,并提出了微博舆情分析系统对于微博网页结构化信息抽取模块的要求。2)在上述的工作的基础上,提出了一种统一的基于层次聚类的微博网页结构化信息抽取方法。该方法充分地考虑了微博网页所独有的DOM树结构,克服了一些目前通用的Web信息抽取方法所具有的计算量大、对微博网页正文体抽取不准确的问题,能够高效地、准确地抽取出微博网页中的结构化信息。3)利用本文提出的方法对多家微博网站的网页的进行了抽取实验,并尝试在一个微博舆情分析实验系统中使用该方法。这些实验表明,本文提出的方法具有很高的准确性,并且能够满足微博舆情分析系统对于微博网页结构化信息抽取模块的要求。(本文来源于《北京邮电大学》期刊2014-01-06)

唐伟[3](2013)在《半结构化网页中商品属性抽取方法研究》一文中研究指出互联网技术的高速发展使得在线购物得到极大普及,国内以淘宝、京东为代表的各类电子商务网站发展尤为迅猛。在线商品交易需要在网页中对商品属性信息进行尽可能详细的展示,这使得从互联网中获取大量商品属性信息成为可能。如果能有效组织与管理互联网中大量组织样式复杂的商品属性信息,将在商品评论的观点挖掘、情感分析、个性化产品推荐等领域发挥更积极的作用。目前网页信息抽取方法有很多,但是其中大部分都需要人工标记抽取结构,一旦减少人工参与,抽取的准确率就会随之下降。而且很多方法不能很好适应网页的变化,一旦网页样式改变,就需要重新构建网页信息抽取的包装器。为了解决上述问题,本文首先尝试了基于网页中商品信息描述网页块定位的商品属性信息抽取方法。该方法在利用VIPS算法将网页内容分块的基础上,训练分类器实现用于商品信息描述的网页块的判定。然后提出基于单位词表的商品属性记录对齐方法抽取属性信息描述网页块中的商品属性“名-值”对。在对第一个方法进行分析的基础上,本文又提出了基于商品详情页标题,构建自适应模板的商品属性信息提取方法。该方法利用大量属于同一领域的商品详情页标题构建领域属性词包,然后利用属性词包从网页定位优质的种子属性“名-值”对,最后基于种子属性“名-值”对学习出符合当前网页的属性布局模板并用于网页中其它属性信息的抽取。这一方法具有自动化程度高,适应性强等优点,并且在实验中取得了很好的效果。(本文来源于《苏州大学》期刊2013-05-01)

吴云鹏[4](2011)在《一种基于动态学习框架的全自动网页结构化数据抽取方法》一文中研究指出在当前的万维网的网页中包含着数量惊人的网页。其中有一类网页,其目的是向用户呈现一个实体,其中包括该实体的属性和属性值,这些属性和属性值就是结构化数据。显然,一个网页中所包含的结构化数据正是这个网页的最核心的内容。但是网页是面向用户的,为了便于人们的理解和吸引用户的注意,在不同的网站中这些结构化数据会以不同的显示形式呈现在网页上。虽然不同的显示形式阻碍了计算机自动地抽取这些属性和属性值,但是通过对来自多个网站中的网页之间的比较和筛选,仍然有大量的知识可以学习得到,以用于网页中结构化数据的抽取。本文提出了一种动态学习的框架,该框架无需人工标注的样本网页,并且能够自动有效地抽取不同领域(vertical,如“book”、“camera”、“job”等)的网页中的结构化信息。现存的方法大多都是静态的,需要人工标注大量的样本网页,并且往往不能适应于未标注属性的抽取。与之不同的是,本文中所提出的方法可以动态地,自动地,并尽可能完全的抽取一个网页中的结构化数据。为了达到这个目标,本文中首先建立了一个可信属性学习系统,该系统利用了网页中这些结构化数据的结构特性、网站内特性以及网站间特性来从网页中学习一个可信属性集;然后,本文提出了一个结构化数据发现和抽取过程,该过程用来抽取一个网页中所有可能属于特定领域的属性和属性值。在实验中,本文使用了4个领域,共17850个网页做为实验数据,最终证明了本文所提出方法的有效性。(本文来源于《北京理工大学》期刊2011-12-01)

祝美莲[5](2011)在《半结构化网页的信息抽取技术研究》一文中研究指出随着国际互联网的迅猛发展,网络已经成为人们发布和获取信息的一个重要平台。目前,大部分网页都是通过服务器根据请求从后台数据库中查询相关数据,然后展示到一个列表页面当中。这些页面一般都是由特定的入口查询获得的,而且网页中的数据很难被其它应用程序直接利用。因此如何自动抽取这些页面中的重要信息就变得非常重要。介绍了网页信息抽取技术的概念,要解决的主要问题以及相关技术,分析了常用的网页信息抽取算法及优缺点。针对现有方法对主数据区域的定位不准确的问题,将最大扇出子树法、最大内容量增大法和最大标记量法叁种启发式规则相结合,定位网页的主数据区域。在数据记录分离的过程中,现有方法需要对所有子树进行相似度判断,算法效率较低,针对这一问题,提出了一种基于树编辑距离的聚类算法,增加了聚类算法,减少了子树的比较次数,提高了算法效率。同时采用树编辑距离表示子树之间的相似度,更符合网页的层次结构,算法准确率更高。聚类后得到数据记录的候选分割方案,给出了类之间相似度的计算公式,获得最高相似度的分割方案即为数据记录的最佳切分方法。最后采用了星比对算法,对数据记录的属性进行抽取。实验表明,本文方法的自动化程度较高,并且具有较高的效率,数据记录抽取和属性抽取都较为准确。(本文来源于《中国石油大学》期刊2011-05-01)

陈志雄,朱向庆[6](2011)在《基于特征词统计的网页结构化信息抽取》一文中研究指出作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.(本文来源于《嘉应学院学报》期刊2011年02期)

赵靖,王侨文,管马周,单传佳[7](2010)在《自动提取布局结构相似网页的结构化信息》一文中研究指出数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类网页的数据;并利用Eclipse和开源HTML Parser对算法进行了实现;实验结果表明该算法具有较快的提取速度和较好的准确率。(本文来源于《安徽科技学院学报》期刊2010年06期)

万月亮,朱贺军,刘宏志[8](2009)在《基于网页结构化倾向的网页分类方法研究》一文中研究指出为了研究不对称数据集下,分类算法敏感网页后验错误率高,实时性不足的问题,提出了一种基于网页结构化倾向的网页分类算法。首先,选取网页结构化内容,将计算得到的倾向性作为分类特征;其次,采用决策树以倾向特征作为分类特征对网页分类。仿真试验表明,在互联网环境中正负样本不对称情况下,在保证分类速度的同时,分类的敏感网页后验错误率为0.6456,较传统的基于关键字分类模型有较大幅度降低。(本文来源于《信息网络安全》期刊2009年09期)

李卫东[9](2009)在《基于DOM的半结构化网页信息抽取算法》一文中研究指出为从不同的半结构化网页中自动提取数据记录,提出了基于DOM和记录子树最大相似度发现记录模式的思想,对信息噪声有较强的过滤功能,在记录模式存在一定差异的情况下也能正确识别记录。在此基础上,实现了多记录网页自动抽取的IESS算法,该系统可以从多个学术论文检索网站中自动获取结果网页,并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。(本文来源于《河北省科学院学报》期刊2009年01期)

王红卫,马红,张素智,赵宇[10](2008)在《基于预定义模式的Web网页结构化数据抽取》一文中研究指出设计了一种基于预定义模式W eb网页结构化数据抽取包装器软件.该软件利用最新W eb技术、信息处理技术、人工智能技术对W eb网页结构化信息解析,从非结构化的、不包括任何语义的HTML文档中抽取结构化语义数据.选取了几个出版社的新书发布W eb页面进行了数据抽取验证和抽取结果分析.结果表明该软件可实现W eb网页新书发布信息集成,并提供新书检索服务.(本文来源于《郑州轻工业学院学报(自然科学版)》期刊2008年06期)

网页结构化论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

微博是一种基于用户关系的信息获取,分享和传播的平台。作为时下因特网中最流行的社交工具之一,微博在为人们带来便捷的同时,也正在成为虚假信息滋生和泛滥的温床。因此,针对微博的舆情监测对于国家政府以及网络监管部门来说是十分必要的。为了能够对微博这一重要的舆情源进行全局有效的分析,我们需要同时获取当前流行的多个微博站点的微博,并获取每条微博的作者,正文,评论数,转发数等结构化信息。针对此目的,本文提出了一种统一的基于层次聚类的微博网页结构化信息抽取方法。该方法可以在不借助业务提供商的API的情况下,从使用网络爬虫爬取的任意微博业务提供商的微博网页中逐条采集微博的结构化信息,为实现跨站点的全局性微博舆情分析奠定基础。本文的主要工作如下:1)研究了典型的微博舆情分析系统所分析的舆情指标以及系统架构,并提出了微博舆情分析系统对于微博网页结构化信息抽取模块的要求。2)在上述的工作的基础上,提出了一种统一的基于层次聚类的微博网页结构化信息抽取方法。该方法充分地考虑了微博网页所独有的DOM树结构,克服了一些目前通用的Web信息抽取方法所具有的计算量大、对微博网页正文体抽取不准确的问题,能够高效地、准确地抽取出微博网页中的结构化信息。3)利用本文提出的方法对多家微博网站的网页的进行了抽取实验,并尝试在一个微博舆情分析实验系统中使用该方法。这些实验表明,本文提出的方法具有很高的准确性,并且能够满足微博舆情分析系统对于微博网页结构化信息抽取模块的要求。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

网页结构化论文参考文献

[1].姜欣,杨国军.基于XML半结构化的Web网页信息提取研究[J].网络安全技术与应用.2015

[2].赵天宇.微博舆情分析中的网页结构化信息抽取技术研究[D].北京邮电大学.2014

[3].唐伟.半结构化网页中商品属性抽取方法研究[D].苏州大学.2013

[4].吴云鹏.一种基于动态学习框架的全自动网页结构化数据抽取方法[D].北京理工大学.2011

[5].祝美莲.半结构化网页的信息抽取技术研究[D].中国石油大学.2011

[6].陈志雄,朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学院学报.2011

[7].赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报.2010

[8].万月亮,朱贺军,刘宏志.基于网页结构化倾向的网页分类方法研究[J].信息网络安全.2009

[9].李卫东.基于DOM的半结构化网页信息抽取算法[J].河北省科学院学报.2009

[10].王红卫,马红,张素智,赵宇.基于预定义模式的Web网页结构化数据抽取[J].郑州轻工业学院学报(自然科学版).2008

标签:;  ;  ;  ;  

网页结构化论文-姜欣,杨国军
下载Doc文档

猜你喜欢