深层网论文-陈新,都云程,肖诗斌

深层网论文-陈新,都云程,肖诗斌

导读:本文包含了深层网论文开题报告文献综述及选题提纲参考文献,主要关键词:浏览器内核,脚本解析,网络爬虫,深层网

深层网论文文献综述

陈新,都云程,肖诗斌[1](2018)在《一种深层网的数据采集方法》一文中研究指出为了解决网络信息采集过程中复杂的脚本解析和异步数据交互等一系列问题,提出了基于浏览器内核的网络信息采集方法;构建了以浏览器内核为核心的网络爬虫系统;在采集性能和采集可行性两个方面对系统进行了测试。以浏览器内核作为数据采集系统的网页解析引擎,来执行网页中的各种客户端脚本以及完成复杂的数据交互,从而完整地将隐藏在深层网中的URL等有用数据提取出来。随着网络应用的发展,未来的网页结构会越来越复杂化,因此传统网络爬虫的采集难度会逐步增加,而基于浏览器内核的网络爬虫则可以很好地适应这些变化。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2018年05期)

李虹萱[2](2016)在《基于WSFT模型的深层网文本获取方法》一文中研究指出随着Web2.0的兴起,目前互联网应用延伸出了两种存在方式:表层网和深层网。前者是指传统搜索引擎可以检索到的Web页面,是由超链接连通的静态页面组成的;后者是指存在互联网中但无法通过超链接到达的一些资源的集合。目前,深层网里包含的可访问信息容量远远高于一般表层网,可见研究深层网的内容获取方法对提高搜索引擎的覆盖率有着非常重要的的意义。在深层网应用所使用的技术中,Ajax技术由于为Web应用提供了更流畅的交互而成为了其中的重要组成部分。使用了Ajax技术的页面与一般表层网页面的区别在于其是多种状态的“混合体”,即一个页面对应多个文档结构,且文档结构之间存在强关联关系。Ajax页面的多状态以及状态之间强关联的特性可能会有助于Web页面数据处理(如重要内容挖掘),而当前研究还没有针对Ajax页面的这种特性来进行数据预处理的方法。考虑到文本作为信息的主要载体,且大部分Web挖掘方法是针对文本来进行分析的,页面文档的内容信息与结构信息对Web挖掘工作都是非常重要的。由此提出一种基于WSFT(带权状态融合树)模型的深层网文本获取方法:在一个Ajax页面多个状态的转换中,一个文本块出现频率越高,可能越重要。本文主要针对Ajax页面的文本信息进行分析处理,且很好的保留Web页面的内容信息和结构信息。首先,构建一个特定的数据结构一文本特征树。这个数据结构即能有效地保留原Web页面的文档内容信息和结构特征,同时也能作为状态转换的信息指纹,有效地判断状态改变。从而优化了深层网中Ajax页面信息采集方法。然后,将文本特征树引入到Ajax页面的采集过程。具体实现中,通过事件代理技术,主动触发一个Web页面的各种状态,并将每一个页面树转换为一个文本特征树,从而获取到一个页面的文本特征树集合以及相互转换条件来构造出状态转移有向图,进而计算出这个有向图的邻接矩阵。最后,使用StatusRank算法对每个状态进行权值计算,并将所有状态融合成一个WSFT(带权状态融合树),为后续的Web挖掘(内容挖掘和结构挖掘)工作提供了有价值的结构化数据。从互联网应用中,选用了一些广泛使用了Ajax技术的站点进行实验。在这个过程中设计并实现了相应的原型系统cl-fetcher,并对实验结果进行分析,论证了本文所提出的方法的有效性。(本文来源于《湖南大学》期刊2016-05-13)

王秋月,曹巍,史少晨[3](2015)在《基于主题模型的深层网数据源选择算法》一文中研究指出联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC Fed Web 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在Fed Web 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在Fed Web 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。(本文来源于《计算机应用》期刊2015年09期)

陈丽君,林怀忠[4](2012)在《一种用于深层网接口集成的模式匹配方法》一文中研究指出针对已有证据理论(DS)方法在深层网接口集成方面的局限性,设计一种基于概念词与语义异构模型的深层网模式匹配方法。通过提取概念词对概念词模型进行预处理,识别并组合成组属性,使m︰n的复杂匹配转变为1︰1的简单匹配,提高系统执行速度。在语义异构模型中引入属性实例,将挖掘语义异构的同义属性问题,转化为对属性间各特征相似值的计算、综合评测和选取问题。实验结果表明,该方法在匹配效率和准确率上较DS方法有较大改进。(本文来源于《计算机工程》期刊2012年12期)

孔燕燕,施化吉[5](2012)在《基于相似URL的深层网数据区域识别》一文中研究指出针对深层网查询结果页面中噪音信息对数据区域识别的干扰问题,提出一种自动识别深层网查询结果数据区域的方法。该方法利用网页的重复结构和相似URL,将页面划分成不同的语义块,依据不同页面块之间URL的相似性识别出数据区域。实验结果表明,该方法能够提高数据区域识别的召回率和准确率。(本文来源于《计算机工程》期刊2012年02期)

袁小龙,李晓霞,郭力[6](2011)在《深层网技术在专利数据提取中的应用》一文中研究指出深层网技术是获取隐藏在以表单为特征的网络数据库检索入口后的数据页面的提取技术,解决了通用搜索引擎不能有效索引深层网网页的问题。专利数据是一类重要的深层网数据资源,对其进行提取、挖掘具有重要意义。本文利用深层网技术开发了一个专利检索系统,实现了对中国和美国专利数据的本地检索、提取和下载,以及针对中国专利的法律状态检索。该软件支持专利的批量下载及文件管理,并根据中国和美国专利显示为多个单页TIFF格式图片不利于本地管理和浏览的特点,开发了实用性较强的TIFF格式图片多页合并和通用PDF格式转换功能。该专利检索系统采用面向用户的界面设计和功能开发,具有简单、易用的特点。(本文来源于《计算机与应用化学》期刊2011年08期)

袁小龙,李晓霞,郭力[7](2011)在《一种面向化学深层网的移动可变数据窗提取技术》一文中研究指出网络上的免费化学数据库资源网站一般属于化学深层网范畴,其数据页面隐藏于以表单为特征的网站检索入口之后为动态生成或独立存在的网页。这些化学数据页面无法通过超链接分析被通用搜索引擎索引和检索,具有形式统一、数据规范的特点。为了获取这些有价值的深层网数据,目前通常采用基于HTML结构特征的正则表达式的自动/半自动化提取或基于XML的半结构化提取对检索得到的数据结果页面进行提取。其中正则表达式提取为全文模(本文来源于《第十一届全国计算(机)化学学术会议论文摘要集》期刊2011-08-05)

张锐[8](2011)在《面向电子商务的深层网入口挖掘研究》一文中研究指出电子商务在近二十年的蓬勃发展取得了世人瞩目的业绩,并以一种前所未有的方式改变着传统的商务活动的模式和格局,更深刻地影响着人们对商务的认识和理解,改变着人们的生活和工作方式。随着网络规模在全球的迅猛发展,Internet上的Web站点及网页数量在以爆炸性的趋势增长同时随着网络技术的不断进步,越来越多的Web数据库需要通过网络查询入口才能进行访问,学术界称其为深层网(Deep Web)。经相关研究机构和商业机构的调查,万维网中深层网的数据存储数量非常巨大,其中电子商务数据占了很大的比重。这些电子商务数据具有很高的商用价值。然而由于这些电子商务网站网页形式与内容开发的独立性,造成了Web数据库,特别是查询入口的异构性。正因为此原因,自动的从电子商务网站中获取有价值的信息和数据变成了一件十分具有挑战性的任务。本文针对深层网挖掘中目前还没有很好解决的如何让机器从语义上理解深层网中的入口信息问题,充分分析了深层网中电子商务入口中文本标签和查询元素之间的关系以及查询元素之间的关系。除此之外,从深层网入口的位置特征、布局特征和显示特征叁个方面分析了深层网入口的视觉特征。通过大量电子商务网站深层网入口的观察的基础上得到了一些置信度很高的启发式规则,从而提出了基于深层网入口的可视化特征和本体工具WordNet分析深层网入口元素的语义关系来更好的挖掘出人们易于理解的深层网入口语义层次结构的方法。该方法首先需要对深层网入口页面数据进行预处理。然后,利用基于可视化特征的页面分割算法构建可视化模块树并利用可视化对树中的文本信息进行聚类及标签信息的识别。最后充分利用深层网入口中的标签信息间的语义关系构建出合理的标签树并通过查询元素与标签之间的视觉特征关系对标签树和查询元素进行匹配,从而提高了挖掘语义信息的准确度,进而提高了深层网信息的获取效率和覆盖率。此外本研究利用UIUC网站提供的研究数据对提出的方法进行了准确度的实验,实验表明,相对于以往的深层网入口挖掘方法,本文提出的方法在准确性方面具有更好的表现。最后对本研究进行了总结,并提出了未来继续研究的方向。(本文来源于《杭州电子科技大学》期刊2011-03-01)

郭若飞,蔡欣宝,赵朋朋,崔志明[9](2011)在《基于Choquet积分的深层网数据源选择》一文中研究指出提出一种基于Choquet模糊积分的深层网数据源选择方法。通过在1组关键字上的查询结果评价深层网数据源的质量,评价时不仅考虑到关键字间的权重,同时还考虑多个关键字之间存在的交互作用。实验结果表明,该方法有效,且对深层网数据源的评价更接近真实。(本文来源于《计算机工程》期刊2011年04期)

李晓霞,袁小龙,夏诏杰,井银铃,聂峰光[10](2010)在《利用ChemDB Portal检索化学深层网》一文中研究指出Internet的普及为专业人员获取数据信息、利用计算工具提供了统一的平台,检索网络化学信息资源的工具也从化学浅层网向化学深层网发展。中国科学院过程工程研究所高性能计算与(本文来源于《中国化学会第27届学术年会第15分会场摘要集》期刊2010-06-20)

深层网论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着Web2.0的兴起,目前互联网应用延伸出了两种存在方式:表层网和深层网。前者是指传统搜索引擎可以检索到的Web页面,是由超链接连通的静态页面组成的;后者是指存在互联网中但无法通过超链接到达的一些资源的集合。目前,深层网里包含的可访问信息容量远远高于一般表层网,可见研究深层网的内容获取方法对提高搜索引擎的覆盖率有着非常重要的的意义。在深层网应用所使用的技术中,Ajax技术由于为Web应用提供了更流畅的交互而成为了其中的重要组成部分。使用了Ajax技术的页面与一般表层网页面的区别在于其是多种状态的“混合体”,即一个页面对应多个文档结构,且文档结构之间存在强关联关系。Ajax页面的多状态以及状态之间强关联的特性可能会有助于Web页面数据处理(如重要内容挖掘),而当前研究还没有针对Ajax页面的这种特性来进行数据预处理的方法。考虑到文本作为信息的主要载体,且大部分Web挖掘方法是针对文本来进行分析的,页面文档的内容信息与结构信息对Web挖掘工作都是非常重要的。由此提出一种基于WSFT(带权状态融合树)模型的深层网文本获取方法:在一个Ajax页面多个状态的转换中,一个文本块出现频率越高,可能越重要。本文主要针对Ajax页面的文本信息进行分析处理,且很好的保留Web页面的内容信息和结构信息。首先,构建一个特定的数据结构一文本特征树。这个数据结构即能有效地保留原Web页面的文档内容信息和结构特征,同时也能作为状态转换的信息指纹,有效地判断状态改变。从而优化了深层网中Ajax页面信息采集方法。然后,将文本特征树引入到Ajax页面的采集过程。具体实现中,通过事件代理技术,主动触发一个Web页面的各种状态,并将每一个页面树转换为一个文本特征树,从而获取到一个页面的文本特征树集合以及相互转换条件来构造出状态转移有向图,进而计算出这个有向图的邻接矩阵。最后,使用StatusRank算法对每个状态进行权值计算,并将所有状态融合成一个WSFT(带权状态融合树),为后续的Web挖掘(内容挖掘和结构挖掘)工作提供了有价值的结构化数据。从互联网应用中,选用了一些广泛使用了Ajax技术的站点进行实验。在这个过程中设计并实现了相应的原型系统cl-fetcher,并对实验结果进行分析,论证了本文所提出的方法的有效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

深层网论文参考文献

[1].陈新,都云程,肖诗斌.一种深层网的数据采集方法[J].北京信息科技大学学报(自然科学版).2018

[2].李虹萱.基于WSFT模型的深层网文本获取方法[D].湖南大学.2016

[3].王秋月,曹巍,史少晨.基于主题模型的深层网数据源选择算法[J].计算机应用.2015

[4].陈丽君,林怀忠.一种用于深层网接口集成的模式匹配方法[J].计算机工程.2012

[5].孔燕燕,施化吉.基于相似URL的深层网数据区域识别[J].计算机工程.2012

[6].袁小龙,李晓霞,郭力.深层网技术在专利数据提取中的应用[J].计算机与应用化学.2011

[7].袁小龙,李晓霞,郭力.一种面向化学深层网的移动可变数据窗提取技术[C].第十一届全国计算(机)化学学术会议论文摘要集.2011

[8].张锐.面向电子商务的深层网入口挖掘研究[D].杭州电子科技大学.2011

[9].郭若飞,蔡欣宝,赵朋朋,崔志明.基于Choquet积分的深层网数据源选择[J].计算机工程.2011

[10].李晓霞,袁小龙,夏诏杰,井银铃,聂峰光.利用ChemDBPortal检索化学深层网[C].中国化学会第27届学术年会第15分会场摘要集.2010

标签:;  ;  ;  ;  

深层网论文-陈新,都云程,肖诗斌
下载Doc文档

猜你喜欢