页面分割算法论文-马凯凯,钱亚赫,阮东跃

导读:本文包含了页面分割算法论文开题报告文献综述及选题提纲参考文献，主要关键词:网页链接相似度,文本频率,正则表达式,网页去噪

页面分割算法论文文献综述

马凯凯,钱亚赫,阮东跃^[1]（2018）在《基于文本频率页面分割算法对论坛正文提取》一文中研究指出如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。(本文来源于《中国水运(下半月)》期刊2018年02期）

朱冰阳^[2]（2015）在《基于CEF的页面分割算法的研究》一文中研究指出当前,对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法,基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖,只利用网页的视觉信息抽取数据,提高了抽取的准确性。然而,利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前,已经有许多方法可以实现对网页的划分。在这些方法中,VIPS算法(基于视觉信息的页面分割算法)取得的效果是最好的。相比于其他的方法,VIPS算法不依赖网页的结构,即使网页结构发生变化,VIPS算法也能取得很好的效果。鉴于VIPS算法的优点,本文采用VIPS算法实现了对网页的分割。为了提高效率,本文选择在CEF (Chromium Embedded Framework)框架中实现VIPS算法,并在CEF框架中实现了对页面结点视觉信息的获取。本文主要工作如下：(1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割,将不能被分割的DOM结点作为一个视觉块存放在集合中。(2)分隔条探测。首先将整个页面当作一个分隔条,根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。(3)内容结构构建。从权重最小的分隔条集合开始,依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块,以此类推,直到遇到权重最大的分隔条集合。最终,内容结构构建完成,得到该页面对应的视觉块树。实验表明,本文提出的方法可以有效的对页面进行视觉块划分。(本文来源于《中国海洋大学》期刊2015-05-25）

刘仁金,高远飙,郝祥根^[3]（2010）在《文本图像页面分割算法研究》一文中研究指出提出了一种基于改进纹理谱的文本页面分割算法,该算法首先采用改进的递归投影轮廓切割算法对文本图像页面进行粗分割,并提取文本图像的纹理谱特征;然后采用最小距离法将相邻纹理单元进行分类;最后实现文本图像页面文字区与非文字区的精确分割.实验表明,提出的方法在含有文字、图、表格的文本图像页面分割中效果很好,对其他复杂文本图像页面分割也具有适应性.(本文来源于《中国科学技术大学学报》期刊2010年05期）

王加俊,黄贤武,郭玮玮,仲兴荣^[4]（2004）在《文本页面图像的图文分割与分类算法》一文中研究指出为了能对包含不规则图片区和表格的倾斜文本页面图像进行图文分割与分类 ,提出了一种新的图文分割和分类算法。该算法先采用数学形态学和分级霍夫变换来进行文本倾斜的检测和校正 ;然后为了使算法能够对包含不规则图片区的文本页面图像进行处理 ,提出在传统的投影轮廓切割算法中 ,引入中点切割的过程 ,以便利用一系列的矩形来近似地逼近不规则的图片区。对于分割后的图像 ,则提出利用黑白像素比 (Rbw)和近邻像素间的交叉相关性 (Rcc)两个特征来作为分类的判据。实验结果证明 ,算法速度快、可靠性高。该算法只适用于二值图像。(本文来源于《中国图象图形学报》期刊2004年05期）

郭玮玮^[5]（2002）在《文本页面图像分割与分类算法的研究》一文中研究指出由于电子文档相对于传统的纸张文档来说，具有容易保存、检索、传输的优点，且保密性好，因此，将传统的纸张文档转换成电子文档，具有重要的实际意义。目前，这种转换技术已成为模式识别领域的一个重要研究内容。这种转换一般通过文档扫描(SCAN)和字符识别(OCR)两个步骤完成。然而，很多文档的页面形式比较复杂，往往不仅包含文字区域，还会包含图像区域。因此，有必要将文字区和图像区加以分离，以便只将文字区作为OCR系统的有效输入。这个过程可以作为文档扫描过程的后处理过程或者OCR系统的预处理过程。本文主要研究文本页面图像的分割与分类算法。为了使算法能够对倾斜的文本图像进行正确的分割和分类，文章首先提出一种基于形态学和霍夫变换的倾斜检测算法对文本页面图像的倾斜角度进行检测，并对倾斜的文本图像进行校正。相对于其它倾斜检测方法来说，实验证明，该方法具有检测速度快、检测精度高的优点。对于经过倾斜校正的文本页面图像，本文提出投影轮廓循环切分法对页面中具有不同属性的各个部分进行分割，同时进行初步的分类。由于在分割中引入了中点切分，该分割算法能对含有不规则图片区的文本页面图像进行正确的分割。对分割后的图像，本文采用黑白像素比(BWR)及黑白像素交替变换数(CC)两个特征进行进一步的分类。实验结果表明，本算法具有抗干扰性能好，速度快的优点。(本文来源于《苏州大学》期刊2002-05-01）

页面分割算法论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

当前,对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法,基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖,只利用网页的视觉信息抽取数据,提高了抽取的准确性。然而,利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前,已经有许多方法可以实现对网页的划分。在这些方法中,VIPS算法(基于视觉信息的页面分割算法)取得的效果是最好的。相比于其他的方法,VIPS算法不依赖网页的结构,即使网页结构发生变化,VIPS算法也能取得很好的效果。鉴于VIPS算法的优点,本文采用VIPS算法实现了对网页的分割。为了提高效率,本文选择在CEF (Chromium Embedded Framework)框架中实现VIPS算法,并在CEF框架中实现了对页面结点视觉信息的获取。本文主要工作如下：(1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割,将不能被分割的DOM结点作为一个视觉块存放在集合中。(2)分隔条探测。首先将整个页面当作一个分隔条,根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。(3)内容结构构建。从权重最小的分隔条集合开始,依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块,以此类推,直到遇到权重最大的分隔条集合。最终,内容结构构建完成,得到该页面对应的视觉块树。实验表明,本文提出的方法可以有效的对页面进行视觉块划分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

页面分割算法论文参考文献

[1].马凯凯,钱亚赫,阮东跃.基于文本频率页面分割算法对论坛正文提取[J].中国水运(下半月).2018

[2].朱冰阳.基于CEF的页面分割算法的研究[D].中国海洋大学.2015

[3].刘仁金,高远飙,郝祥根.文本图像页面分割算法研究[J].中国科学技术大学学报.2010

[4].王加俊,黄贤武,郭玮玮,仲兴荣.文本页面图像的图文分割与分类算法[J].中国图象图形学报.2004

[5].郭玮玮.文本页面图像分割与分类算法的研究[D].苏州大学.2002

标签：网页链接相似度; 文本频率; 正则表达式; 网页去噪;

页面分割算法论文-马凯凯,钱亚赫,阮东跃

页面分割算法论文文献综述

页面分割算法论文开题报告

页面分割算法论文参考文献

猜你喜欢