导读:本文包含了网页提取论文开题报告文献综述及选题提纲参考文献,主要关键词:动态分块网页,主题信息,自动提取
网页提取论文文献综述
崔彦青[1](2019)在《动态分块网页主题信息准确自动提取仿真》一文中研究指出针对当前方法在进行动态分块网页主题信息自动提取是存在提取准确率较低、错误率较高、耗时较长的缺点,采用混合加权方法对动态分块网页主题信息进行自动提取。在对动态分块网页主题信息进行预处理的基础上,构建预处理后动态分块网页主题信息的分层树模型,确定网页主题信息的内在联系,采用二元集合序列描述目标提取的动态分块网页主题信息,计算不同的网页主题信息文本对全网页主题信息的贡献程度;采用空间向量模型描述动态分块网页主题信息特征,并利用混合加强的方法从空间向量模型中提取动态分块网页主题信息。仿真结果证明,采用的方法耗时可控制在0.1s内,对样本数据提取的准确率较高。说明采用的方法能够实现动态分块网页主题信息的准确、高效提取。(本文来源于《计算机仿真》期刊2019年10期)
周艳平,李金鹏,宋群豹[2](2019)在《一种基于SVM及文本密度特征的网页信息提取方法》一文中研究指出针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。(本文来源于《计算机应用与软件》期刊2019年10期)
王卫红,梁朝凯,闵勇[3](2019)在《基于可视块的多记录型复杂网页信息提取算法》一文中研究指出网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。(本文来源于《计算机科学》期刊2019年10期)
商杰,王晓明,盖磊,许朝阳,李健[4](2019)在《基于网页提取与分析的IRIS台站元数据自动同步技术》一文中研究指出基于网页提取与分析技术,开发IRIS台站元数据抓取程序,设计并建立禁核试核查北京国家数据中心(NDC)的IRIS台站元数据库,实现IRIS台站元数据从IRIS向NDC的定期自动同步。作为NDC运行的基础支撑数据库之一,该数据库为NDC开展辅助性地震监测数据的自动台站筛选和数据申请奠定了技术基础。(本文来源于《地震地磁观测与研究》期刊2019年02期)
洪鸿辉,丁世涛,黄傲,郭致远[5](2019)在《基于文本及符号密度的网页正文提取方法》一文中研究指出大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还可以保留原始结构。通过与现有的一些算法对比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。(本文来源于《电子设计工程》期刊2019年08期)
杜中波,刘新,宋婷婷,梁冰,周新宇[6](2019)在《地名地址基因的网页文本地名地址提取算法》一文中研究指出针对网页文本蕴含着丰富的地名地址空间信息,但因其描述的随机性、多样性,导致信息很难被快速、准确地识别出来的问题。该文在分析网页文本中地名地址组成特点的基础上,考虑地名地址的事件属性,提出了一种基于"地名地址基因"的信息提取方法,依据事件相关度、地名地址的字符长度等提取因子建立提取规则树获取目标地名地址。实际数据测试表明该方法在地名地址提取上更具针对性,提高了效率和准确率。(本文来源于《测绘科学》期刊2019年04期)
郭培铭[7](2019)在《基于文献特征提取网页信息的算法研究》一文中研究指出网页信息提取是计算机技术中重要的一项技术,在许多领域中得到应用,在图书馆领域尚未得到广泛的应用。通过以文献外在特征信息各自的特点为判断依据,对文献信息在网页中的自动提取进行算法实现,获得良好的结果。(本文来源于《现代计算机(专业版)》期刊2019年02期)
洪鸿辉[8](2019)在《基于IQABC改进的DBSCAN网页正文提取算法研究》一文中研究指出随着信息技术的发展,每天会都产生数以万计的网页信息。这些网页除了提供有价值的正文内容信息外,还会附带广告或链接等无用信息。一方面,这些垃圾信息会干扰用户获取有效信息的效率,影响阅读体验;另一方面,垃圾信息中包含的无用文字可能会被搜索引擎作为索引关键字,导致搜索引擎得出错误结论,给用户错误反馈。基于DOM树解析-模板方式是当下流行的网页正文提取算法,能够很好完成分类任务。由于网站的网页结构经常性改变,其需要不断监测网页结构,后期的维护带来了很大困难。本文通过研究网页结构,提出了基于IQABC(improved quickly artificial bee colony)改进的DBSCAN网页正文提取算法。本文主要工作与成果如下:(1)本文提出了一种全新的ABC算法,称为改进的快速ABC算法(IQABC),通过改进轮盘赌选择机制,在保持种群多样性的同时避免陷入局部最优,并且通过自适应步长改变了雇佣蜂消耗最佳食物来源,平衡了全局与局部的搜索能力,加快了后期的收敛速度。通过改进后的IQABC算法寻找的全局最优参数,作为DBSCAN算法的输入得到了优化后的IQABC-DBSCAN算法。(2)通过研究现有的主流网页正文提取算法的思想,指出了现有的主流算法通用性不足的缺点,提出了基于iqABC-DBSCAN网页正文提取算法。通过实验验证了iqABC算法相对于ABC和qABC算法有更快的收敛速度以及更好的收敛精度。并验证了使用基于iqABC-DBSCAN对网页进行正文内容提取的算法可以更加准确的提取出网页的正文内容,并且通过虚词过滤器可以解决单个网页多个正文的特殊情况,从而取得很好的提取效果。(本文来源于《武汉邮电科学研究院》期刊2019-01-01)
李桐宇,任锐,蔡鸿明,姜丽红[9](2018)在《基于文本对象模型的自动化网页内容提取方法》一文中研究指出网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降.(本文来源于《上海交通大学学报》期刊2018年10期)
梁东,杨永全,魏志强[10](2018)在《基于支持向量机的网页正文内容提取方法》一文中研究指出针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音信息的HTML标签。第2步选择含噪音信息的HTML标签的5个重要特征,并采用SVM训练样本数据。SVM训练得出的数据模型可以有效去除导航、推广、版权等噪音信息,成功保留正文。将该方法应用于几大常用的网站,实验结果表明该方法具有较好的正文抽取效果和降噪效果,对于传统方法中经常误删的短文本、与正文相关的超链接等信息能够准确保留。(本文来源于《计算机与现代化》期刊2018年09期)
网页提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网页提取论文参考文献
[1].崔彦青.动态分块网页主题信息准确自动提取仿真[J].计算机仿真.2019
[2].周艳平,李金鹏,宋群豹.一种基于SVM及文本密度特征的网页信息提取方法[J].计算机应用与软件.2019
[3].王卫红,梁朝凯,闵勇.基于可视块的多记录型复杂网页信息提取算法[J].计算机科学.2019
[4].商杰,王晓明,盖磊,许朝阳,李健.基于网页提取与分析的IRIS台站元数据自动同步技术[J].地震地磁观测与研究.2019
[5].洪鸿辉,丁世涛,黄傲,郭致远.基于文本及符号密度的网页正文提取方法[J].电子设计工程.2019
[6].杜中波,刘新,宋婷婷,梁冰,周新宇.地名地址基因的网页文本地名地址提取算法[J].测绘科学.2019
[7].郭培铭.基于文献特征提取网页信息的算法研究[J].现代计算机(专业版).2019
[8].洪鸿辉.基于IQABC改进的DBSCAN网页正文提取算法研究[D].武汉邮电科学研究院.2019
[9].李桐宇,任锐,蔡鸿明,姜丽红.基于文本对象模型的自动化网页内容提取方法[J].上海交通大学学报.2018
[10].梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化.2018