导读:本文包含了正文提取论文开题报告文献综述及选题提纲参考文献,主要关键词:支持向量机,特征向量,重心半径,网页
正文提取论文文献综述
易国洪,代瑜,冯智莉,黎慧源[1](2019)在《基于SVM与DOM重心半径模型的Web正文提取》一文中研究指出为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。(本文来源于《计算机工程》期刊2019年06期)
洪鸿辉,丁世涛,黄傲,郭致远[2](2019)在《基于文本及符号密度的网页正文提取方法》一文中研究指出大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还可以保留原始结构。通过与现有的一些算法对比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。(本文来源于《电子设计工程》期刊2019年08期)
洪鸿辉[3](2019)在《基于IQABC改进的DBSCAN网页正文提取算法研究》一文中研究指出随着信息技术的发展,每天会都产生数以万计的网页信息。这些网页除了提供有价值的正文内容信息外,还会附带广告或链接等无用信息。一方面,这些垃圾信息会干扰用户获取有效信息的效率,影响阅读体验;另一方面,垃圾信息中包含的无用文字可能会被搜索引擎作为索引关键字,导致搜索引擎得出错误结论,给用户错误反馈。基于DOM树解析-模板方式是当下流行的网页正文提取算法,能够很好完成分类任务。由于网站的网页结构经常性改变,其需要不断监测网页结构,后期的维护带来了很大困难。本文通过研究网页结构,提出了基于IQABC(improved quickly artificial bee colony)改进的DBSCAN网页正文提取算法。本文主要工作与成果如下:(1)本文提出了一种全新的ABC算法,称为改进的快速ABC算法(IQABC),通过改进轮盘赌选择机制,在保持种群多样性的同时避免陷入局部最优,并且通过自适应步长改变了雇佣蜂消耗最佳食物来源,平衡了全局与局部的搜索能力,加快了后期的收敛速度。通过改进后的IQABC算法寻找的全局最优参数,作为DBSCAN算法的输入得到了优化后的IQABC-DBSCAN算法。(2)通过研究现有的主流网页正文提取算法的思想,指出了现有的主流算法通用性不足的缺点,提出了基于iqABC-DBSCAN网页正文提取算法。通过实验验证了iqABC算法相对于ABC和qABC算法有更快的收敛速度以及更好的收敛精度。并验证了使用基于iqABC-DBSCAN对网页进行正文内容提取的算法可以更加准确的提取出网页的正文内容,并且通过虚词过滤器可以解决单个网页多个正文的特殊情况,从而取得很好的提取效果。(本文来源于《武汉邮电科学研究院》期刊2019-01-01)
代瑜[4](2018)在《基于SVM与LDA的WEB正文提取》一文中研究指出随着大数据时代的到来,我们进入了一个海量信息的时代。通过Internet获得新闻已经成为了一个必要的途径,而面对海量的新闻内容,从其中提取出用户感兴趣的正文信息已经成为了用户需要与研究热点,同时web正文的自动提取也是其他应用的基础,如舆情采集与分析,新闻采集与个性化推荐,新闻热点挖掘等。WEB正文自动抽取的难点主要在于网页结构的复杂性和动态性,同时具有相关主题的的短文本却不一定是正文的内容,例如网页推荐链接,所以本文提出的自动抽取算法是基于网页的结构和文本语义的相似度。从海量网页中自动提取其正文内容是web数据挖掘与自然语言处理的重要基础。本文提出了标签隐语义模型,使用该模型可以得到DOM树节点的特征向量表示,并且在这种特征表示的方法下提出了一种基于SVM与LDA的WEB正文抽取算法,该算法保证提取出来的正文具有视觉上的连续性与语义上的一致性,该算法首先主要通过提取DOM节点及其周边节点特征表示,并且通过SVD分解来实现特征压缩并且本文也借助深度自编码器来可视化这种特征表示。实验数据表明该方法具有较高准确率和高效性以及良好泛化能力,文本还对比各种常用分类器在同样数据与特征表示的条件下的结果对比,发现SVM具有更高的准确率,同时文本还会介绍我们所提出的基于SVM与DOM树重心半径模型的web正文抽取算法与基于标签隐语义模型的web页面自动分割算法,本文主要研究内容包括以下几个方面:(1)分析了各种基于规则的web正文抽取的算法与基于机器学习的正文抽取算法。(2)介绍与分析了相关的常用的机器学习分类模型及深度神经网络模型。(3)重点介绍本文所提出的标签隐语义模型。(4)详细介绍了基于SVM与LDA的web正文抽取算法,并且给出了相关的实验结构的对比及该模型提升的可能性,最后给出了相应的具体结构设计与实现。(5)详细介绍了基于SVM与DOM树重心半径模型的web正文抽取算法并出了相应的具体原理与实现。(6)详细介绍了基于标签隐语义的web页面自动分割算法并出了相应的具体原理与实现。(本文来源于《武汉工程大学》期刊2018-10-08)
梁东,杨永全,魏志强[5](2018)在《基于支持向量机的网页正文内容提取方法》一文中研究指出针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音信息的HTML标签。第2步选择含噪音信息的HTML标签的5个重要特征,并采用SVM训练样本数据。SVM训练得出的数据模型可以有效去除导航、推广、版权等噪音信息,成功保留正文。将该方法应用于几大常用的网站,实验结果表明该方法具有较好的正文抽取效果和降噪效果,对于传统方法中经常误删的短文本、与正文相关的超链接等信息能够准确保留。(本文来源于《计算机与现代化》期刊2018年09期)
曹宇逢[6](2018)在《网页正文提取方法在舆情监控中的应用探究》一文中研究指出本文分析了网络文档内容页面分块的提取方法,同时引入了一个层次化关键数据挖掘思想,自顶向下将网页进行划分,这样就可以划分为多个物理模块,从简单的分块操作中获取一个准确的分块决策方法,进而进一步提高分块数据挖掘的准确度。(本文来源于《数字技术与应用》期刊2018年09期)
赵光亮,令狐雨薇,朱德孙,赵顺艳,杨陶[7](2018)在《基于Python的通用论坛正文提取研究》一文中研究指出该文主要探讨BBS类论坛网页的文本数据的爬取与分析。首先,对该类论坛网页的HTML结构进行研究分析。在该类在论坛类网页中,文本数据主要包含链接页面中的全部主贴、全部回帖。其次,结合正则表达式、网络文本挖掘、Python工具、HTML等工具构建该类型论坛网页文本数据的抓取算法。为了便于用户阅读文本,还需要构建整理、清洗网页文本数据的算法,将抓取的网页文本数据整理为主题和回帖对应的json终极数据格局。(本文来源于《电脑知识与技术》期刊2018年24期)
王海涌,冯兆旭,杨海波,张津栋[8](2018)在《基于结构相似网页聚类的正文提取算法研究》一文中研究指出针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各"块"对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。(本文来源于《计算机工程与应用》期刊2018年11期)
陈婷婷,严华,臧军[9](2018)在《基于改进内容分析算法的网页正文提取》一文中研究指出针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过滤文本特性较强的网页噪音;重新定义剪枝范围,避免剪枝过度,使Readability算法的正文内部信息丢失问题得到较好地的改善。对国内各大博客、新闻、科普、专业类网站进行正文提取实验,实验结果表明,该算法结果优于Readability算法,正文提取准确率达到95%以上。(本文来源于《计算机工程与设计》期刊2018年04期)
马凯凯,钱亚赫,阮东跃[10](2018)在《基于文本频率页面分割算法对论坛正文提取》一文中研究指出如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。(本文来源于《中国水运(下半月)》期刊2018年02期)
正文提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还可以保留原始结构。通过与现有的一些算法对比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
正文提取论文参考文献
[1].易国洪,代瑜,冯智莉,黎慧源.基于SVM与DOM重心半径模型的Web正文提取[J].计算机工程.2019
[2].洪鸿辉,丁世涛,黄傲,郭致远.基于文本及符号密度的网页正文提取方法[J].电子设计工程.2019
[3].洪鸿辉.基于IQABC改进的DBSCAN网页正文提取算法研究[D].武汉邮电科学研究院.2019
[4].代瑜.基于SVM与LDA的WEB正文提取[D].武汉工程大学.2018
[5].梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化.2018
[6].曹宇逢.网页正文提取方法在舆情监控中的应用探究[J].数字技术与应用.2018
[7].赵光亮,令狐雨薇,朱德孙,赵顺艳,杨陶.基于Python的通用论坛正文提取研究[J].电脑知识与技术.2018
[8].王海涌,冯兆旭,杨海波,张津栋.基于结构相似网页聚类的正文提取算法研究[J].计算机工程与应用.2018
[9].陈婷婷,严华,臧军.基于改进内容分析算法的网页正文提取[J].计算机工程与设计.2018
[10].马凯凯,钱亚赫,阮东跃.基于文本频率页面分割算法对论坛正文提取[J].中国水运(下半月).2018