导读:本文包含了页面清洗论文开题报告文献综述及选题提纲参考文献,主要关键词:HTML页面清洗,HTML页面压缩,预处理,信息抽取
页面清洗论文文献综述
任仲晟[1](2009)在《一种新的HTML页面清洗压缩算法》一文中研究指出本文提出了一种新的适用于Web信息抽取的HTML页面清洗压缩算法。该算法充分利用了HTML页面树中各标签的相对位置信息。实验表明,该算法能够有效地处理页面中的语法错误,并实现对页面冗余数据的压缩,具有良好的实用价值和应用前景。(本文来源于《福建电脑》期刊2009年01期)
付艳,杨冬青,唐世渭,王腾蛟,高军[2](2008)在《基于XPath的Web页面自动清洗算法》一文中研究指出针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法.算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识别并消除更多相似页面中的噪声内容.实验结果证明了该清洗方法的有效性及准确性.(本文来源于《第二十五届中国数据库学术会议论文集(二)》期刊2008-10-24)
周源远,王继成,郑刚,张福炎[3](2002)在《Web页面清洗技术的研究与实现》一文中研究指出文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估。实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性。(本文来源于《计算机工程》期刊2002年09期)
页面清洗论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法.算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识别并消除更多相似页面中的噪声内容.实验结果证明了该清洗方法的有效性及准确性.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
页面清洗论文参考文献
[1].任仲晟.一种新的HTML页面清洗压缩算法[J].福建电脑.2009
[2].付艳,杨冬青,唐世渭,王腾蛟,高军.基于XPath的Web页面自动清洗算法[C].第二十五届中国数据库学术会议论文集(二).2008
[3].周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程.2002