中文网页论文-何春辉,王孟然

中文网页论文-何春辉,王孟然

导读:本文包含了中文网页论文开题报告文献综述及选题提纲参考文献,主要关键词:行块分布,自动抽取,快速定位,最长公共子序列

中文网页论文文献综述

何春辉,王孟然[1](2018)在《改进的中文静态网页新闻正文自动抽取算法》一文中研究指出网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。该方法给出了较好的行块分割策略来构建行块分布函数,并提出使用最长公共子序列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则。最后在1 000个新闻网页上对算法的性能进行了实验验证,得出新算法的平均抽取准确率为95. 0%,平均召回率为96. 54%,正文平均遗失率为1. 6%,抽取单个网页的平均耗时为0. 13 s。实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽取任务。(本文来源于《东莞理工学院学报》期刊2018年05期)

黄超[2](2018)在《基于Weka平台的改进KNN中文网页分类研究》一文中研究指出网页是信息传递的最重要的媒介之一,而网页信息的主要呈现形式是文本信息,集社交、娱乐、新闻、知识等重要功能。目前,网页数量的增长正以超乎人们想象的速度在发展,传统的人工分类方法已不切实际,而且,由于网页数量的爆炸性增长,大量无关的噪音网页充斥在其中,人们越来越难以快速有效的找到自己所需的信息。因此,合理有效的组织管理网页信息成为了一个重要的研究课题。中文网页分类就是基于这样的目的,利用文本分类的相关技术,对网页进行分类,使得用户在检索网页的时候能有针对性,也方便门户网站对网页进行归类。本文在对中文网页分类的整个流程做了相关研究与分析的基础上,选取KNN作为网页文本分类器。KNN算法是一种简洁有效的非参数分类方法,被广泛应用于文本分类实验中。针对文本分类所遇到的高维文本问题,提出了DC-DF特征提取方式,用以对特征项进行有效约减,降低文本维度,提高分类精度。在对KNN算法的优缺点进行相关的研究与分析的基础上,针对分类时待分类文本需要和训练集大量样本进行相似度计算的问题,提出了一种基于分组中心向量的KNN算法。对类别内的样本集分组求出各组中心向量,用所构成的中心向量集重新代表训练库进行相似度的计算,降低计算复杂度,以此来提升算法的分类性能。通过实验表明,改进的算法在准确率、召回率及F值相较传统KNN算法都有提升,在与其他分类算法相比也具有一定的优越性。(本文来源于《上海师范大学》期刊2018-04-01)

李岩,徐硕,吴广印,干生洪[3](2017)在《一种采用SpotSigs算法的中文新闻网页相似性检测方法》一文中研究指出互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响。以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能。(本文来源于《情报工程》期刊2017年03期)

王升翔,汪超亮,杨维新,李传荣[4](2017)在《基于分层树模型的中文网页主题时间提取方法》一文中研究指出新闻主题事件时间表征了新闻事件的时间特征,在新闻信息检索和挖掘中具有极其重要的作用。针对目前新闻主题事件时间提取算法准确率较低的问题,通过动态确定隐式时间表达式的参考时间的方法来解析不同形式的隐式时间表达式,提出了利用分层树模型来构建时间信息内在的联系,在此基础上结合统计和位置方法完成主题事件时间的提取。实验结果表明,该方法大幅度提高了新闻主题事件时间提取准确率。(本文来源于《计算机应用》期刊2017年S1期)

鞠亮[5](2017)在《基于关键词自学习的中文网页分类技术研究与实现》一文中研究指出近几年来,为了满足人们对知识信息的需求,我国有超过450万家网站为网民提供涉及各个知识信息领域的网页。正是由于网站数量繁多,网页内容和形式变得参差不齐。为了能够将大规模中文网页高效的进行类别区分,盲目的将外文网页分类技术不加改进的应用于此,这是不可取的行为。而国内传统的基于机器学习的中文网页分类技术的发展又无法紧跟互联网复杂环境的变化,分类效率和准确率偏低是现阶段的棘手问题。本次研究针对于大规模中文网页分类技术,研究如何运用多种技术从网页源码中提取文本信息、结构信息和网页内链接信息,构建网页特征模型-关键词模型,并将此模型作为基于自学习的卷积神经网络-支持向量机分类算法的输入,最终获得网页分类结果。本文的主要内容包括:(1)网页信息提取方法的改进和与将网页表征为符合分类器输入要求的关键词特征模型。通过对网页源码进行分析,获得网页布局信息,把网页按信息量多少划分为主次要信息块,提取主要信息块中的文本信息、超链接和网页标签属性。对文本信息进行中文分词,获得文本关键词;将其余网页信息转换成符合关键词模型的形式,与文本关键词一起构建叁维网页关键词特征模型,实现网页信息提取和表征技术的改进。(2)基于自学习的网页分类算法的改进。研究一种卷积神经网络算法在中文网页分类任务中的应用方案。卷积神经网络能够自学习网页深层特征信息,利用局部感知野,对网页特征的感知从局部到整体,在更高层获得网页整体特征信息;权值共享的特性又可以减少神经网络的复杂性。卷积神经网络与支持向量机级联,有效降低支持向量机的输入维度,并提高了分类准确度。在训练参数的过程中,首先训练传统的卷积神经网络,将其部分训练参数迁移至新的级联模型中,再整合训练级联模型,这种做法提高了训练周期与消耗的计算资源。(3)基于特征增广的次级通道实现。针对某些网页提取的特征维度过于稀疏,影响分类效果的情况,研究对这类网页进行特征项增广的技术。提取网页内链接,进行链接匹配后二次访问,对二次网页提取重要信息以扩充原始网页特征项;获取网页标题的关键词,进行二次搜索,提取相似标题网页大权值信息块,增广原始网页关键词模型。以次级通道的形式封装数据增广技术,添加至分类流程结构中。(4)系统实现与性能测试。基于以上网页关键词特征模型构建和基于自学的网页分类算法研究,实现了基于关键词自学习的中文网页分类系统。对网页关键词特征模型、基于自学习的卷积神经网络-支持向量机级联分类算法和次级通道增广技术进行了性能测试。实验结果表明,以上提出的改进方法有效提升了分类性能,能够更好地针对大规模的中文网页分类场景。(本文来源于《武汉理工大学》期刊2017-03-01)

吕青松,曹书林,王一帆,尹乾,郑新[6](2016)在《面向中文搜索引擎的网页结构化信息获取系统的设计与实现》一文中研究指出搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实现。该系统由网页抓取、网页信息提取、敏感词过滤叁部分组成,最后可获得结构化的网页有效信息。其中,网页抓取采用宽度优先搜索的策略;网页信息提取部分采用基于标签的文本提取方法;敏感词过滤部分针对中文特点提出了一种过滤算法,该算法在模式串长度较短的情况下平均复杂度为O(n)。实践证明,该系统与Lucene等检索系统结合即可提供中文搜索引擎服务。(本文来源于《信息与电脑(理论版)》期刊2016年23期)

张俊玲,耿光刚,延志伟,李晓东[7](2017)在《基于网页信息和分词的中文机构名全称和简称提取方法》一文中研究指出搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1 287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明该方法效果良好。(本文来源于《计算机应用研究》期刊2017年04期)

李鸿[8](2016)在《“学在独墅湖”官方中文网页翻译报告》一文中研究指出本论文是一篇关于网页翻译中译英的翻译报告,其中所描述的网页是笔者为“学在独墅湖”教育品牌翻译的官方中文网页。网页描述的是“学在独墅湖”通过搭建中外交流桥梁,辐射区域国际氛围,以及通过融合独墅湖科教创新区世界名校资源专注文化交流和教育分享时举行的相关活动和建立的项目。本论文分析了原文语篇特征,并针对这些特征提出了相对应的翻译策略和方法。本文主要分为五章:第一章主要是文本介绍,对文本来源和整个报告的翻译过程做了简单的描述;第二章是译前的准备过程,主要介绍了准备过程中必要的文本分析,有用的翻译工具以及相关研究;第叁章是具体的案例分析,针对网页的具体特征,结合案例,进行分析并提供具体的翻译策略。文本用词及句式上,笔者充分利用了网络资源以及平行文本;文学形式上,笔者采用了改写和省略的方法;文化上,考虑到译文受众的接受程度,适当的增译则是笔者采用的主要方式。第四章是译后审校,审校是对译文进一步完善的良好方式,这一章主要是笔者在翻译之后对译文的审校以及译文递交给委托方后相关负责人给出的指导意见。第五章是总结部分,对笔者的研究成果进行总结,对翻译过程进行反思。本报告借鉴和参考中外学者关于网页翻译的应用和翻译策略相关研究理论成果,基于自己的翻译实践,探讨提升网页翻译质量的有效途径,以期为译界同行网页翻译文件所涉及的难题提供参考。(本文来源于《东南大学》期刊2016-06-02)

王晓艳,王珍珍[9](2015)在《基于查询日志分析的中文网页关键词抽取方法》一文中研究指出以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。(本文来源于《广西师范大学学报(自然科学版)》期刊2015年02期)

张可欣[10](2015)在《一品堂公司中文网页的翻译报告》一文中研究指出随着中国经济的飞速发展,全球化进程的加速推进,许多国家希望与中国公司发展贸易合作。此时,中国企业抓住机遇进驻国外市场,建立了自己的英文网站,其中“一品堂品牌投资机构”就是具有代表性的企业。该公司以商业发展探索为基础,致力于投资、孵化和运营连锁。随着公司业务的发展,一品堂公司需要建立自己的英文网站,拓展海外业务。译者依据硕士研究生期间的专业技能及自身知识积累,为一品堂公司翻译中文网页。翻译报告以德国功能主义学派的目的论为理论基础,分五章介绍此次翻译实践。第一章介绍了任务描述,包括任务背景介绍和文本分析;第二章介绍了翻译过程,详细说明了翻译计划、译前准备和译后管理;第叁章是在目的论指导下,以部分翻译案例为落脚点,重点分析了在翻译过程中译者是如何运用目的论的叁原则为译文选择不同翻译策略。这叁条原则包括:目的原则、连贯原则和忠实原则。第四章对整个翻译报告进行总结,指出翻译中的不足,分享翻译此类文本的经验。译者希望本篇翻译报告能给其他译者在翻译此类资料时提供一定的帮助或启发。(本文来源于《电子科技大学》期刊2015-04-22)

中文网页论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

网页是信息传递的最重要的媒介之一,而网页信息的主要呈现形式是文本信息,集社交、娱乐、新闻、知识等重要功能。目前,网页数量的增长正以超乎人们想象的速度在发展,传统的人工分类方法已不切实际,而且,由于网页数量的爆炸性增长,大量无关的噪音网页充斥在其中,人们越来越难以快速有效的找到自己所需的信息。因此,合理有效的组织管理网页信息成为了一个重要的研究课题。中文网页分类就是基于这样的目的,利用文本分类的相关技术,对网页进行分类,使得用户在检索网页的时候能有针对性,也方便门户网站对网页进行归类。本文在对中文网页分类的整个流程做了相关研究与分析的基础上,选取KNN作为网页文本分类器。KNN算法是一种简洁有效的非参数分类方法,被广泛应用于文本分类实验中。针对文本分类所遇到的高维文本问题,提出了DC-DF特征提取方式,用以对特征项进行有效约减,降低文本维度,提高分类精度。在对KNN算法的优缺点进行相关的研究与分析的基础上,针对分类时待分类文本需要和训练集大量样本进行相似度计算的问题,提出了一种基于分组中心向量的KNN算法。对类别内的样本集分组求出各组中心向量,用所构成的中心向量集重新代表训练库进行相似度的计算,降低计算复杂度,以此来提升算法的分类性能。通过实验表明,改进的算法在准确率、召回率及F值相较传统KNN算法都有提升,在与其他分类算法相比也具有一定的优越性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文网页论文参考文献

[1].何春辉,王孟然.改进的中文静态网页新闻正文自动抽取算法[J].东莞理工学院学报.2018

[2].黄超.基于Weka平台的改进KNN中文网页分类研究[D].上海师范大学.2018

[3].李岩,徐硕,吴广印,干生洪.一种采用SpotSigs算法的中文新闻网页相似性检测方法[J].情报工程.2017

[4].王升翔,汪超亮,杨维新,李传荣.基于分层树模型的中文网页主题时间提取方法[J].计算机应用.2017

[5].鞠亮.基于关键词自学习的中文网页分类技术研究与实现[D].武汉理工大学.2017

[6].吕青松,曹书林,王一帆,尹乾,郑新.面向中文搜索引擎的网页结构化信息获取系统的设计与实现[J].信息与电脑(理论版).2016

[7].张俊玲,耿光刚,延志伟,李晓东.基于网页信息和分词的中文机构名全称和简称提取方法[J].计算机应用研究.2017

[8].李鸿.“学在独墅湖”官方中文网页翻译报告[D].东南大学.2016

[9].王晓艳,王珍珍.基于查询日志分析的中文网页关键词抽取方法[J].广西师范大学学报(自然科学版).2015

[10].张可欣.一品堂公司中文网页的翻译报告[D].电子科技大学.2015

标签:;  ;  ;  ;  

中文网页论文-何春辉,王孟然
下载Doc文档

猜你喜欢