内容特征抽取论文-吴共庆,胡骏,李莉,徐喆昊,刘鹏程

内容特征抽取论文-吴共庆,胡骏,李莉,徐喆昊,刘鹏程

导读:本文包含了内容特征抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:内容抽取,Web新闻,标签路径特征,组合特征选择

内容特征抽取论文文献综述

吴共庆,胡骏,李莉,徐喆昊,刘鹏程[1](2016)在《基于标签路径特征融合的在线Web新闻内容抽取》一文中研究指出精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.(本文来源于《软件学报》期刊2016年03期)

徐震[2](2016)在《网络舆情内容分析中的Web文本语义特征抽取研究》一文中研究指出网络舆情内容分析的重点是Web文本的内容处理,而抽取Web文本特征是内容处理的基础。首先利用N-Gram算法进行特征项选择并计算权重,然后利用网络舆情领域本体对原始特征进行抽取转换,得到Web文本的语义特征,利用语义特征向量来表征Web文本,将Web文本的相似度转换为基于领域本体的语义特征相似度,提高了网络舆情内容分析的准确度。实验结果表明该方法达到了理想效果。(本文来源于《图书馆学研究》期刊2016年01期)

李莉[3](2014)在《基于标签路径特征系的Web新闻内容抽取方法研究》一文中研究指出Internet技术的发展、移动设备的普及以及微博、微信等应用的兴起促进了网民对Web新闻的接触度,碎片化时间阅读Web新闻已经成为了Web用户的主要活动之一。然而,Web新闻网页中除了主要内容外,还包含着大量与网页主题无关的“噪音”信息。这些噪音信息增大了Web新闻聚合、Web信息检索等应用的计算量和存储量,降低了Web服务的质量,同时也影响了手机等移动终端设备浏览网页的体验效果。因此,Web新闻内容抽取具有重要的研究意义和应用价值。为了解决面向开放式环境下的Web新闻内容的精确抽取问题,观察和分析了大量的Web新闻网页实例,发现Web新闻网页的内容分布与其对应的解析树中标签路径有着潜在的关联。基于以上发现,本文探索了基于标签路径特征的Web新闻内容抽取问题,并开展了以下研究:(1)根据Web新闻网页的内容分布与标签路径之间的潜在联系和Web新闻网页内容的文本信息,设计一种文本标签路径特征:文本标签路径比特征。通过深入分析文本标签路径比特征的不足和新闻内容的文本特征,对文本标签路径比特征进行了扩展;设计一种基于标签路径编辑距离的高斯平滑方法,有效地解决新闻内容中内链等短文本的精确抽取问题。在CleanEval等数据集上的抽取结果验证了CEPR方法是一种无监督的、通用的、高效的Web新闻内容抽取方法。(2)为提高标签路径特征的多样性,从不同的角度观察和分析新闻内容与标签路径特征之间的联系,设计了一个标签路径特征系,并分析和验证了每个标签路径特征的优缺点;为了将多个标签路径特征有机的融合为一个最终的决策特征,设计了一个基于DS证据理论的标签路径特征融合方法。大量真实Web网页数据集上的实验结果表明基于融合特征的Web新闻内容抽取方法CEPC的抽取性能优于基于任一标签路径特征的抽取性能,且其平均抽取性能优于CEPR方法。(3)为解决在抽取某一特定Web新闻网页时,标签路径特征系中存在的特征冗余问题,研究了一种基于Pearson相关系数的特征相关性度量方法,并根据该方法设计了一种组合特征选择策略。验结果表明:基于组合特征选择的Web新闻内容抽取方法CEPF的平均抽取性能可达到92.75%,优于CEPC、CEPR等其它抽取算法。(4)设计并实现了一个基于标签路径特征系的Web新闻内容抽取系统,系统集成了以上的抽取方法,介绍了系统的组成、实现以及系统的用户界面。(本文来源于《合肥工业大学》期刊2014-04-01)

吴共庆[4](2012)在《基于标签路径特征的Web新闻内容抽取研究》一文中研究指出Web新闻内容抽取是Web智能信息处理过程中的一个非常重要的步骤,是情报获取与安全、网络舆情监测、移动终端个性化推荐服务、异构Web数据集成、信息检索、搜索引擎等研究与应用的基础。因此,面向Web新闻内容抽取领域中的相关问题开展研究,具有重要的研究和应用价值。实例分析和进一步研究发现,许多新闻网站具有类似的布局结构和风格,网页内容布局与其解析树的标签路径之间存在隐含的关联性。传统的路径表达式过于刚性,在Web信息抽取过程中难以适应HTML文档结构的细微变化,影响信息抽取的准确率;此外,Web新闻网页具有海量异构的特点,对手工构造包装器技术以及基于规则学习的包装器技术的通用性提出了挑战。为此,本文开展基于标签路径特征的Web新闻内容抽取研究,研究内容涉及两方面:面向特定网站,研究基于路径模式知识的高精度Web新闻内容抽取模型和方法;面向开放环境,研究基于标签路径特征的通用Web新闻内容抽取模型和方法。主要研究内容如下:(1)在研究网页内容布局与其解析树的路径模式之间存在隐含关联性的基础上,提出了一种新颖的Web信息抽取系统模型—基于区分路径模式的Web新闻内容抽取模型PP-WNE。在此基础上,定义了一种特殊的适用于Web新闻内容抽取的路径模式—区分路径模式,并提出一种区分路径模式挖掘方法,解决了抽取模式知识库的构建问题。以中文、英文网站上随机选取的网页为实验数据集,实验结果表明,通过采用合理设置的容噪阈值,基于路径模式挖掘的新闻网页内容抽取方法的F值可达到98%以上,同时也验证了路径模式应用于Web新闻内容信息抽取领域的可行性和有效性。(2)为解决基于路径模式的Web信息抽取模型PP-WNE中知识库规模的优化问题,提出区分路径模式覆盖问题,并证明了区分路径模式覆盖问题是一个NP-complete问题。为求解区分路径模式覆盖问题的近似最优解,定义了一种特殊的区分路径模式—极小区分路径模式,在此基础上,设计了一个求解区分路径模式覆盖问题的多项式时间(in|n|+1)近似算法MPM,其中,n为训练样本中正例的规模。在测试数据集上的实验结果表明,MPM算法可有效优化区分路径模式集,并且在节点级评估标准和文本级评估标准下均可达到98%以上的抽取精度、召回率和F值。(3)面向开放环境Web新闻内容抽取的需求,设计了一种文本标签路径比特征,描述了基于网页解析树节点遍历的文本标签路径比计算过程,提出基于文本标签路径直方图区分内容和非内容的阈值方法CEPR,有效地解决了在线Web新闻内容抽取的问题;提出了基于路径编辑距离的加权高斯平滑方法,有效地提高了CEPR算法在抽取短文本方面的能力,并解决了新闻内容中非新闻内容过滤的问题。CEPR是一种快速的、通用的、无需训练的网页内容抽取算法,可抽取多种来源、多种风格、多种语言的Web信息网页。在CleanEval测试数据集上的实验结果表明,大多数情况下,CEPR方法优于CETR等抽取方法。(4)设计并实现了一个HTML新闻网页过滤与总结系统NFaS。其中,提出并实现了一种基于URL特征、网页结构特征、内容属性特征相结合的Web新闻网页自动识别方法,有效地解决了Web新闻网页自动识别问题;采用Web新闻内容抽取技术,有效地解决了Web新闻网页过滤问题;采用一种基于词语语义联系的关键词抽取方法,通过词汇链构造词语语义联系图,抽取出高质量的关键词,完成Web新闻的总结任务。在测试数据集上的评估结果验证了NFaS系统的有效性。(本文来源于《合肥工业大学》期刊2012-08-01)

颉嘉[5](2011)在《文档内容抽取与特征选择技术的研究与实现》一文中研究指出随着越来越多的信息以电子文档的形态存在,文本处理相关软件也日益增多。在文本处理领域,传统单一格式文档处理系统在扩展性和通用性方面已经不能满足需求。对于文本特征的选择,现有技术主要是从词的频率和词的语义信息两个方面进行处理,忽略了词在源文档中的重要程度。本文针对以上问题,以军事领域文档处理为背景,为多格式文档定义了一种统一的半结构化文本模型,有效地保留了词在源文档中的语义结构信息。在此基础上研究了HTML、XML、PDF和WORD文档的内容抽取和特征选择技术。在HTML正文抽取中,改进了基于DOM树的网页正文抽取算法。此外,针对现有文本特征选择算法存在的问题,提出了一种基于信息增益和内容属性的特征选择算法,有效地降低了特征维度,使得所选出的特征集合具有更强的区别度。在对内容抽取和特征选择技术研究的基础上,设计并实现了多格式文档抽取系统。最后,通过实验验证了改进后的HTML正文抽取算法以及基于信息增益和内容属性的特征选择算法的高效性,同时对多格式文档抽取系统进行了功能测试,实验证明系统达到了设计要求。(本文来源于《西安电子科技大学》期刊2011-01-01)

刘星星[6](2009)在《热点事件发现及事件内容特征自动抽取研究》一文中研究指出随着互联网这一新媒体的出现,我们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的时代。但是在目前信息爆炸的情况下,网络信息呈现出以下两个显着特点:(1)规模急剧膨胀;(2)结构凌乱无序。这些使得发现和管理所需的信息变得越来越困难,因此一种能快速从网络上获取所需信息的工具,成为了人们的迫切需求。目前,搜索引擎能在一定程度上满足人们对于信息快速获取的需求,但其一般采用关键字匹配来查找信息,这种方法返回的信息冗余度很高,只要信息中含有指定的关键词就被作为结果返回了,因此必定导致结果中包含有很多不相关的信息。并且,它对结果中的信息只是简单罗列,而没有进行有效的组织,人们对某些新闻事件难以做到全面把握。另外,每年一些权威的网络媒体机构也会发布当年某些领域的热点事件排行榜,但其通常都是由人工投票筛选得到的,其结果的客观性和实时性都有很大的局限。本文设计了一个热点事件发现及表示模型,并实现了实验系统,试图在一定程度上去缓解这些问题。该系统面向互联网新闻报道流,自动去发现用户选择的任意一段时间内网络上的热点事件,并抽取热点事件的内容特征,从不同层面将事件的信息全面呈现给用户。因此,本文从以下几个方面展开了相关研究:第一,设计了一种基于两层聚类的事件发现算法。由于系统处理的是大规模的网络数据流,为了降低系统的复杂度,提高事件发现的实时性和精确性,系统对每天的语料作第一层聚类,得到微类,然后选取用户选定的任意一段时间内所有天的微类,按照微类间的时间顺序,对微类做第二层聚类,得到事件列表。第二,归纳了事件热度的计算公式。通过对历年热点事件特征的分析,提取出能度量事件热度的特征量,组合这些特征量构建了一个事件热度计算公式。对新事件列表中的事件进行热度的计算后排序,并通过事件发展曲线图过滤掉不满足热点事件发展特性的事件。第叁,研究了从不同层面自动抽取热点事件内容特征的计算方法。从事件标题、事件摘要、事件相关词群、事件相关文档以及事件发展曲线图五个方面,将热点事件的信息全面呈现给用户。最后,选取2008年的新闻语料进行了实验,并做了相关评测,结果显示本文的实验系统取得了较好的效果。(本文来源于《华中师范大学》期刊2009-05-01)

马永成,肖诗斌,林春雨,施水才[7](2008)在《基于内容的文档图像检索的特征抽取研究》一文中研究指出随着多媒体资源的飞速增长,多媒体检索技术成为当前检索技术的一个热点,该文将介绍文档图像这类特殊的多媒体资源检索技术中的特征提取方法.根据汉字特点,从几个角度,介绍了几种汉字图像块的特征提取方法及相应的相似度算法,并进行了试验测试,试验结果表明几种方法可行.(本文来源于《江西师范大学学报(自然科学版)》期刊2008年02期)

曹叁省,黄祥林,刘剑波,吕锐[8](2006)在《基于Gaussian模糊隶属的媒体内容对象特征抽取》一文中研究指出近年来广为关注的媒体内容管理领域内的一个关键问题是对内容对象的特征描述及其智能化的提取识别。本文在大量基础研究工作的基础上,提出了一种基于Gaussian模糊隶属的可配置的内容对象特征描述与抽取模型,该模型具有支持多重隶属和模糊隶属、兼容多种算法体系、功能可扩展等显着特点。结合媒体内容平台实际研发工作,本文构造了上述模型的实例,以视频对象的主要特征为基础进行了较为完整的算法和系统实现。(本文来源于《第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集》期刊2006-10-01)

苏中,马少平,张宏江[9](2003)在《基于内容图像检索的特征子空间抽取》一文中研究指出作为一种有效的解决手段,相关反馈(relevance feedback)技术在基于内容图像检索(content based image retrieval)的研究中得到了深入的发展.尽管有效,已有的反馈算法却始终没有解决特征空间的有指导降维和特征中的噪声去除这两个问题.提出了一种新的方法,通过对用户在检索过程中提供的正反馈样本在各特征空间中的分布特性,利用主成分分析(principal component analysis)来消除特征中的噪声,实现了对特征空间进行有效的降维.试验结果显示,该方法在不牺牲检索精度的前提下提高了检索速度,降低了存储复杂度.(本文来源于《软件学报》期刊2003年02期)

王文惠,王展,周良柱,万建伟[10](2001)在《基于内容的彩色图像颜色特征的抽取方法》一文中研究指出文中针对图像颜色分布的具体特点 ,提出了一种抽取颜色特征的新方法 .实验证明 ,该方法可以准确地描述图像颜色特征(本文来源于《计算机辅助设计与图形学学报》期刊2001年06期)

内容特征抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

网络舆情内容分析的重点是Web文本的内容处理,而抽取Web文本特征是内容处理的基础。首先利用N-Gram算法进行特征项选择并计算权重,然后利用网络舆情领域本体对原始特征进行抽取转换,得到Web文本的语义特征,利用语义特征向量来表征Web文本,将Web文本的相似度转换为基于领域本体的语义特征相似度,提高了网络舆情内容分析的准确度。实验结果表明该方法达到了理想效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

内容特征抽取论文参考文献

[1].吴共庆,胡骏,李莉,徐喆昊,刘鹏程.基于标签路径特征融合的在线Web新闻内容抽取[J].软件学报.2016

[2].徐震.网络舆情内容分析中的Web文本语义特征抽取研究[J].图书馆学研究.2016

[3].李莉.基于标签路径特征系的Web新闻内容抽取方法研究[D].合肥工业大学.2014

[4].吴共庆.基于标签路径特征的Web新闻内容抽取研究[D].合肥工业大学.2012

[5].颉嘉.文档内容抽取与特征选择技术的研究与实现[D].西安电子科技大学.2011

[6].刘星星.热点事件发现及事件内容特征自动抽取研究[D].华中师范大学.2009

[7].马永成,肖诗斌,林春雨,施水才.基于内容的文档图像检索的特征抽取研究[J].江西师范大学学报(自然科学版).2008

[8].曹叁省,黄祥林,刘剑波,吕锐.基于Gaussian模糊隶属的媒体内容对象特征抽取[C].第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集.2006

[9].苏中,马少平,张宏江.基于内容图像检索的特征子空间抽取[J].软件学报.2003

[10].王文惠,王展,周良柱,万建伟.基于内容的彩色图像颜色特征的抽取方法[J].计算机辅助设计与图形学学报.2001

标签:;  ;  ;  ;  

内容特征抽取论文-吴共庆,胡骏,李莉,徐喆昊,刘鹏程
下载Doc文档

猜你喜欢