导读:本文包含了主题信息提取论文开题报告文献综述及选题提纲参考文献,主要关键词:阅读策略,绘本故事,主题阅读,阅读教学
主题信息提取论文文献综述
卢莹,曹舒婷[1](2016)在《主题阅读与图文关键信息提取——以“壮乡风情”主题阅读教学为例》一文中研究指出让学生掌握搜集和处理信息的能力是阅读教学的基本要求,主题阅读活动对培养学生这方面的能力具有得天独厚的优势。主题阅读活动是针对某一主题在一定时间内进行大量相关阅读的一种阅读实践,这种形式的阅读实践更便于学生运用所习得的阅读策略,对同一主题内容进行多角度、更全面深刻的理解和把握,让学生在加深记忆的同时,顺利完成阅读后的框架性思考。(本文来源于《广西教育》期刊2016年44期)
谢方立[2](2016)在《基于节点类型标注的网页主题信息提取技术研究》一文中研究指出随着互联网的快速发展,网页数量呈爆炸性增长。网页中包含着丰富的内容,既有用户想要浏览的主题信息,也有对用户形成干扰与主题无关的信息,如页面导航条、推荐链接、广告条、版权声明等,后者通常被称为网页噪声。网页噪声的存在给Web信息检索带来很大的难题,也对诸如网页分类和聚类、知识挖掘、话题检测、个性化信息推荐、数据挖掘等任务造成很大的影响。如果不将噪声去除的话,信息检索系统必然会得出很糟糕的检索结果。因此,去除网页噪声,从网页中抽取主题信息是Web信息检索的一个重要的基础性工作。在Web信息抽取领域,按照网页主题信息抽取算法按照处理方式的不同,可以信息抽取方法分为叁类:一、基于模板匹配的方法。这种方法主要基于网站中的页面共享相同的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息。二、基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。叁、基于启发式规则的方法。这类方法,基于页面中的一些视觉特征或结构特征或内容特征来构建启发式规则集合。考虑到基于启发式规则的信息抽取方法具有较高的算法效率,以及考虑VIPS算法存在的不足,本文结合对网页噪声特点以及网页性质的观察和统计,提出了一种基于DOM节点类型标注(Node Type Annotation)的主题信息抽取算法——NTA算法。首先依据网页中噪声存在的形式,定义了4种节点类型:文本型节点、链接型节点、图片型节点和可忽略型节点,并且定义了节点的内聚度(Do C)用于反映节点内容的一致性。通过计算DOM结构中每个节点的内容特征来确定节点类型以及节点的内聚度,并给每个节点添加类型和内聚度两个属性。在主题信息抽取阶段,借助阈值以及节点文本密度来识别节点类型以及比较内聚度来获取所需的正文节点,并针对图片和链接的筛选问题作出相应的特殊处理,最后整合得到网页的主题信息。本文方法弥补了VIPS不能抽取网页主题信息的不足并且具有较好的算法效率,方法不依赖特定标签因而也具有更好的通用性。最后,基于本文NTA算法开发了一款网页正文提取工具Web Clipper,从7大门户网站选取了100多个新闻类网页进行了测试,并且也与目前市面上的叁款同类工具有道云剪报、印象笔记悦读以及国外的Readability做了对比实验。初步实验结果显示,本文所提出的算法的平均查全率为98.15%,平均查准率为92.41%,NTA方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,这在一定程度上证实了本文方法的有效性和实用性。(本文来源于《中国农业科学院》期刊2016-06-01)
马金娜[3](2016)在《基于DOM树节点重要度的WEB主题信息提取研究》一文中研究指出随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的信息,影响了用户从中快速定位并获取主题内容。所以,对页面主题信息的提取显得尤为重要,其不但可以节省用户大量的时间和精力,而且提取结果也可以用于数据挖掘等各个方面。WEB信息提取主要针对无结构或者半结构化的WEB页面,且主流大多基于HTML结构。在已有的相关研究中,研究者在关注HTML标签的结构的时候要么忽略了HTML标签的语义信息,要么忽略了标签的语义信息对其包含的文本内容的影响。本文综合考虑标签的结构、语义以及语义对其文本内容的影响,提出了一种基于DOM树节点重要度的WEB主题信息提取方法,研究工作包括以下内容:(1)引入了DOM树节点重要度。由于标签的结构和语义信息具有关联关系,综合考虑二者,将标签分为不同的类别,对应到DOM树中节点的分类,主要包括块节点、行节点、视觉节点、链接节点、文本节点、其他节点。考虑到每类节点对主题信息的影响不同,为不同类型的节点设置相应的影响因子,并定义节点重要度来统一表示DOM树节点对主题信息的影响。(2)提出了扩展DOM树模型。为了防止对DOM树的处理过细,扩展DOM树模型对其进行了简化,只保留可以承载主题信息的块节点。在将非块节点合并到块节点的过程中,同时修改节点重要度,考虑到标签的语义信息对其文本内容的影响,不同类型的节点进行合并时,节点重要度计算方法不同。一旦合并完成后,就可以得到带有节点重要度的扩展DOM树模型。(3)给出了基于扩展DOM树模型的WEB页面主题信息提取方法。包括四个步骤:页面清理、构建扩展DOM树、扩展DOM树去噪、主题信息提取。其中,依据节点重要度,通过设置节点重要度阈值,来对扩展DOM树去噪。最后实现了系统原型并通过实验分析了节点重要度阈值的选取,验证了方法的有效性,证明了该方法具有较好的提取效果。(本文来源于《西南大学》期刊2016-04-21)
李湘东,霍亚勇,张娇[4](2016)在《基于LDA主题模型的图书网页书目信息提取研究》一文中研究指出以图书网页为对象,主要研究书目信息提取方法。该方法首先利用LDA对书名与各描述性段落组合的混合文本进行建模,然后分别计算书名与各段落之间的相似度提取书目信息,有效地避免传统方法不能很好反映文档间相似性的不足。实验证明,该模型针对图书网页书目信息的提取准确率达到87.4%,较传统方法有了显着提高,同时也为图书网页信息组织管理和自动分类研究奠定了基础。(本文来源于《情报科学》期刊2016年01期)
朱妮[5](2014)在《巧用时事热点,培养学生信息提取能力——以一节“中国梦”主题的市二轮复习示范课为例》一文中研究指出让时政热点走进初中思品课堂既是落实新课标的必然要求,也是中考取胜的重要路径。如何在二轮复习中开展时政专题复习,发挥时政热点的教学实效值得每位毕业班教师思考。笔者认为,二轮复习中时政专题的利用,不能仅停留在时政热点的了解与考点知识的巩固上,应注重学科能力的培养。本节课作为市二轮复习示范课,通过"中国梦"主题下的素材变式,针对学生主观题中存在的人为遗漏信息、错误理解信息、孤立看待信息等问题的解决,培养学生信息提取能力。(本文来源于《中学教学参考》期刊2014年16期)
孙宝华[6](2014)在《企业社会媒体主题信息提取算法研究》一文中研究指出鉴于已有信息提取方法的可改进之处,结合对HTML网页性质的统计和分析,针对社会媒体中的用户生成数据,提出一种网页主题信息提取算法。算法依据DOM的树型结构特点,充分考虑节点中非链接文字总数和超链接总数这些语义信息,对其进行基于HTML标签的过滤和基于语义的剪枝,能够准确地提取出网页HTML文档的主题信息。实验证明,提取到的主题信息具有较高的准确性和完整性。(本文来源于《煤》期刊2014年01期)
伍杰华,倪振声,陈有青[7](2013)在《一种基于逆序匹配重复模式的主题信息提取方法》一文中研究指出网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法。该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取。实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率。(本文来源于《计算机应用与软件》期刊2013年04期)
那赫[8](2010)在《基于DOM的Web主题信息提取系统的设计与实现》一文中研究指出本文在深入分析国内外相关研究工作的基础上,提出了一种新的网页主题信息提取方法,基于STU-DOM模型,设计了基于该模型的HTML结构过滤和分块算法以及基于主题相关度的剪枝算法,设计并实现了网页主题信息提取系统。(本文来源于《计算机与网络》期刊2010年07期)
顾韵华,李佩,谢刚[9](2009)在《一种基于文本样式的Web主题信息提取方法研究》一文中研究指出考虑Web页面表现形式对主题相关度的影响,提出了一个基于文本样式的Web主题提取算法。该算法解析Web页面中的文本样式,根据不同的文本样式来计算文本的重要度,选取重要度较高的文本作为该页面的主题。算法无须对页面进行复杂的结构分析,也避免了模板需要人工手动配置或训练的繁琐问题,具有较强的通用性。通过对十大类网站的一百个网页的测试,结果表明该算法具有较高的准确度。(本文来源于《计算机与数字工程》期刊2009年11期)
吕聚旺,都云程,王弘蔚,施水才[10](2008)在《基于新型主题信息量化方法的Web主题信息提取研究》一文中研究指出针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为叁种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。(本文来源于《现代图书情报技术》期刊2008年12期)
主题信息提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着互联网的快速发展,网页数量呈爆炸性增长。网页中包含着丰富的内容,既有用户想要浏览的主题信息,也有对用户形成干扰与主题无关的信息,如页面导航条、推荐链接、广告条、版权声明等,后者通常被称为网页噪声。网页噪声的存在给Web信息检索带来很大的难题,也对诸如网页分类和聚类、知识挖掘、话题检测、个性化信息推荐、数据挖掘等任务造成很大的影响。如果不将噪声去除的话,信息检索系统必然会得出很糟糕的检索结果。因此,去除网页噪声,从网页中抽取主题信息是Web信息检索的一个重要的基础性工作。在Web信息抽取领域,按照网页主题信息抽取算法按照处理方式的不同,可以信息抽取方法分为叁类:一、基于模板匹配的方法。这种方法主要基于网站中的页面共享相同的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息。二、基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。叁、基于启发式规则的方法。这类方法,基于页面中的一些视觉特征或结构特征或内容特征来构建启发式规则集合。考虑到基于启发式规则的信息抽取方法具有较高的算法效率,以及考虑VIPS算法存在的不足,本文结合对网页噪声特点以及网页性质的观察和统计,提出了一种基于DOM节点类型标注(Node Type Annotation)的主题信息抽取算法——NTA算法。首先依据网页中噪声存在的形式,定义了4种节点类型:文本型节点、链接型节点、图片型节点和可忽略型节点,并且定义了节点的内聚度(Do C)用于反映节点内容的一致性。通过计算DOM结构中每个节点的内容特征来确定节点类型以及节点的内聚度,并给每个节点添加类型和内聚度两个属性。在主题信息抽取阶段,借助阈值以及节点文本密度来识别节点类型以及比较内聚度来获取所需的正文节点,并针对图片和链接的筛选问题作出相应的特殊处理,最后整合得到网页的主题信息。本文方法弥补了VIPS不能抽取网页主题信息的不足并且具有较好的算法效率,方法不依赖特定标签因而也具有更好的通用性。最后,基于本文NTA算法开发了一款网页正文提取工具Web Clipper,从7大门户网站选取了100多个新闻类网页进行了测试,并且也与目前市面上的叁款同类工具有道云剪报、印象笔记悦读以及国外的Readability做了对比实验。初步实验结果显示,本文所提出的算法的平均查全率为98.15%,平均查准率为92.41%,NTA方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,这在一定程度上证实了本文方法的有效性和实用性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
主题信息提取论文参考文献
[1].卢莹,曹舒婷.主题阅读与图文关键信息提取——以“壮乡风情”主题阅读教学为例[J].广西教育.2016
[2].谢方立.基于节点类型标注的网页主题信息提取技术研究[D].中国农业科学院.2016
[3].马金娜.基于DOM树节点重要度的WEB主题信息提取研究[D].西南大学.2016
[4].李湘东,霍亚勇,张娇.基于LDA主题模型的图书网页书目信息提取研究[J].情报科学.2016
[5].朱妮.巧用时事热点,培养学生信息提取能力——以一节“中国梦”主题的市二轮复习示范课为例[J].中学教学参考.2014
[6].孙宝华.企业社会媒体主题信息提取算法研究[J].煤.2014
[7].伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件.2013
[8].那赫.基于DOM的Web主题信息提取系统的设计与实现[J].计算机与网络.2010
[9].顾韵华,李佩,谢刚.一种基于文本样式的Web主题信息提取方法研究[J].计算机与数字工程.2009
[10].吕聚旺,都云程,王弘蔚,施水才.基于新型主题信息量化方法的Web主题信息提取研究[J].现代图书情报技术.2008