文档关键词论文-韩建彬

文档关键词论文-韩建彬

导读:本文包含了文档关键词论文开题报告文献综述及选题提纲参考文献,主要关键词:VBA编程语言,正则表达式,自动摘录

文档关键词论文文献综述

韩建彬[1](2019)在《基于关键词的文档自动摘录程序设计》一文中研究指出在大量文档中,为了提高基于关键词的查找和摘录效率,通过VBA和正则表达式实现了文档内容自动摘录功能,程序具体分为文档的预处理、基于正则表达式的匹配和结果统计输出3个模块,其中主要应用了Office开发平台中的Dir、Selection.Find、vbscript.regexp等函数和对象,实现了对Word文档自动处理。(本文来源于《电脑编程技巧与维护》期刊2019年10期)

孙明珠,马静,钱玲飞[2](2019)在《基于文档主题结构和词图迭代的关键词抽取方法研究》一文中研究指出【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选关键词的主题词分布和文档主题分布;结合候选关键词主题分布特征计算节点权重,加权文档–主题概率分布和主题–词概率分布特征作为节点的随机跳转概率;构建新的转移矩阵进行词图迭代,得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明,本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型;当抽取关键词个数为3时,本模型准确率比原始TextRank模型的准确率提升4.7%,比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显着。(本文来源于《数据分析与知识发现》期刊2019年08期)

孙明珠[3](2019)在《基于文档主题结构和词图迭代的关键词抽取方法研究》一文中研究指出随着互联网的疾速发展,在线文本信息呈指数式增长,如何准确提取目标文本中的核心词,进而快速表达当前文本主旨变得尤为重要。关键词是能够代表文档内容信息的最小单元,可以简明地表述文档的主旨,成为人们快速掌握文档内容的主要工具。传统的关键词获取方式是由专家对文档进行标注产生;面对如今海量的网络文本,人工标注已经变得不现实。通过设计计算机相应算法对文档实现关键词的自动抽取则逐渐成为研究的热点;同时,关键词自动抽取技术也广泛应用于搜索引擎、新闻服务等领域,是实现信息检索、文本自动摘要、文本分类、聚类等任务的基础。本文分别提出基于单文档内信息和多文档主题信息的关键词抽取方法,用以提升关键词抽取的准确率和召回率。本文首先描述选题的背景及意义,对关键词抽取的国内外研究现状进行总结,其次简要介绍了本文研究的基础理论:聚类算法、LDA主题模型和PageRank网络模型等;然后基于文档内信息,将文档的词聚类结果作为词图中的节点,构建全连接网络图,进行关键词抽取;该方法一定程度上减少了候选词冗余现象,提升了关键词的主题覆盖度;但受限于文档提供信息不足的缺点,进而提出基于文档主题结构和词图迭代相结合的方法,综合考虑多文档主题信息和单文档内部结构信息,利用主题模型建模结果改变词图结构,实现对关键词更为有效地抽取。最后本文使用爬虫爬取的网络文本数据,对提出的两个模型分别进行了相应的对比实验,验证了本文提出模型的有效性和优越性。具体的创新点有:(1)利用词向量模型将文本转化为向量,通过聚类方法对候选词进行聚类,将聚类结果作为词图的节点,构建全连接网络图对聚类结果进行排序,最后筛选类别中关键词。该方法一定程度上降低了候选关键词的冗余情况,提升了抽取的准确率。(2)综合利用主题模型和文档结构信息,通过主题模型对多文档进行建模,改变词图节点的权重和随机跳转概率,解决单文档信息受限问题,提升了关键词抽取的准确率和召回率。(本文来源于《南京航空航天大学》期刊2019-03-01)

王燊,施运梅[4](2018)在《基于用户行为的文档关键词提取方法》一文中研究指出对文档提取关键词时忽略在文档中出现频率不高但对文章具有关键意义的词语的问题,提出一种基于用户行为的文档关键词提取方法。利用结构熵权法为用户对文档的用户行为建模,在提取关键词时,考虑用户行为的影响和文档关键词的位置,并通过实验验证了提出的方法所提取出的关键词具有更高的准确性。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2018年05期)

王永志,金梁,朱月琴,白明,包晓栋[5](2018)在《基于大数据技术的地学文档关键词提取算法研发》一文中研究指出地学文档中蕴含了丰富的信息与专家知识,缺少关键词支持的地学文档给分类管理、信息检索与共享带来不便.为了发挥大数据技术处理非结构化地学数据优势,本文基于Hadoop平台设计并开发了一款地学文档关键词自动提取算法软件,将各类Word、PDF格式地学文档资料分布式存储在HDFS和HBase中,可对非结构化数据进行自动地读取、解析、处理、计算等.研发了大数据环境下的基于加权、词频的关键词提取算法,以及融合加权与词频两套方法的组合关键词提取算法.使用100余篇期刊论文对算法进行测试并与作者关键词对比,结果表明组合算法提取的复合关键词具有较高的地学类关键词命中率,有的甚至可达100%,其计算效率大大优于单机运行,可为地学文档在线查阅与检索等提供有效的辅助支持.(本文来源于《地球物理学进展》期刊2018年03期)

邱利茂,刘嘉勇[6](2018)在《基于文档词典的文本关联关键词推荐技术》一文中研究指出针对搜索引擎只能检索出用户给定关键词的相关记录,无法搜集用户潜在感兴趣的关键词的问题,提出一种基于文档词典的新闻关联关键词推荐技术。首先采用词频向量模型算法表示语料库中文档,然后对给定输入的关键词使选择与之关联度最高的文档;最后使用TextRank算法选取筛选出文档中值最高的N个关键词,这些关键词即为关联关键词。理论和实验表明,该算法能够有效地根据关键词推荐与之相关的关联关键词。(本文来源于《现代计算机(专业版)》期刊2018年07期)

范泽泉,赖华[7](2017)在《基于超图的多文档新闻关键词抽取》一文中研究指出新闻作为网络信息传播的重要载体,其本质是一个以接近真相为目标的持续过程。随着时间的推进,针对同一新闻事件会出现大量详尽程度不同的网页。如何在这些网页中快速、准确地抽取出这一系列新闻的关键信息成了一个越来越重要的课题。关键词作为对文章内容的简要概括,可以使用户快速了解新闻事件,从而节省大量的时间,因此关键词抽取技术被认为是解决此类问题的关键。文章通过分析新闻网页的特点,提出一种新的基于超图模型的多文档关键词抽取方法,该方法以词作为节点,新闻网页作为超边,并结合网页信任度、新闻发布时间因素,建立了多新闻文档的超图模型,最后使用超图排序算法抽取出关键词。实验的结果验证了该方法的准确性。(本文来源于《计算机与数字工程》期刊2017年12期)

许振团[8](2017)在《基于文档主题结构与语义的中文文本关键词提取算法研究》一文中研究指出迈入二十一世纪,伴随着科技的不断进步和互联网的高速发展,各类的信息资源成倍快速增加。人们迫切地希望能快速的、准确的从庞大的信息源中寻找到对自己真正有用的资料。关键词能够高度归纳文档的内容,并且反映文档的主题,为人们寻找资源提供有力的帮助。目前大部分的文本资源没有提供关键词。虽然人工标注关键词往往拥有较高的准确性,但是因为标注者的学识储备、理解程度差异以及总结概括能力不尽相同,往往带有较强的主观性。况且,其需要花费较多时间阅读、理解文本,这显然无法满足如今信息资源快速增长的速度。关键词提取技术由此出现,其能很好地处理这个难题。建立统一的标准,借助于计算机的快速处理能力,自动提取关键词,可以大量减少人力、时间消耗,降低主观性的影响。本文以对中文文本进行关键词提取作为研究对象。阐述了关键词提取的基本概念,并对当前国内外的研究情况进行调研。接着,对基于文档主题结构的方法以及基于语义的方法进行详细研究。文中剖析了中文分词和英文分词两者间的差别,前者更加复杂,对关键词提取影响更大。针对中文分词的新词识别这一难点问题,动态更新分词词典来提高中文分词的准确性。同时,借助于向量空间模型,使用改进算法在连续的文本分段中寻找最优聚类,构建文档的主题结构。对基于文档主题结构的算法进行改进,提取全局关键词。并在此基础上,加入中文词语之间的语义相似度的因素,进一步改进算法,将统计方法与语义相结合,提升关键词提取的效果。本文以准确率、召回率以及F度量作为评价指标,改进算法与其他算法的对比实验的实验结果表明改进算法能够较好地提高对中文文本进行关键词提取的结果,验证了改进算法的有效性。(本文来源于《厦门大学》期刊2017-04-01)

喻庚,殷飞,陈友斌,刘成林[9](2015)在《基于索引的快速手写中文文档关键词检索》一文中研究指出手写文档检索很难同时保证较高的检索精度和速度.基于上述原因,文中提出快速手写中文文档关键词检索方法,大幅提高检索速度并保持检索精度.该方法基于文本行识别的候选切分-识别网格预先生成压缩的索引文件,然后在索引上快速检索关键词.在手写中文文档数据库CASIA-HWDB上的实验证明文中方法的有效性,该方法不但压缩索引大小,而且缩短词检索的耗时.(本文来源于《模式识别与人工智能》期刊2015年11期)

喻庚[10](2015)在《中文手写文档的快速关键词检索》一文中研究指出随着计算机和网络通信的迅速发展,数字资源变得越来越丰富。为了方便编辑、储存和传输,越来越多的纸质文档被转化成数字文档。而这其中的大量数字资源是以图像而非文本编码的形式存在,如何对这些文档信息进行高效管理和使用,尤其是对文档内容的快速检索是重要的研究方向。关于文档检索近年来有很多研究工作发表,但是这些方法对于手写文档检索都很难同时保证较高的检索精度和速度。针对大规模多人书写的脱机中文手写文档,本文提出了一种快速实时的关键词检索方法。首先,本文搭建了一个基于过切分、字符识别的手写中文文档的关键词检索系统,并提出基于文档图像的候选切分-识别网格预先计算并保留多个候选识别结果生成索引文件。然后只需要在索引文件上检索关键词,能大幅提高检索速度同时保持检索精度。其次,初始生成的索引比较大,包含许多冗余信息。本文考虑了文字间的上下文信息,搜索文本行的候选切分-识别网格中的TOP-N上下文最优路径,再由这些最优路径生成新的索引。这种方法能在保持检索精度的前提下,进一步压缩索引大小,提高检索速度。最后,本文在手写中文文档数据库CASIA-HWDB上,进行了一系列的索引压缩和关键词检索的实验,结果分析证明了本文方法的有效性。(本文来源于《华中科技大学》期刊2015-05-01)

文档关键词论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选关键词的主题词分布和文档主题分布;结合候选关键词主题分布特征计算节点权重,加权文档–主题概率分布和主题–词概率分布特征作为节点的随机跳转概率;构建新的转移矩阵进行词图迭代,得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明,本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型;当抽取关键词个数为3时,本模型准确率比原始TextRank模型的准确率提升4.7%,比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显着。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文档关键词论文参考文献

[1].韩建彬.基于关键词的文档自动摘录程序设计[J].电脑编程技巧与维护.2019

[2].孙明珠,马静,钱玲飞.基于文档主题结构和词图迭代的关键词抽取方法研究[J].数据分析与知识发现.2019

[3].孙明珠.基于文档主题结构和词图迭代的关键词抽取方法研究[D].南京航空航天大学.2019

[4].王燊,施运梅.基于用户行为的文档关键词提取方法[J].北京信息科技大学学报(自然科学版).2018

[5].王永志,金梁,朱月琴,白明,包晓栋.基于大数据技术的地学文档关键词提取算法研发[J].地球物理学进展.2018

[6].邱利茂,刘嘉勇.基于文档词典的文本关联关键词推荐技术[J].现代计算机(专业版).2018

[7].范泽泉,赖华.基于超图的多文档新闻关键词抽取[J].计算机与数字工程.2017

[8].许振团.基于文档主题结构与语义的中文文本关键词提取算法研究[D].厦门大学.2017

[9].喻庚,殷飞,陈友斌,刘成林.基于索引的快速手写中文文档关键词检索[J].模式识别与人工智能.2015

[10].喻庚.中文手写文档的快速关键词检索[D].华中科技大学.2015

标签:;  ;  ;  

文档关键词论文-韩建彬
下载Doc文档

猜你喜欢