导读:本文包含了多文档自动摘要论文开题报告文献综述及选题提纲参考文献,主要关键词:自动文本摘要,基于查询的摘要,新闻文本,分布式表示
多文档自动摘要论文文献综述
王凯祥,任明[1](2019)在《基于查询的新闻多文档自动摘要技术研究》一文中研究指出针对新闻文本领域,该文提出一种基于查询的自动文本摘要技术,更加有针对性地满足用户信息需求。根据句子的TF-IDF、与查询句的相似度等要素,计算句子权重,并根据句子指示的时间给定不同的时序权重系数,使得最近发生的新闻内容具有更高的权重,最后使用最大边界相关的方法选择摘要句。通过与基于TF-IDF、TextRank、LDA等六种方法的对比,该摘要方法 ROUGE评测指标上优于其他方法。从结合评测结果及摘要示例可以看出,该文提出的方法可以有效地从新闻文档集中摘取核心信息,满足用户查询内容的信息需求。(本文来源于《中文信息学报》期刊2019年04期)
唐晓波,翟夏普[2](2019)在《基于混合机器学习模型的多文档自动摘要》一文中研究指出[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。(本文来源于《情报理论与实践》期刊2019年02期)
韩晓冬[3](2018)在《舆情数据的多文档自动摘要系统的研究与实现》一文中研究指出在信息量爆炸的今天,人们想要依靠互联网来获取自己感兴趣的信息已经越来越难,即使在同一个主题下,也有着非常多的信息冗余,而舆情数据更是如此,在同一个主题下的新闻,有许多都是完全一样的信息,而想要从这些舆情文本中获取同一主题下的不同信息就变得越来越耗费时间、精力。多文档自动摘要技术可以很好的解决这一问题。通过多文档自动摘要技术,可以将重复信息去除,并将与主题相关的不同信息提取出来,生成摘要文本,节省用户挖掘感兴趣的信息的时间。本系统在研究了多文档自动摘要相关工作的基础上,提出一种利用基于语义词典的聚类方法来获取多文档自动摘要文本的方法。基于语义词典的方法的优势在于可以对中文语料中的词语深入到语义层面来分析处理。本系统主要内容包括:1、基于语义词典的新词相似度计算。由于在舆情领域中,常会出现新词,这些新词通常与主题相关,在一定程度上可以视为主题。但新词无法进行相似度计算,针对这一问题,本文提出一种基于语义词典的新词相似度计算方式,该方式通过解析新词构成,将新词与语义词典中的词语对应起来,利用语义词典中的词语代替新词进行相似度的计算。2、词语聚类分析与句子聚类分析。以词语作为特征项对句子建立空间向量,没有考虑到词语之间的词义关系,在量化句子时,不能准确的根据词语来量化句子,后续的句子聚类结果的准确度就无法保证。针对于此,本文先对词语聚类,将相似的词语聚类成词语概念,以词语概念作为句子特征向量的特征项,避免词语之间的关系对句子聚类的影响。对句子进行聚类分析阶段,利用词语概念作为句子特征向量的特征项,同时利用句子之间的余弦相似度,利用基于密度的聚类算法DBSCAN对句子进行聚类,形成句子簇。3、基于重要度评分的摘要句的抽取。根据句子所属主题、次主题、页面结构等因素,基于句子聚类结果,提出一种重要度评分方法。按照评分高低对句子簇排序,再对句子簇内部的句子进行重要度评分,选取每个句子簇中评分最高的句子作为摘要句,按照句子簇的顺序形成最终的多文档自动摘要文本。通过上述方法开发的基于舆情数据的多文档自动摘要系统,经过测试,基本可以满足用户对同一主题下不同信息进行提取。(本文来源于《辽宁大学》期刊2018-05-01)
由文浩[4](2018)在《基于互增强流形排序的多文档自动摘要方法研究》一文中研究指出随着互联网的兴起,网络中的数据量呈指数增长,人们的生活节奏加快,如何从海量数据中高效获取所需信息已经成为了现如今亟待解决的问题。自动摘要技术能够对文本信息进行融合、压缩,在保留文档重要内容的同时减少文本大小,该技术是解决这一问题、克服这一障碍的关键。本文以在线英文新闻为研究对象,以期为用户提供简洁、全面的摘要,提高用户获取信息的效率。本文使用的基于互增强流形排序的多文档自动摘要方法,通过句子、词语以及主题簇彼此之间的相互增强关系,提高句子提取的质量,减少冗余信息,并将该方法用于基于查询的提取多文档自动摘要模型中。本研究的主要内容和结论如下:(1)识别主题簇对数据预处理后得到词语集、句子集和簇集,通过给定的查询对数据对象间的关系进行聚类分析,将数据对象进行分类,使得同类集合对象之间的相似度较高,不同类集合之间的相似度较低,从而达到聚类的效果,并且将与给定查询相似度较高的集合确定为主题簇。(2)句子排序和控制冗余通过词语集、句子集和主题簇集内部之间相关性传播,词语集、句子集以及主题簇集之间彼此进行相互增强构建提取摘要模型。在词语集、句子集和主题簇集的每个集合内部构建一个加权图,其中每个数据顶点表示查询、词语、句子和主题簇。词语集、句子集以及主题簇集之间彼此进行相互增强,上述两个过程可以依次或组合进行,直至达到全局稳定状态,所有数据对象都获得排序分数。将得到的数据对象进行筛选,过滤掉冗余信息,提取分数较高的数据对象作为摘要句,生成摘要。质量评测进行全面的实验研究来验证这两种算法模型的有效性。用自动评测工具包ROUGE进行评测。ROUGE通过计算系统生成的摘要和人工参考摘要之间重迭的单位来衡量摘要内容的质量。本文中采用方法分析准确率和召回率比率,同时与其他摘要方法进行对比。实验结果表明,在TAC 2008A,TAC 2008B,TAC 2009A和TAC 2009B数据集上,本文研究的基于互增强流形排序的多文档自动摘要方法在提取摘要的质量方面略优于参加DUC/TAC比赛前叁的系统计算出的ROUGE值相当,并且通过误差检验,误差较小,可以把实验分析的结果作为结论,进一步说明了在自动摘要方法中整合词语级和主题簇信息的必要性。(本文来源于《西北农林科技大学》期刊2018-05-01)
任鹏杰[5](2018)在《基于有监督深度学习的抽取式多文档自动摘要研究》一文中研究指出随着互联网的高速发展,爆发式增长的信息使自动文本摘要的深入研究成为必要需求。自动文本摘要作为一种减轻信息过载的技术,在实践中有着广泛的应用,如自动生成搜索引擎检索结果的快照、自动生成新闻文章和技术文章的摘要、自动写稿机器人等等。最早的自动文本摘要研究采用无监督技术,由于缺乏人类智能的必要监督,这些方法通常效果较差。20世纪90年代,随着机器学习技术的出现,研究者们提出了各种各样的方法,利用有监督机器学习技术提高自动文本摘要性能。虽然有监督方法通常比无监督方法具有更好的性能,但需要大量的人工参与来抽取特征。最近,深度学习模型在很多任务中都显示出了巨大的潜力并取得了很好的效果。深度学习至少有两方面的吸引力:第一,深入学习使研究者们从繁重的特征工程工作中解放出来,从而使得人们可以更快地构建系统应用。第二,深度学习模型善于学习有效的低维特征表达,一定程度上弥补了传统机器学习算法的不足。本学位论文展开了一系列的研究工作,探讨如何利用深度学习模型来提高多文档自动摘要的性能。同时,我们也提出了一种冗余性感知的句子回归框架来改进现有的句子回归框架。句子回归框架是抽取式文档摘要的常用框架之一,在很多数据集上都取得了不错的效果,所以被广泛应用于实际系统中。本学位论文的主要工作和创新性可以归纳为以下几个方面:(1)一个句子是否应该作为摘要取决于其重要性,而一个句子是否重要不仅依赖于其所表达的意思,也依赖于它和其他句子的语义关系,尤其是句子的上下文关系。本文提出了一种神经网络模型,利用句子的上下文关系来改进一般多文档自动摘要(Generic Multi-Document Summarization)的性能。大多数现有的多文档摘要研究都把主要精力花在建模句子的意思上。因为每个句子通常只表达一种观点或陈述一个事实,如果不知道其他相关句子中所反映的背景,可能会很难理解这个句子所表达的意思。句子的上下文关系指文档中的某一句话与其紧邻的前后文中的几句话的关系。本文提出了一种神经网络模型,通过利用句子的上下文关系来提高一般多文档自动摘要的性能。具体地,首先利用基于词汇级别注意力机制的卷积神经网络来构建句子的表示。然后,利用基于句子级别注意力机制的循环神经网络来构建上下文的表示。最后,通过同时学习句子及上下文的低维特征表示,以及一个句子和其上下文句子的语义相似度,本文提出的模型可以自动学习出有效的上下文特征来改进摘要的效果。此外,本文的模型通过引入词汇级别和句子级别的注意力机制,不但能提高自动文本摘要的性能,还能够自动识别出相对于当前句子,上下文中语义关系比较紧密的词汇和句子。本文在DUC 2001年、2002年、2004年的一般多文档自动摘要数据集上做了大量实验。实验结果表明本文所提出的模型在ROUGE指标上超过了现有的先进方法。(2)对于基于查询的多文档自动摘要(Query-focused Multi-Document Summarization)来说,一个文档句子是否应该包含在最终的摘要里不仅仅取决于这个句子的重要性,还取决于它与给定查询的相关程度。本文提出了一种神经网络模型,通过利用注意力机制来加强文档句子与查询之间相关性的建模,实现基于查询的多文档自动摘要。在DUC的基于查询的多文档自动摘要任务中,针对一个文档集往往给定了多个查询,根据这些查询来生成一个摘要,给定的多个查询通常是针对文档的不同方面。现有的研究往往直接估计一个文档句子与所有查询的总体相关度。但是事实上,这样是不合理的,因为一个句子一般来说都很短,仅仅表达了一个观点或者陈述了一个事实。换言之,一个句子通常只能够回答一个查询,建模它与所有查询的总体相关度往往会引入噪声导致估计不准确。针对此,本文提出了一种神经网络模型,通过建模句子与每一个查询的细粒度相关度来提高基于查询的多文档自动摘要的性能。具体地,首先利用卷积神经网络来构建文档句子的低维特征表示和查询句子的低维特征表示。然后,通过基于查询句子关系的注意力机制,使得在衡量文档句子与查询句子之间相关度的时候,能够更关注于那些与当前句子更相关的查询。这个过程模拟了人带着问题去阅读的行为习惯,当读到一句话时,人们会考虑它与给定的哪个查询比较相关。本文在DUC 2005年、2006年、2007年的基于查询的多文档自动摘要数据集上做了大量实验和分析。实验结果表明,本文提出的模型取得了不错的效果,超过了当前的先进方法。此外,根据我们提出的基于查询的注意力机制,本文的模型不仅仅能够衡量一个句子与给定查询的相关度,还能够识别出这个句子回答了哪个查询。(3)句子回归框架(Sentence Regression Framework)是抽取式摘要的常用框架之一。现有句子回归框架往往把建模句子的重要性和句子间的冗余性放在两个独立的过程中,忽略了这两者之间的关系。针对此,本文提出了一种新的冗余性感知的句子回归框架。句子回归框架是利用回归模型实现自动摘要的框架,其通常做法是先通过一个打分函数或者模型f(St)来给每一个句子St打一个分,然后在产生最终摘要的时候,再综合考虑每一个句子的得分以及被选入摘要的句子之间的冗余性。本文提出了一种新的框架来同时建模句子的重要性和冗余性。与传统框架不同,新框架直接衡量一个句子St在给定当前的摘要句子集合Ψ的情况下的相对重要性。具体实现过程中,本文提出一种回归模型来拟合基于人工摘要给出的句子的相对得分。新框架相比于传统框架有叁个优点。第一,新框架具有冗余性感知能力,不需要将句子的重要性和冗余性放在两个过程中建模。第二,新框架相对于传统框架具有更高的上界,这意味着基于新框架实现的模型有更多的提升空间。第叁,新框架没有需要手工调节的参数,这在实践应用中是非常方便的。最终,本文通过大量实验证明了基于新框架的句子回归模型能够超越传统的回归模型。(本文来源于《山东大学》期刊2018-04-20)
张波飞,李成城[6](2018)在《基于LDA与TextRank结合的多文档自动摘要研究》一文中研究指出大数据时代信息量急剧增长,伴随而来的是大量冗余信息的出现。为快速、准确、全面搜索到所需信息,提出一种LDA主题模型与TextRank算法相结合的算法。首先通过对预处理后的文档建立主题模型,得到句子的概率模型即文档中句子的重要性,然后考虑运算节点权重时的主题概率,得到新的迭代公式,通过对同一主题下的多篇新闻报道进行处理得到这些文档的文摘。实验结果表明,该方法生成的文摘较单一算法效果显着。(本文来源于《软件导刊》期刊2018年04期)
贾晓婷[7](2018)在《基于深度学习的中文文档自动摘要方法研究》一文中研究指出随着科技水平的进步及互联网的不断深入发展,互联网上各种各样的信息堆积如山,并且每天以惊人的速度快速增长。此背景下,如何快速便捷的在海量的互联网信息中提取感兴趣的知识成为了信息时代最亟待解决的问题之一。自动摘要是有效解决这一问题的关键技术。通过对海量的互联网文本信息进行自动摘要,能够有效提高用户浏览和获取信息的效率,从而为人们快速解决生活和工作中遇到的问题提供有效的信息支持。近年来,深度学习技术兴起并蓬勃发展,深度文本表示模型也受到了国内外研究者们的广泛关注,这为自动摘要技术的进一步发展奠定了基础。由于传统文本表示模型存在无法充分提取文本语义、语境、语法等信息的缺点,本文在引入深度文本表示模型Word2vec和Doc2vec基础上,在两种不同的文本数据类型上分别对经典的文本自动摘要技术进行了研究和改进,主要内容如下:(1)针对论文单文档文本,提出了一种结合Doc2vec和改进聚类算法的自动摘要提取方法。对从中国知网获取的论文文本数据,引入Doc2vec文本表示模型,在充分考察语句上下文的语义、语法等信息基础上实现语句的向量化表达;结合密度和距离两种度量确定K-means聚类算法的初始聚类中心并对语句向量进行聚类,以弥补原方法因随机选定初始中心导致的聚类结果不稳定的缺陷;在每一个类簇内部抽取具有最大信息熵的语句作为该类簇的中心句,完成自动摘要的抽取过程。(2)针对新浪微博多文档文本,结合Word2vec能够充分提取词汇上下文的语义、语法等信息的优势以及主题模型在多文档文本聚类效果方面的优秀表现,将二者优势互补,提出一种基于加权主题分布表达的文本向量化方法并应用在自动摘要过程中。该方法利用Word2vec训练词向量,然后将词向量聚类成主题词类;以主题词类为特征,根据微博语句相对于主题词类的隶属度和主题词类自身的权重得到微博语句的加权主题分布表达。通过K-means聚类微博语句向量并提取具有最大信息熵的句子,从而实现自动的抽取。实验结果显示,相对于传统的自动摘要提取方法,由本文方法生成的自动摘要能够更有效地表征文档的主要思想内容,在准确率、召回率和F值上都取得了更好的效果,在一定程度上提升了中文文档自动摘要的效果,这为在其他应用领域实现更好的自动摘要提取提供了一定的借鉴。(本文来源于《东北林业大学》期刊2018-04-10)
张波飞[8](2018)在《基于LDA和TextRank相结合的中文多文档自动摘要提取》一文中研究指出新闻已经成为日常生活中获取消息的一种有效途径,用户主要通过搜索引擎获取新闻。网络为人们提供丰富信息资源的同时,也伴随着大量冗余信息的出现,获取信息这一过程必然会浪费大量不必要的时间。多文档自动摘要技术的出现很好地解决了这一问题,利用机器学习、神经网络等技术获取主要的信息,对文档进行摘要提取,最终得到可以诠释文档主要内容的简短摘要以实现对文档有用信息的精确提取。这种技术可以方便用户及时有效的获取有用信息,抽取到新闻中的关键部分,极大地提高了效率。目前比较常用的摘要提取技术基于抽取式的方法即在原文文档中抽取关键句作为文本的摘要句。在此基础上,本文针对如何在摘要提取过程中选择一种能够准确为句子打分的方法这一关键问题,提出了将潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型与TextRank(图模型)算法相结合的一种算法。首先,通过对预处理后的新闻文档集建立LDA主题模型得到相应的主题词概率分布,并对每一个句子所包含词项的概率求和得到句子的概率模型;其次,将预处理后的句子作为TextRank的输入,完成对文档的TextRank图模型构建,同时在计算图节点的最终权重时以LDA主题模型得到的主题概率为依据,其中,概率大的句子优先计算其节点权重,于是得到了更准确的句子排序;最后,分别根据压缩比例10%和20%抽取排序靠前的句子作为摘要句。利用上述方法,本文通过对同一主题下的新闻语料进行摘要提取,得到该主题下的概括性摘要。最终利用ROUGR-1、ROUGE-2、P、R、F这5个指标对得到的结果进行性能评价,实验表明该方法与单一算法相比,所生成的摘要效果更好,结果准确率明显提高,同时具有主题明显、关键词突出等优点。(本文来源于《内蒙古师范大学》期刊2018-04-08)
李擎[9](2018)在《基于语义词向量的文本分类多文档自动摘要》一文中研究指出多文档自动摘要技术是自然语言处理领域的重要研究课题,其旨在通过对多篇文本文档利用相关信息抽取技术得到压缩的文本信息,解决信息碎片化和信息冗余问题,从而在海量的信息中为用户获得简洁可读的高效文本信息,有效降低用户的信息负载,提高用户读取信息的效率。传统的多文档自动摘要技术多采用抽取与文档相关性较高的重要句子作为摘要候选句,但在生成摘要过程中,对于词语之间的语义判断缺失,并且在满足用户个性化需求方面,目前的研究基于给定的小规模文档,而且不能够自动识别用户输入主题词、短语或者句子的语义关联。随着新技术的兴起,学者开始研究结合新技术应用在自动摘要领域,针对于此,本课题将传统的摘要生成技术与深度学习技术相结合,建立面向用户查询的系统,提出本文基于语义的文档匹配方法,实现基于用户查询在大规模语料库中进行相关文档匹配,并结合词向量模型针对匹配文档提出一种改进的基于语义的自动摘要生成方法,解决传统的语义缺失问题,满足用户的个性化需求,使得最终得到的摘要语义相关性更强冗余性更低,主要研究工作如下:1)建立面向用户查询的摘要生成系统,将文档检索与普通的抽取式摘要系统相结合,提出基于语义关键词的文档匹配方法,在实现过程中提出一种改进的基于语义词向量的关键词提取方法,解决关键词提取过程中的语义缺失问题。2)研究面向用户查询进行文档语义匹配的方法,提出本文基于语义向量包的文档匹配算法。3)研究基于词向量的自动摘要生成方法,基于Word2vec的句向量包提出一种改进的基于句向量包的聚类方法完成聚类,基于用户主题和句子权重对句子子集提取基于中心主题句的摘要句,并研究通过句子向量包对句子进行去冗余。4)研究摘要句抽取结果的评测方法,通过随机选择全网新闻语料库的测试文档对抽取的摘要句进行评测,并与其他摘要提取方法进行对比,分析本系统的评测效果。(本文来源于《北京邮电大学》期刊2018-03-20)
贾晓婷,王名扬,曹宇[10](2018)在《结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究》一文中研究指出【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显着地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。(本文来源于《数据分析与知识发现》期刊2018年02期)
多文档自动摘要论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多文档自动摘要论文参考文献
[1].王凯祥,任明.基于查询的新闻多文档自动摘要技术研究[J].中文信息学报.2019
[2].唐晓波,翟夏普.基于混合机器学习模型的多文档自动摘要[J].情报理论与实践.2019
[3].韩晓冬.舆情数据的多文档自动摘要系统的研究与实现[D].辽宁大学.2018
[4].由文浩.基于互增强流形排序的多文档自动摘要方法研究[D].西北农林科技大学.2018
[5].任鹏杰.基于有监督深度学习的抽取式多文档自动摘要研究[D].山东大学.2018
[6].张波飞,李成城.基于LDA与TextRank结合的多文档自动摘要研究[J].软件导刊.2018
[7].贾晓婷.基于深度学习的中文文档自动摘要方法研究[D].东北林业大学.2018
[8].张波飞.基于LDA和TextRank相结合的中文多文档自动摘要提取[D].内蒙古师范大学.2018
[9].李擎.基于语义词向量的文本分类多文档自动摘要[D].北京邮电大学.2018
[10].贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现.2018