导读:本文包含了单文档论文开题报告文献综述及选题提纲参考文献,主要关键词:抽取式摘要,主次关系,神经网络
单文档论文文献综述
张迎,王中卿,王红玲[1](2019)在《基于篇章主次关系的单文档抽取式摘要方法研究》一文中研究指出抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显着提高。(本文来源于《中文信息学报》期刊2019年08期)
陈巧红,董雯,孙麒,贾宇波[2](2019)在《基于混合神经网络的单文档自动文摘模型》一文中研究指出针对现有单文档自动文摘方法获取文摘的连贯性和准确度较差的问题,提出了一种基于混合神经网络的自动文摘模型。该模型将卷积神经网络和长短期记忆网络相结合,并在长短期记忆网络的输入端增加了一个记忆细胞状态。该模型首先利用卷积神经网络对句子进行向量表示;然后将每个句子中的词向量和文档中的句向量分别输入两个长短期记忆网络,得到句子和文档的匹配程度;最后将匹配程度高的句子进行组合,获得文摘。实验发现:基于混合神经网络的单文档自动文摘模型与LSI、LDA、TextRank、PCA以及长短期记忆网络模型相比,ROUGE-2和ROUGE-3值均有0.01左右的提升,这表明提出的模型获取文摘的可读性较好,上下文关系明确,有效提升了自动文摘的质量。(本文来源于《浙江理工大学学报(自然科学版)》期刊2019年04期)
杨山,杨雅婷,温正阳,米成刚[3](2019)在《基于语义空间的抽取式单文档摘要方法》一文中研究指出目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统.(本文来源于《厦门大学学报(自然科学版)》期刊2019年02期)
董雯[4](2018)在《基于混合神经网络的单文档自动文摘方法研究》一文中研究指出近年来随着网络的发展,互联网上出现了大规模的数据集、电子文档,人们也越来越依赖于从互联网上获取信息,因此自动文摘的作用领域得到了很大的扩展,文摘的使用也越来越广泛。传统的摘要都是经过人工对目标文本的理解概括形成的,需要耗费大量的时间和精力,且工作量大,已不能满足信息时代的要求。针对这一问题,自动文摘随之产生。近年来,采用深度学习方法应用到自动文摘中已经逐渐成为新的研究热点。如何迅速有效地从海量信息文献库中获取实用的信息成为人们急需解决的难题,而自动文摘正是解决这一难题的有力工具之一。为了解决文本内容表示和文摘内容选取的问题,提出了一种基于混合神经网络模型的自动文摘方法。针对自动文摘过程中句子抽取这一部分,提出一种基于改进的循环神经网络自动文摘方法,从而提升模型在自动文摘句子抽取中的性能。本文的研究工作主要包括以下四个方面:(1)针对文本预处理技术提升空间有限,而文本内容表示和文摘内容选取的改进空间较大,本文提出一种基于混合神经网络模型的自动文摘方法,该方法将在训练过程中高效且不易过拟合的卷积神经网络和在序列预测上有不错效果的长短期记忆网络模型相结合,其中卷积神经网络部分用于表示句子向量,长短期记忆网络部分用于抽取摘要句子。(2)针对自动文摘过程中句子抽取这一部分,本文采用一种基于改进的循环神经网络模型,该模型用LSTM记忆单元结构替换了原来循环神经网络中的隐藏层。实验结果表明,本文模型最终得到的ROUGE-2值和ROUGE-3值比基于LSTM改进的循环神经网络高0.024和0.0155。(3)本文比较了LDA模型、LSI模型、决策树、逻辑回归、神经网络、卷积神经网络以及基于LSTM改进的循环神经网络这6种模型在自动文摘生成上的表现,实验结果表明,基于混合神经网络的单文档自动文摘方法在自动文摘获取上效果最好。(4)本文设计并实现了一个基于混合神经网络的单文档自动文摘系统,该系统分为叁部分,第一部分是对文本数据进行分词处理;第二部分是对分词后的结果进行词转向量;第叁部分是调用本文的自动文摘算法,计算后得到文本摘要。(本文来源于《浙江理工大学》期刊2018-12-14)
刘凯[5](2018)在《基于篇章结构理论的单文档自动文摘研究》一文中研究指出抽取式的单文档自动文摘是自动文摘领域的核心任务之一,是指从文档中直接取出表示文档核心内容的句子作为文档的摘要。由于抽取式文摘通常使用表层特征,如统计信息、位置信息等,忽视了对文档篇章信息、语义信息等深层信息的利用,导致抽取式摘要的质量不均衡。因此,在当前汉语自然语言处理进入篇章的基础上,本文应用篇章结构信息,分别基于篇章修辞和篇章话题结构对中文新闻语料进行摘要的抽取、优化和评价的工作。因此,本文围绕篇章修辞与话题结构信息,在以下叁个方面展开研究。具体而言:(1)由于篇章修辞结构对抽取文摘时的指导性作用,可以使抽取的文摘更能表达篇章的主要内容。因此,本文使用篇章修辞结构信息,以篇章单元的主次关系为依据,抽取篇章单元中的主要部分,将之作为文档的摘要。(2)为了提升摘要的连贯性,本文基于篇章话题结构信息,利用主位推进理论推导的话题链,制定相应的规则,对前文抽取的摘要进行优化,包括扩充主位缺失的句子主位,删除冗余的部分,从而得到一个简洁、连贯的摘要,并利用连贯性评价方法和ROUGE评价,分别评价它的连贯性和准确性。实验结果表明,最终抽取的摘要在ROUGE评价得分变化不大的基础上,连贯性的得分更好,从而达到了提高摘要质量的目的。(3)为了评估文本的连贯性,本文分别使用基于实体网格模型和神经网络模型的方法。其中神经网络模型有LSTM和GRU两种网络结构,对摘要连贯性进行评估。由于人工摘要数量较少,本文采用句子排序的结果来对这两类模型进行评价。实验结果表明,基于GRU的方法不仅分类的效果较好且收敛快。本文的创新点主要表现在:(1)利用篇章修辞的信息对中文文章进行抽取式自动摘要的研究(2)利用篇章话题结构信息对抽取式摘要的连贯性进行完善和提升。(3)在分析摘要质量时,考虑将篇章的连贯性加入评价摘要的标准,并使用连贯性的模型对摘要的连贯性进行评价最终本文通过自动摘要系统可以实现对已标注篇章修辞和话题结构信息的文章进行摘要的抽取。(本文来源于《苏州大学》期刊2018-05-01)
王炜[6](2018)在《基于深度学习的中文单文档自动文摘方法研究》一文中研究指出自动文摘就是通过编写程序让计算机自动的从原始文档中提取摘要,所提取的摘要必须是全面准确的反映原始文档中心内容并且形式上是简单连贯的短文。基于神经网络的生成式文本摘要一般是通过将原始文档的内容加以“理解”,和抽取式摘要相比,它可以言简意赅的概括文本摘要,语法也很简洁且可读性强。然而在实际应用中,由于技术的限制,现如今一些主流的基于神经网络的生成式文本摘要方法生成的摘要中经常会出现OOV(Out of Vocabulary)问题以及原文中某些重要的语义单元不断地重复于最后的摘要中的问题。造成这种现象的原因主要有:第一,原文中出现次数少但是又极其重要的词、短语等语义单元很难被很好的捕捉到并作为摘要的一部分输出;第二,由于人工神经网络自身的弊端导致生成通顺的语句比较困难。本文以提高中文单文档摘要的生成质量为目的,针对上述自动摘要所面临的问题做了以下两个方面的研究:1.提出了一种融合词抽取的策略来改善一些在原文中极其重要的低频词无法被很好的生成在最后的摘要中。传统的注意力机制只能关注到哪些输入对输出有着更加大的影响,本文的策略通过增加一个词表,该词表在原有语料库的词表的基础上加上所有原文中包含的词但是初始词表中没有包含的词,这样在生成词的时候就可以考虑到原文中低频词的概率分布并生成这些词作为最后的摘要。实验结果表明该策略能在LCSTS以及NLPCC2017两个数据集上相较传统的抽取式方法以及基于基础的端到端的神经网络模型更好地结果。2.提出了一种消重策略来改善摘要中单个词的重复出现的问题。每次生成当前单词的时候都会将前一个生成摘要单词作为输入,所以在解码过程中,会出现注意力过分其中在编码器的某一部分,从而造成了错误,然后就出现无休止的短语重复,基于这个问题,我们加入了新的融合机制,在每次生成词的时候对之前“关注过”的词在这一轮给予一定的“惩罚”,这样就可以避免之前由于生成过的单词在这一轮再次受到较高的“关注度”。实现表明该策略在生成的摘要中能有效地避免重复出现某个重要的单词,使生成的语句可读性更好。(本文来源于《华中师范大学》期刊2018-05-01)
贾晓婷,王名扬,曹宇[7](2018)在《结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究》一文中研究指出【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显着地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。(本文来源于《数据分析与知识发现》期刊2018年02期)
何春辉,李云翔,王孟然,王梦贤[8](2017)在《改进的TextRank双层单文档摘要提取算法》一文中研究指出本文提出了基于句子重要度的累积贡献率摘要句筛选算法和改进的TextRank双层单文档摘要提取算法﹒摘要提取算法采用了分层结构,在不同层上融合了基于句子重要度的累积贡献率摘要句筛选算法,同时使用了长句和短句两种不同分割方式相结合的策略来构建摘要提取算法﹒用手工整理的中文单文档摘要数据集验证了算法的性能,结果表明:提取的摘要质量非常好﹒(本文来源于《湖南城市学院学报(自然科学版)》期刊2017年06期)
曹洋[9](2016)在《基于TextRank算法的单文档自动文摘研究》一文中研究指出信息时代的来临引发了文献的指数级增长,信息用户迅速由信息贫乏过渡到信息过载,传统手工文摘速度已经远远落后于用户的需要。起于1958年的自动文摘研究一直是信息自动处理领域的热点。其中,基于图的自动文摘主要利用文本中的词汇或者语义信息构建拓扑结构图,TextRank是其代表性的算法之一。借鉴了PageRank的算法思想,TextRank算法将文档划分为由若干文本单元(词项或者句子)构成的节点,文本单元间的相似度构成节点间的边,形成图模型,利用PageRank算法对图模型进行迭代直至收敛,然后对所有节点进行排序,输出关键词或文摘句。TextRank算法作为一种无监督方法,无需训练语料,可以运用在多种不同的领域。本文对TextRank算法自动文摘过程中的句子相似度、句子权重计算等部分进行了改进,提出了一种面向英文语料的单文档自动文摘方法。本文的研究工作包括以下几个方面:(1)研究问题。对基于TextRank算法自动文摘的主要步骤进行了梳理与分析,发现预处理以及迭代计算部分已经较为成熟,改进空间有限,而句子相似度以及句子权重计算则尚有较大的提升空间。(2)句子相似度。本文比较了基于编辑距离、WordNet语义词典、BM25以及经典TextRank的相似度算法;分析发现基于BM25相似度计算方法的自动文摘效果最优,同时也发现BM25计算公式中的IDF(si)部分,当n(si)大于N/2时,IDF(si)取负值,从而得到一个取负值的权重。对此,本文提出了两种BM25的改进思路,其一是采用经典TF-IDF计算公式中的IDF计算部分替换BM25原有的IDF(si)计算公式,并对经典IDF计算公式的分母采用拉普拉斯加1平滑;另一则是对BM25原有的IDF(5i)计算公式,当n(si)小于等于N/2时,公式不变,IDF(Si)取正值,当n(si)大于N/2时,用α·avglDF替换原来的公式。其中,a是调节参数(0≤α≤), avgIDF是所有词项的平均IDF值。(3)句子权重。经典TextRank方法考虑了句子的全局信息,但是忽视了句子本身的特征。对此,提出了将句子位置、线索词与经典TextRank加以整合的句子权重计算方案。(4)文摘实验。语料库为DUC2002,具体的工作包括:语料的预处理(分句、分词、词性标注、词项过滤);句子相似性计算;句子权重计算;文摘生成。(5)文摘评价。评价方法采用ROUGE,主要考查了面对不同文摘抽取任务时的表现(100个单词、压缩10%、压缩20%)。实验表明,在ROUGE的各项指标上,本文提出的句子相似度计算方法与句子权重计算方法均比经典TextRank方法有所提高。同时,本文给出了在面对不同文摘抽取任务时BM25改进方法的α取值策略。实验表明,本文改进的基于TextRank算法的单文档自动文摘方法具有一定的创新性与适用性。(本文来源于《南京大学》期刊2016-05-01)
方康,韩立新[10](2015)在《基于HMM的加权Textrank单文档的关键词抽取算法》一文中研究指出文中介绍了现有几种比较流行的关键词提取技术,提出了基于隐马尔科夫模型的加权Textrank的单文档关键词抽取算法。对比分析了叁种算法的效果:基于词频的关键词提取算法,基于词性、位置、频度的关键词提取算法,加权Textrank算法。实验结果表明加权Textrank算法在单文档提取中有较好的效果,并且在单篇文章提取较少的关键词时准确率较高。(本文来源于《信息技术》期刊2015年04期)
单文档论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对现有单文档自动文摘方法获取文摘的连贯性和准确度较差的问题,提出了一种基于混合神经网络的自动文摘模型。该模型将卷积神经网络和长短期记忆网络相结合,并在长短期记忆网络的输入端增加了一个记忆细胞状态。该模型首先利用卷积神经网络对句子进行向量表示;然后将每个句子中的词向量和文档中的句向量分别输入两个长短期记忆网络,得到句子和文档的匹配程度;最后将匹配程度高的句子进行组合,获得文摘。实验发现:基于混合神经网络的单文档自动文摘模型与LSI、LDA、TextRank、PCA以及长短期记忆网络模型相比,ROUGE-2和ROUGE-3值均有0.01左右的提升,这表明提出的模型获取文摘的可读性较好,上下文关系明确,有效提升了自动文摘的质量。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
单文档论文参考文献
[1].张迎,王中卿,王红玲.基于篇章主次关系的单文档抽取式摘要方法研究[J].中文信息学报.2019
[2].陈巧红,董雯,孙麒,贾宇波.基于混合神经网络的单文档自动文摘模型[J].浙江理工大学学报(自然科学版).2019
[3].杨山,杨雅婷,温正阳,米成刚.基于语义空间的抽取式单文档摘要方法[J].厦门大学学报(自然科学版).2019
[4].董雯.基于混合神经网络的单文档自动文摘方法研究[D].浙江理工大学.2018
[5].刘凯.基于篇章结构理论的单文档自动文摘研究[D].苏州大学.2018
[6].王炜.基于深度学习的中文单文档自动文摘方法研究[D].华中师范大学.2018
[7].贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现.2018
[8].何春辉,李云翔,王孟然,王梦贤.改进的TextRank双层单文档摘要提取算法[J].湖南城市学院学报(自然科学版).2017
[9].曹洋.基于TextRank算法的单文档自动文摘研究[D].南京大学.2016
[10].方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术.2015