面向查询的多文档自动文摘论文-陈劲光

面向查询的多文档自动文摘论文-陈劲光

导读:本文包含了面向查询的多文档自动文摘论文开题报告文献综述及选题提纲参考文献,主要关键词:面向查询,多文档自动文摘,云模型,文摘单元选取

面向查询的多文档自动文摘论文文献综述

陈劲光[1](2011)在《基于云模型的中文面向查询多文档自动文摘研究》一文中研究指出随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、重复的数据,需要用户耗费很多精力来自己查找有用的结果。面向查询的多文档自动文摘技术将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取,通常要求摘要的内容简洁、组织良好、冗余低、满足个性化需求。面向查询的多文档自动文摘技术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以及利用信息的效率,提高使用者在信息社会中的竞争实力。云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定量转换模型。云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究。虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型直接应用在自然语言处理领域本身的工作还比较少见。本论文针对中文语料中的面向查询多文档自动文摘展开了研究。首先构建可以用于公开评测的评测语料、人工摘要;在此基础上利用云模型进行文摘内容选取、句子修剪、句子排序,力图生成满足用户需求的聚焦度高、内容精练、可读性好的连贯摘要;最后采用修改后的ROUGE工具进行中文文摘自动评测。本文主要研究工作和研究成果概括如下:一、提出了一种基于云模型的文摘单元选取方法,利用云模型,全面考虑文摘单元的随机性和模糊性,提高面向查询的多文档自动文摘系统的性能。首先计算文摘单元和查询条件的相关性,将文摘单元和各个查询词的相关度看成云滴,通过对云的不确定性的计算,找出与查询条件真正意义相关的文摘单元。随后利用文档集合重要度对查询相关的结果进行修正,将文摘句和其他各文摘句的相似度看成云滴,利用云的数字特征计算句子重要度,找出能够概括尽可能多的文档集合内容的句子,避免片面地只从某一个方面回答查询问题。为了证明文摘单元选取方法的有效性,在英文大规模公开语料上进行了实验,并参加了国际自动文摘公开评测,取得了较好的成绩。二、构建了中文自动文摘评测语料库及中文自动评测工具,并以此为基础,构建了一种基于云模型的中文面向查询多文档自动文摘系统。中文自动文摘评测语料库由1000篇文档、100个文档集合和查询条件、400篇人工摘要构成。通过修改英文文摘评测工具ROUGE的源程序,实现了中文自动文摘的ROUGE自动评测。首先将50个文档集合作为训练语料,采用哈工大最新共享的语言技术平台进行句子切分、分词;随后利用中文自动评测工具,在测试语料中进行参数训练;最后采用基于云模型的文摘单元选取方法生成中文摘要,就此搭建了中文云摘要系统。叁、提出了一种基于多维云和依存分析的中文句子修剪方法,进一步提高文摘质量。首先制定基于依存分析的句子修剪规则,对每个候选文摘句进行句子修剪,从而产生多候选句;随后利用多维云,综合考虑词语在句子、文档集合中的分布以及和查询条件的相关性,对各修剪句进行打分,在云的迭加过程中实现了不确定性的有效传递;最后选取那些包含信息量最大、长度最短的修剪句替换候选文摘句,构成自动摘要,从而使文摘包含更多的有效信息。四、提出了一种基于云模板的文摘句排序方法,使生成的中文云摘要更加连贯。云模板的方法将文档集合中的每一篇文档都看成模板,利用云模型将各篇文档的排序结果综合到一起,既避免了单一模板方法对于单个文档的依赖,也避免了多数次序方法只能两两排序的缺点。首先利用基于复杂网络的自适应增量聚类方法对文档集合进行聚类,找出那些包含有一个或多个文摘句的子主题;随后将文档集合中的每一篇文档都看作模板,利用这些模板构成的云确定子主题和文摘句在模板中的相对位置;最后依次对子主题以及对子主题内部的句子进行排序,从而生成连贯性更好、可读性更强的自动摘要。(本文来源于《华中师范大学》期刊2011-09-01)

桂卓民,何婷婷,陈劲光,李芳[2](2009)在《一种面向查询的多文档自动文摘系统实现方法》一文中研究指出针对面向查询的多文档自动文摘,本文提出了一种系统实现方法。首先通过对句子结构的分析发现,句子中某些成分并不能反映该句子的重要信息,提出在一定句子的修剪基础上,基于倒几率比的词权计算方法与改进的HAL语言模型方法,并应用于文本的自动摘要。实验证明该方法对自动文摘的质量有一定提高。(本文来源于《中国计算机语言学研究前沿进展(2007-2009)》期刊2009-07-24)

邵伟[3](2008)在《面向查询的多文档自动文摘研究》一文中研究指出Internet的飞速发展为用户提供了丰富的信息资源,同时也促进了信息处理技术的崛起。通过信息处理技术,可以帮助人们更加有效地组织、总结和分析网络上的各种资源。而这当中,信息的智能检索与自动摘要技术最为关键。检索技术是人们获取所需信息的有效途径。而自动摘要技术则可以减轻用户的阅读压力,帮助他们提取主要的相关信息;该技术有利于信息的检索和再次处理,其信息表现的简洁性、清晰性是信息挖掘的有效手段。本文重点研究了面向查询的多文档自动摘要技术。它是自然语言处理领域一个新的研究热点,旨在根据用户的查询,将检索到的相关信息以简洁、准确的摘要形式呈现给用户,帮助他们判断和浏览感兴趣的内容,提高信息获取的效率。结合目前研究状况,在综合分析查询信息和相关文档集合主题的前提下,设计并实现了一个面向查询的多文档自动文摘系统。主要的研究工作如下:1.提出了一种多特征融合的文摘句选择方法。面向查询的多文档文摘要求能满足查询的需求,同时代表相关文档的主题。针对这一特点,综合挖掘句子与查询的关联特征以及句子全局关联特征,对其进行重要性分析。这样一方面可以保证文摘句与查询的高度关联性,同时兼顾了文档主题。最后,通过采取一种基于改进的MMR方法挑选文摘句,减少摘要的冗余信息。随机实验表明:其有效性在整体上优于只依赖句子重要性的选择方法。2.在文摘句选择过程中采取了两种优化策略:为了获取句子与查询的关联性,采用了基于概念的句子表现形式;通过构建语义图,挖掘句子的全局关联信息,其优势在于可以更加准确、直观地判断节点的全局特征。通过DUC 2005年数据集上的评测,比较了两个特征在不同的融合比例下对文摘质量的影响。3.实现了一个基于查询的英文多文档自动摘要系统。在预处理阶段,综合了词干化处理,指代还原,同义词合并等技术,提高了句子在表现形式上的有效性。在检索阶段,采用了基于密度分析的排序方法。最后在测试阶段,从实验语料库的构建到评测方法的选取均做了相应的尝试,不但验证了本文方法的可行性,还为结果分析奠定了良好的基础。(本文来源于《华中师范大学》期刊2008-05-01)

赵林[4](2008)在《面向查询的多文档自动文摘关键技术研究》一文中研究指出随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显着提高。本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。(本文来源于《复旦大学》期刊2008-04-07)

面向查询的多文档自动文摘论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对面向查询的多文档自动文摘,本文提出了一种系统实现方法。首先通过对句子结构的分析发现,句子中某些成分并不能反映该句子的重要信息,提出在一定句子的修剪基础上,基于倒几率比的词权计算方法与改进的HAL语言模型方法,并应用于文本的自动摘要。实验证明该方法对自动文摘的质量有一定提高。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

面向查询的多文档自动文摘论文参考文献

[1].陈劲光.基于云模型的中文面向查询多文档自动文摘研究[D].华中师范大学.2011

[2].桂卓民,何婷婷,陈劲光,李芳.一种面向查询的多文档自动文摘系统实现方法[C].中国计算机语言学研究前沿进展(2007-2009).2009

[3].邵伟.面向查询的多文档自动文摘研究[D].华中师范大学.2008

[4].赵林.面向查询的多文档自动文摘关键技术研究[D].复旦大学.2008

标签:;  ;  ;  ;  

面向查询的多文档自动文摘论文-陈劲光
下载Doc文档

猜你喜欢