导读:本文包含了时序多文档文摘论文开题报告文献综述及选题提纲参考文献,主要关键词:时序多文档文摘,内容选择,时间表达式识别与归一化,宏微观重要性判别模型
时序多文档文摘论文文献综述
贺瑞芳[1](2009)在《时序多文档文摘相关技术研究》一文中研究指出互联网的发展产生了爆炸式增长的文本、图像、音频和视频等多媒体信息。面对信息极大丰富,知识相对匮乏的时代,人们陷入一种咨讯焦虑的困境之中。而且随着时间的不断演化,相关的媒体信息也在逐渐地更新和进化。如何有效地获取、组织信息逐渐成为信息处理领域的一大挑战。本文以信息压缩为目标,着重研究文本压缩技术。时序多文档文摘为自动文摘领域的新方向,是传统静态多文档文摘的自然扩展,其处理的对象跨越了同一时段的相关文档集,即处理跨时段的相关文档集。其主要目标是按照一定的压缩比从时序角度自动总结出系列新闻报道的内容进化,以帮助人们快速获取信息。伴随着国际评测DUC2007、TAC2008的举办,相关的研究越来越受到政府、企业界和学术界的重视。时序多文档文摘有着广阔的应用前景,可用于新闻搜索引擎、商业竞争情报分析、趋势预测等领域,通过不断满足人们的需求,创造更大的社会价值。本文的研究对象系列新闻报道本身具有比较突出的时序特性,可以认为同一时段的静态多文档文摘是时序多文档文摘的一种特殊情况。因此,时序多文档文摘的研究重点是如何在时序上下文的背景下解决传统静态多文档文摘的内容选择和语言质量控制两大难题。前人的工作对时序信息考虑的比较少,本文着眼于识别时序特性并应用其来深度挖掘时序多文档文摘的抽取式内容选择方法,力图保持文摘内容的重要性、新颖性和覆盖性,重点研究了以下问题:1、识别时间表达式并进行归一化。理解文本的语义是自然语言处理的终极目标,而时序语义对于理解文本是不可或缺的。时间表达式识别和归一化是时序语义标注的基础。时间表达式识别与归一化的研究为时序多文档文摘的内容选择和语言质量控制奠定了基础,也可以为其它时序信息抽取应用提供支撑。2、基于宏微观重要性判别模型的内容选择。本着逐步求精的原则,首先在假设系列新闻报道各时间片相互独立的基础上,通过分析其不断演化的宏微观时序进化特性,探索基于宏微观重要性判别模型的时序多文档文摘内容选择方法。3、基于进化流形排序的话题相关内容选择。更进一步,系列新闻报道在时间轴上是连续进化的,在假设当前时间片的内容进化依赖于以前时间片话题内容的基础上,研究话题描述的动态增强对表达用户兴趣不断更新所带来的信息需求的变化,对内容选择的影响。提出迭代反馈机制引导的进化流形排序算法,以模拟系列新闻报道中话题演化的动态性,为时序多文档文摘的内容选择提供了时序自适应的重要性排序。4、谱聚类增强的话题相关内容选择优化。在进化流形排序的基础上,研究了通过归一化谱聚类改进内容选择的覆盖性,设计了时序去冗余策略来保证文摘内容更好的新颖性。结合子话题排序和新颖的去冗余策略探索了时序多文档文摘优化的内容选择方法。在国际评测TAC2008中的UpdateSummarization任务上,获得了名列前茅的内容选择评测性能,证明了该方法的优越性。本文对时序多文档文摘及其内容选择技术进行了初步探索,提出的方法具有语言无关性,取得了一定成果,为今后的深入研究奠定了基础。(本文来源于《哈尔滨工业大学》期刊2009-11-01)
贺瑞芳,秦兵,刘挺,潘越群,李生[2](2009)在《基于宏微观重要性判别模型的时序多文档文摘》一文中研究指出时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性,提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序特性,以指导时序多文档文摘的内容选择.首先通过宏观模型确定重要的时间点,然后通过微观模型在重要的时间点选择重要的句子,从而更有效地获取文摘.实验证明该方法是有效的.(本文来源于《计算机研究与发展》期刊2009年07期)
时序多文档文摘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
时序多文档文摘是针对新闻领域跨时段的相关文档集,即系列新闻报道进行问题无关的、抽取式文摘.根据系列新闻报道不同细节层次的时序特性,提出一种基于宏微观重要性判别模型的内容选择方法.从宏观和微观角度挖掘信息随着时间进化的时序特性,以指导时序多文档文摘的内容选择.首先通过宏观模型确定重要的时间点,然后通过微观模型在重要的时间点选择重要的句子,从而更有效地获取文摘.实验证明该方法是有效的.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
时序多文档文摘论文参考文献
[1].贺瑞芳.时序多文档文摘相关技术研究[D].哈尔滨工业大学.2009
[2].贺瑞芳,秦兵,刘挺,潘越群,李生.基于宏微观重要性判别模型的时序多文档文摘[J].计算机研究与发展.2009
标签:时序多文档文摘; 内容选择; 时间表达式识别与归一化; 宏微观重要性判别模型;