复述模板论文-刘明童,张玉洁,徐金安,陈钰枫

复述模板论文-刘明童,张玉洁,徐金安,陈钰枫

导读:本文包含了复述模板论文开题报告文献综述及选题提纲参考文献,主要关键词:关系模板,复述模板,深度语义计算,自动聚类

复述模板论文文献综述

刘明童,张玉洁,徐金安,陈钰枫[1](2018)在《开放域上基于深度语义计算的复述模板获取方法》一文中研究指出利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基于深度语义计算的关系模板聚类方法获取高精度的复述模板。我们在四类实体关系数据上的实验结果表明,该方法实现了关系模板的自动获取与自动聚类,可以获得语义相近度更高、表现形式多样的复述模板。(本文来源于《中文信息学报》期刊2018年02期)

王立[2](2013)在《中文复述模板及搭配抽取方法研究》一文中研究指出复述是用不同方式表达同样的语义,它不仅是人类自然语言中的一种普遍现象,同时对自然语言处理领域的许多研究都具有重要的意义。近年来,复述技术受到了越来越多的研究者的关注。本文主要的研究对象是中文复述模板及搭配资源的抽取。抽取出来的这些复述资源不仅可以直接应用于复述生成中,也可以用于信息检索、机器翻译、自动问答等自然语言处理相关研究中。本文首先提出了一种字幕语料的复述模板抽取方法。该方法基于这样一个事实:对于同一种外文的不同翻译是天然的复述资源。本文首先利用对同一部外文电影的不同翻译小组的翻译字幕匹配候选的复述句对,并利用句长、长度比、词重迭率、BLEU (Bilingual Evaluation Understudy)四条复述规则对这些候选的复述句对进行过滤。在这些过滤得到的复述句的基础上,该方法依据“子树”和“部分子树”抽取模板。为了对抽取得到的模板进行匹配,该方法引入了HowNet进行词语语义相似度的计算,并利用模板中的词语的相似度来衡量两个模板之间的语义相似度。相比已有的方法,本方法提高了复述模板抽取的准确率,并且可以抽取大量的复述模板。模板相比普通的短语含有带有变量的槽,因此拥有更多的灵活性,但是其针对的只是句子局部的复述,不能解决远距离搭配的问题,因此,本文提出了一种基于概念扩展的中文复述搭配的抽取方法。该方法在对语料进行了语法分析之后,抽取出了具有<V, OBJ, N>形式的动宾搭配和具有<N, SUB, V>形式的主谓搭配。之后对抽取出的搭配进行过滤并利用了基于概念语义扩展的相关词群对搭配中词语进行扩展,进而生成了候选复述搭配集合。最后是复述搭配的判定,如下四个方面的特征被选作为复述搭配判定特征:1)词性特征、2)互信息特征、3)基于Hownet的语义相似度特征、4)基于上下文的向量相似度特征。相比已有的方法,本方法更为灵活,不限定复述搭配中的词语必须是同义词。实验结果表明,本方法选定的各种特征都有助于提高复述搭配抽取的效果。(本文来源于《华中师范大学》期刊2013-05-01)

复述模板论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

复述是用不同方式表达同样的语义,它不仅是人类自然语言中的一种普遍现象,同时对自然语言处理领域的许多研究都具有重要的意义。近年来,复述技术受到了越来越多的研究者的关注。本文主要的研究对象是中文复述模板及搭配资源的抽取。抽取出来的这些复述资源不仅可以直接应用于复述生成中,也可以用于信息检索、机器翻译、自动问答等自然语言处理相关研究中。本文首先提出了一种字幕语料的复述模板抽取方法。该方法基于这样一个事实:对于同一种外文的不同翻译是天然的复述资源。本文首先利用对同一部外文电影的不同翻译小组的翻译字幕匹配候选的复述句对,并利用句长、长度比、词重迭率、BLEU (Bilingual Evaluation Understudy)四条复述规则对这些候选的复述句对进行过滤。在这些过滤得到的复述句的基础上,该方法依据“子树”和“部分子树”抽取模板。为了对抽取得到的模板进行匹配,该方法引入了HowNet进行词语语义相似度的计算,并利用模板中的词语的相似度来衡量两个模板之间的语义相似度。相比已有的方法,本方法提高了复述模板抽取的准确率,并且可以抽取大量的复述模板。模板相比普通的短语含有带有变量的槽,因此拥有更多的灵活性,但是其针对的只是句子局部的复述,不能解决远距离搭配的问题,因此,本文提出了一种基于概念扩展的中文复述搭配的抽取方法。该方法在对语料进行了语法分析之后,抽取出了具有<V, OBJ, N>形式的动宾搭配和具有<N, SUB, V>形式的主谓搭配。之后对抽取出的搭配进行过滤并利用了基于概念语义扩展的相关词群对搭配中词语进行扩展,进而生成了候选复述搭配集合。最后是复述搭配的判定,如下四个方面的特征被选作为复述搭配判定特征:1)词性特征、2)互信息特征、3)基于Hownet的语义相似度特征、4)基于上下文的向量相似度特征。相比已有的方法,本方法更为灵活,不限定复述搭配中的词语必须是同义词。实验结果表明,本方法选定的各种特征都有助于提高复述搭配抽取的效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

复述模板论文参考文献

[1].刘明童,张玉洁,徐金安,陈钰枫.开放域上基于深度语义计算的复述模板获取方法[J].中文信息学报.2018

[2].王立.中文复述模板及搭配抽取方法研究[D].华中师范大学.2013

标签:;  ;  ;  ;  

复述模板论文-刘明童,张玉洁,徐金安,陈钰枫
下载Doc文档

猜你喜欢