导读:本文包含了组块对齐论文开题报告文献综述及选题提纲参考文献,主要关键词:越南语,汉语,组块对齐,依存关系
组块对齐论文文献综述
李佳[1](2018)在《融入依存关系的汉越组块对齐研究》一文中研究指出近年来,机器翻译正在逐步成为缓解人们之间进行交流时所面对的语言障碍的重要技术措施。组块(或短语)曾经在机器翻译中扮演重要角色。通过使用组块而不是单词作为基本的翻译单元,可以轻松地对本地(块内)和全局(块间)字的顺序和相关性进行修改。研究如何在前人的基础上对汉语和越南语组块进行对齐以及构建一个大型的汉语-越南语块对齐语料库具有重要研究价值。目前,汉语和英语、日语和英语等语种双语语言组块的识别取得了令人满意的结果,但对汉语和越南语之间组块关系的研究仍然少见。本文探讨影响汉越组块对齐质量的原因并分析对齐过程中的问题。同时,根据越南语言特点及其研究现状,主要完成了以下研究工作:(1)提出基于BiLSTM-CRF的越南语组块分析方法。为了提高越南组块的标注准确性,减少传统组块识别过程中的大量特征,构建了一种基于神经网络的越南组块分析模型。在分词和词性标注的基础上,没有手工添加任何越南语的语言特点,利用BiLSTM-CRF模型实现越南语组块分析。(2)提出基于注意力机制的LSTM模型的越南语组块间依存关系分析方法。为了提高汉越组块对齐的准确率,在越南语组块识别的基础上,利用注意力机制的LSTM模型训练出组块间依存关系分析模型,解决了越南语组块间依存关系分析的难题,为汉越组块对齐提供了重要的组块间依存关系特征,同时在一定程度上简化了依存句法分析过程,提高了分析粒度。(3)提出融入依存关系的汉越组块对齐方法。融入依存关系缓解了双语组块长距离依赖的问题。根据所构建的特征,利用条件随机场计算出各个特征的增益值从而挑选出叁个最有用的特征,双语组块词性共现特征、双语组块标注共现特征和双语组块间关系特征,以此来减少模型计算量。根据所挑选的特征计算出双语组块匹配的分值,从而得到汉越组块对齐结果。(本文来源于《昆明理工大学》期刊2018-04-01)
刘建基[2](2006)在《基于关联度和词对齐的双语组块获取研究》一文中研究指出长期以来,机器翻译系统都是以词为语言翻译的基本单位。人类自然语言中词的使用非常灵活,在机器翻译处理中有很大的歧义性,这是导致机器翻译译文难以提高的关键因素之一。这就需要引入比词语粒度稍大的单位来进行翻译。 本文工作主要内容如下: 首先,引入了面向机器翻译的双语组块的概念,它是一种粒度介于句子和词语之间的双语语段,具有语义自足性、结构合法性和翻译转换的充分性等特点。本文阐述了基于双语组块的句法分析和类比翻译的思想及其在IHSMTS系统中的初步应用思想,并围绕着双语组块的获取展开工作。 其次,在单语语料库的基础上进行了单语组块获取的研究。其中,对常见的关联度函数进行了对比分析,提出了叁种获取单语组块的方案,并基于动态增长机制实现了对单语组块的获取,最后对组块语法属性的继承和传递进行了探讨。 第叁,在双语语料库的基础上进行了双语组块获取的研究。在单语组块获取工作的基础上,提出了基于统计和基于词对齐的两种双语组块获取模型。设计并实现了基于关联度和词对齐的双语组块获取原型系统,取得了较好的实验效果。(本文来源于《南京理工大学》期刊2006-06-01)
任登君,李珩,张俐,姚天顺[3](2004)在《基于词对齐的双语组块对齐》一文中研究指出本文提出了一种基于词对齐的双语组块对齐的方法。它利用已有的词对齐信息和英语组块识别结果,进行汉语组块的识别和双语组块的对齐。通过对双语组块对齐实例的分析,我们将组块对齐分为叁种情况:(1)双语组块对应连续(2)双语组块对应不连续(3)组块合并情况。根据这叁种情况,我们提出叁种不同算法,进行双语组块对齐。实验结果表明,该方法的正确率和召回率分别达到90.76%,88.59%。(本文来源于《第二届全国学生计算语言学研讨会论文集》期刊2004-08-01)
组块对齐论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
长期以来,机器翻译系统都是以词为语言翻译的基本单位。人类自然语言中词的使用非常灵活,在机器翻译处理中有很大的歧义性,这是导致机器翻译译文难以提高的关键因素之一。这就需要引入比词语粒度稍大的单位来进行翻译。 本文工作主要内容如下: 首先,引入了面向机器翻译的双语组块的概念,它是一种粒度介于句子和词语之间的双语语段,具有语义自足性、结构合法性和翻译转换的充分性等特点。本文阐述了基于双语组块的句法分析和类比翻译的思想及其在IHSMTS系统中的初步应用思想,并围绕着双语组块的获取展开工作。 其次,在单语语料库的基础上进行了单语组块获取的研究。其中,对常见的关联度函数进行了对比分析,提出了叁种获取单语组块的方案,并基于动态增长机制实现了对单语组块的获取,最后对组块语法属性的继承和传递进行了探讨。 第叁,在双语语料库的基础上进行了双语组块获取的研究。在单语组块获取工作的基础上,提出了基于统计和基于词对齐的两种双语组块获取模型。设计并实现了基于关联度和词对齐的双语组块获取原型系统,取得了较好的实验效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
组块对齐论文参考文献
[1].李佳.融入依存关系的汉越组块对齐研究[D].昆明理工大学.2018
[2].刘建基.基于关联度和词对齐的双语组块获取研究[D].南京理工大学.2006
[3].任登君,李珩,张俐,姚天顺.基于词对齐的双语组块对齐[C].第二届全国学生计算语言学研讨会论文集.2004