导读:本文包含了短语翻译模型论文开题报告文献综述及选题提纲参考文献,主要关键词:短语,统计模型,藏汉,在线翻译
短语翻译模型论文文献综述
臧景才,陈建新,李永虎[1](2019)在《基于短语统计模型的藏汉在线翻译系统实现》一文中研究指出本文主要介绍了基于短语统计方法的藏汉机器翻译系统的实现,其中对开源工具包Moses(翻译模型的训练工具)、IRSTLM(语言模型训练工具)、GIZA++(双语对齐工具)及XMLRPC(在线翻译工具)等的相关理论使用做了分析和说明,并对藏汉双语语料、藏汉双语语料预处理、训练语言模型、训练翻译模型、构建解码器和搭建藏汉在线翻译系统几个模块的做了阐述,从而实现整个藏汉在线机器翻译系统的搭建。(本文来源于《电子技术与软件工程》期刊2019年10期)
张阳,余正涛,周珂[2](2017)在《词汇化调序模型中融合语言特性的层次短语翻译方法研究》一文中研究指出针对越南语语言特性,提出在词汇化调序模型中融合语言差异特性的汉语-越南语的统计机器翻译方法。该方法首先分析汉语与越南语语法不同,提取越南语在定语位置、状语位置及修饰词词语顺序上与汉语的差异,然后形式化定义这些差异规则,以对数线性模型的形式融入进词汇化调序模型中。在训练过程,通过融合语言差异特性的词汇化调序模型对符合特性的规则进行权重调优,从而在解码过程中指导候选翻译的选择。实验结果表明,在词汇化模型里融合语言特性的汉语-越南语的层次短语机器翻译模型比基准系统提高了0.6~2.1个BLUE值。(本文来源于《计算机与数字工程》期刊2017年12期)
邬龙,黎塔,刘建[3](2017)在《基于短语翻译模型的中文语音识别纠错算法》一文中研究指出识别结果纠错是提升语音识别系统的一个重要手段。本文将识别结果纠错看成是错误的识别结果到正确的结果之间的翻译,提出一种基于短语翻译模型的语音识别纠错算法。该方法首先将识别的拼音串结果通过翻译模型映射成纠错拼音串,然后使用基于动态树的束搜索算法将纠错拼音串转成纠错汉字串。实验表明,在两个领域相关的测试集上经过纠错模块处理以后,字错误率分别相对下降9.6%和11.6%。最后,为了提高纠错系统在领域不相关测试集上的鲁棒性,把经过纠错的汉字结果和语音识别输出的汉字结果进行融合。在领域不相关的测试集上字错误率相对下降1.5%。(本文来源于《第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集》期刊2017-10-11)
唐海庆[4](2017)在《基于单词和短语语义的统计翻译模型研究》一文中研究指出基于短语的统计机器翻译以短语作为基本翻译单位,能够很好地解决短语内部的语义依赖关系,但无法捕获长距离的语义依赖关系。同时,任意连续的单词即可构成短语,短语不需要具有语法结构,这也导致翻译系统使用的语义信息比较有限。鉴于基于短语的统计翻译方法存在上述缺陷,本文展开基于单词和短语语义的统计翻译模型研究,考虑在基于短语的统计机器翻译中引入语义信息,来提高翻译系统的性能。本文主要工作内容包括:(1)针对基于短语的统计机器翻译无法捕获长距离的语义约束关系,导致长距离的动宾结构短语对以及主谓结构短语对翻译错误,本文展开基于单词语义的统计翻译模型研究。我们提出基于动词选择偏向性的翻译模型,将动词对宾语和主语的选择倾向应用于机器翻译中。首先,抽取出训练语料中的所有动宾关系实例和主谓关系实例。然后,采用条件概率方法和主题模型方法在动宾关系和主谓关系下分别为动词训练单语义和跨语义的选择偏向性模型。最后,设计算法将动词的选择偏向性模型集成到基于短语的统计机器翻译中。实验结果表明,基于动词选择偏向性的翻译模型能够很好地解决动词及其参数无法正确翻译的问题。(2)针对基于短语的统计机器翻译使用的语义知识有限,导致源语言多义词的译文词汇选择正确率不高,本文展开基于短语语义的统计翻译模型研究。我们提出基于超词义的翻译模型,首次将粗粒度层的单词词义应用于机器翻译中。首先,利用超词义标注方法为源语言每个单词标注对应的超词义。其次,采用最大熵分类器和词义嵌入两种方法来训练基于超词义的翻译模型。最后,设计相应算法将两种翻译模型分别集成到基于短语的统计机器翻译中。实验结果表明,基于超词义的翻译模型能够有效提高多义词的翻译正确率。(本文来源于《苏州大学》期刊2017-05-01)
明芳[5](2017)在《层次短语模型的日语时态翻译研究》一文中研究指出统计机器翻译是自然语言处理领域具有挑战性的前沿课题之一,具有广泛应用价值和重要的商业应用前景。随着网络技术的发展和普及,信息量快速增加,各领域对机器翻译的需求量也越来越多。近几年,统计机器翻译技术发展迅速,取得了一系列令人瞩目的成果,但是在实际应用中,如何在统计机器翻译模型中有效利用语言学知识提升翻译质量仍是一个研究热点。机器翻译是文本处理中的一项重要内容,文本处理常涉及的时序关系对文本推理和筛选具有重要意义,而时态则扮演了不可或缺的角色。目前,在统计机器翻译中,关于时态的研究主要局限在时态识别方面,对时态的翻译研究较少。时态信息是重要的语言学信息,因此本文研究的时态问题,转换为在统计机器翻译中融入时态等语言学知识的问题。本文以日语为研究对象,从日汉和日英两个角度,对时态翻译进行研究。日语属于黏着语系,其时态由谓词词尾变形决定,且谓语词尾的变化多种多样,不同时态表达存在相似词尾,导致统计机器翻译的时态翻译精度低下。针对上述问题,本文提出了一种融合时态特征的统计机器翻译方法,主要研究成果如下:(1)提出了一种基于日语依存结构的时态分类方法。该方法通过解析日语依存句法分析结果,并结合目标语言时态特点,提取时态相关信息,构建最大熵时态分类模型。该模型可有效识别时态,其分类准确率表明了该分类方法的有效性。(2)提出了一种面向层次短语翻译模型的时态特征抽取算法。该算法可以实现在抽取翻译规则的同时,抽取满足一定条件的规则的时态特征。这些时态特征可以指导翻译过程的规则选择,使翻译结果更加符合语言学知识,保证了相关词汇选择和语言的结构调序。(3)提出了一种在统计机器翻译中融合时态特征的方法。该方法实现了对不同时态的规则的选择过滤,而没有增加解码器的复杂度。并且对语种没有依赖性,仅需根据语言语法的不同,选择融合单语时态特征或双语时态特征。翻译实验结果表明该方法提升了翻译质量,可有效改善时态翻译问题。本文将时态特征融入统计机器翻译模型。日汉及日英翻译的实验结果表明,本文提出的方法不仅可以有效提高层次短语模型在时态上的翻译精度,还可以达到词义消歧和改善句子结构调序的目的。(本文来源于《北京交通大学》期刊2017-04-01)
肖桐,朱靖波[6](2016)在《基于树到串模型强化的层次短语机器翻译解码方法》一文中研究指出文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框架下的统计机器翻译解码技术,并提出了多种解码策略,包括基于树的精确解码策略、基于树的模糊解码策略和基于串的解码策略.通过NIST汉英翻译任务上的实验结果显示,文中所研究的方法可以十分有效地提升基线层次短语系统的翻译性能,比如在newswire和web数据上分别提高了1.3和1.2个BLEU点.此外,文中分析了若干影响翻译性能的因素,并给出了对比实验结果.(本文来源于《计算机学报》期刊2016年04期)
孙辉丰[7](2015)在《层次短语翻译模型中翻译规则约束问题的研究》一文中研究指出在快速发展的互联网时代,传统的人工翻译已经不能满足目前海量的翻译需求,机器翻译的重要性就凸显出来。在多种机器翻译方法中,统计机器翻译由于良好的可拓展性以及较好的翻译性能而受人们的青睐。层次短语翻译模型是统计机器翻译模型中的优秀代表,很多研究工作都在该模型上展开。相比于短语翻译模型,层次短语翻译模型能够更好地处理非局部的短语调序问题。层次短语翻译模型的一个重要特性就是从一个短语对中学习到的层次规则可以应用到其他任意相同形式的短语对中去。因此,在翻译中正确使用翻译规则就显得非常重要。本文针对层次短语翻译模型中存在的翻译规则匹配缺乏限制的问题展开了深入研究,提出一个新的规则约束模型。该模型引入句法树、短语边界和丰富的上下文信息,综合多方面的信息有效地约束规则的使用,从而提高了基线系统的翻译质量。该模型提取的上下文信息都来自源语言端,在实际解码中可以提前将相关特征值计算出来,因此并不会引入额外的时间开销。并且该模型可以很方便地加入到现有统计机器翻译系统中的对数线性框架中进行训练。在大规模的中英翻译上进行实验的结果和分析表明,该模型能够稳定提高基线系统的翻译性能。另外,本文利用Hadoop分布式计算平台来处理翻译数据,能够快速训练机器翻译中用到的翻译模型以及本文提出的规则约束模型,通过实验表明该方法可以大幅缩短线下数据处理时间,提升工作效率。(本文来源于《南京大学》期刊2015-05-20)
张婧一[8](2015)在《基于层次短语的翻译模型重排问题的研究》一文中研究指出这篇论文的工作专注于提高基于层次短语的翻译模型的重排性能。主要包括叁个方面:一是提出了一个新颖的方法来裁剪已有对齐模型中错误的功能词对齐。翻译模型是在词对齐的平行语料上学习的,所以词对齐质量对翻译质量起决定性作用。功能词在不同的语言中不像实词一样具有明确的对应关系,实词的错误对齐可以通过词对本身识别,但是功能词对齐的正误要依靠上下文来判断。所以功能词对齐质量通常比实词的对齐更差,并且错误的功能词对齐更多的会影响重排性能。我们的方法首先利用功能词的特殊性质包括各种单语和双语的频率统计数据来识别功能词。对于一个功能词的对齐,如果与这两个功能词句法相关的实词不存在对齐关系,此功能词对齐就会被裁掉。我们通过提高功能词对齐的精度来改善重排性能。二是引入了一个简单有效的翻译区间学习模型。在平行的句对上,根据词对齐结果如果在源语言句子某一区间上可以抽离短语翻译规则,那么这个区间就是翻译区间。换句话说,翻译区间就是在翻译过程中可以被应用翻译规则的区间。当把翻译规则应用到非翻译区间的源语言区间上时会引起不正确的重排。此模型从对齐的平行语料上训练获得然后用于解码时为输入的句子预测翻译区间。我们提出的模型是第一个用于直接学习翻译区间的统计模型。叁是设计了一个高性能的词重排模型。我们用一系列的子模型为不同距离的源语言词对进行重排。实验和分析展示了只有对短距离词对重排的模型能够明确的提高翻译性能。对比之前的用一个统一模型来学习所有词对的重排,我们的模型学习过程会高效得多。所以我们能利用更多复杂高级的特征和机器学习算法来更好的学习词重排问题。此外,考虑到多重对齐的情况,我们的模型比之前的模型引入了更多的重排模式。方法二和方法叁从不同的侧面对翻译中重排过程进行统计建模,能够很方便的作为新的特征被集合到基于层次短语的翻译模型的线性对数框架下来提高重排性能。在中译英和日译英中,叁种方法都显着地提高了翻译质量。(本文来源于《上海交通大学》期刊2015-01-13)
李鹏,刘洋,孙茂松[9](2014)在《层次短语翻译的神经网络调序模型》一文中研究指出调序歧义是层次短语翻译模型面临的主要挑战之一,但在该类模型中使用的上下文信息非常有限,制约了该类模型处理调序歧义的能力。为了更充分地利用上下文信息,提出了一种面向层次短语翻译模型的神经网络调序模型。该模型将调序看作分类问题,首先使用递归自动编码器为任意长度的字符串计算向量表示,然后使用这些向量表示作为分类特征,用于预测不同调序方式的概率,最后将这些概率作为新的特征加入翻译模型中进行翻译。实验结果显示:在中—英翻译任务上,该模型相比基线系统获得了0.3~0.8的BLEU值提升,具有更好的调序能力。(本文来源于《清华大学学报(自然科学版)》期刊2014年12期)
苏传捷[10](2014)在《基于层次短语模型的蒙—汉统计机器翻译研究》一文中研究指出随着我国经济、贸易、文化、教育等各个方面飞速发展,跨地区、跨民族的交流与合作越来越密切。不同民族之间的交流对翻译存在巨大的需求。近些年来,我国内蒙古自治区的经济发展十分迅猛,越来越多的企业与个人来到内蒙古地区进行贸易活动。这使得人们对传统蒙古文到汉文之间的翻译的需求越来越大。然而,人工翻译满足不了快速膨胀的需求,因此必须借助统计机器翻译技术。目前主流的统计机器翻译方法包括:基于短语的机器翻译、基于层次短语的机器翻译、基于句法树的机器翻译等。目前,传统蒙古文-汉文的机器翻译发展得还不是很成熟。因此,本文针对传统蒙古文-汉文翻译中的特点,对基于统计的蒙-汉机器翻译方法进行了研究。首先,为了解决蒙-汉语言结构差异大、在翻译中普遍存在长距离调序等问题,本文对基于层次短语的统计机器翻译模型进行了深入的研究。之后,本文实现了一套基于层次短语的蒙-汉统计机器翻译系统。该系统可以从未经人工标注的平行语料中自动学习加权的同步上下文无关文法(WSCFG),并利用该同步文法以及基于改进的CKY的解码算法进行高效的蒙-汉翻译。除此之外,针对蒙-汉统计机器翻译平行语料中拼写错误较多的问题,本文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法。该方法将拼写校对的过程看作是一种翻译的过程,并引入统计翻译模型进行拼写校对。该方法的校准率最高可以达到97%以上。在最终的翻译对比实验中,本文使用这种方法对基于短语和基于层次短语的蒙-汉机器翻译的训练语料进行的拼写校对。该方法有效缓解了数据的稀疏问题,从而对翻译模型的训练提供了很大的帮助。最终的对比实验表明,比起传统的基于短语的翻译模型,基于层次短语的统计机器翻译模型更加适合从传统蒙古文到汉文的翻译任务,测试集在BLEU值上得到1个百分点的提高。同时,在这两种翻译系统上嵌入的本文提出的拼写校对系统,翻译结果均有不同程度的提升。(本文来源于《内蒙古大学》期刊2014-04-30)
短语翻译模型论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对越南语语言特性,提出在词汇化调序模型中融合语言差异特性的汉语-越南语的统计机器翻译方法。该方法首先分析汉语与越南语语法不同,提取越南语在定语位置、状语位置及修饰词词语顺序上与汉语的差异,然后形式化定义这些差异规则,以对数线性模型的形式融入进词汇化调序模型中。在训练过程,通过融合语言差异特性的词汇化调序模型对符合特性的规则进行权重调优,从而在解码过程中指导候选翻译的选择。实验结果表明,在词汇化模型里融合语言特性的汉语-越南语的层次短语机器翻译模型比基准系统提高了0.6~2.1个BLUE值。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
短语翻译模型论文参考文献
[1].臧景才,陈建新,李永虎.基于短语统计模型的藏汉在线翻译系统实现[J].电子技术与软件工程.2019
[2].张阳,余正涛,周珂.词汇化调序模型中融合语言特性的层次短语翻译方法研究[J].计算机与数字工程.2017
[3].邬龙,黎塔,刘建.基于短语翻译模型的中文语音识别纠错算法[C].第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集.2017
[4].唐海庆.基于单词和短语语义的统计翻译模型研究[D].苏州大学.2017
[5].明芳.层次短语模型的日语时态翻译研究[D].北京交通大学.2017
[6].肖桐,朱靖波.基于树到串模型强化的层次短语机器翻译解码方法[J].计算机学报.2016
[7].孙辉丰.层次短语翻译模型中翻译规则约束问题的研究[D].南京大学.2015
[8].张婧一.基于层次短语的翻译模型重排问题的研究[D].上海交通大学.2015
[9].李鹏,刘洋,孙茂松.层次短语翻译的神经网络调序模型[J].清华大学学报(自然科学版).2014
[10].苏传捷.基于层次短语模型的蒙—汉统计机器翻译研究[D].内蒙古大学.2014