汉蒙词语对齐论文-姜迎春,雪艳

汉蒙词语对齐论文-姜迎春,雪艳

导读:本文包含了汉蒙词语对齐论文开题报告文献综述及选题提纲参考文献,主要关键词:词语对齐,机器翻译,平行语料库,蒙古文信息处理

汉蒙词语对齐论文文献综述

姜迎春,雪艳[1](2010)在《词语对齐与机器翻译问题研究——以汉蒙机器翻译为例》一文中研究指出目前基于实例的机器翻译方法和统计机器翻译方法被视为机器翻译界主流译法。本文试图结合以上两种方法为例说明实现词语对齐(Word Alignment)对机器翻译等工作流程中的重要性和必要性问题。(本文来源于《民族翻译》期刊2010年01期)

雪艳[2](2009)在《汉蒙词语对齐及相关技术研究》一文中研究指出汉蒙平行语料库是包含汉语和蒙古语两种语言互译文本的语料库,它是蒙古文信息处理数据资源的重要组成部分。汉蒙平行语料库在语言的多个层面上呈现汉语和蒙古语的互译对照信息,能够为汉蒙机器翻译或者其他与汉蒙双语相关的信息处理提供强有力的支持。汉蒙平行语料库的建设中,最关键的技术是“对齐”。所谓对齐,就是从源文和译文文本中找出互为翻译的片断。由于互译片段的粒度不尽相同,因此有篇章、段落、句子、短语以及词等不同级别的对齐。许多与双语处理相关的应用,如统计机器翻译、基于实例的机器翻译、词义消歧、双语词典编纂等,都要求以经过词语对齐的平行语料库作为依托。目前,汉蒙平行语料库的大部分数据是通过手工录入的方式收集起来的。录入过程中,我们按照“句对”的格式对语料进行了整理。因此,至少现阶段,汉蒙平行语料库的加工不涉及篇章、段落或者句子级别的对齐任务。如何在汉蒙句对上,进一步寻找汉蒙词语之间的对应关系,是本篇论文的重点研究内容。现在虽然有词语对齐开源软件(如,GIZA++)可供使用,但这一类基于纯统计学方法的工具通常只有在超大规模语料库上才能取得令人满意的效果。对于像汉蒙平行语料库这样规模偏小的资源,我们主张使用“基于知识”的方法来实现词语对齐。本文在借鉴和吸收前人研究成果的基础上,结合蒙古文信息处理的资源现状,提出了一种知识密集型(Knowledge Intensive)的汉蒙词语对齐方法。该方法的主旨是以“基于双语词典的Greedy算法”作为基本框架,通过在此框架内引入多种外部知识和信息,如蒙古语同义词知识、蒙古语词法知识、蒙古语连续多词单元的标注信息、汉蒙数词到阿拉伯数字的转换信息以及汉语介词与蒙古语“格”的对应规则等,逐步提高对齐的召回率和准确率。就这些知识(或信息)的获取方法及它们在汉蒙词语对齐中的作用,本文的研究包括如下几个方面:(1)提出利用蒙古语《类语辞典》中的同义词知识对汉蒙双语词典进行扩充,为汉蒙词语对齐提供更多的翻译选项。(2)利用一个基于词典和规则的方法对蒙古语文本进行词法分析和标注,为汉蒙词语的相似度计算提供蒙古语词干信息。(3)提出一种基于同现频率和词类信息的蒙古语连续多词单元的抽取方法,结合语言学家的内省判断构造出一个有效的词表,并以该词表作为依据,对蒙古语文本中的连续多词单元进行捆绑标注。这一标注信息能够帮助汉蒙词语对齐系统返回一部分“l:n”模式的对齐连接。(4)提出一种将汉蒙数词转换成阿拉伯数字的方法,目的是以阿拉伯数字作为中介,得到汉蒙数词的对齐。(5)基于汉语介词和蒙古语“格”之间的对应规律,提出一种局部启发式算法,以实现汉语“介词+名词(或代词)”结构与蒙古语格变化词形之间的“2:1”模式的对齐。另外,我们通过对大量汉蒙词语人工对齐结果及相关笔记进行比较和研究,发现人工词语对齐中存在相当程度的“主观性”因素。本文以当前汉蒙词语对齐系统的评价为主要目标,提出并制定了“汉蒙词语人工对齐规范”,为建立“标准对齐连接”提供操作细则。实验部分,采用召回率、正确率和F值作为评价方法,在叁类测试集(日常用语、政府文献、小说)上进行了一系列的实验和考察,总结出各种语言学知识对词语对齐的影响。实验结果表明,通过在基于词典和dislocation的基本框架内综合引用多种语言学知识,系统能够在“汉蒙日常用语”测试集上取得相对最好的成绩,召回率为0.592,正确率为0.814。(本文来源于《内蒙古大学》期刊2009-06-01)

汉蒙词语对齐论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

汉蒙平行语料库是包含汉语和蒙古语两种语言互译文本的语料库,它是蒙古文信息处理数据资源的重要组成部分。汉蒙平行语料库在语言的多个层面上呈现汉语和蒙古语的互译对照信息,能够为汉蒙机器翻译或者其他与汉蒙双语相关的信息处理提供强有力的支持。汉蒙平行语料库的建设中,最关键的技术是“对齐”。所谓对齐,就是从源文和译文文本中找出互为翻译的片断。由于互译片段的粒度不尽相同,因此有篇章、段落、句子、短语以及词等不同级别的对齐。许多与双语处理相关的应用,如统计机器翻译、基于实例的机器翻译、词义消歧、双语词典编纂等,都要求以经过词语对齐的平行语料库作为依托。目前,汉蒙平行语料库的大部分数据是通过手工录入的方式收集起来的。录入过程中,我们按照“句对”的格式对语料进行了整理。因此,至少现阶段,汉蒙平行语料库的加工不涉及篇章、段落或者句子级别的对齐任务。如何在汉蒙句对上,进一步寻找汉蒙词语之间的对应关系,是本篇论文的重点研究内容。现在虽然有词语对齐开源软件(如,GIZA++)可供使用,但这一类基于纯统计学方法的工具通常只有在超大规模语料库上才能取得令人满意的效果。对于像汉蒙平行语料库这样规模偏小的资源,我们主张使用“基于知识”的方法来实现词语对齐。本文在借鉴和吸收前人研究成果的基础上,结合蒙古文信息处理的资源现状,提出了一种知识密集型(Knowledge Intensive)的汉蒙词语对齐方法。该方法的主旨是以“基于双语词典的Greedy算法”作为基本框架,通过在此框架内引入多种外部知识和信息,如蒙古语同义词知识、蒙古语词法知识、蒙古语连续多词单元的标注信息、汉蒙数词到阿拉伯数字的转换信息以及汉语介词与蒙古语“格”的对应规则等,逐步提高对齐的召回率和准确率。就这些知识(或信息)的获取方法及它们在汉蒙词语对齐中的作用,本文的研究包括如下几个方面:(1)提出利用蒙古语《类语辞典》中的同义词知识对汉蒙双语词典进行扩充,为汉蒙词语对齐提供更多的翻译选项。(2)利用一个基于词典和规则的方法对蒙古语文本进行词法分析和标注,为汉蒙词语的相似度计算提供蒙古语词干信息。(3)提出一种基于同现频率和词类信息的蒙古语连续多词单元的抽取方法,结合语言学家的内省判断构造出一个有效的词表,并以该词表作为依据,对蒙古语文本中的连续多词单元进行捆绑标注。这一标注信息能够帮助汉蒙词语对齐系统返回一部分“l:n”模式的对齐连接。(4)提出一种将汉蒙数词转换成阿拉伯数字的方法,目的是以阿拉伯数字作为中介,得到汉蒙数词的对齐。(5)基于汉语介词和蒙古语“格”之间的对应规律,提出一种局部启发式算法,以实现汉语“介词+名词(或代词)”结构与蒙古语格变化词形之间的“2:1”模式的对齐。另外,我们通过对大量汉蒙词语人工对齐结果及相关笔记进行比较和研究,发现人工词语对齐中存在相当程度的“主观性”因素。本文以当前汉蒙词语对齐系统的评价为主要目标,提出并制定了“汉蒙词语人工对齐规范”,为建立“标准对齐连接”提供操作细则。实验部分,采用召回率、正确率和F值作为评价方法,在叁类测试集(日常用语、政府文献、小说)上进行了一系列的实验和考察,总结出各种语言学知识对词语对齐的影响。实验结果表明,通过在基于词典和dislocation的基本框架内综合引用多种语言学知识,系统能够在“汉蒙日常用语”测试集上取得相对最好的成绩,召回率为0.592,正确率为0.814。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

汉蒙词语对齐论文参考文献

[1].姜迎春,雪艳.词语对齐与机器翻译问题研究——以汉蒙机器翻译为例[J].民族翻译.2010

[2].雪艳.汉蒙词语对齐及相关技术研究[D].内蒙古大学.2009

标签:;  ;  ;  ;  

汉蒙词语对齐论文-姜迎春,雪艳
下载Doc文档

猜你喜欢