导读:本文包含了翻译对抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:机器翻译,命名实体,日语假名,归纳学习法
翻译对抽取论文文献综述
王东明,徐金安,陈钰枫,张玉洁[1](2015)在《基于单语语料的面向日语假名的日汉人名翻译对抽取方法》一文中研究指出命名实体的翻译等价对在跨语言信息处理中非常重要。传统抽取方法通常使用平行语料库或可比语料库,此类方法受到语料库资源的质量和规模的限制。在日汉翻译领域,一方面,双语资源相对匮乏;另一方面,对于汉字命名实体,通常使用汉字对照表;对于日语纯假名的命名实体,通常采用统计翻译模型,此类方法受到平行语料库的质量和规模的限制,且精度低下。针对此问题,该文提出了一种基于单语语料的面向日语假名的日汉人名翻译对自动抽取方法。该方法首先使用条件随机场模型,分别从日语和汉语语料库中抽取日语和汉语人名;然后,采用基于实例的归纳学习法自动获取人名实体的日汉音译规则库,并通过反馈学习来迭代重构音译规则库。使用音译规则库计算日汉人名实体之间的相似度,给定阈值判定人名实体翻译等价对。实验结果表明,提出的方法简单高效,在实现系统高精度的同时,克服了传统方法对双语资源的依赖性。(本文来源于《中文信息学报》期刊2015年05期)
王玮[2](2014)在《从可比语料中抽取等价实体翻译对的研究》一文中研究指出随着信息时代的到来,跨语言自然语言处理技术在人们的工作和生活中发挥着越来越重要的作用。其中,实体翻译技术在跨语言自然语言处理任务中有着至关重要的地位。本文主要研究从可比语料中抽取等价实体翻译对。在主流的context-based方法中,种子词典的质量直接影响该方法的最终效果,却鲜有研究者关注。本文根据种子词典存在的叁个主要问题入手,分别提出了相应的解决方案来提高实体对抽取的效果。本文首先针对种子词典译项词粒度和语料粒度不一致的问题,提出了使用自分词方法来使词典的译项词粒度可以适应语料的粒度。同时提出了基于译项词长度的权重分配方法和基于词频分布相似性的权重分配方法,以此增加种子词典的自适应性,提升对齐效果。其次,本文针对使用双语种子词典进行翻译时存在的词义分散问题,提出了一个高效的翻译信息压缩方法,该方法使用分布式词向量来挖掘单词之间的语义信息,同时通过利用双语词典本身的可靠信息来决定单词之间的语义关联,然后通过层次聚类模型实现了翻译信息的压缩。该方法做到了语言无关而且不需要额外的外部资源,在实体抽取任务上适用于所有类型的命名实体和未登录词,具有极强的可扩展性。最后,本文针对种子词典覆盖率不够的问题,使用高关联度词对种子词典没有覆盖到的词进行替代,由此来扩充种子词典的覆盖率。实验证明,本文提出的方法能够很好的改善种子词典的质量,使得从可比语料中抽取等价实体翻译对任务的MRR值最终高出Baseline系统约7个百分点,有比较显着的提升。(本文来源于《哈尔滨工业大学》期刊2014-06-01)
刘颖,铁铮,余畅[3](2012)在《汉英短语翻译对的自动抽取》一文中研究指出介绍从平行语料库中如何抽取双语短语翻译对。首先用统计模型正则期望从汉语专利语料库中抽取汉语短语。抽取的短语利用统计知识和语言学知识来过滤,使得过滤后汉语短语的正确率较高;其次,利用词对齐工具Giza++从汉英平行语料库中抽取词汇对齐,在词汇对齐的基础上利用开源工具Moses抽取汉英短语对齐,根据短语对齐与抽取出的高质量汉语短语的交集来抽取候选的汉英互译的源语言短语;接着使用停用词、对数似然估计法LLR和上下文熵来对英语短语翻译进行过滤。实验结果表明,过滤后,抽取的汉语短语准确率为97.6%,汉英短语翻译对的准确率为92.4%。(本文来源于《计算机应用与软件》期刊2012年07期)
严灿勋,刘慧敏,宋兰[4](2011)在《基于C#正则表达式的英汉翻译对抽取》一文中研究指出本文介绍了一个SQL数据库支持下的、基于C#正则表达式的英汉翻译对抽取方法,待抽取的资料均来自网络,包括机读电子词典和多种含英汉翻译对的网页,它们具有固定的正则表达式模式。抽取工作用到两个用C#开发的Windows应用程序:网页爬虫和翻译对抽取应用程序。下载的网页和抽取的翻译对都存在SQL数据库中,可供进一步研究使用。结果显示,这种方法抽取的翻译对准确率非常高,能很快收集大量翻译对建成生英语平行语料库。(本文来源于《科技信息》期刊2011年26期)
周宥良[5](2010)在《基于WEB的双语翻译对抽取方法研究》一文中研究指出命名实体、术语的翻译对自然语言处理,机器翻译性能的影响越来越重要。在机器翻译领域,双语翻译词典是重要的翻译资源,但是传统的基于词典的方法很难提供大量的,实时的术语的翻译。为了取得足够好的翻译质量,前人提出了一系列自动抽取双语翻译对的方法,但早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理未登录词等问题。随着互联网的飞速发展,越来越多的双语甚至多语页面大量出现,这些页面语种不同但是表达的内容却大致相同,搜集这些页面就可形成当前比较流行的“可比较语料”。基于互联网的可比较语料包含的双语翻译对覆盖面非常广泛,从这种语料中抽取双语翻译对己成为当今信息抽取领域里的一个研究热点。本文提出的从大规模网页中抽取双语翻译对的方法是基于可比较语料的。首先从大规模的可比较语料中抽取符合匹配模式的插入语候选项,然后从得到的插入语候选项中抽取候选互译对,再利用IBM翻译模型的词对齐模型得到正确的双语叁元组,从而得到最终的翻译对。实验结果显示,运用本文提出方法实现的系统,得到的翻译元组的准确率能达到95.6%。此外,本文针对IBM词对齐模型的一些缺陷,利用基于对齐语料和启发知识的词对齐技术让翻译元组的抽取的准确率最终提高到96.7%,该结果表明对齐的双语语料和可比较双语语料在研究上存在互补作用。通过本文介绍的方法,可比较语料可以补充转化为平行语料,为自然语言处理提供更多的研究资源。(本文来源于《苏州大学》期刊2010-04-01)
何莉,林鸿飞[6](2009)在《一种面向WEB的生物医学领域英汉术语翻译对抽取方法》一文中研究指出双语词典是信息检索及相关应用的基础资源。但是领域专业双语词典不易获得且规模有限,因此本文提出一种面向WEB的生物医学领域自动获取双语术语翻译对的方法,以补充、完善双语词典。该方法主要包括候选中文对译词识别和对译词选择两个部分。前者使用了统计规则和长度-标准差模型,后者采用感知器算法及共现模型实现。通过对比实验结果显示,本文的方法是有效的,提高了术语翻译对抽取的准确率。(本文来源于《中国计算机语言学研究前沿进展(2007-2009)》期刊2009-07-24)
樊聪[7](2007)在《利用web抽取双语翻译对的研究与实现》一文中研究指出近年来,在自然语言处理的研究和开发中,双语翻译对(包括句子,短语,词汇)的作用日益突显出来,它为跨语言检索和机器翻译等自然语言处理应用提供基础资源。大量的双语翻译对可以明显改进上述基于实例的自然语言应用系统的性能。因而人们提出了很多抓取双语翻译的方法,早期的方法主要是从平行语料里进行抽取。这类方法存在规模不足,领域局限,不能很好处理新词等问题。随着互联网得飞速发展,大量网页中包含了双语翻译对。并且由于互联网自身的多样性和实时性,互联网上的翻译对覆盖面广,而且包含了大量新词。因此,从互联网上抽取双语翻译对已成为了当今信息抽取领域里的研究热点。本文提出了一种新颖的从互联网上获取双语平行翻译对的方法,该方法基于双语平行翻译对在网上会集群式出现的特点,通过一个循环迭代的挖掘方法自动的从互联网上发现,抽取高质量的翻译对。首先利用种子数据从搜索引擎上获取包含种子数据的网页,然后使用一个启发式的评估方法从网页中发现双语平行翻译对。对这些包含集群式出现的双语翻译对的信息区域,我们使用了PAT树的数据结构自动构建抽取模板,然后,根据模板的抽取性能(使用F-measure进行评测)采用Ranking SVM对这些模板进行排序,使用排序后的前10个模板联合表面模板(Surface Pattern)进行翻译对的抽取。最后,再通过使用一个基于源语言和目标语言翻译相关性的SVM分类器,将高质量的翻译对提取出来。本文的主要贡献为:①本文提出了一种滚雪球式的从互联网上抽取翻译对的迭代方法;②本文设计并实现了一个整合式的抽取系统用来从互联网中抽取出高质量中英翻译对。通过大量的实验表明综合自动发现,抽取,验证等模块,该框架可以获得比同类方法更高的抽取性能。(本文来源于《重庆大学》期刊2007-10-01)
何彦青,周玉,宗成庆,王霞[8](2007)在《基于“松弛尺度”的短语翻译对抽取方法》一文中研究指出短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于"松弛尺度"的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松"完全相容"的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。(本文来源于《中文信息学报》期刊2007年05期)
何彦青,周玉,宗成庆[9](2007)在《基于“松弛尺度”的短语翻译对抽取方法》一文中研究指出短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的 Och 提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于“松弛尺度”的短语抽取方法, 对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松“完全相容”的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比 Och 的方法有明显的改善和提高。(本文来源于《内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集》期刊2007-08-01)
左云存,宗成庆[10](2005)在《基于HMM的短语翻译对抽取方法》一文中研究指出在基于语料库的统计翻译方法中,基于短语的统计翻译与基于单个词的统计翻译相比可以更好地处理句中词语之间的关系,从而有效地提高机器翻译系统的性能。在基于短语的统计翻译方法中,一种重要的策略是把短语翻译对作为一种知识加入到翻译系统中,因此,整个系统的性能与使用的短语翻译对的质量具有很大的关系。本文在基于HMM词对齐方法的基础上,提出了一种从双语语科中自动抽取短语翻译对的方法,这种方法根据词语对齐时出现的不同情况作不同的处理,提高了短语翻译对抽取的效果。(本文来源于《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》期刊2005-08-01)
翻译对抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着信息时代的到来,跨语言自然语言处理技术在人们的工作和生活中发挥着越来越重要的作用。其中,实体翻译技术在跨语言自然语言处理任务中有着至关重要的地位。本文主要研究从可比语料中抽取等价实体翻译对。在主流的context-based方法中,种子词典的质量直接影响该方法的最终效果,却鲜有研究者关注。本文根据种子词典存在的叁个主要问题入手,分别提出了相应的解决方案来提高实体对抽取的效果。本文首先针对种子词典译项词粒度和语料粒度不一致的问题,提出了使用自分词方法来使词典的译项词粒度可以适应语料的粒度。同时提出了基于译项词长度的权重分配方法和基于词频分布相似性的权重分配方法,以此增加种子词典的自适应性,提升对齐效果。其次,本文针对使用双语种子词典进行翻译时存在的词义分散问题,提出了一个高效的翻译信息压缩方法,该方法使用分布式词向量来挖掘单词之间的语义信息,同时通过利用双语词典本身的可靠信息来决定单词之间的语义关联,然后通过层次聚类模型实现了翻译信息的压缩。该方法做到了语言无关而且不需要额外的外部资源,在实体抽取任务上适用于所有类型的命名实体和未登录词,具有极强的可扩展性。最后,本文针对种子词典覆盖率不够的问题,使用高关联度词对种子词典没有覆盖到的词进行替代,由此来扩充种子词典的覆盖率。实验证明,本文提出的方法能够很好的改善种子词典的质量,使得从可比语料中抽取等价实体翻译对任务的MRR值最终高出Baseline系统约7个百分点,有比较显着的提升。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
翻译对抽取论文参考文献
[1].王东明,徐金安,陈钰枫,张玉洁.基于单语语料的面向日语假名的日汉人名翻译对抽取方法[J].中文信息学报.2015
[2].王玮.从可比语料中抽取等价实体翻译对的研究[D].哈尔滨工业大学.2014
[3].刘颖,铁铮,余畅.汉英短语翻译对的自动抽取[J].计算机应用与软件.2012
[4].严灿勋,刘慧敏,宋兰.基于C#正则表达式的英汉翻译对抽取[J].科技信息.2011
[5].周宥良.基于WEB的双语翻译对抽取方法研究[D].苏州大学.2010
[6].何莉,林鸿飞.一种面向WEB的生物医学领域英汉术语翻译对抽取方法[C].中国计算机语言学研究前沿进展(2007-2009).2009
[7].樊聪.利用web抽取双语翻译对的研究与实现[D].重庆大学.2007
[8].何彦青,周玉,宗成庆,王霞.基于“松弛尺度”的短语翻译对抽取方法[J].中文信息学报.2007
[9].何彦青,周玉,宗成庆.基于“松弛尺度”的短语翻译对抽取方法[C].内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集.2007
[10].左云存,宗成庆.基于HMM的短语翻译对抽取方法[C].全国第八届计算语言学联合学术会议(JSCL-2005)论文集.2005