导读:本文包含了命名实体翻译论文开题报告文献综述及选题提纲参考文献,主要关键词:命名实体等价对,汉柬双语,音译模型,维基百科
命名实体翻译论文文献综述
夏青[1](2016)在《汉柬命名实体翻译等价对获取方法研究》一文中研究指出命名实体等价对是自然语言处理中的重要基础资源,在跨语言信息检索、机器翻译等领域都有重要应用。与其它大语种相比,由于语料规模和基础研究的欠缺,目前在汉柬命名实体等价对获取方法的研究上,还处于起步阶段。本文主要围绕如何获取汉柬命名实体等价对进行研究。论文的主要工作归纳如下:1.基于维基百科的汉柬命名实体等价对抽取基于维基百科的汉柬命名实体等价对抽取将互联网中的维基百科作为获取命名实体等价对的载体,利用维基百科多语言描述的特点作为汉语与柬埔寨语的桥梁,根据维基百科的页面结构特点定义了汉柬命名实体等价对抽取的规则,抽取了一定规模的高质量汉柬命名实体等价对,构建了汉柬命名实体库。2.基于机器学习方法的柬-汉音译模型构建基于机器学习方法的柬-汉音译模型通过将柬文命名实体翻译为中文命名实体的方式获取汉柬命名实体等价对。构建柬-汉音译模型将音译问题转化为音节切分标注和音节翻译标注两步标注序列问题,采用最大熵和条件随机场的机器学习方法构建音译模型。与统计机器翻译方法比较,机器学习构建的音译模型翻译效果更好。3.基于特征相似度的可比语料挖掘汉柬命名实体等价对基于特征相似度的可比语料挖掘汉柬命名实体等价对首先在汉柬双语可比语料中识别命名实体。根据不同类型命名实体自身的特点以及命名实体在可比语料中的特点定义了音译特征、翻译特征、上下文词向量特征、长度特征。分别计算候选命名实体各特征的相似度,根据不同类型的命名实体设置了不同特征相似度权重,通过各特征相似度加权求和的方式计算候选命名实体等价对的最终相似度,挖掘汉柬可比语料中的命名实体等价对。通过相似度计算的方法在汉柬可比语料中挖掘到了一定数量的汉柬命名实体等价对。(本文来源于《昆明理工大学》期刊2016-03-01)
杨萍,侯宏旭,蒋玉鹏,申志鹏,杜健[2](2016)在《基于双语对齐的汉语–新蒙古文命名实体翻译》一文中研究指出汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。(本文来源于《北京大学学报(自然科学版)》期刊2016年01期)
张磊,杨雅婷,米成刚,李晓[3](2015)在《维吾尔语数词类命名实体的识别与翻译》一文中研究指出针对维吾尔语数词类命名实体(时间、日期、货币、百分比)在维汉机器翻译中翻译不准确的问题,分析其构成规律及边界信息,设计基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译系统。通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的识别F值达到了91%,有效提高了维汉机器翻译的质量。(本文来源于《计算机应用与软件》期刊2015年08期)
尹存燕,黄书剑,戴新宇,陈家骏[4](2015)在《面向新闻语料的中日命名实体翻译抽取》一文中研究指出命名实体翻译可以有效地提高跨语言信息检索、统计机器翻译等系统的性能.双语新闻语料包含了丰富的命名实体,利用统计方法可以从中抽取出命名实体翻译.基于中日双语新闻语料,对中日命名实体的翻译特征进行了分析,基于这些特征,提出一种中日双语命名实体翻译自动抽取的方法,该方法融合了中日汉字翻译概率、片假名词汇和中文音译词汇的拼音相似度以及双语词汇共现等特征.实验表明本文方法充分利用这些特征,在语料规模不大的情况下,也可以取得较好的效果.(本文来源于《小型微型计算机系统》期刊2015年06期)
杨萍[5](2015)在《基于双语对齐的汉文—新蒙古文命名实体翻译技术研究》一文中研究指出对于统计机器翻译而言,命名实体的识别及实体的翻译是影响其性能的重要因素。目前专门针对新蒙文命名实体识别的研究较少且多采用基于规则的方法;这种方法需要人工标注新蒙文语料、撰写规则;耗时长且难以覆盖所有的命名实体现象。针对上述问题,本文提出了一种自动地从汉文-新蒙文平行句对中抽取命名实体对的方法。本文实现了基于CRF的汉文命名实体识别。对其中的关键性问题:识别粒度大小的确定、特征的选取进行了充分的实验。得出了基于字的识别效果更优;找出了对命名实体识别非常有意义的各类特征:基于上下文的字特征、分词以及词性特征、各类实体前后缀字特征等;最后得到了一个识别性能较优的模型。对汉文中实体类命名实体识别的平均F值为91.67。本文提出了汉文-新蒙文命名实体翻译框架,采用了非对称的汉文-新蒙文命名实体对齐策略,对汉文端进行命名实体识别后,从汉文-新蒙文词对齐结果中用滑动窗的方法抽取出候选的汉文-新蒙文命名实体对。然后利用从语料中得到的词对齐一致性特征、命名实体对翻译概率特征以及语言模型特征对候选翻译对进行置信度估计,选取置信度最高的候选翻译对确定为我们最终的抽取结果。抽取到的汉文-新蒙古文命名实体对的正确率为81.54%。(本文来源于《内蒙古大学》期刊2015-04-10)
王静雅,袁保社[6](2015)在《基于模板的汉维商品命名实体翻译研究》一文中研究指出结合商品命名实体自身结构的特点,提出一种基于模板的产品名命名实体的翻译方法。该方法在传统模板中包含的固定项和可变项的基础上,添加候选项。首次把TTL模板抽取算法应用于"汉语-维吾尔语",并加以改进。实验结果表明模板中候选部分的添加可大大减少模板的数量,提高模板的泛化能力和翻译质量。(本文来源于《现代计算机(专业版)》期刊2015年08期)
马国来,尹长青,宋善威[7](2015)在《基于机器翻译语块的命名实体翻译方法研究》一文中研究指出命名实体翻译旨在实现命名实体在不同语言之间的转换与对应。现有翻译模型存在技术不成熟及缺乏互相结合的问题。对此,提出了基于语块的机构名翻译及与基于机器学习策略的音译模型相结合的方法。前者解决了统计模型在组织机构名翻译中存在词语选择,词语调序等困难的问题。后者保证有效地检索到存在翻译结果的页面,以及解决了正确翻译结果抽取的问题。(本文来源于《硅谷》期刊2015年03期)
努尔比亚·吐拉甫[8](2013)在《基于命名实体的维汉翻译规则及资源建设研究》一文中研究指出新疆少数民族地区随着教育的普及,人民的受教育水平的逐步提高,使得新疆少数民族对信息媒体的需求逐日增加,维吾尔文字形式发布的网站数目也在逐年增加。新疆新闻信息网站主要包括政治、经济、军事、外交等社会公共事条报道,及社会突发事件的报道和评论。据了解新疆双语新闻媒体(包括政府各类文件等)在涉及到关于财经、日期、时间等方面的数字翻译问题时,翻译的准确率较低。然而面对海量信息,获取准确的信息数据不仅是研究人员要解决的问题,同样是政府工作人员及查阅信息者的需求。网页新闻数据及政府文献中数字短语的正确翻译是统计机器翻译中一个重要的环节。以此为出发点,本论文的主要研究工作如下:第一:本文首先收集实验所需的维汉双语平行语料,并进行整理加工。语料的收集主要来源是从新疆新闻网站上下载。第二:将数字和时间、日期等命名实体进行详细的分类。本文在分析维汉两种语言中数字和时间等词语构成规律的基础上,对其进行类别划分。第叁:人工编写维汉数字识别和翻译规则。针对语料中出现的数字、时间、日期等表达式编写规则,是本论文的核心。本文的创新点在于,目前国内己出现了影响较大的在线翻译系统,如百度、谷歌和有道等,但他们只能实现大语种间的互译,而没有实现少数民族语言与其他语种间的翻译,更不用提维吾尔语到汉语数字短语的翻译。本文采用基于规则的方法实现了维吾尔文到中文的数字与时间表达式的翻译。本文的实验结果表明,对数字和时间等命名实体采用编写规则的方法可以有效地提高短语翻译概率表,从而明显提高了翻译质量。在今后的工作中,将进一步研究如何在统计机器翻译中能更好地发挥规则的方法并完善和扩展。(本文来源于《西北民族大学》期刊2013-05-01)
吴丹,何大庆,陆伟[9](2012)在《跨语言信息检索中的命名实体识别与翻译》一文中研究指出综述命名实体识别与翻译研究现状,提出基于信息抽取的命名实体识别与翻译方法,以及对该方法进行一系列集成优化处理,并实现了基于命名实体识别与翻译的跨语言信息检索实验。实验结果显示出命名实体识别与翻译在跨语言信息检索中的重要性,并证明了所提出的翻译加权和网络挖掘未登录命名实体方法的应用能显着提高跨语言信息检索的性能。(本文来源于《图书情报知识》期刊2012年03期)
赵明明[10](2011)在《英汉命名实体翻译方法研究》一文中研究指出命名实体翻译是跨语言信息抽取、机器翻译等跨语言信息处理领域的一项重要任务。命名实体因类别不同采用的翻译方法不同,人名、地名主要采用音译,组织机构名主要采用音译与意译相结合的方法翻译。本文主要针对英汉人名的统计翻译模型方法和基于网络的英汉人名和组织机构名的翻译挖掘方法进行研究。论文的主要内容归纳如下:基于统计机器翻译与基于机器学习策略的英汉音译模型构建方法基于统计机器翻译的音译模型将音译问题映射为句子翻译问题,采用基于短语的和基于N-Gram的机器翻译方法构建音译模型。基于机器学习策略的音译模型将音译问题映射为标注序列问题,采用条件随机场和最大熵两种机器学习方法构建音译模型。对比以上几种音译模型,基于条件随机场的音译模型准确率最高。基于音译与网络的英汉人名翻译挖掘方法本文将统计模型的结果应用到网络挖掘中,通过构造启发式查询扩展获取质量更高的摘要资源,改善网络挖掘翻译的结果。对比基于统计模型的音译方法和基于网络的翻译挖掘方法,实验结果显示基于网络挖掘的翻译挖掘方法具有较高的性能,该方法修正了基于统计音译模型翻译结果中部分汉字不正确的情况。基于网络的英汉组织机构名翻译挖掘方法本文采用基于对齐锚点左右扩展的对齐方法对齐组织机构名双语对语料,然后从对齐结果中抽取组织机构名内部词汇和短语翻译词典。采用该词典作为查询扩展来源从网络中抽取翻译。对比基于网络的翻译挖掘方法和基于短语的统计机器翻译方法,基于网络的翻译挖掘方法性能较高。(本文来源于《苏州大学》期刊2011-05-01)
命名实体翻译论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
命名实体翻译论文参考文献
[1].夏青.汉柬命名实体翻译等价对获取方法研究[D].昆明理工大学.2016
[2].杨萍,侯宏旭,蒋玉鹏,申志鹏,杜健.基于双语对齐的汉语–新蒙古文命名实体翻译[J].北京大学学报(自然科学版).2016
[3].张磊,杨雅婷,米成刚,李晓.维吾尔语数词类命名实体的识别与翻译[J].计算机应用与软件.2015
[4].尹存燕,黄书剑,戴新宇,陈家骏.面向新闻语料的中日命名实体翻译抽取[J].小型微型计算机系统.2015
[5].杨萍.基于双语对齐的汉文—新蒙古文命名实体翻译技术研究[D].内蒙古大学.2015
[6].王静雅,袁保社.基于模板的汉维商品命名实体翻译研究[J].现代计算机(专业版).2015
[7].马国来,尹长青,宋善威.基于机器翻译语块的命名实体翻译方法研究[J].硅谷.2015
[8].努尔比亚·吐拉甫.基于命名实体的维汉翻译规则及资源建设研究[D].西北民族大学.2013
[9].吴丹,何大庆,陆伟.跨语言信息检索中的命名实体识别与翻译[J].图书情报知识.2012
[10].赵明明.英汉命名实体翻译方法研究[D].苏州大学.2011