导读:本文包含了双语命名实体论文开题报告文献综述及选题提纲参考文献,主要关键词:命名实体识别,命名实体对齐,词向量,条件随机场
双语命名实体论文文献综述
韩锐[1](2018)在《汉老双语命名实体识别及对齐方法研究》一文中研究指出在老挝语文本中,存在大量的人名、地名、组织机构名等专有名词,这些命名实体蕴含着大量信息,通过命名实体能够了解文章的主要内容,是正确理解老挝语的基础。与英语、日语等语言相比,使用老挝语的人数较少,而且老挝国内互联网技术起步较晚,导致语料资源的极度匮乏。这也为老挝语和汉语之间跨语言信息处理增加了极大的难度。对于命名实体的研究,在英语、汉语、泰语等较大规模语言中的研究已经比较深入。但对老挝语这种较小规模语言的研究还很少。对于老挝语命名实体的深入研究,对老挝语自身语言分析和老挝语-汉语之间的翻译,都有着重要作用。针对以上现状,本文提出了以下研究内容:首先研究了一种融入词向量的条件随机场老挝语命名实体识别方法。分别将词向量、词向量聚类作为特征加入条件随机场中进行老挝语命名实体识别,并将词向量做出改进,提出加权词向量。通过实验证实,将词向量作为特征融入条件随机场能够提高命名实体识别的性能。其次研究了一种基于多特征融合和支持向量机模型的汉老双语命名实体对齐方法。在双语命名实体对齐研究中,首先从双语语料中识别老挝语和汉语命名实体,使用多特征对命名实体进行匹配,包括音译特征、翻译特征、同现频率特征和互信息特征。通过调整特征权重来达到最好的效果。本文使用两种方法来过滤命名实体等价对:一种是阀值限定的方法,将汉老命名实体对特征融合后得到的分值进行过滤,设定一个阀值,通过阈值过滤明显错误的命名实体对,并且提高系统的综合性能;另一种方法是采用支持向量机作为汉老双语命名实体的对齐模型,该方法是对候选命名实体对进行二值分类。在特征的选取上,使用命名实体对抽取使用的四个特征,这个方法可以综合考虑各个特征的分布来确定是否是正确的命名实体等价对,准确率高,且能够提高系统的性能。最后通过以上研究内容,生成汉语-老挝语双语命名实体词典,设计并实现了汉老双语命名实体翻译系统。(本文来源于《昆明理工大学》期刊2018-03-01)
杨萍,侯宏旭,蒋玉鹏,申志鹏,杜健[2](2016)在《基于双语对齐的汉语–新蒙古文命名实体翻译》一文中研究指出汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。(本文来源于《北京大学学报(自然科学版)》期刊2016年01期)
杨萍[3](2015)在《基于双语对齐的汉文—新蒙古文命名实体翻译技术研究》一文中研究指出对于统计机器翻译而言,命名实体的识别及实体的翻译是影响其性能的重要因素。目前专门针对新蒙文命名实体识别的研究较少且多采用基于规则的方法;这种方法需要人工标注新蒙文语料、撰写规则;耗时长且难以覆盖所有的命名实体现象。针对上述问题,本文提出了一种自动地从汉文-新蒙文平行句对中抽取命名实体对的方法。本文实现了基于CRF的汉文命名实体识别。对其中的关键性问题:识别粒度大小的确定、特征的选取进行了充分的实验。得出了基于字的识别效果更优;找出了对命名实体识别非常有意义的各类特征:基于上下文的字特征、分词以及词性特征、各类实体前后缀字特征等;最后得到了一个识别性能较优的模型。对汉文中实体类命名实体识别的平均F值为91.67。本文提出了汉文-新蒙文命名实体翻译框架,采用了非对称的汉文-新蒙文命名实体对齐策略,对汉文端进行命名实体识别后,从汉文-新蒙文词对齐结果中用滑动窗的方法抽取出候选的汉文-新蒙文命名实体对。然后利用从语料中得到的词对齐一致性特征、命名实体对翻译概率特征以及语言模型特征对候选翻译对进行置信度估计,选取置信度最高的候选翻译对确定为我们最终的抽取结果。抽取到的汉文-新蒙古文命名实体对的正确率为81.54%。(本文来源于《内蒙古大学》期刊2015-04-10)
茹旷[4](2014)在《日汉双语命名实体对获取方法及其应用研究》一文中研究指出命名实体翻译对的自动抽取研究对自动文摘、机器翻译和跨语言信息检索等意义重大。传统方法往往建立在大规模平行语料库或可比语料库基础上,由于双语语料库资源相对匮乏导致研究成果的实用性受到约束。本文总结了该领域的研究现状,并结合汉语和日语的特点,提出了一种新的基于归纳学习法的单语语料库命名实体翻译对自动抽取方法。该方法使用汉语和日语汉字对照表计算命名实体实例间的相似度,使用归纳学习法,抽取相似度较高的汉语和日命名实体实例间的共同部分和差异部分,来获取命名实体的局部翻译规则,再通过反馈处理更新汉日命名实体对的相似度和规则集合。实验结果显示,提出方法简单有效,克服了传统方法对双语资源具有依赖性这一缺点,可有效利用单语语料库构筑大规模汉日命名实体翻译词典。相比与其他的方法,本文结合汉语和日语的特点,提出了一种基于归纳学习法的单语语料库汉日命名实体翻译对自动抽取方法。使用了弱相关的双语文本、极少的额外知识(中日汉字对照表)来抽取命名实体翻译等价对,有效的减少了构筑语料的花费和对额外知识的依赖。此外在数据量不足的情况下,面对纯假名命名实体时有很大可能无法抽取出局部翻译规则。我们提出了一种基于传统统计机器翻译的音译方法,有效改善了假名上的等价对抽取效果。我们未来的工作主要将关注如何从海量、冗余、异构、不规范、含有大量噪声的网页中抽取出可靠的翻译对应。(本文来源于《北京交通大学》期刊2014-03-24)
陈钰枫,宗成庆,苏克毅[5](2011)在《汉英双语命名实体识别与对齐的交互式方法》一文中研究指出基于汉英双语命名实体的识别与对齐特性,文中提出了一种双语命名实体交互式对齐模型,其中的修正对齐计算体现了汉英实体识别与对齐的密切结合:一方面,利用双语对齐信息帮助实体识别;另一方面,实体的对齐过程对实体的识别结果又具有一定的修正作用,两方面的结合实现了双语实体识别与对齐之间的交互式互助过程.实验证明,这种交互式对齐模型不仅显着提高了汉英实体对齐的性能(F值从74.4%提高到81.2%),而且有效地提高了汉英实体识别的正确率和召回率.(本文来源于《计算机学报》期刊2011年09期)
赵欣[6](2009)在《基于双语命名实体识别的词汇对齐和机器翻译研究》一文中研究指出命名实体是标识某一特定实体的词或词组,通常包括专有名词(如人名、地名、组织机构名及其他专有名词)、日期时间及货币等。双语命名实体是指来自两种不同语言的互译命名实体,双语命名实体识别对于跨语言信息检索和机器翻译等自然语言处理领域都是非常有用的。本文主要研究基于双语命名实体识别的词汇对齐和机器翻译。具体来说,本文的主要工作及创新点如下:双语命名实体识别方面,研究从双语语料库中抽取出双语命名实体的方法。和一般的识别方法不同,我们提出一种迭代算法,将其与双向词汇对齐过程相结合,依据对齐信息抽取可靠双语命名实体对,然后将双语命名实体这一可靠的对齐信息反向加入到词汇对齐过程,改善词汇对齐质量,再将改善后的双向词汇对齐结果再次用于抽取双语命名实体。多次重复进行这一过程,直至双语命名实体对的数量不再增加为止。结果显示,识别出来的双语命名实体的数目在迭代过程中不断增加。词汇对齐方面,提出了命名实体类型替换的观点,双语命名实体替换成它的类型,然后将类型加入到对齐词典,同时将原文中的命名实体也替换为类型。实验结果显示,类型替换的方法与双语命名实体本身加入词典的方法都能改善词汇对齐效果,而命名实体类型替换的方法改善效果更好。机器翻译方面,研究了两种和双语命名实体识别相结合的翻译方法。一种是只将双语命名实体识别加入到翻译模型的训练过程中,另一种是在第一种方法基础上,将双语命名实体识别嵌入到整个机器翻译过程中,实现了一种新的基于命名实体类型的翻译方法。在厦门大学开发的基于短语的机器翻译系统CARAVAN上进行实验,引入双语命名实体识别后,两种方法的BLEU得分和未加入命名实体识别的翻译结果相比,分别相对提高了5.05%和17.27%。(本文来源于《厦门大学》期刊2009-06-30)
焦世斗[7](2008)在《大规模网页中双语命名实体挖掘的研究与实现》一文中研究指出大规模的双语命名实体库可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抓取双语命名实体的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。随着互联网的飞速发展,大量的网页包含了双语命名实体。并且由于互联网自身的多样性和实时性。以及互联网上的双语命名实体覆盖面非常广泛,而且包含了大量的新词。因此,从互联网上抽取双语命名实体已成为当今信息抽取领域里的一个研究热点。本文提出了一个从大规模网页中抽取双语命名实体的方法。方法主要利用了大规模网页中的冗余信息。首先从大规模网页中抽取符合括弧模式的双语对;再利用中文分词与后缀树结合的方法抽取候选互译对;之后利用基于SVM的分类模型去判断候选互译对是否为正确的双语命名实体;最后利用一套过滤算法对得到的双语命名实体进行有效的过滤;最终得到正确率较高的双语命名实体集合。本文设计和实现了基于上述方法的双语命名实体抽取系统,系统的输入是一个大规模的网页集,集合中所有的网页均为中文网页;输出是中英文的双语命名实体集合。系统分为4个模块:(1)双语对抽取模块;(2)候选互译对抽取模块;(3)双语命名实体对齐模块;(4)噪音过滤模块。双语对抽取模块从大规模网页中抽取符合括弧模式的双语对,并对抽取到的双语对进行噪音过滤、修正、归一化等操作;候选互译对抽取模块,首先对同一英文实体对应的多个中文串进行中文分词,然后根据分词结果利用后缀树抽取候选翻译串,与该英文实体组成候选互译对;双语命名实体对齐模块,将对齐问题转化为分类问题,采用支持向量机分类模型,并利用基于IBM MODELⅠ的翻译质量评测模型和基于感知器的音译模型提供的特征,结合候选互译对在网页中的出现频度、以及在后缀树中的频度等特征,来进行二值分类,从而判断出候选互译对是否为双语命名实体;过滤模块,采用了翻译频度等信息进行了有效的过滤,并抽取出前导词翻译前缀反馈给候选互译对抽取模块。本文的主要贡献有:(1)提出了一套能从大量网页中抽取高质量双语命名实体的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合网页信息抽取、中文分词、翻译模型、音译模型、分类模型、以及后续处理等模块,该框架可以获得比同类方法更好的性能。(本文来源于《大连理工大学》期刊2008-12-18)
庞薇,徐波[8](2008)在《基于双语平行语料的分层次命名实体抽取》一文中研究指出本文设计实现了一种基于多模型分层次的从双语语料库中抽取命名实体对的方法。我们首先对命名实体识别。然后分层次抽取命名实体。第一层通过双语识别信息和对齐技术,利用意译模型和音译模型打分得到短命名实体。第二层用规则的方法合并短命名实体生成长命名实体对。实验显示,双语识别信息和对齐技术对于短命名实体的抽取效果很好,针对长命名实体抽取问题的合并规则也能在一定程度上抽取出长命名实体。(本文来源于《第四届全国学生计算语言学研讨会会议论文集》期刊2008-07-01)
双语命名实体论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果。针对上述问题,提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语–新蒙古文命名实体翻译对。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
双语命名实体论文参考文献
[1].韩锐.汉老双语命名实体识别及对齐方法研究[D].昆明理工大学.2018
[2].杨萍,侯宏旭,蒋玉鹏,申志鹏,杜健.基于双语对齐的汉语–新蒙古文命名实体翻译[J].北京大学学报(自然科学版).2016
[3].杨萍.基于双语对齐的汉文—新蒙古文命名实体翻译技术研究[D].内蒙古大学.2015
[4].茹旷.日汉双语命名实体对获取方法及其应用研究[D].北京交通大学.2014
[5].陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报.2011
[6].赵欣.基于双语命名实体识别的词汇对齐和机器翻译研究[D].厦门大学.2009
[7].焦世斗.大规模网页中双语命名实体挖掘的研究与实现[D].大连理工大学.2008
[8].庞薇,徐波.基于双语平行语料的分层次命名实体抽取[C].第四届全国学生计算语言学研讨会会议论文集.2008