导读:本文包含了中文机构地址论文开题报告文献综述及选题提纲参考文献,主要关键词:命名实体翻译,机构名称翻译,机构地址翻译,知识库维护
中文机构地址论文文献综述
刘莎莎[1](2010)在《大规模中文机构名称与机构地址自动翻译研究》一文中研究指出随着经济的发展,为了让更多的国外企业了解到国内的生产厂家信息,及时进行业务联系,经济信息之间的交流尤其是作为“企业身份证”的组织机构代码信息的交流变得非常重要,充分利用现有自然语言研究的成功,突破组织机构代码国际交流的瓶颈,已经是一件可行的事情。本文的研究内容主要是机构名称和机构地址这类命名实体的翻译技术。虽然近年来命名实体翻译的研究有所增多,但无论是通用的机器翻译技术、单纯的音译技术还是NE对齐的技术,它们各自都存在着自身难以克服的局限性。本文的研究对象具有特殊性,它并非长文本中的机构名称和机构地址,而是全国组织机构代码管理中心接受的注册过的机构名称和机构地址,因此它具有每条记录相对简短、满足一定的规律性、总体数据量大、包罗了各行各业的机构名称和复杂程度不同的机构地址、未登录词多等特点。结合以上特点,本文给出了一种基于模板匹配的机构名称识别和翻译的方法和一种基于模板匹配和基于规则相结合的中文机构地址的翻译方法。本文的主要以下几个方面:1.通过对机构名称的结构分析发现了它的构成规则,并采用基于AP的正向最大匹配切分和基于PPOP的逆向最大匹配切分两种并行分词方法对机构名称进行分词,然后对两种切分结果进行基于词性码的合并,并按照一定的规则对歧义字段进行消歧,最后对每个节点进行翻译得到最后的翻译结果。2.通过对机构地址构成的总结,将机构地址细分为四种类型的地址单元构成,并在切分的时候采用优先切分模式将法定地名和长地名切分出去,然后再对剩下的字段进行基于地址单元的切分,将切分后的地址进行相应地址单元的翻译并组合即得到机构地址的翻译。3.在上述方法的指导下,本文给出了机构名称和机构地址的汉英翻译系统的设计和实现方法。4.通过分析知识库使用流程,研究出了能够避免冲突且可以选出最优规则的知识库维护规则。(本文来源于《哈尔滨工业大学》期刊2010-06-01)
苗文彦[2](2009)在《高精度中文机构名称与地址机译策略研究》一文中研究指出机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。作为信息的主要承载者,命名实体的翻译质量对译文的整体翻译质量具有十分重要的影响,命名实体的翻译也成为研究者关注的焦点。在人名、地名的翻译任务利用音译技术基本完成之后,机构名称、地址等非音译信息的翻译成为命名实体翻译探索的重点。由于现有的机构名称及地址的汉英双语语料极其匮乏,导致当前主流的基于统计的机器翻译技术无法发挥优势。针对上述情况,本文构建了以基于表示模式的高精度切分方法为核心的机构名称翻译系统,以及面向机器翻译的中文机构地址切分方法和基于地址单元的翻译机制相结合的中文机构地址翻译系统。具体地讲,本文从如下几个方面进行了研究:1.通过分析大量的数据实例,采用上下文无关文法抽象出符合机构名称构成特点的表示模式,并设计了一种基于表示模式的高精度切分方法,通过融合机构独立切分模式和地址独立切分模式得到的两个切分结果,消除机构名称中的歧义。2.深入研究了中文地址的构成特点,给出了一个合法的地址单元的定义,构建了符合中文地址构成特点的地址识别知识库,实现了一种面向机器翻译的机构地址切分方法。实验证明,针对机构地址翻译这一特定任务,该方法十分有效。3.中文机构地址被切分为地址单元序列之后,需要相应的翻译机制相支撑,才能完成机构地址汉英翻译任务。因此,本文定制了一种基于地址单元的翻译方法,实现了对不同类型的地址单元的翻译。通过CTR的自动获取,解决了广泛存在于基于规则的翻译系统中的规则冲突问题。4.本文设计并实现了中文机构名称翻译系统和中文机构地址翻译系统。实验表明,在仅有几千条标准汉英双语语料的情况下,根据5分制评分标准,两个系统的翻译准确率分别为97.28%和91.26%,达到了实用化的翻译水平。(本文来源于《哈尔滨工业大学》期刊2009-06-01)
苗文彦,赵铁军,周向根,陈庆轩,王欣欣[3](2009)在《面向机器翻译的中文机构地址切分方法》一文中研究指出面向企业信息的机器翻译研究一直面临着特定领域标准语料不足,通用训练语料难以满足要求的尴尬局面。在专业训练语料不足的情况下,通过深入研究中文机构地址的构成特点,建立了用于机构地址切分的专用知识库,采用两级匹配模型进行切分,并以地址单元为单位将分词结果提交给基于规则的翻译系统,很好地保证了翻译单元的完整性。实验表明,针对中文机构地址翻译这个特定领域,提出的方法取得了比较令人满意的结果。(本文来源于《2009国际信息技术与应用论坛论文集(下)》期刊2009-05-01)
王松[4](2008)在《中文机构名称及地址的汉英翻译方法研究》一文中研究指出机器翻译(Machine Translation: MT)就是用计算机将一种自然语言翻译为另一种自然语言。经过七十多年的发展,目前机器翻译已经深入到各个子领域的研究。在翻译方法的研究上,基于统计的机器翻译方法逐渐占据了统治地位;而对于翻译对象,领域术语、命名实体(Named Entities: NE)等主要事实信息的翻译,正在成为研究者关注的焦点。在人名、地名的翻译任务利用音译技术基本完成之后,机构名称、地址等非音译信息的翻译成为命名实体翻译探索的重点。由于现有的机构名称及地址的汉英双语语料极其匮乏,导致当前主流的基于统计的机器翻译技术无法发挥优势。针对上述情况,本文提出使用基于规则的中文地址汉英翻译方法和基于多层次匹配的中文机构名称汉英翻译方法来解决中文地址和机构名称的汉英翻译任务,并对翻译知识的自动获取方法进行了深入研究。具体地讲,本文从如下几个方面进行了研究:1.应用当前主流的统计翻译工具pharaoh对机构名称的翻译性能进行分析,进而提出一种基于分字的机构名称统计翻译方法,并将基于分字和分词的翻译短语进行融合。两种方法使得译文的BLEU评分分别提高了8.1%和20%。2.探索了利用汉英双语地址对获取中文地址汉英翻译规则的途径,提出了基于等价翻译短语的中文地址汉英翻译规则获取方案,给出等价翻译短语的自动获取算法和基于转换错误驱动的翻译规则的自动学习算法。3.研究了中文机构名称汉英翻译知识的多层次获取方法。机构名称汉英翻译任务要求翻译出来的译文尽量符合人们以往的翻译习惯,而当前可用的双语资源十分有限。在这种情况下,本文研究了机构名称翻译知识的多层次获取方法,该方法使得有限的翻译知识得到了充分的利用。4.在命名实体汉英双语语料匮乏的情况下,为了解决中文机构名称及地址的汉英翻译任务,本文设计并实现了基于规则的中文地址汉英翻译系统和基于多级匹配的中文机构名称汉英翻译系统。实验表明,在仅有几千条标准汉英双语语料的情况下,两个系统开放测试的BLEU评分分别为0.7167和0.5531,基本达到了实用化的翻译水平。(本文来源于《哈尔滨工业大学》期刊2008-06-01)
中文机构地址论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。作为信息的主要承载者,命名实体的翻译质量对译文的整体翻译质量具有十分重要的影响,命名实体的翻译也成为研究者关注的焦点。在人名、地名的翻译任务利用音译技术基本完成之后,机构名称、地址等非音译信息的翻译成为命名实体翻译探索的重点。由于现有的机构名称及地址的汉英双语语料极其匮乏,导致当前主流的基于统计的机器翻译技术无法发挥优势。针对上述情况,本文构建了以基于表示模式的高精度切分方法为核心的机构名称翻译系统,以及面向机器翻译的中文机构地址切分方法和基于地址单元的翻译机制相结合的中文机构地址翻译系统。具体地讲,本文从如下几个方面进行了研究:1.通过分析大量的数据实例,采用上下文无关文法抽象出符合机构名称构成特点的表示模式,并设计了一种基于表示模式的高精度切分方法,通过融合机构独立切分模式和地址独立切分模式得到的两个切分结果,消除机构名称中的歧义。2.深入研究了中文地址的构成特点,给出了一个合法的地址单元的定义,构建了符合中文地址构成特点的地址识别知识库,实现了一种面向机器翻译的机构地址切分方法。实验证明,针对机构地址翻译这一特定任务,该方法十分有效。3.中文机构地址被切分为地址单元序列之后,需要相应的翻译机制相支撑,才能完成机构地址汉英翻译任务。因此,本文定制了一种基于地址单元的翻译方法,实现了对不同类型的地址单元的翻译。通过CTR的自动获取,解决了广泛存在于基于规则的翻译系统中的规则冲突问题。4.本文设计并实现了中文机构名称翻译系统和中文机构地址翻译系统。实验表明,在仅有几千条标准汉英双语语料的情况下,根据5分制评分标准,两个系统的翻译准确率分别为97.28%和91.26%,达到了实用化的翻译水平。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
中文机构地址论文参考文献
[1].刘莎莎.大规模中文机构名称与机构地址自动翻译研究[D].哈尔滨工业大学.2010
[2].苗文彦.高精度中文机构名称与地址机译策略研究[D].哈尔滨工业大学.2009
[3].苗文彦,赵铁军,周向根,陈庆轩,王欣欣.面向机器翻译的中文机构地址切分方法[C].2009国际信息技术与应用论坛论文集(下).2009
[4].王松.中文机构名称及地址的汉英翻译方法研究[D].哈尔滨工业大学.2008