导读:本文包含了短语模板论文开题报告文献综述及选题提纲参考文献,主要关键词:语调短语,特征模板,最大熵(ME),分类与回归树(CART)
短语模板论文文献综述
刘方舟,陶建华[1](2011)在《语调短语预测中的特征模板自动生成》一文中研究指出在语音合成系统中,语调短语的自动预测是影响合成语音的自然度和可懂度的关键因素之一。采用了最大熵(Maximum Entropy,ME)模型从无限制的文本中预测语调短语,并且提出了一个自动生成特征模板的层次聚类算法,从而减少了最大熵模型训练过程中的人工参与。实验结果表明,对于语调短语预测而言,最大熵模型明显优于分类与回归树(Classification And Regression Trees,CART)。相比手工总结的特征模板,自动生成的特征模板不仅将语调短语预测的F-score提高了3.18,而且将最大熵模型的大小缩小了78.38。(本文来源于《计算机工程与应用》期刊2011年16期)
段恋[2](2009)在《基于短语句法结构的树—串汉英对齐模板抽取研究》一文中研究指出翻译模板是机器翻译系统中的一种重要知识源,其质量和规模直接影响机器翻译系统的性能,如何高质量、高效率地从语料库中自动获取翻译模板已经成为当前研究的一个热点。本文首先提出了一种基于句法结构的树一串对齐模板(tree-to-string alignment template, TAT)。该模板描述了源语言句法树和目标语言串之间的对齐关系。模板中引入了句法结构和大量的结构标记和变量,使得基于句法的模型能够处理非连续短语,并具有泛化能力。模板可根据解码器的不同而应用到基于句法统计的、基于实例的、基于规则的机器翻译系统中。在此基础上,本文提出了一种从未经标注的双语语料库和单语句法树库中自动获取该种模板的方法。该方法是一种半监督的、数据驱动方法。该方法综合利用两个方面的信息来抽取翻译模板。一方面是基于词对齐的结果,通过对句法树进行后序遍历,提取候选模板叁元组信息,包括源语言句法子树、对应的目标语言串及其对齐信息;另一方面从源语言的单语句法树库语料中通过后序遍历抽取树结构一元组信息。实验结果表明,该方法可以得到比较令人满意的模板抽取性能。(本文来源于《北京邮电大学》期刊2009-12-20)
孙越恒,段楠,侯越先[3](2009)在《统计机器翻译中的非连续短语模板抽取及其应用》一文中研究指出目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。(本文来源于《计算机科学》期刊2009年10期)
宋振秋[4](2008)在《基于短语模板的机器翻译研究》一文中研究指出泛化的EBMT(Example-based machine translation)是针对传统EBMT的一种改进方案,它利用翻译模板取代翻译实例,这样既减小了实例库的规模,同时也在一定程度上提高了模板匹配的几率,是一种有效的机器翻译方法。本文在泛化的EBMT的基础上,采用基于短语模板的方法,展开进一步的研究工作:在泛化EBMT中引入句法分析技术,将句子抽取成短语模板和主干模板,构建双层翻译模板库,同时提出一种句子相似度模型的训练方法。其主要过程如下:在模板的抽取阶段,利用句法分析器对双语平行语料中的源语言句子进行句法分析,将分析结果中的短语部分抽取出来,留下句子的主干部分;然后根据词语对齐关系把目标语言的句子也分为对应的主干和短语部分,从而得到短语平行语料库和主干平行语料库;最后利用语义词典对两个平行语料库分别进行概念的抽取,得到短语模板和主干模板,进而构建翻译模板库。在翻译测试阶段,利用句子相似度算法在模板库中搜索与输入句匹配的模板,然后采用主干模板和短语模板结合的方式进行翻译:利用主干模板翻译输入句的主干部分,利用短语模板翻译输入句中复杂的名词短语,最后得到译文。翻译中使用的语句相似度算法是基于字符序列的相似度算法,选取词语相似度和句子长度差作为特征函数,并利用NIST工具对其进行训练,得到优化的参数组合。实验选取一组双语平行语料构建翻译模板库,并分别作了闭式和开式的翻译测试。实验结果表明,与泛化的EBMT方法相比,基于短语模板的EBMT方法可以减少模板库的规模,提高模板的翻译能力:其开式测试正确率为77.0%,高于泛化的EBMT的正确率51.5%。本文的研究可以应用于实际的机器翻译系统中。(本文来源于《大连理工大学》期刊2008-12-01)
张步峰,孙越恒,赵青[5](2007)在《对齐模板在标准短语统计机器翻译模型中的应用》一文中研究指出在统计机器翻译领域,基于短语的翻译模型性能上优于基于词的翻译模型。基于对齐模板的短语翻译模型和标准短语翻译模型是短语翻译模型中的典型代表,二者在翻译过程中分别使用对齐模板和短语对。对齐模板和短语对各有优势,对齐模板能够较好处理数据稀疏的问题,短语对可以使翻译更加精确。本文提出在基于最大熵的标准短语翻译模型下模拟对齐模板,模拟的对齐模板被作为一个单独的特征函数加入到此翻译模型中。实验在中英翻译和法英翻译上进行,实验结果证明,本文方法明显改善了标准短语翻译模型的翻译效果。(本文来源于《电子测量技术》期刊2007年07期)
段楠[6](2007)在《非连续短语模板抽取及短语合并在统计机器翻译中的应用》一文中研究指出机器翻译(MT)就是利用计算机将一种自然语言的文本或对话转换为另一种自然语言的文本或对话,同时保持语意的一致性。在给定源语言的情况下,机器翻译的过程就是寻找与源语言在语意上最为匹配的目标语言的决策过程。在各种不同的机器翻译系统中,基于短语的统计机器翻译(Phrased-Based SMT)无疑是最为有效的方法。基于短语的统计机器翻译方法允许源语言和目标语言词语之间存在多对多的关联,从对齐矩阵中抽取出来的短语被放置在短语翻译表中。这样,词语的上下文信息在翻译模型中就可以被考虑进来,并且在把源语言翻译成目标语言过程中所发生的单词之间位置顺序的改变也可以显式的获得。在汉-英机器翻译系统中,基于短语的统计翻译模型较之单纯基于单词的统计翻译模型,翻译效果有着显着的提高。但是,这种方法同时也存在着一些问题。由于短语长度的限制,一些在中文中间隔较远的固定结构并不能被完整的抽取出来。这些结构在中文句子中不连续,而其对应翻译却在英文句子中连续。并且,对短语各个部分分别进行翻译拼凑起来的结果并不等价于将其做为一个整体翻译而获得的结果。本文通过在短语翻译表中加入非连续短语模板和短语合并项来增强机器翻译的效果。短语模板抽取和短语合并过程并不涉及任何的语法信息,仅仅只是从双语对齐语料中获得。本文将简要的介绍抽取和合并的算法细节,并以BLEU做为翻译结果的评测标准,在2002年至2005年NIST (National Institute of Standards and Technology)标准测试语料集上进行对比实验。实验结果表明,加入短语模板和短语合并项后,翻译质量与先前系统相比有了一定程度的提高。(本文来源于《天津大学》期刊2007-06-01)
胡日勒,宗成庆,徐波[7](2004)在《基于短语结构抽取和对齐的机器翻译模板自动获取方法》一文中研究指出本文提出了一种从未经标注的双语口语语料库中自动获取机器翻译模板的方法。这种算法是一种无监督的、基于统计的、数据驱动的方法。这种方法有两个基本的步骤。首先,通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类。然后,利用双语划界文法将短语结构类进行对齐。对齐的结果经过后处理就可以得到翻译的模板。初步的试验结果表明,本方法可以达到比较令人满意的效果,是有效的和切实可行的。(本文来源于《第二届全国学生计算语言学研讨会论文集》期刊2004-08-01)
方志炜,于水源,杜利民[8](2004)在《基于短语本位语法体系的混合模板汉语生成》一文中研究指出目前世界上典型通用的语言生成方法大致有四种:封装文本,基于模板,基于短语以及基于特征的方法。这些方法基本上都是针对英语提出来的,由于汉语(典型的分析语)与英语(属于印欧语系)的语法特点差异很大,它们并不完全适用于汉语。基于短语本位语法体系,综合基于短语方法的层迭思想和基于模板方法的实现结构,我们设计了一个混合模板方法用于实现限定任务领域的汉语口语人机对话系统的语言生成器。实验表明,此方法拥有相对令人满意的生成效率和高可移植性。(本文来源于《第二届全国学生计算语言学研讨会论文集》期刊2004-08-01)
赵军,黄昌宁[9](1999)在《结合句法组成模板识别汉语基本名词短语的概率模型》一文中研究指出文中首先给出了汉语基本名词短语(baseNP)的形式化定义,并通过抽取baseNP句法组成模板,显示了这个定义的可操作性.文中指出,句法组成模板只是识别baseNP的必要条件,而非充要条件,仅靠句法组成模板并不能解决baseNP识别中的边界模糊歧义和短语类型歧义问题.据此,把体现baseNP内部组成的句法组成模板与体现上下文约束条件的N 元模型结合起来,形成了汉语baseNP识别的新模型.实验证明,该模型的性能优于单纯基于词性标记的N 元模型(本文来源于《计算机研究与发展》期刊1999年11期)
短语模板论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
翻译模板是机器翻译系统中的一种重要知识源,其质量和规模直接影响机器翻译系统的性能,如何高质量、高效率地从语料库中自动获取翻译模板已经成为当前研究的一个热点。本文首先提出了一种基于句法结构的树一串对齐模板(tree-to-string alignment template, TAT)。该模板描述了源语言句法树和目标语言串之间的对齐关系。模板中引入了句法结构和大量的结构标记和变量,使得基于句法的模型能够处理非连续短语,并具有泛化能力。模板可根据解码器的不同而应用到基于句法统计的、基于实例的、基于规则的机器翻译系统中。在此基础上,本文提出了一种从未经标注的双语语料库和单语句法树库中自动获取该种模板的方法。该方法是一种半监督的、数据驱动方法。该方法综合利用两个方面的信息来抽取翻译模板。一方面是基于词对齐的结果,通过对句法树进行后序遍历,提取候选模板叁元组信息,包括源语言句法子树、对应的目标语言串及其对齐信息;另一方面从源语言的单语句法树库语料中通过后序遍历抽取树结构一元组信息。实验结果表明,该方法可以得到比较令人满意的模板抽取性能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
短语模板论文参考文献
[1].刘方舟,陶建华.语调短语预测中的特征模板自动生成[J].计算机工程与应用.2011
[2].段恋.基于短语句法结构的树—串汉英对齐模板抽取研究[D].北京邮电大学.2009
[3].孙越恒,段楠,侯越先.统计机器翻译中的非连续短语模板抽取及其应用[J].计算机科学.2009
[4].宋振秋.基于短语模板的机器翻译研究[D].大连理工大学.2008
[5].张步峰,孙越恒,赵青.对齐模板在标准短语统计机器翻译模型中的应用[J].电子测量技术.2007
[6].段楠.非连续短语模板抽取及短语合并在统计机器翻译中的应用[D].天津大学.2007
[7].胡日勒,宗成庆,徐波.基于短语结构抽取和对齐的机器翻译模板自动获取方法[C].第二届全国学生计算语言学研讨会论文集.2004
[8].方志炜,于水源,杜利民.基于短语本位语法体系的混合模板汉语生成[C].第二届全国学生计算语言学研讨会论文集.2004
[9].赵军,黄昌宁.结合句法组成模板识别汉语基本名词短语的概率模型[J].计算机研究与发展.1999
标签:语调短语; 特征模板; 最大熵(ME); 分类与回归树(CART);