导读:本文包含了词汇对齐论文开题报告文献综述及选题提纲参考文献,主要关键词:双语情感词汇,AVS结构,双语对齐,可比语料库
词汇对齐论文文献综述
曹永红[1](2018)在《双语情感词汇对齐研究》一文中研究指出随着“情感计算”的兴起,人们日益重视主观性文本,并试图应用计算机对这些文本所表达的情感进行自动分析。这催生了一个新兴的、交叉研究领域——情感分析和观点挖掘。前者关注文本所表达的褒贬性,后者侧重研究人们对于事物的观点,例如客户对于产品的、服务、机构的评价。在双语情感分析和观点挖掘中,情感词典是一种十分重要的翻译工具。最常见的情感词典是褒义词和贬义词词典。至今为止,国内外词典学界已经编撰并出版了一系列分别由中文和英文构成的单语种情感词典。中文情感词典包括褒义词词典、贬义词词典和褒贬义词典,例如NTUSD和清华大学构建的情感词词典等;英文情感词典有WordNet、SentiWordNet、LIWC(Linguistic Inquiry and Word Count),ANEW(Affective norms for English words),MPQA(Multi-Perspective Question Answering)等。但是,这类词典具有一个共同的局限性:所列出来的词条往往是孤立地表示某个词的褒贬色彩;一旦进入不同的语境的时候,其极性往往会发生变化。此外,目前市面上仍然缺乏双语情感词典。因此,如何编撰双语情感词典以适应于跨语种的情感分析和观点挖掘?这就成为了语言学家、词典学家和计算机专家一个共同感兴趣的研究课题。从词典学、翻译学的角度来看,双语词典编纂的核心议题是双语对等词的挖掘,即如何将被释义词翻译为另外一种语言中的释义词。本文以形容词为例,研究如何将汉语形容词翻译为对应的英语形容词,核心议题是如何确定所翻译的英语形容词为该汉语形容词的最佳对应词。本文采用的理论框架是认知语言学中的AVS(Attribute-Value Structure)。其中,“A”表示实体(例如产品)的特征;“V”表示这些特征的值,往往由形容词来体现。一方面,AVS是形容词语义表示的基本理论框架;另一方面,与“V”联结的“实体-特征”就成为了该形容词出现的一个微型语境,对于该词语义的精确化起到了极为重要的作用。所应用的语料为中国的淘宝和美国的亚马逊中的客户评价。具体做法是:1)先确定实体为某款手机;2)基于淘宝语料,进一步从中挖掘该手机的特征及其值,获得一个中文的AVS结构,例如“内存-大”;从亚马逊的客户评价中进行相应的挖掘,获得一个英文的AVS结构,例如“memory-big”;3)对齐中英两个AVS结构,我们发现它们具有相同的实体和特征。在此基础上,我们进一步认定“大”和“big”为该领域中的最佳对等词。实验表明,中英AVS结构对齐的准确率达到了80%,表明了该方法具有一定的科学性和可行性。本文的创新之处在于:1)理论上,采用了AVS结构;并从词典学的角度对实体和特征进行了解读,认为它们实质上是形容词在文本中出现的一个微型语境;2)在实践上,鉴于市面上缺乏免费使用的客户评价平行语料,我们创造性地选择了中国的淘宝和美国的亚马逊作为了可比语料。上述研究对于双语词典的编纂具有借鉴意义。一般的做法是会为某个汉语单词配上多个译文即对等词,但是对于哪个对等词是最佳对等词一般缺乏进一步的说明。在本文中,通过上述方法可以寻找到一定语境中的最佳对等词,因此起到了缩小候选对等词数量的作用。这种研究存在以下局限性,并值得进一步的探索。首先,它的试验对象是形容词性情感词汇。对于其他词性的研究是否可用还有待检验。其次,所选用的可比语料为淘宝和亚马逊。是否还有更加具有可比性的语料(库),甚至平行语料库,是一个值得期待的事情。(本文来源于《江南大学》期刊2018-06-01)
王成平[2](2012)在《信息处理用彝汉双语词汇对齐技术研究》一文中研究指出本文首先以信息处理用彝汉词汇对齐的难点作为出发点,然后在分析参照Borwn词汇对齐模型的基础上提出基于彝汉双语词典的彝汉词汇对齐的实现算法BiDictAlign,并用此方法进行了实验测试,测试数据显示此方法具有良好的性能,为信息处理用彝汉双语料词汇对齐技术的研究进行了有意义的探索。(本文来源于《计算机光盘软件与应用》期刊2012年11期)
王乙宁[3](2012)在《2D图像空间关系特征与描述词汇对齐的研究》一文中研究指出众所周知,空间关系认知是人类认知的一种基础能力,智能机器如何自动构建对象间空间关系的描述已成为空间关系研究领域的重要研究方向之一,其可广泛应用于图文转换、图像检索、人机交互以及地理信息系统等多个研究领域。在以上研究领域中,空间关系描述模型的构建、改进和系统实现都具有重要的理论意义和实用价值。本文的研究是空间关系描述模型的重要组成部分,一方面基于空间关系描述模型的成果展开,一方面也可为空间关系描述提供语言词汇选择上的支持。本文主要研究如何将图像中对象的空间关系的视觉特征和其描述词汇进行关联。基于空间关系的形式化模型,可获得词汇类别与空间关系特征的对应关系。这样,2D图像空间关系特征及其描述词汇的对齐关键就在于为句子中的词汇确定其所属的词汇类别,也就是词语分类问题。根据空间关系的句式特征,本文提出了针对空间方位关系描述的基于句子模式的词语分类方法,并对该方法进行了实验,实验表明该方法可将大部分人工描述语句进行分类。在分类后,考虑方位词的构词特征,对于切分中造成的“分词碎片”提出了基于构词模式的碎片分词识别方法,此方法不仅可将一些未登录的方向词进行识别,也可帮助去掉研究中的无用词,同时增强了语料的丰富性。之后,对于少部分不能利用句子模式分类的词语,本文首先为各类别的词语建立基础词库,然后通过计算待分类词语与各基础词库中的词汇之间的相似度的方法进行分类。最后在对齐好的基础上进行细粒度的对齐,将空间方位词中的主方向、次方向和程度修饰词提取出来与方向特征进行对齐。本文的工作不但为空间关系描述模型提供了丰富的训练语料,而且通过句式分类和碎片识别为总结2D图像空间关系表达中的常用句式与方位词组成的特征做出了贡献。(本文来源于《北京邮电大学》期刊2012-01-03)
梅筱[4](2011)在《视频特征及其描述词汇的对齐研究》一文中研究指出基于视频的动词语义习得模型,简称ViMac-V系统,是一种自然语言生成系统。ViMac-V首先在学习阶段从双通道语料中习得动词框架和各成分的视觉表征,然后在使用阶段对新的视频特征进行分析,根据习得的框架和成分组成相应的动词,并添加少量的助词后生成对该段视频的描述语句。为了习得动词框架和各成分的视觉表征,就需要将视频、文字配对作为训练样本输入,即实现视频特征及其描述词汇的对齐。在已知视频中运动物体的4维特征与运动方向、运动位置、运动速度叁类词的对应关系的前提下,研究需要提取标注语料中的运动方向、运动位置、运动速度叁类词,并正确分类,最终将词汇与其相对应的视频的视觉特征对齐。词汇的分类需要计算词语之间的相似度。现有的词语相似度算法大多依赖于外部知识(知网、同义词词林等),导致其只能解决外部知识以内的词语,或者单纯依赖词语本身的某一种特性(编辑距离,Google距离等),准确率不足(75%左右)。本文提出了一种在最小编辑距离的基础上结合词性的相似度算法,打破了外部知识的局限性,并提高了单纯依赖最小编辑距离计算相似度的准确率。而后为了实现对新的视频的自然语言描述,使词组合成句子,本文基于二元语法(Bigram)的方法设计了一个语言生成模型,能对输入视频生成自然语言描述。(本文来源于《北京邮电大学》期刊2011-01-06)
于立平[5](2010)在《图像视觉特征及其描述词汇的对齐研究》一文中研究指出目前,越来越多的应用需要将视觉数据翻译为自然语言。研究视觉信息与描述语言之间的关联成为一个重要的课题。VIMAC系统是北京邮电大学智能科学与技术中心研制的一个基于视觉信息的汉语词汇习得系统,该系统基于图像-语言描述对集合,为语言词汇建立基于视觉信息的表征,并能应用于图像描述的自动生成。本论文的研究基于VIMAC系统的工作,一方面在VIMAC系统研究成果的基础上展开,得到更细颗粒度的语言-视觉信息对,其中着重解决了在训练语料中未出现的未登录词的图像特征表示;另一方面又为VIMAC系统的改进提供了新的支持,可用于在图像的外部说明文本中发现和定位对应的视觉对象描述词汇,从而达到辅助进行图像检索的目的。基于VIMAC习得系统,我们可以获得词汇类别与视觉特征的对应关系,所以图像视觉特征及其描述词汇的对齐关键就在于为句子中的词汇确定其所属的范畴,也就是词分类问题。我们通过对图像描述句进行包括切分,词性标注在内的预处理后,基于知网提取图像描述语料中的关于颜色、大小、位置、形状的词汇,进行分类,最终将词汇与其相对应的图像的视觉属性对齐。本文同时对实现这一过程中的几个关键因素对最终性能的影响进行了分析。实验表明,对语料进行词性标注处理后,词语分类正确率大大提高;当训练语料逐步增加时,分类性能也逐步增加,但当语料达到一定规模后,性能基本也趋于饱和。之后,我们建立了一个数据库,将图像信息及其标注存储起来,便于之后的添加,提取,修改和管理。最后为了直观的显示,利用ASP技术,编制出动态网页,实现了特定图像信息的搜索。(本文来源于《北京邮电大学》期刊2010-01-10)
赵欣[6](2009)在《基于双语命名实体识别的词汇对齐和机器翻译研究》一文中研究指出命名实体是标识某一特定实体的词或词组,通常包括专有名词(如人名、地名、组织机构名及其他专有名词)、日期时间及货币等。双语命名实体是指来自两种不同语言的互译命名实体,双语命名实体识别对于跨语言信息检索和机器翻译等自然语言处理领域都是非常有用的。本文主要研究基于双语命名实体识别的词汇对齐和机器翻译。具体来说,本文的主要工作及创新点如下:双语命名实体识别方面,研究从双语语料库中抽取出双语命名实体的方法。和一般的识别方法不同,我们提出一种迭代算法,将其与双向词汇对齐过程相结合,依据对齐信息抽取可靠双语命名实体对,然后将双语命名实体这一可靠的对齐信息反向加入到词汇对齐过程,改善词汇对齐质量,再将改善后的双向词汇对齐结果再次用于抽取双语命名实体。多次重复进行这一过程,直至双语命名实体对的数量不再增加为止。结果显示,识别出来的双语命名实体的数目在迭代过程中不断增加。词汇对齐方面,提出了命名实体类型替换的观点,双语命名实体替换成它的类型,然后将类型加入到对齐词典,同时将原文中的命名实体也替换为类型。实验结果显示,类型替换的方法与双语命名实体本身加入词典的方法都能改善词汇对齐效果,而命名实体类型替换的方法改善效果更好。机器翻译方面,研究了两种和双语命名实体识别相结合的翻译方法。一种是只将双语命名实体识别加入到翻译模型的训练过程中,另一种是在第一种方法基础上,将双语命名实体识别嵌入到整个机器翻译过程中,实现了一种新的基于命名实体类型的翻译方法。在厦门大学开发的基于短语的机器翻译系统CARAVAN上进行实验,引入双语命名实体识别后,两种方法的BLEU得分和未加入命名实体识别的翻译结果相比,分别相对提高了5.05%和17.27%。(本文来源于《厦门大学》期刊2009-06-30)
李爽[7](2008)在《基于词汇对齐的未登录词Web挖掘译文候选的重排序》一文中研究指出随着互联网的高速发展,网络上的信息越来越丰富,一种有效的信息处理技术——Web文本挖掘技术得到了研究者广泛关注,同时这也为未登录词的快速准确自动的翻译提供了一种有效的途径。本文针对未登录词Web挖掘译文候选的后处理进行了研究,提出利用词汇对齐技术改善仅依靠频度或其他简单方法对候选译文的排序,使得正确的候选译文排序靠前。具体内容如下:1.本文首先介绍了Web文本挖掘以及未登录词Web信息检索技术的研究背景、研究意义、研究现状和相关基本理论知识。2.介绍了一种方法,该方法是通过搜索引擎的搜索获得返回的含双语摘录的网页,再从中进行译文挖掘。3.研究了双语词汇对齐问题,介绍了算法和综合多种特征以及语言学知识的混合策略的词汇对齐技术。4.利用词汇对齐技术对Web挖掘译文候选的重排序的方法论证及实验。最后作为实验,我们从web挖掘了不同行业的部分汉英词典未收录词组的候选译文作为测试语料,实验结果显示,这一方法具有较好的实际应用价值。(本文来源于《苏州大学》期刊2008-11-01)
刘树杰[8](2007)在《半指导的判别式英汉词汇对齐研究》一文中研究指出词汇对齐(Word Alignment)是指在源文和对应的译文中刻画词汇互译关系的过程。由于词汇的对译关系是刻画其他翻译关系的基础,所以自动词汇对齐是其他跨语言信息处理的基础技术,一直受到研究者的重视。本文在综述词对齐主要方法和分析该技术最新进展的基础上,引入半指导的判别式词对齐方法提高了英汉词对齐性能,并且探索了统计特征和先验知识相结合的多特征策略,进一步改进了词对齐效果。最后将这一方法应用于英汉词汇互译检索中,设计并实现了“绿洲”双语检索系统,解决了以往此类系统存在的候选互译词汇过多、检索效率低的难题。本文主要具体的包括如下内容:首先,介绍了半指导的判别式英汉词对齐模型,详细的介绍了半指导判别式模型中采用的EMD(Expectation maximization and discriminative,期望最大化与判别相结合)训练算法,该训练算法结合了EM(Expectation maximization,期望最大化)训练和判别式(Discriminative)训练两方面的优点能够从特征和特征权重两个方向上对模型进行训练,从而提高了判别式词对齐的性能。介绍了NBest解码算法,NBest解码算法能够保留更多的扩展候选,从而可以减少搜索错误的产生,提高词对齐性能。其次,分层次的介绍了在词对齐研究中经常使用的特征,并对特征进行了归类分析。在分析的基础上,选择了词义相似度和词性翻译概率作为纯先验特征和统计先验相结合特征的代表,将这两种特征添加到纯统计特征为基础的判别式系统中,并对这两种特征带来的影响进行了分析。实验结果表明,纯先验特征的添加要比统计先验相结合的特征更能够带来系统性能的提升,纯先验知识的添加有利于提高模型的收敛速度。最后,本文通过在常规判别式模型的基础上添加叁个新的特征,并使用召回率作为优化目标,获得了一个召回率96%的词对齐结果。将高召回率的词对齐结果应用到词汇互译检索系统中去,实现了一个基于词对齐的“绿洲”词汇互译检索系统。该系统能够使用高召回率的对齐结果获得源语词和译文候选对应词的对译关系,并能实现高效方便的检索。实际应用表明该系统能够很好的降低噪声,提高辞典编纂者的效率。(本文来源于《哈尔滨工业大学》期刊2007-07-01)
李竹[9](2004)在《基于英汉双语语料库的词汇自动对齐实验系统》一文中研究指出一引言随着计算语言学研究的不断深入,它的研究手段也在不断变化。对语料库的加工利用,已成为今天计算语言学研究的一个重要领域。双语语料库的研究为机器翻译、双语词典、术语库的建立提供了有力的支持。一般说来,为了方便地从语料库中获取知识,就要对语料进行不同层次的加工处理,以汉语为例,对汉语语料的加工包括分词、词性标注、短语标注、句子结构的分析等等。对一个双语语料库而言,除对其中每一种语言的语料进行分析加工以外,还要作双语的对齐,如双语间段落级的对齐、句子级的对齐以及词汇短语级的对齐。(本文来源于《语言文字应用研究论文集(Ⅱ)》期刊2004-10-01)
陈博兴,杜利民[10](2003)在《基于双语语料的单个源语词汇和目标语多词单元的对齐》一文中研究指出多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元 ,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度 ,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题。另外 ,对短语翻译词典的分级 ,有效地减少了高级别词典中非正确翻译项的数目 ,使得翻译词典具有更好的实用性。(本文来源于《中文信息学报》期刊2003年01期)
词汇对齐论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文首先以信息处理用彝汉词汇对齐的难点作为出发点,然后在分析参照Borwn词汇对齐模型的基础上提出基于彝汉双语词典的彝汉词汇对齐的实现算法BiDictAlign,并用此方法进行了实验测试,测试数据显示此方法具有良好的性能,为信息处理用彝汉双语料词汇对齐技术的研究进行了有意义的探索。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
词汇对齐论文参考文献
[1].曹永红.双语情感词汇对齐研究[D].江南大学.2018
[2].王成平.信息处理用彝汉双语词汇对齐技术研究[J].计算机光盘软件与应用.2012
[3].王乙宁.2D图像空间关系特征与描述词汇对齐的研究[D].北京邮电大学.2012
[4].梅筱.视频特征及其描述词汇的对齐研究[D].北京邮电大学.2011
[5].于立平.图像视觉特征及其描述词汇的对齐研究[D].北京邮电大学.2010
[6].赵欣.基于双语命名实体识别的词汇对齐和机器翻译研究[D].厦门大学.2009
[7].李爽.基于词汇对齐的未登录词Web挖掘译文候选的重排序[D].苏州大学.2008
[8].刘树杰.半指导的判别式英汉词汇对齐研究[D].哈尔滨工业大学.2007
[9].李竹.基于英汉双语语料库的词汇自动对齐实验系统[C].语言文字应用研究论文集(Ⅱ).2004
[10].陈博兴,杜利民.基于双语语料的单个源语词汇和目标语多词单元的对齐[J].中文信息学报.2003