导读:本文包含了角色标注论文开题报告文献综述及选题提纲参考文献,主要关键词:SRL,模糊机制,语义密度聚类,神经网络
角色标注论文文献综述
王旭阳,朱鹏飞[1](2019)在《基于模糊机制和语义密度聚类的汉语自动语义角色标注研究》一文中研究指出基于CPB (Chinese Proposition Bank)提出一种基于LSTM-Bi-LSTM的汉语自动语义角色标注方法,并提出语义密度聚类进行数据预处理以及"模糊"机制利用于词向量转换过程。语义密度聚类通过密度的概念对谓词进行全局统一的聚类,将稀疏谓词替换为其所属聚类集合中的常见谓词;利用语义距离概念,将"模糊"机制引入词向量的转换过程,能适当地减少词向量的语义性,并提升与谓词词向量的相关性。利用Bi-LSTM网络自动学习特征表达,然后利用CRF和IOBES标注策略转化为词序列标注问题,引进一种词性学习方法;利用LSTM网络学习生成的词性特征向量与"模糊化"后的词向量融合后一同作为模型的输入向量;训练过程中采用了小批量梯度下降算法和Dropout正则化,这既加快了训练速度,又易于得到全局最优解,还防止了参数过拟合情况的出现。多组对比实验表明,该方法标注结果的F值最高达到了81.24%。(本文来源于《计算机应用与软件》期刊2019年09期)
刘海彬[2](2019)在《语义角色标注技术研究及在金融信息提取中的应用》一文中研究指出由于近些年来计算机技术和网络通信技术的高速发展,人们对自然语言处理相关技术的需求越来越大。人们希望通过使用自然语言技术来对大量的文本进行处理以更加快速的得到有用的信息。中文信息处理是自然语言处理的一个重要的分支,在基础理论研究和技术开发应用方面获得了显着的成果。语义角色标注作为浅层语义分析的一种简单实现,是自然语言处理任务的一种,而近些年来随着深度学习技术的流行,在自然语言处理任务中使用深度学习技术成为了一种趋势。在当前自然语言处理领域,基于长短期记忆网络(Long Short-Term Memory)的深度学习算法适用于处理较长的序列并能学习到序列中长距离的依赖信息。并有效缓解RNN中会出现的梯度消失和梯度爆炸的问题,因此特别适合处理文本信息。本文主要使用了双向LSTM的神经网络模型并结合CRF(条件随机场)来作为本文的语义角色标注模型,来对本文所使用的金融语料进行标注,得到F1的最佳值为71.65%。本文主要的做的工作如下:一,选用宾州大学中文语料库中的金融相关语料,确定了18类语义角色标签,并对语料进行预处理。二、构建以词向量为输入的Bi-LSTM网络结合CRF作为语义角色模型:这一步将词作为基本标注单元,利用词嵌入(Word2Vector)的方法经过训练的词的向量表达形式。然后将词向量作为输入,通过Bi-LSTM网络层进行处理以得到特征向量表达。最后将得到的特征向量表达通过条件随机场算法进行训练处理和后处理得到语义角色标签。叁、基于词性信息融合得到的最终向量作为语义角色标注模型的输入进行训练:首先将实验语料中的词性标签作为输出向量,然后将词向量作为输入向量输入到Bi-LSTM网络层经过训练学习到词性标签的向量表达形式,然后将词性向量与词向量相结合,构造并训练Bi-LSTM+CRF模型,预测每个单词的相应语义角色标签。最后,对模型的参数进行测试和分析。实验表明,经过词性信息融合后的特征有助于语义角色的识别与分类,使得模型在语料上的表现更加出色。(本文来源于《南昌大学》期刊2019-05-23)
朱鹏飞[3](2019)在《基于Bi-LSTM的汉语自动语义角色标注研究》一文中研究指出随着计算机技术的迅速发展以及大数据时代数据量的爆炸式增长,人们寻求对信息进行准确、快速且全面的获取与处理变的越来越困难,尤其是文本形式的信息。目前汉语自动语义角色标注方法已经有了很多的研究成果,但是仍有很多具有挑战性的问题亟待解决。通过深入探讨现有的语义角色标注模型,本文主要从数据预处理、特征向量和序列标注算法叁个方面进行了研究。本文所做的主要工作如下:1.对稀疏谓语和常见谓语存在训练样本不均衡的问题进行深入研究,提出语义密度聚类概念。为了提升模型输入向量的多特征表示能力,提出“模糊”机制,利用词向量距离的概念对非谓语词向量进行“模糊化”操作,改变了原始词向量的语义表达特性。以汉语命题语料库作为实验材料,在基于Bi-LSTM-CRF框架的汉语自动语义角色标注模型上进行多维度、多角度的对比实验,结果表明该方法能取得较好的语义角色标注性能。2.针对辅助特征对于语义角色标注的结果具有较大影响的事实,构造并训练了一个Bi-LSTM网络层来用于获取词性特征的表达,训练得到的词性特征表达作为模型输入向量的一部分组成向量;结合词向量与领域词典,引入六个有效统计特征,利用CRF模型实现领域术语识别,对领域术语的one-hot表示进行权重初始化,与词向量以及词性向量进行特定方式的结合形成新的输入特征向量,并在基于Bi-LSTM-CRF框架的汉语自动语义角色标注模型上进行多维度、多角度的对比实验。实验结果表明,本文引入的辅助特征能更好地对文本进行有效的表示,提出的特征向量组合模型具有更好的语义信息表达和领域适应性。3.针对“神经网络+CRF”框架以及基分类器用于序列标注任务时明显存在的缺陷,提出一种融合多类别分类器的序列标注算法。将条件随机场、结构化支持向量机和最大间隔马尔科夫网进行有效融合,首先利用集成学习方向训练叁类基分类器,分别得到十个弱学习器,然后利用算术平均结合策略将弱学习器集成为叁类强学习器,在预测阶段,引入了状态转移矩阵,最后利用Viterbi算法对预测序列进行求解。实验阶段将该模型应用于中文分词、词性标注以及语义角色标注任务中,实验结果表明,提出的序列标注模型在序列标注任务上具有较好的性能。(本文来源于《兰州理工大学》期刊2019-05-20)
杨海彤[4](2019)在《基于图模型的中文多谓词语义角色标注方法》一文中研究指出针对语义角色标注中的多谓词现象,从图模型角度出发,提出一种中文多谓词语义角色标注方法。对句中的多个谓词进行联合语义分析,并采用随机爬山算法优化图模型。利用句中多个谓词之间的全局特征,提升语义角色的区分度。在中文命题库上的实验结果表明,该方法可以明显提高语义角色标注的分类效果。(本文来源于《计算机工程》期刊2019年01期)
杨海彤[5](2018)在《基于层次化聚类的稀疏谓词语义角色标注方法》一文中研究指出中文语义角色标注中,稀疏谓词的标注性能要远远低于其它谓词,而在实际应用中,标注系统经常需要处理大量的稀疏谓词,因此,稀疏谓词问题大大限制了语义角色标注系统的应用效果。为解决上述问题,提出一种基于聚合层次化聚类的方法。通过聚合层次化聚类建立起稀疏谓词与常见谓词的联系,稀疏谓词可以泛化为与之语义相近的常用谓词,缓和语义角色标注系统中的稀疏谓词问题。在中文命题库上的实验结果表明,该方法可有效处理中文语义角色标注中的稀疏谓词问题。(本文来源于《计算机工程与设计》期刊2018年11期)
张海潮,王昊,唐慧慧,薛蔚[6](2019)在《CRFs字角色标注方法在中文附加关键词抽取中的应用研究》一文中研究指出[目的/意义]探讨中文社会科学领域题名关键词最佳抽取模型,用以获取引文题名关键词,完成附加关键词的抽取。[方法/过程]文章以2014年CSSCI全部文献的题名为语料,运用条件随机场(CRFs),通过探究不同特征(或集合)和参数对关键词识别的影响,构建字角色标注的题名关键词标引模型,最终迁移应用到引文题名。[结果/结论]通过实验,获得最佳题名关键词标引模型,F1值可达到52.03%,每篇原文可获得附加关键词9个左右。在恰当的特征组合与参数下,构建的标引模型可以有效完成附加关键词的获取工作。[局限]语料中的每个关键词平均出现两次可能会影响机器学习的效果,原文与引文题名的差异可能影响模型的适用性,此外模型得到的附加关键词尚需进一步斟酌选择。(本文来源于《情报理论与实践》期刊2019年02期)
珠杰,仁青诺布,春燕,拉巴顿珠,索朗次仁[7](2018)在《论元角色的藏语语义角色标注研究》一文中研究指出针对面向信息处理用藏语语义角色标注尚不成熟的问题,文章借鉴PropBank标注规范和语义角色分析理论,探讨了藏语语义角色标注问题。一是按照PropBank标注规范对藏语简单句进行了语义角色标注;二是依据藏语动词的语义类别,研究了藏文语义角色框架文件建设的可行性;叁是结合藏语动词分析理论和格语法理论,在PropBank标记基础上研究了藏语特殊语义角色标记规范和标记方式。(本文来源于《高原科学研究》期刊2018年03期)
杨凤玲,周俏丽,蔡东风,季铎[8](2018)在《结合短语结构句法的语义角色标注》一文中研究指出该文提出一种结合短语结构句法的语义角色标注方法。结合短语结构句法对句子进行剪枝、子句抽取处理,然后,对处理过的句子进行语义角色分析并还原。最后,结合短语树对还原后的论元边界进行修正。其中,剪枝包括并列结构、插入语的剪枝,子句抽取针对不同形式的子句有不同的处理方式。边界修正主要是针对某些类型论元进行修正。该文分别在CoNLL2004与CoNLL2005评测语料中做了实验,在CoNLL2005Shared Task的test_wsj数据集上F值为88.25%,在CoNLL2004Shared Task的test数据集上F值为85.66%。实验结果表明,引入短语结构句法能有效地提升语义角色的识别效果。(本文来源于《中文信息学报》期刊2018年06期)
孙盼盼[9](2018)在《基于依存语法的语义角色标注语料库构建研究》一文中研究指出随着“互联网+”时代的到来,一些传统的学科受计算机技术的影响,产生了一些新的研究方向与研究方法。其中自然语言处理作为一门语言学与计算机科学相交叉的学科,逐渐成为人们关注的热点。自然语言处理的核心是对自然语言进行理解,而构建语义角色标注语料库可以有效地帮助计算机理解复杂的自然语言。本文的工作主要包括以下叁个方面。第一,提出树结构的谓词论元结构标注框架并构建14463句规模的标注语料库。目前国内外基于语料库进行语义角色标注的研究很多,包括基于短语结构语法的语义角色标注和基于依存语法的语义角色标注。在利用依存语法理论构建语义角色标注语料库方面,目前大多数可用的语义资源标注后形成的是语义依存图的形式,其中包含多个父节点,并且允许依存弧相互交叉,这使得论元结构的自动标注在计算时更加费时费力。针对上述问题,本文提出一种新的标注框架,通过建立一种兼具谓词论元信息和句法依存关系的依存树,来确保句法和语义标签的兼容性,在该框架中句法标注和语义标注之间的依存弧相同,改变的只是依存关系标签,这样能保证标注语义信息后形成的依然是一棵依存树而非一幅依存图。第二,提出语义角色传递机制以描写包括主语在内的成分省略现象。据统计汉语中只有64%的句子有主语,这表明汉语中主语成分的空缺是一个非常值得研究的课题。比如句子“他应邀在北京举办了个人演唱会”,根据依存语法原则,“他”与“举办”之间有依存弧,在进行语义角色标注时我们可以将其标注为“主事”;但是“他”跟“应邀”之间没有依存关系,为了将这两者之间的语义关系构建出来,本文提出了语义角色传递机制,即主语“他”可以通过动词“举办”传给动词“应邀”,做“应邀”的主事。第叁,基于标注语料库对语义角色传递现象进行系统分析。本文利用空语类理论对语料库中存在的语义角色传递现象进行了深入细致的描述,相较于传统的基于内省的汉语定性研究,本文的方法立足于真实语料,能够更加客观地对传递现象进行分析和总结。本文共分为以下四个部分:绪论,主要介绍本文的选题背景、相关理论、相关研究、研究方法以及研究意义。选题背景主要阐述本文选题缘由;理论背景主要包括依存语法理论、论元理论和空语类理论。相关研究主要阐述了语义角色划分、语义角色标注语料库构建、句法与语义角色对应关系以及现代汉语空语类现象研究这四个方面的内容;在研究方法上,本文主要采用人工构建语料库的方法、理论分析与定量分析相结合的方法。语义角色标注的意义在于对结构不同但具有相同语义关系的句子给出一致标注,并且为了保持句法与语义结构的兼容,提出语义角色传递机制。第一章,叙述语义依存树库的框架。所叙框架旨在对句法结构不同、基本逻辑语义相同的句子给出一致标注。本章主要介绍语义角色标注语料库的语料来源、语义角色类型、标注规则以及标注平台。第二章,语义角色传递机制。语义角色传递机制的提出是为了消解依存树库中句法结构信息和语义信息之间的不兼容性。本章主要介绍了语义角色传递机制的提出动机、具体内容和传递示例。第叁章,语义角色标注语料库的研究分析。本章首先将宾州中文树库中对空语类现象的归类和本文作了对比;其次分别对主语、话题和宾语的传递做了统计分析;最后把句法和语义之间的关系进行了对应分析。结语,概括本文的主要研究内容、研究成果;总结本文对中文信息处理以及汉语语法、语义研究的意义;最后,分析本文研究的不足之处并对下一步工作进行规划。(本文来源于《鲁东大学》期刊2018-05-01)
张苗苗,张玉洁,刘明童,徐金安,陈钰枫[10](2018)在《基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注》一文中研究指出目前,语义角色标注大多基于双向长短时记忆网络(Bi-LSTM)。但是,由于词向量表示由上下文窗口中的词嵌入拼接得到,导致其依赖于左右词嵌入的联合作用。针对该问题,引入Gate机制对词向量表示进行调整。为了获取更深层次的语义信息,对Bi-LSTM的深度进行扩展。此外,引入标签转移概率矩阵进行约束,并且使用条件随机场(CRF)融合全局标签信息得出最优标注序列。实验结果表明,该方法使得汉语语义角色标注的F1值提高1.71%。(本文来源于《计算机与现代化》期刊2018年04期)
角色标注论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
由于近些年来计算机技术和网络通信技术的高速发展,人们对自然语言处理相关技术的需求越来越大。人们希望通过使用自然语言技术来对大量的文本进行处理以更加快速的得到有用的信息。中文信息处理是自然语言处理的一个重要的分支,在基础理论研究和技术开发应用方面获得了显着的成果。语义角色标注作为浅层语义分析的一种简单实现,是自然语言处理任务的一种,而近些年来随着深度学习技术的流行,在自然语言处理任务中使用深度学习技术成为了一种趋势。在当前自然语言处理领域,基于长短期记忆网络(Long Short-Term Memory)的深度学习算法适用于处理较长的序列并能学习到序列中长距离的依赖信息。并有效缓解RNN中会出现的梯度消失和梯度爆炸的问题,因此特别适合处理文本信息。本文主要使用了双向LSTM的神经网络模型并结合CRF(条件随机场)来作为本文的语义角色标注模型,来对本文所使用的金融语料进行标注,得到F1的最佳值为71.65%。本文主要的做的工作如下:一,选用宾州大学中文语料库中的金融相关语料,确定了18类语义角色标签,并对语料进行预处理。二、构建以词向量为输入的Bi-LSTM网络结合CRF作为语义角色模型:这一步将词作为基本标注单元,利用词嵌入(Word2Vector)的方法经过训练的词的向量表达形式。然后将词向量作为输入,通过Bi-LSTM网络层进行处理以得到特征向量表达。最后将得到的特征向量表达通过条件随机场算法进行训练处理和后处理得到语义角色标签。叁、基于词性信息融合得到的最终向量作为语义角色标注模型的输入进行训练:首先将实验语料中的词性标签作为输出向量,然后将词向量作为输入向量输入到Bi-LSTM网络层经过训练学习到词性标签的向量表达形式,然后将词性向量与词向量相结合,构造并训练Bi-LSTM+CRF模型,预测每个单词的相应语义角色标签。最后,对模型的参数进行测试和分析。实验表明,经过词性信息融合后的特征有助于语义角色的识别与分类,使得模型在语料上的表现更加出色。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
角色标注论文参考文献
[1].王旭阳,朱鹏飞.基于模糊机制和语义密度聚类的汉语自动语义角色标注研究[J].计算机应用与软件.2019
[2].刘海彬.语义角色标注技术研究及在金融信息提取中的应用[D].南昌大学.2019
[3].朱鹏飞.基于Bi-LSTM的汉语自动语义角色标注研究[D].兰州理工大学.2019
[4].杨海彤.基于图模型的中文多谓词语义角色标注方法[J].计算机工程.2019
[5].杨海彤.基于层次化聚类的稀疏谓词语义角色标注方法[J].计算机工程与设计.2018
[6].张海潮,王昊,唐慧慧,薛蔚.CRFs字角色标注方法在中文附加关键词抽取中的应用研究[J].情报理论与实践.2019
[7].珠杰,仁青诺布,春燕,拉巴顿珠,索朗次仁.论元角色的藏语语义角色标注研究[J].高原科学研究.2018
[8].杨凤玲,周俏丽,蔡东风,季铎.结合短语结构句法的语义角色标注[J].中文信息学报.2018
[9].孙盼盼.基于依存语法的语义角色标注语料库构建研究[D].鲁东大学.2018
[10].张苗苗,张玉洁,刘明童,徐金安,陈钰枫.基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注[J].计算机与现代化.2018