汉语基本块论文-刘展鹏

汉语基本块论文-刘展鹏

导读:本文包含了汉语基本块论文开题报告文献综述及选题提纲参考文献,主要关键词:汉语基本块识别,神经网络模型,整句似然函数,隐层特征

汉语基本块论文文献综述

刘展鹏[1](2016)在《基于神经网络模型的汉语基本块识别》一文中研究指出汉语基本块识别是汉语语块分析体系中的基础任务之一,属于浅层句法分析的一个环节。对给定的汉语句子,汉语基本块识别任务将形式化为以字为基本标注单位的序列标注问题。基于多层神经网络模型,以汉字的分布表征作为初始输入,融合分词隐层特征进行模型训练,探索构建性能更为优良的汉语基本块识别任务的神经网络模型。以原始句子为输入,以字为基本标注单位构建的神经网络模型,不同于传统方法的标注模型那样对人为构建的特征的依赖,以及语块分析对分词系统性能的依赖。本文的主要创新点有以下两点:一是以整句的似然函数作为优化目标。目前文献中神经网络模型在汉语基本块识别时是以单点似然为优化目标,对较长的语块的识别不够准确。因此,本文借鉴Collobert et al(2011)的方法,以整句的似然函数为优化目标函数,编程实现了对此目标函数的SGD优化算法。实验结果表明,应用此方法,整个句子输出的标记序列更为合理,一定程度上减少了不合法标记的产生(比如,将语块内部的标点符号划分到语块外的现象),有效提升了汉语基本块的识别性能,特别对多字块的召回率提升了3%-5%。二是提出了融合分词隐层特征的汉语基本块识别的神经网络模型。该模型将分词与基本块识别两个任务融合到一起进行训练,两者都以字的分布表特作为输入,共享同一个字的分布表征矩阵。模型参数训练过程中,对两个任务模型采用交替训练的方式,训练时每次只更新自己模型部分的参数,但是对于共享的字分布表征矩阵中的参数要共同更新。不但避免了分词部分的参数对分词任务过于拟合而影响到基本块的识别性能,而且字分布表征向量的参数不会过于偏向其中某个任务目标而影响整体性能。实验结果表明,融合分词隐层特征的联合模型在汉语基本块识别任务上的F值提高了2.1%。此外,本文还使用Word2Vec的方法先预训练字的分布表征,再作为上述神经网络模型的初始输入向量进行整个模型的训练。实验结果表明,在大语料下用Word2Vec方法训练得到的字分布表征对于汉语基本块识别任务的性能也有一定的提升。(本文来源于《山西大学》期刊2016-06-01)

李国臣,刘展鹏,王瑞波,李济洪[2](2016)在《融合分词隐层特征的汉语基本块识别》一文中研究指出该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。(本文来源于《中文信息学报》期刊2016年02期)

李国臣,党帅兵,王瑞波,李济洪[3](2014)在《基于字的分布表征的汉语基本块识别》一文中研究指出汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性。为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练。实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布表征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%。这表明深层神经网络模型在汉语的基本块识别中是有作用的。(本文来源于《中文信息学报》期刊2014年06期)

李丽,赵文娟,樊孝忠[4](2013)在《基于词间依存的汉语基本块依存关系识别》一文中研究指出基本块的分析是句法分析中的重要技术,根据依存理论,提出了一种分析基本块之间的依存关系的方法。首先使用BIO标记来识别基本块,然后根据词之间的依存关系判别基本块之间的依存关系。实验表明,基本块识别的正确率和召回率分别为82.3%和78%,基本块之间依存关系识别的正确率和召回率分别为89%和90.5%。(本文来源于《计算机科学》期刊2013年S2期)

侯潇琪,王瑞波,李济洪[5](2013)在《基于词的分布式实值表示的汉语基本块识别》一文中研究指出基于神经语言模型生成汉语词语的实值向量表示,称为词语的分布式表示,相应地以这种分布式表示构造的词特征称为分布式词特征.将这种分布式词特征替换基本块识别任务中所常用的条件随机场模型中的词特征,在清华大学TCT语料上进行了汉语基本块识别任务实验,结果表明:在仅使用词窗口[-2,2]的词特征的模型中,和使用词窗口[-2,2]+词性特征的模型中,采用分布式词特征比传统的词特征的模型的标记精度分别高38.01%,1.86%,说明词语的分布式表示对汉语基本块识别任务是有作用的.(本文来源于《中北大学学报(自然科学版)》期刊2013年05期)

宇航,周强[6](2009)在《汉语基本块的内部关系分析》一文中研究指出针对目前基本块分析主要侧重外部边界和句法标记识别的处理缺陷,提出了一种可以同时获得基本块的外部句法标记和内部关系描述的汉语基本块分析方法。首先通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,然后利用统计建模对句子中的每个词进行序列关系标注,最后通过有限自动机规则自动获取句子的完整基本块标注结果。实验结果表明,与使用经典的边界标记(IOB)模型进行基本块句法标注分析的方法相比,该方法在句法标记识别性能略有下降的情况下获得了很好的内部关系分析结果。(本文来源于《清华大学学报(自然科学版)网络.预览》期刊2009年10期)

宇航,周强[7](2009)在《汉语基本块标注系统的内部关系分析》一文中研究指出针对目前基本块分析主要侧重外部边界和句法标记识别的处理缺陷,提出了一种可以同时获得基本块的外部句法标记和内部关系描述的汉语基本块分析方法。首先通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,然后利用统计建模对句子中的每个词进行序列关系标注,最后通过有限自动机规则自动获取句子的完整基本块标注结果。实验结果表明,与使用经典的边界标记(IOB)模型进行基本块句法标注分析的方法相比,该方法在句法标记识别性能略有下降的情况下获得了很好的内部关系分析结果。(本文来源于《清华大学学报(自然科学版)》期刊2009年10期)

周强[8](2008)在《汉语基本块规则的自动学习和扩展进化》一文中研究指出为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案。该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无效规则。针对其中的高频低可靠规则,不断引入更多的内部词汇约束和外部语境限制知识,使之逐步进化为描述能力更强的结构化规则。同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价。实验结果表明:现有算法以16%的有效扩展规则覆盖了93%的标注正例,并使预期精度从51%提高到81%,显示了这套规则学习和评价方法的有效性。(本文来源于《清华大学学报(自然科学版)》期刊2008年01期)

周强[9](2008)在《汉语基本块规则的自动学习和扩展进化》一文中研究指出为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案。该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无效规则。针对其中的高频低可靠规则,不断引入更多的内部词汇约束和外部语境限制知识,使之逐步进化为描述能力更强的结构化规则。同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价。实验结果表明:现有算法以16%的有效扩展规则覆盖了93%的标注正例,并使预期精度从51%提高到81%,显示了这套规则学习和评价方法的有效性。(本文来源于《清华大学学报(自然科学版)网络.预览》期刊2008年01期)

周强[10](2007)在《基于规则的汉语基本块自动分析器》一文中研究指出本文提出了一种规则驱动的汉语基本块自动分析方法,它的主要分析资源是从大规模标注语料库和词汇关联知识库的交互作用中自动习得的融合内部词汇关联和外部语境限制约束知识的分层次、多粒度的基本块规则库。利用其中各条规则的置信度信息,可以有效地驱动汉语真实文本句子的多词语基本块的自动识别过程,同时完成歧义结构自动排歧。初步的实验结果表明,现有分析器可以在95%以上的开放测试语料上达到90%左右的 F-measure 值,同时又保留了约5%的在现有知识库条件下很难判断的复杂歧义结果供后续分析器选择使用,显示出较好的处理灵活性和有效性。(本文来源于《中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集》期刊2007-10-01)

汉语基本块论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

汉语基本块论文参考文献

[1].刘展鹏.基于神经网络模型的汉语基本块识别[D].山西大学.2016

[2].李国臣,刘展鹏,王瑞波,李济洪.融合分词隐层特征的汉语基本块识别[J].中文信息学报.2016

[3].李国臣,党帅兵,王瑞波,李济洪.基于字的分布表征的汉语基本块识别[J].中文信息学报.2014

[4].李丽,赵文娟,樊孝忠.基于词间依存的汉语基本块依存关系识别[J].计算机科学.2013

[5].侯潇琪,王瑞波,李济洪.基于词的分布式实值表示的汉语基本块识别[J].中北大学学报(自然科学版).2013

[6].宇航,周强.汉语基本块的内部关系分析[J].清华大学学报(自然科学版)网络.预览.2009

[7].宇航,周强.汉语基本块标注系统的内部关系分析[J].清华大学学报(自然科学版).2009

[8].周强.汉语基本块规则的自动学习和扩展进化[J].清华大学学报(自然科学版).2008

[9].周强.汉语基本块规则的自动学习和扩展进化[J].清华大学学报(自然科学版)网络.预览.2008

[10].周强.基于规则的汉语基本块自动分析器[C].中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集.2007

标签:;  ;  ;  ;  

汉语基本块论文-刘展鹏
下载Doc文档

猜你喜欢