导读:本文包含了中文句法分析论文开题报告文献综述及选题提纲参考文献,主要关键词:术语抽取,依存句法分析,中文候选术语选取
中文句法分析论文文献综述
俞琰,陈磊,姜金德,赵乃瑄[1](2019)在《基于依存句法分析的中文专利候选术语选取研究》一文中研究指出[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等叁个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。(本文来源于《图书情报工作》期刊2019年18期)
谷波,王瑞波,李济洪,李国臣[2](2019)在《基于RNN的中文二分结构句法分析》一文中研究指出为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,RNN-INT),与常用的循环神经网络模型(RNN,LSTM)和条件随机场模型(CRF)进行对比实验,使用mx2交叉验证序贯t-检验来比较模型。实验结果表明,RNN-INT模型在窗口为1的词特征就可达到最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF)。最后,在测试集上,在人工分词下,RNN-INT在短语级别的F1值(块F1)达到71.25%,在句子级别的准确率达到约43%。(本文来源于《中文信息学报》期刊2019年01期)
王喆[3](2018)在《中文信息处理下句法分析之发展前景卮言》一文中研究指出汉语由于其语法在外在形态方面变化较少,以形态来确定词的句法功能困难过大。由于词序和虚词是汉语主要的语法手段,在中文信息处理过程中产生的歧义问题迟迟难以解决。而如果这一问题不解决,翻译、校对、识别方面的应用技术也会遇到巨大的困难。本文借鉴西方理论认知语言学、阐释学等内容,从汉语发展本身的角度出发,分析中文信息处理在句法分析方面突破的难度及未来可能的突破方向。(本文来源于《才智》期刊2018年31期)
蒋志鹏,关毅[4](2019)在《面向中文电子病历的句法分析融合模型》一文中研究指出完全句法分析是自然语言处理(Natural language processing, NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record, CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Dataoriented parsing, DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel, QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.(本文来源于《自动化学报》期刊2019年02期)
蒋志鹏[5](2017)在《中文电子病历的词法和句法分析研究》一文中研究指出随着医疗大数据时代的来临,电子病历的知识挖掘和利用受到越来越多的关注。电子病历本身是一种半结构化的数据,其结构化的内容为计算机自动抽取和分析提供了便利,同时,非结构化数据的规模远大于结构化数据,并且蕴藏着丰富的医疗知识和患者的健康信息,但计算机处理起来也更加困难,成为电子病历知识获取的主要障碍。电子病历的知识获取过程一般分为语言分析和信息抽取两个阶段进行,词法分析和句法分析是主要的语言分析手段,为信息抽取提供必要的条件。本文主要研究针对中文电子病历子语言特征的特殊词法和句法分析模型。具体研究任务包括词性标注、组块分析和句法分析,在这叁个任务中,词性标注是自然语言处理的基础研究,后两个任务的研究工作多数都是基于自动词性标注结果展开的,而组块分析和句法分析是自然语言的结构化过程,能够有效辅助电子病历信息抽取,特别是实体关系抽取的研究。本文的主要研究内容包括以下四个方面。1.优化开放领域词法和句法分析模型,提出基于多层协同纠错算法的层次句法分析模型。层次句法分析是一种高效的完全句法分析方法,但是逐层组块分析导致错误累积问题严重,本文提出了一种简单可行的错误预判及协同纠错算法,每层组块分析时跟踪预判错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错,使层次句法分析在保证解析速度的同时,获得与主流中文句法分析器相当的解析精度。2.构建中文电子病历词法和句法标注语料,首次提出了从电子病历数据预处理到语料标注的整体方案,并总结了中文电子病历的一系列子语言特征,为后续的词法和句法分析模型研究奠定了基础。数据预处理阶段,为了更好地表示电子病历中的未登录词以及隐私类别间的依赖关系,本文将长短期记忆网络分成“字级”和“词级”处理,并引入转移矩阵对依赖关系建模,进一步提高长短期记忆网络识别电子病历隐私信息的效果。3.针对中文电子病历子语言特征构建词性标注和组块分析模型。词性标注方面,首次将基于字的中文分词和词性标注联合模型引入到中文电子病历中,并利用基于变换的错误驱动模型进行后处理纠错。组块分析方面,为解决中文电子病历各部分数据差异问题,提出了基于词聚类特征和结构化支持向量机的组块分析模型,并通过分组学习框架缓解该类问题;为解决中文电子病历科室差异问题,提出了基于改进结构对应学习算法的中文电子病历跨科室组块分析模型。4.针对中文电子病历子语言特征构建句法分析模型。针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析和层次句法分析融合模型。树片段抽取是该模型的基础,本文提出效率更高的标准树片段和局部树片段抽取算法,获得了标准树片段库和局部树片段库。基于上述两个树片段库,提出词汇、词性混合匹配和最大化树片段组合算法优化面向数据句法分析过程,缓解了无效树片段带来的噪声。综上所述,子语言特征是中文电子病历区别于一般限定领域本文的主要体现,本文通过进行语料标注和统计分析工作,发现了中文电子病历一系列子语言特征,并将其成功运用到词法和句法分析模型构建上,取得了一些初步的研究成果。我们希望这些研究成果能够进一步推动自然语言处理技术在中文电子病历上的发展。(本文来源于《哈尔滨工业大学》期刊2017-07-01)
贾治中[6](2016)在《基于依存句法分析的中文评价对象抽取和情感倾向性分析》一文中研究指出随着互联网的发展,包含有观点和评论的文本大量涌现。人们一方面浏览别人发表的评论,一方面不停地分享自己对于某些人或物的观点和情感。情感分析能够从互联网上的评论文本中挖掘出群体性的观点,这对于经济发展、政治决策和个体行为都有着极其重要的指引作用。情感分析分为粗粒度和细粒度两种,目前粗粒度情感分析取得了不错的效果,而细粒度情感分析的效果依旧不理想。评价对象抽取和情感倾向性分析是细粒度情感分析的一个重要的子任务。其中,评价对象抽取是该任务性能提高的瓶颈。针对评价对象抽取主要有四种方法,分别是基于寻找频繁出现的名词和名词短语的抽取方法,利用观点词和评价对象的关系进行抽取的方法,使用有监督学习进行抽取的方法,使用主题模型进行抽取的方法。目前很多使用观点词和评价对象的关系进行抽取的方法往往难以精准地抽取出观点词真正关联的评价对象,尤其是评价对象与观点词不在同一子句中的时候。针对该问题,本文在利用中文评论句子中词汇间依存关系的基础上,通过语义角色标注、添加抽取规则和搜索算法,以提高情感分析的性能。论文的主要工作如下:(1)在现有词典的基础上,构建用于情感分析的情感词典,包括:正面情绪词典负面情绪词典、正面评价词典、负面评价词典、观点引述词典、虚拟语气词典、转折词典、名词性情感词典等。这些词典主要用于处理评价句中无用成分或只是表达想法、意愿的非评价句对情感分析的干扰,提供语义规则和倾向性分析需要的词库支持。(2)在依存句法分析的基础上,利用语义角色标注,添加了一系列的抽取规则进行情感分析。同时使用了定中短语(定语和中心语组成的短语)替换通常的名词短语抽取出候选评价对象,用以提高评价对象和观点词的抽取精确度。这些规则主要考虑了中文语义知识、常用句式等对情感分析的影响。实验结果表明,在NLP&CC 2013的微博评测语料上,添加语义规则的基于依存句法分析的方法,能够显着提高评价对象的抽取性能。(3)提出一种评价对象搜索方法,用于改善在只抽取出代词或句法关系中无评价对象的情况下,搜索上下文中真正的评价对象的精确度。该方法主要结合了词义和词语相似度计算算法,缩小了上下文中潜在评价对象的搜索范围。实验结果表明,该方法在实验语料上提高了评价对象的抽取精度。(本文来源于《东南大学》期刊2016-05-27)
邱立坤,史林林,王厚峰[7](2015)在《多领域中文依存树库构建与影响统计句法分析因素之分析》一文中研究指出为提升依存分析并分析影响其精度的相关因素,该文构建了大规模中文通用依存树库和中等规模领域依存树库。基于这一系列树库,通过句法分析实验考察质量、规模、领域差异等因素对中文依存分析的影响,实验结果表明:(1)树库规模和质量均与句法分析精度成正相关关系,质量应先于规模因素被优先考虑;(2)通用树库和领域树库之间的差异程度与前者对后者的替代性成相关关系;(3)两种树库混合使用的效果同样与领域差异有关。(本文来源于《中文信息学报》期刊2015年05期)
李静毅[8](2015)在《基于CVG模型的中文短语结构句法分析研究》一文中研究指出句法分析的基本任务是确定句子的句法结构,由于语言的复杂性,句法结构往往有歧义的存在,需要引入大量信息来减少歧义,提高句法分析结果。句法分析一般分为短语结构句法分析和依存句法分析,本文主要研究的是短语结构句法分析。CVG(Compositional Vector Grammars)模型能够很好的捕捉句法分析所需信息,本文将对CVG模型进行深入研究,并对基于CVG模型的句法分析器进行改进,使其能在中文句法分析上有更好的性能表现。CVG模型将PCFG(Probabilistic Context Free Grammars)和SU-RNN(Syntactically Untied Recursive Neural Networks)相结合,利用PCFG模型预测结构,生成候选树,利用SU-RNN捕获短语和词汇的细粒度语法和组合语义的信息,并利用这些信息对生成的句法树进行重新计算得分,进行重新排序。本文主要工作如下:1)本文将尝试利用CVG对中文进行句法分析,首先对CVG模型进及其关键技术进行了介绍,并使用Stanford Parser在CTB8.0(Chinese Treebank 8.0)上训练出一个PCFG模型作为基准模型,在此基础上,又训练出一个CVG模型,给出其在中文句法分析上的性能表现,及和PCFG模型的性能对比。2)CVG模型中存在着一些问题,针对这些问题本文给出了改进措施:a)对于一词多义,通过融入词性信息,将<词,词性>作为一个整体进行训练,来解决多义词问题;b)对于未登陆词问题,将其分成两类,针对每类提出了不同的解决办法,第一类是语料中不存在的词,对于这种未登陆词可以用结构向量进行替代,第二类是语料中存在这个词,不过不存在其对应的词性,则先用结构向量替代,并对词性的父结点所在的子树的得分进行惩罚,如果还没有找到对应向量,则用零向量替代;c)对于因为树的二叉化所引起的新生结点和原结点难以区分所导致的父结点向量表示不确切的问题,提出了对新生结点类型临时增加标记位的解决办法;d)对于CVG模型中结点得分计算存在冗余的问题,提出将得分函数中的参数依赖由原来的孩子结点类型改为本结点类型。3)本文最后对改进措施在CTB8.0上进行实验,通过逐次增加的办法,验证四个改进措施是否有效。实验表明,这四个改进措施是有利于句法分析器性能的提高的,其在开发集上的F1值比CVG模型提高了0.92%。并通过对比分析模型生成结果的错误类型,再次验证改进措施的有效性,且为进一步提高句法分析提供准备工作。(本文来源于《郑州大学》期刊2015-05-01)
杨振鹏[9](2015)在《中文多词表达抽取及其在依存句法分析中的应用》一文中研究指出多词表达是一个相当普遍的语言现象,它是一种由两个及以上词语组成的意义相对完整的语义单元,但其语义与句法属性并不是其构成词语的简单组合。多词表达是目前自然语言处理领域最棘手的问题之一,多词表达处理不好将会影响自然语言处理各应用领域的性能。本文以依存句法分析为例,探讨了多词表达对依存句法分析性能的影响,并通过构建“名词+动名词(N+VN)”以及“动名词+名词(VN+N)”两类多词表达知识库来提高依存句法分析的性能。研究的主要内容有以下几个方面:1、多词表达候选的抽取。在中文多词表达里,“N+VN”以及“VN+N”结构的多词表达极为常见,而且出错率较高。因此,本文主要以中文“N+VN”以及“VN+N”结构的多词表达为研究对象。抽取了1998年上半年《人民日报》语料中的两类多词表达,并分别对前2000个实例进行实验,“N+VN'’结构的多词表达抽取正确率为71.85%,“VN+N”结构的多词表达抽取正确率为68.2%。2、语料修正。研究发现,1998年上半年《人民日报》语料虽然经过人工校对,但仍然存在标注错误,影响抽取的正确率。根据多词表达抽取结果的统计分析,找出原语料中存在的标注错误问题,进而对语料进行了修正。语料的修正主要体现在两个方面:一是含单字词的多词表达的修正,二是多词表达错误标注的修正。两种修正方法共修正了语料中标注错误的多词表达9979个,修正后,“N+VN”结构的多词表达抽取正确率达到81.05%,“VN+N”结构的多词表达抽取正确率达到77.2%。本文实现了利用多词表达对1998年上半年《人民日报》语料的修正,提高了语料的质量,修正后的语料对今后自然语言处理领域的研究具有积极意义。3、中文多词表达知识库的构建。对修正后的语料进行多词表达抽取及分析,并通过多词表达分类实验构建了中文“N+VN以及“VN+N”结构韵多词表达知识库。4、基于中文多词表达知识库的依存句法分析。利用构建的中文多词表达知识库对依存句法分析结果进行多词表达抽取,对抽取结果进行统计分析,找出依存句法分析中存在的依存标注错误问题,进而对抽取结果进行依存句法纠错。纠错后,原错误句子的依存句法分析正确率提升了2.1%,整个抽取结果的依存句法分析正确率提升了0.32%。验证了中文多词表达知识库资源对于中文依存句法分析的应用价值。(本文来源于《南京师范大学》期刊2015-04-30)
朱慕华,王会珍,朱靖波[10](2015)在《向上学习方法改进移进-归约中文句法分析》一文中研究指出基于移进-归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进-归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进-归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进-归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进-归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。(本文来源于《中文信息学报》期刊2015年02期)
中文句法分析论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,RNN-INT),与常用的循环神经网络模型(RNN,LSTM)和条件随机场模型(CRF)进行对比实验,使用mx2交叉验证序贯t-检验来比较模型。实验结果表明,RNN-INT模型在窗口为1的词特征就可达到最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF)。最后,在测试集上,在人工分词下,RNN-INT在短语级别的F1值(块F1)达到71.25%,在句子级别的准确率达到约43%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
中文句法分析论文参考文献
[1].俞琰,陈磊,姜金德,赵乃瑄.基于依存句法分析的中文专利候选术语选取研究[J].图书情报工作.2019
[2].谷波,王瑞波,李济洪,李国臣.基于RNN的中文二分结构句法分析[J].中文信息学报.2019
[3].王喆.中文信息处理下句法分析之发展前景卮言[J].才智.2018
[4].蒋志鹏,关毅.面向中文电子病历的句法分析融合模型[J].自动化学报.2019
[5].蒋志鹏.中文电子病历的词法和句法分析研究[D].哈尔滨工业大学.2017
[6].贾治中.基于依存句法分析的中文评价对象抽取和情感倾向性分析[D].东南大学.2016
[7].邱立坤,史林林,王厚峰.多领域中文依存树库构建与影响统计句法分析因素之分析[J].中文信息学报.2015
[8].李静毅.基于CVG模型的中文短语结构句法分析研究[D].郑州大学.2015
[9].杨振鹏.中文多词表达抽取及其在依存句法分析中的应用[D].南京师范大学.2015
[10].朱慕华,王会珍,朱靖波.向上学习方法改进移进-归约中文句法分析[J].中文信息学报.2015