中文组块分析论文-戴雪

中文组块分析论文-戴雪

导读:本文包含了中文组块分析论文开题报告文献综述及选题提纲参考文献,主要关键词:中文电子病历,语料构建,组块分析,迁移学习

中文组块分析论文文献综述

戴雪[1](2016)在《基于中文电子病历的跨科室组块分析研究》一文中研究指出21世纪,“互联网+”已经成为社会的热点话题,而“互联网+医疗”正是政府积极推广的新型在线医疗卫生模式,其中包含了构建电子病历等重要举措,大量的医疗信息数据随之产生。电子病历正是最重要的信息之一,它包含患者丰富的个人医疗信息,利用自然语言处理技术,充分学习其中的健康知识将会促进智慧医疗的长远发展。针对研究课题,本文进行了以下的研究:(1)参照PCTB语料标注规范,修改适用于中文电子病历的组块语料标注规则并构建组块分析标注语料。本文参照PCTB的语料标注规范,针对中文电子病历的特点,提出适用的修改及补充规范。在实验室前期构建的基础上,采用自动化识别加人工校对的方式获得了306份的包含分词、词性、组块标注的中文电子病历,语料库标注一致性达到98%。(2)开展基于SCL算法的中文电子病历跨科室组块分析研究。本文在SCL算法的基础上,对生成的相关性变量进行离散化,改进的算法提升了实验效果,在词性和组块分析任务中,F值都有约1%的改进。(3)开展基于TrAdaBoost算法的中文电子病历跨科室组块分析研究。本文在TrAdaBoost算法的基础上,进行多分类任务的算法适用,提出了辅助预料选择算法,利用主动学习的方法筛选目标科室的辅助标注语料,叁组交叉验证实验中,TrAdaBoost算法的F值平均提升了5%以上,而辅助选择算法在此基础上平均提升了约0.6%。(4)结合上述两种算法进行双重迁移学习,同时基于特征和实例对数据进行知识迁移,并引入辅助选择算法,最后的实验结果较Baseline的结果仍然有着显着的提升,具有一定的实用性。综上所述,本文在中文电子病历上构建了组块分析语料,利用两种不同的迁移学习算法进行跨科室组块分析,对两种算法都提出了改进方法并获得了实验的有效验证,最后,结合两种方法进行双重迁移并证明算法具有可用性。(本文来源于《哈尔滨工业大学》期刊2016-06-01)

逯万辉,马建霞,范云满[2](2013)在《基于CRFs和语块分析的中文未登录术语识别研究》一文中研究指出针对目前未登录术语识别的研究现状,提出了基于CRFs和语块分析的中文未登录术语识别模型,并制作了专利文本语料进行实验验证,实验结果表明该模型在识别中文未登录术语中的表现是有效的,后期有待构建更加专业的语料库来进一步提高识别结果。(本文来源于《情报科学》期刊2013年11期)

孔令鹏,张琛,张权[3](2012)在《基于SVM的快速中文组块分析方法》一文中研究指出基于结构风险最小化的SVM(支持向量机)统计学习理论随着样本数量的增加,不仅训练模型的时间开销会非线性地增长,而且分类的时间开销也会随着支持向量个数的增加而增大。为了使语言分析模型涵盖足够的语言现象并能快速完成模型训练和句子分析,采用了先将组块识别看成文本切分的二分类问题的办法,通过SVM对语料中不同类别词语分别建模,再从组块的构成知识进一步判定组块类型。实验结果表明,这种方法的分析速度和准确率都有一定的提高。(本文来源于《现代电子技术》期刊2012年21期)

孙广路,郎非,薛一波[4](2011)在《基于条件随机域和语义类的中文组块分析方法》一文中研究指出为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中文组块分析性能,实验进一步还表明了特征模板的选取和训练语料的规模对于分析性能的影响.(本文来源于《哈尔滨工业大学学报》期刊2011年07期)

孙慧[5](2010)在《基于组块分析的中文短语情感倾向研究》一文中研究指出随着Internet的迅速发展,特别是论坛和blog等大量的主观性媒体的出现,打破了信息发布者与接收者之间森严的界限,这使文本正在成为最重要的交互方式之一,其中包含的观点信息越来越引起公司和政府的注意。但是这种改变也使网络上的文本信息数量呈爆炸式增长,文本情感倾向性分析作为自动获取其中观点信息的一种手段,成为自然语言处理的一个热点问题。文本情感倾向性分析,就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进行分析。词汇情感倾向性分析作为文本倾向性分析的基础,有着举足轻重的作用。短语作为词汇和句子之间过渡的桥梁,可以增大情感分析粒度,对提高句子乃至篇章情感倾向性分析系统性能有重要意义。本文针对基于词典的词汇情感倾向性分析方法中对情感词倾向绝对化标注问题,提出了一种获取上下文相关的词汇情感倾向方法。同时针对目前缺少包含上下文相关情感词标注资源的问题,使用最大熵交叉验证和手工校正结合的方法加以构造,并在此基础上构造了上下文相关的特征集合用来预测情感词在上下文中的情感倾向。实验表明,此种方法与基于词典的词语情感倾向性分析方法相比,F值提高了4.9%。针对二词短语情感倾向分析问题,使用了基于规则的分析方法。在此方法中构造了特征模板,使用互信息对组块情感倾向进行计算。并说明了程度副词和否定副词对于组块情感倾向的影响以及收集方法。针对更加普遍的组块情感倾向分析问题,使用了情感分类方法进行分析,本文以短语包含的词的情感倾向以及短语类型等为特征,分别应用了最大熵模型和支持向量机模型对组块情感倾向进行分类,并将结果与传统的基于累加的方法进行比较,最后支持向量机模型取得最好的效果。最后,分别使用词汇和短语对句子的情感倾向进行分析,结果表明使用短语增大了情感分析的粒度,对于句子的情感倾向性分析性能有很大提高。本文使用上述方法,将短语情感倾向性分析分为两个层次进行了研究,分别是词汇情感倾向消歧以及短语情感倾向性分析,句子级别情感倾向性分析结果表明,本文中系统对于文本情感倾向性分析有积极作用。(本文来源于《哈尔滨工业大学》期刊2010-06-01)

袁彩霞[6](2009)在《中文功能组块分析及应用研究》一文中研究指出近年来,中文自然语言处理技术在分词、词性标注等方面获得了很大进步。然而,自然语言处理应用系统(如信息抽取、问答系统等)则需要对文本信息进行深层解释。功能组块分析任务为句子成分自动标注主语、宾语、时间状语、地点状语等功能标记,作为语法分析及语义理解的一种实现方式,具有定义清晰、便于评价等优点,近年来受到越来越多学者的关注。本文提出基于序列判别模型的中文功能组块自动分析技术,将传统的支持向量机分类模型扩展到序列学习任务中,灵活地使用了输入输出序列之间的多重相依特征。研究表明,本文提出的方法获得目前中文功能组块分析的最好性能,系统整体F1值达到93.76,并且可以较好地扩展到不同的特征集合,适合于众多自然语言处理问题。论文的第一部分说明了功能组块分析的几个问题:课题的提出与研究及意义,相关研究现状,以及本论文的研究重点。然后简要介绍了本课题采用的语料库资源——宾夕法尼亚大学中文树库,讨论了中文功能组块的划分标准。接着,以自然语言理解的全信息方法论为基础,分析了功能组块标记在语法、语义、语用理解中的位置及作用。最后说明了几个常用的考察组块标记性能的指标。论文的第二部分详细介绍了本研究的理论基础,具体说明了序列判别模型在中文功能组块识别中的应用。在对算法模型进行分析的基础上,构建了中文功能组块自动标注器,并通过大量实验,从多方面分析了系统的性能,检验了不同特征对于系统性能的影响及其语言学解释。接着,比较了两个不同的构建功能组块标注器的方法:采用简单词法信息(词、词性等)的标注器和采用完全句法树信息(短语类型、句法树路径等)的标注器,并通过实验说明了基于词法信息的功能组块标注器具有性能稳定、领域适应能力强等优点,适用于缺少句法资源或句法分析本身存在困难的语言,是进行汉语功能组块分析的有效方法。论文的第叁部分介绍了功能组块标记在自然语言处理系统中的应用。我们选取文本观点挖掘中的观点要素识别为应用领域,以句子成分的功能类别为依据,构建了观点主题自动识别系统,并通过实验验证了该方法的可行性。最后,给出了本研究的结论以及未来的研究方向。以上工作不仅实现了汉语功能组块自动分析系统,并且从计算语言学的角度,对汉语功能组块进行了明确界定,对其它相关的应用研究具有参考价值。目前的实验结果也显示了功能组块分析技术具有非常好的应用前景。(本文来源于《北京邮电大学》期刊2009-05-01)

孙广路,王晓龙,刘秉权,关毅[7](2008)在《基于词聚类特征的统计中文组块分析模型》一文中研究指出提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能.(本文来源于《电子学报》期刊2008年12期)

熊昌昭[8](2008)在《面向金融领域的中文问句语义块分析方法》一文中研究指出随着金融业在中国的快速发展,社会对金融领域的信息需求日益扩大,而传统的搜索引擎又不能很好的满足用户的需要,本文的金融问答系统的研究便是基于这样的背景。金融问答系统允许用户以自然语言的方式提问,并向用户返回正确的答案,所以与传统的搜索引擎相比,问答系统能更好的满足用户的查询需求,更准确的找到用户需要的答案。本文的研究是基于一种面向真实环境的金融问答系统,并研究其中最关键的一步:问句分析。问句分析是问答系统的关键,针对真实环境问答系统中问句的复杂性,本文提出了使用语义块标注分析问句的方法,该方法考虑了问句功能的特殊性和问句信息的结构性,依据语义功能将问句的信息分为5类:问句主题块、主题焦点块、疑问信息块、限制信息块和冗余信息块。其中疑问信息块用于描述问题的分类,共分为12类。为实现语义块的自动划分,实际应用中采用了语义块标注的形式,在特征选择中,除了词特征和词性特征以外,本文还使用了一种问句句模特征,问句句模是本文通过分析大量问句的表达方式总结出来的,覆盖了疑问信息块的12个类型。通过手工标注,得到了语料库的初始18000个问句,分别通过最大熵模型和最大熵马尔可夫模型为基础实现了真实问句的语义块的自动标注系统,完成了问句深层次的分析。最后通过问句复述的识别实验,发现标注语义块的问句比起没有标注语义块的问句在进行的问句复述实验中的准确率和召回率都有了明显的提高,验证了该语义块标注分析方法的有效性。(本文来源于《哈尔滨工业大学》期刊2008-12-01)

别致,周俊生,陈家骏[9](2008)在《基于SVM-Adaboost的中文组块分析》一文中研究指出组块分析是一种非常重要的句法分析预处理手段,通过将文本划分成一组互不重迭的片断,来达到降低句法分析的难度。提出一种基于SVM-Adaboost的中文组块分析方法,将基于线性核函数的支持向量机与Adaboost算法相结合,以基于线性核函数的SVM作为Adaboost的分量分类器,在学习过程中改变分量分类器的核参数。实验结果表明了该算法的有效性。(本文来源于《计算机工程与应用》期刊2008年21期)

孙广路[10](2008)在《基于统计学习的中文组块分析技术研究》一文中研究指出随着网络时代的来临和自然语言处理技术在处理大量网络信息文本中的广泛应用,自动、高效的中文组块分析技术作为浅层句法分析的代表,成为了对信息进行处理与理解的关键技术,对于语言信息处理领域及其相关应用领域的研究具有重要的理论意义和应用价值。大规模自然语言文本的获取技术、机器学习方法和模型、以及语料库语言学的逐渐发展和成熟,使得人们可以获得大量的带标记的文本和数据,并能够利用机器学习方法建立分析模型,对文本进行自动化的处理和标注。本文采用基于统计的机器学习方法,在建立中文组块语料库的基础上,研究了统计机器学习方法在组块分析中的应用,提出了可以帮助模型进行有效识别的新特征,并将其融合到分析模型中,提升了中文组块分析的性能,最终建立了具有词法分析和组块分析功能的一体化分析模型。本文研究的主要内容包含以下四个部分:第一,对于中文组块的定义和语料库建设方法进行研究,建立了叁种基于不同要求和构建方法的中文组块分析语料库。第一种语料库构建方法抽取了句法树库中的最底层非终结节点作为组块,其可以作为完全句法分析的第一步分析使用;第二种语料库构建方法采用对于中文句法树库进行抽取和转化的方法,设计和确定了组块抽取规则、转化规则和剪枝规则,并建立了中文Chunklink语料生成算法,从宾州大学中文句法树库中抽取中文组块分析语料;第叁种语料库构建方法采用人工标注的方式,建立了中文组块标注体系,在语言学家的指导下人工标注了专用于组块分析任务的语料库。采用不同方式进行组块语料库建设,可以使得模型针对于不同的需求应用合适的组块分析语料库。第二,对于组块分析模型方法进行研究。利用组块的边界标记和类型标记将组块分析问题转化成为序列化标注问题,提出了基于统计规则和产生式模型的组块分析方法;对最大熵马尔科夫模型进行了改进,使其适合组块分析任务,并提出了基于判别式模型的组块分析方法。在上述模型基础上提出了基于条件随机域模型的组块分析方法,克服了产生式模型和判别式模型的不足。重点研究了条件随机域模型训练方法,构建了模型的特征模板和系统框架,并分析了条件随机域模型在解决组块分析问题中体现出的融合不同类型的特征进行序列化标注的优势。引入错误驱动的N-fold模板纠正后处理算法进行后处理,进一步提升分析模型的性能。第叁,对于组块分析模型中的特征选取问题进行研究。对于判别式模型中应用的特征类型及特征抽取方法进行分析,并从特征的不同应用效果中,研究了一般常用特征对于组块分析的影响。重点研究了将新的分析特征融入到分析模型中以提升组块分析性能。针对模型性能提升的瓶颈,设计了基于最小描述长度原则结合概念相似度计算的语义类自动抽取算法,将基于语义词典生成的语义类特征引入分析模型,证明了语义类特征能够有效地提升分析性能。针对自动词性标注的错误对组块分析带来的级联错误影响,设计了基于信息熵理论和层次聚类算法生成的词类特征,和基于先验类划分算法生成的词类特征,并将它们融入到分析模型中。两种组块分析任务驱动的词类特征是从语料库中直接生成,其对于组块标记具有更强的预测能力,而且能够有效地避免自动词性标注带来的不良影响。第四,对于组块分析的一体化模型建立问题进行研究。在建立组块分析语料库、分析模型的基础上,提出了双层条件随机域模型的组块分析一体化模型,模型将自动词性标注的N个最佳的结果输入到组块分析模型中,在一定程度上抑制了自动词性标注错误在组块分析中的传播和不良影响,提升了模型的性能。重点研究了利用任务驱动的新词类特征代替原有的自动词性标记特征,并在名实体识别和仿词识别的基础上,构建新的组块分析一体化模型,避免了自动词性标注带来的级联错误,提升了模型的分析性能,也减少了模型的处理流程和分析时间,为组块分析引入了一种新的处理模式和方法。利用受限向前向后算法引入可信度估计方法,对模型的输出结果进行评价。(本文来源于《哈尔滨工业大学》期刊2008-06-01)

中文组块分析论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对目前未登录术语识别的研究现状,提出了基于CRFs和语块分析的中文未登录术语识别模型,并制作了专利文本语料进行实验验证,实验结果表明该模型在识别中文未登录术语中的表现是有效的,后期有待构建更加专业的语料库来进一步提高识别结果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文组块分析论文参考文献

[1].戴雪.基于中文电子病历的跨科室组块分析研究[D].哈尔滨工业大学.2016

[2].逯万辉,马建霞,范云满.基于CRFs和语块分析的中文未登录术语识别研究[J].情报科学.2013

[3].孔令鹏,张琛,张权.基于SVM的快速中文组块分析方法[J].现代电子技术.2012

[4].孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报.2011

[5].孙慧.基于组块分析的中文短语情感倾向研究[D].哈尔滨工业大学.2010

[6].袁彩霞.中文功能组块分析及应用研究[D].北京邮电大学.2009

[7].孙广路,王晓龙,刘秉权,关毅.基于词聚类特征的统计中文组块分析模型[J].电子学报.2008

[8].熊昌昭.面向金融领域的中文问句语义块分析方法[D].哈尔滨工业大学.2008

[9].别致,周俊生,陈家骏.基于SVM-Adaboost的中文组块分析[J].计算机工程与应用.2008

[10].孙广路.基于统计学习的中文组块分析技术研究[D].哈尔滨工业大学.2008

标签:;  ;  ;  ;  

中文组块分析论文-戴雪
下载Doc文档

猜你喜欢