导读:本文包含了树库转化论文开题报告文献综述及选题提纲参考文献,主要关键词:句法分析,短语树,依存树,概率上下文无关文法
树库转化论文文献综述
李英[1](2017)在《越南语句法分析与树库转化方法研究》一文中研究指出自然语言处理是人工智能研究中非常重要的一部分,而人工智能的飞速发展也推动了自然语言处理的研究热潮。句法分析是自然语言处理中的关键技术之一,其基本任务就是确定句子的句法结构。句法分析不仅能够为自然语言处理的上层应用提供服务,也能为自然语言处理的底层处理提供帮助。目前,汉语英语的句法分析研究相对比较成熟,但针对越南语句法分析的研究很少。越南语句法分析和树库转换方法研究的目的是构建一定规模的越南语短语树和依存树,同时增强越南语句法分析的准确率和效率。本文将从越南语短语句法分析、越南语复杂长句句法分析和越南语短语树到依存树的转换叁个方面进行深入分析。(1)提出融合越南语语言特征与改进PCFG的越南语短语树库构建方法。目前对越南语句法分析的研究工作较少,还没建立越南语短语树库。本文首先通过分析越南语的语言特征,制定出越南语的语言特征集;然后利用Inside-Outside算法从人工标注的少量越南语短语树获取PCFG模型中的语法规则集;最后将语法特征集作为语法规则集的补充融入PCFG模型,用得到的新模型最终完成越南语短语树库的构建。实验结果表明,本文提出的新的PCFG模型针对越南语短语树库构建的准确率达到了 81.14%,相比传统PCFG模型以及基于最大熵的树库构建方法准确率明显提高了两到叁个百分点。(2)提出基于规则分层的越南语复杂长句句法分析方法。目前已有的句法分析研究大都忽略了标点符号这一重要的句法特征或者只进行非常简单的处理,越南语的句法分析也是如此。首先根据标点符号的句法结构特性,提出规则分层的概念;然后根据标点符号在句子中的特有特征和位置关系,给出了利用标点符号进行规则分层的二次分析方法;最终,将标点融入越南语复杂长句句法分析中。本文所用的实验数据均来自宾州树库中的越南语短语树。对越南语复杂长句句法分析进行了对比实验,本文所提出的越南语复杂长句句法分析准确率和召回率提高了两到叁个百分点,同时时间开销降低了近1/3。(3)越南语短语树到依存树的转换研究。本文提出一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出了中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。本文对实验结果进行了抽样评估,树库转换的准确率达到了 89.4%,较好地解决了越南语由短语树到依存树的转换问题。(本文来源于《昆明理工大学》期刊2017-05-01)
李正华,车万翔,刘挺[2](2008)在《短语结构树库向依存结构树库转化研究》一文中研究指出汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。(本文来源于《中文信息学报》期刊2008年06期)
李正华,车万翔,刘挺[3](2008)在《短语结构树库向依存结构树库转化研究》一文中研究指出汉语依存树库建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。本文尝试通过规则和统计相结合的方法,将短语树库Penn Chinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。我们将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量转化后的树库之后,依存句法分析器的性能有所提高:但加入大量转化后树库,性能反而下降。经过细致分析,我们认为,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。(本文来源于《第四届全国学生计算语言学研讨会会议论文集》期刊2008-07-01)
李正华[4](2008)在《依存句法分析统计模型及树库转化研究》一文中研究指出句法分析的任务是根据给定的语法,自动推导出句子的语法结构。句法分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。本文比较全面地研究了依存句法分析中的几项关键技术,包括统计模型、搜索算法、树库建设等。为了深入的理解各种模型、算法在实际中的应用效果,本文选择了叁个具有代表性的方法,分别为马金山面向中文的依存分析算法,Nivre的基于转移的依存分析器MaltParser以及McDonald的基于图的依存分析器MSTParser,进行了深入的研究,并且通过实验进行比较。结果表明,MaltParser和MSTParser在中文上取得了不错的效果,但是马金山的算法在效率上占有优势,可以满足实际应用的需要。作者参加了CoNLL 2008依存分析和语义角色标注联合评测任务,取得了比较好的成绩。依存分析系统分为两个步骤。首先,本文基于MSTParser,经过仔细的特征选择和参数优化,建立了依存分析器。为了克服全局寻优的依存分析方法无法融合全局特征的缺点,本文使用了依存关系校正器对依存分析器的处理结果进行后处理。本文尝试使用基于规则与统计相结合的方法,将PennCT转化为HIT-IR-CDT的体系结构。本文将转化后的树库PennCDT加入到HIT-IR-CDT,训练并测试依存句法分析器。通过对实验结果仔细分析,本文认为这种基于规则与统计相结合的树库转化方法是有效的。但是由于PennCT和HIT-IR-CDT在标注体系上存在较大的差异,还需要继续深入研究。(本文来源于《哈尔滨工业大学》期刊2008-06-01)
树库转化论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
树库转化论文参考文献
[1].李英.越南语句法分析与树库转化方法研究[D].昆明理工大学.2017
[2].李正华,车万翔,刘挺.短语结构树库向依存结构树库转化研究[J].中文信息学报.2008
[3].李正华,车万翔,刘挺.短语结构树库向依存结构树库转化研究[C].第四届全国学生计算语言学研讨会会议论文集.2008
[4].李正华.依存句法分析统计模型及树库转化研究[D].哈尔滨工业大学.2008