蒙古语语料库论文-李秀萍

蒙古语语料库论文-李秀萍

导读:本文包含了蒙古语语料库论文开题报告文献综述及选题提纲参考文献,主要关键词:档案馆,蒙古语,语料库

蒙古语语料库论文文献综述

李秀萍[1](2018)在《蒙古语语料库建设工程档案入藏内蒙古自治区档案馆》一文中研究指出2018年11月21日,"蒙古语语料库建设工程"一期工程档案交接仪式在内蒙古自治区档案局(馆)举行。自治区人大常委会副主任、"蒙古语语料库建设工程"领导小组副组长吴团英,自治区党委宣传部副部长、电影局局长乌恩奇,自治区档案局(馆)长张琛等出席仪式。吴团英指出,"蒙古语语料库建设工程"一期工程档案移交自治区档案馆保存是保护国家和社会文化遗产的重要举措,既有利于档案的安全保管与科学管理,又有利于为社会各界广泛提供利用服务。(本文来源于《中国档案》期刊2018年12期)

包敏娜[2](2016)在《蒙古语传媒语言文本语料库的构建》一文中研究指出传媒语言语料库是一项重要的语言资源和必要的现代化研究手段。目前,我们初步建立了一个以汉蒙影视剧语料库(80万字/词)和蒙古语新闻语料库(95万字)为主的蒙古语传媒语言文本语料库。本文主要介绍了该语料库的构建工作,包括总体规划、语料采集、加工标注、词典建设以及软件开发等。该工作的开展和深入将促进蒙古语传媒语言语料库的开发和利用,从而推动相关理论研究和应用技术的不断发展。(本文来源于《内蒙古师范大学学报(哲学社会科学版)》期刊2016年04期)

章奎,史美越[3](2015)在《“蒙古语语料库”建设工程一期成果展示系统通过评审》一文中研究指出本报12月30日讯 ( 章奎 史美越)12月30日,“蒙古语语料库”建设工程一期成果展示系统通过了专家评审验收。自治区人大常委会副主任、“蒙古语语料库”建设工程领导小组副组长吴团英出席评审会。此次评审通过的展示系统内容包括从200(本文来源于《内蒙古日报(汉)》期刊2015-12-31)

吴金星[4](2015)在《蒙古语语料库加工集成平台的构建》一文中研究指出语料库是按照一定的原则收集和组织的真实的自然语言作品的集合。语料库经过加工,才能成为有用的资源,能够为各种自然语言处理系统所利用。所谓加工,就是把语料库中隐藏的信息显现出来的过程。根据粒度的不同,语料库的加工分为词法标注、短语标注、句法标注和语义标注等不同层次。蒙古语已构建《1000万词级的现代蒙古语语料库》,其加工方面已涉及到词法、句法、语义的各个层面,但具有代表性的大规模多级标注语料库还没有形成。研究者们都以各自的实验为目的,从大规模语料库中抽取所需的语料,按照自己的标准进行不同层面的标注。这不仅出现了很多重复劳动,而且标注的语料库相互之间不能通用,更不能直接应用于其他研究中。因此,构建大规模的能广泛应用于蒙古文信息处理工作的多层次标注语料库是非常必要的。本研究根据语料库语言学的理论和方法构建了蒙古语词法-命名实体-固定短语-语义类型标注为一体的多级加工语料库。采取机器标注为主、人工校对为辅的方法对蒙古语最具代表性的语料库—《100万词级现代蒙古语语料库》进行了词法分析,命名实体之人名、地名和机构名的标注,固定短语的标注和语义类型的标注,初步构建了蒙古语多级标注语料库。本人前期工作中研发的蒙古语词法分析系统—Mglex在20万词级的训练语料库上取得了90%的准确率,但该系统尚未对命名实体进行识别。命名实体识别是蒙古语词法分析系统的重要组成部分,一个完整的蒙古语词法分析系统不仅包括词法标注,还应包括命名实体的识别。除此之外,命名实体识别是信息抽取、信息检索、组块分析、机器翻译、问答系统等技术的重要基础,它的研究成果将直接影响到文本信息自动化处理的深层次研究。因此,本文着手研发了蒙古语命名实体识别系统,具体研究内容包括:(1)采用条件随机场模型和规则相结合的方法识别了蒙古文人名和地名。根据蒙古文人名和地名的特点分别选取6种和5种特征作为CRF模型特征,对于蒙古文人名中特有的兼类人名则采取了基于规则的方法。最后采用词典和规则纠错,召回未识别的人名和地名。实验结果显示,人名和地名的识别准确率分别达到了94.56%和94.68%,召回率达到了90.60%和84.40%,F值达到了92.54%和89.24%。(2)机构名识别方面提出了基于知识库的识别方法。根据蒙古文机构名的语法特性,总结出简单机构名和复合机构名的构成规律,设计出有效的识别规则和相应的知识库,实现了蒙古文机构名的识别。本文从中国蒙古语新闻网的时政报道板块下载新闻片段243(包含417个机构名)段测试机构名识别系统性能,该系统在测试集上取得了73.75%的准确率和67.38%的召回率。除此之外,本文还详细介绍了改进蒙古语词法分析系统Mglex性能所做的研究工作。从语料库预处理、候选词优化、兼类词消歧和后处理等四个方面改进了Mglex系统。在兼类词消歧方面本文提出了基于词组搭配的兼类词消歧方法,而词组搭配获取方法上采用了最朴素的统计搭配词与节点词的共现频数法。通过改进,Mglex系统取得了词级联合切分与标注准确率94.00%,词级切分准确率97.80%的成绩。(本文来源于《内蒙古大学》期刊2015-06-10)

普日布苏荣[5](2015)在《蒙古语语料库建设的有关问题》一文中研究指出词法标注是语料库建设的基础工作之一。本研究在做好西里尔蒙古文的词法标注工作的基础上,基于已用手工标注的训练语料的基础上,构建自动识别词法信息的统计模型,并研制了计算机自动词法标注工具。本文主要由以下几部分构成。导论,主要介绍了本文的研究目标及意义,国内外研究现状和本文研究的基本思路、主要方法、框架结构、创新之处和应用价值等。第一章, 此项研究中的西里尔蒙语语料库建设工作可分为通用语料加工和样本语料加工,并介绍了相应的标注系统制作情况。此项研究建设了700万词的文学语料库,并制作了卡片式检索程序和词条检索程序。加工样本库时从通用语料库选取了100余万词的现代蒙语古语料,并以人工标注词法信息的基础上研制了自动标注程序。第二章, 为提高自动标注的准确度,利用传统语言学理论和蒙古语语料库相关研究及其成果,从计算语言学的角度进行了研究。依托所制作的通用语料库中.的语用实例,样本语料词法标注系统,开发了词法变化形式的统计模型。在本章中还探讨了影响词法分析系统准确度的西里尔蒙古文自身的问题,找出了与传统蒙古文的区别之处。在比较研究了标注的《清澈的塔米尔河》的西里尔蒙古文与传统蒙古文样本库的基础上得出的结论为西里尔蒙古文词法标注系统准确率低的原因是由于西里尔蒙古文正字法所致。第叁章, 介绍了语料库的基础上,归纳了词法变化形式的统计模型。第四章, 介绍了开发的语料检索系统所需的词频、句频统计工具。并根据频率统计系统统计了蒙古文公用名词和专有名词,确定了积极词汇和消极词汇。这对母语教学、外语教学、词典编纂等工作提供了方便。(本文来源于《内蒙古大学》期刊2015-05-25)

及庆玲[6](2014)在《“蒙古语语料库”建设取得重大成果》一文中研究指出本报11月4日讯( 及庆玲)11月4日,清华大学计算机科学与技术系党委书记、“蒙古语语料库”建设工程领导小组成员孙茂松教授在“蒙古语语料库”建设工程一期工程验收暨二期工程论证会上坚定地说:“‘蒙古语语料库’大规模搜集真实语言语料和限量收集珍贵文献语(本文来源于《内蒙古日报(汉)》期刊2014-11-05)

龙梅[7](2014)在《基于蒙古语标注语料库的检索系统的设计与实现》一文中研究指出随着计算机与网络技术的发展,从海量数据资源中获取有用的信息成为人们关注的焦点。在这个背景下信息检索技术得到了迅速发展。信息检索是指从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程。信息资源有很多种,语料库就是其中的一个资源。语料库是以电子计算机为载体承载语言知识的资源。面对海量的语料库,很难想象人工查找信息将会耗费多少时间和精力。因此,语料库检索工具对于语料库的处理至关重要。本文中主要设计并实现了基于蒙古语标注语料库的检索系统。该系统具有普通查询、高级查询、标注查询和兼类词查询功能,另外增加了英文版本、数据的输入输出、兼类词处理、例句的显示、修改关键词和字词的排序功能。这些功能对于蒙古语词法研究很有帮助。通过测试,本文检索系统的总体性能好,可以实际应用到语料库加工处理工作中,并且可以多个用户同时共享它。(本文来源于《内蒙古大学》期刊2014-10-20)

佳琦[8](2014)在《基于蒙古语语料库地名自动标注研究》一文中研究指出命名实体的自动标注是自然语言处理技术中一项重要及基础的任务。蒙古文地名是蒙古语信息处理的重要组成部分,并且蒙古文具有较复杂多样,构成随意地名的特点,导致蒙古文自动标注成为自然语言处理的一个比较艰难的任务。论文基于《现代蒙古语100万词级的语料库》,对句子中出现的地名进行分析研究并总结出地名主要特点,探究了地名的地名的语义分类及其相关标记集子。从而建立了地名自动标注软件。全文由导论、主要章节、结论等部分组成。导论部分,阐述了选题意义、研究概况、研究对象与研究方法、语料来源与论文步骤;第一章,基于《现代蒙古语100万词级的语料库》,对句子中出现的地名进行分析研究并总结出地名主要特点;第二章,基于地名特征,对地名进行语义分类为地名自动标注提供标记符号;第叁章,建立地名知识库;第四章,进行了地名的自动标注,分析了标注结果并提出了存在的问题以及解决方法;结论部分,总结全文并提出了今后要研究的问题。(本文来源于《内蒙古大学》期刊2014-10-20)

孟和娜日苏[9](2014)在《基于《蒙古语口语语料库》研究动词的式与态》一文中研究指出本论文利用《蒙古语口语语料库》资料,统计分析日常会话中出现的动词“式”和“态”的各中形式及频率、占据比例等。本论文由绪论,第一章,第二章,结论等四部分组成。绪论部分主要简单介绍了前人研究情况,选题依据,研究方法和分析过程等。第一章,统计分析了《蒙古语口语语料库》中出现的陈述式及时间范畴,祈使式及人称范畴各类形式,首先在音位层面进行统计,然后以音位变体分类,分析了个形式的占据比例、基本形式等。第二章,对《蒙古语口语语料库》中出现的动词“态”的各种形式,首先进行了音位层面的统计,然后以音位变体分类,分析了各种形式的占据比例、基本形式等。结论部分归纳了本文分析得到的结果。(本文来源于《内蒙古大学》期刊2014-05-01)

王宝红[10](2014)在《基于《蒙古语口语语料库》统计分析形动词和副动词形式》一文中研究指出本文基于《蒙古语口语语料库》对蒙古语形动词和副动词形式进行了定量分析,归纳了音位层次和音位变体层次的各种形式,并且统计观察了频率高低,占据比例。本文由绪论,第一章,第二章,总结等四个部分组成。绪论部分,主要交代了选题原因及意义,分析的材料和发音合作人员,分析的过程及研究方法和目的等内容。第一章,首先对形动词形式进行音位层面的归纳,然后根据元音长度、元音、辅音的脱落与变体,以音位变体等方面进行分类并分析了各类变体出现的原因。同时观察了各类形式的频率高低和占据比例。第二章,对副动词形式进行了音位层面的统计,然后以音位变体层面进行分类,并分析了各类变体出现的原因及各形式的频率高低和占据比例。最后总结了这次进行分析观察得到的形动词和副动词的形式特点。(本文来源于《内蒙古大学》期刊2014-04-20)

蒙古语语料库论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

传媒语言语料库是一项重要的语言资源和必要的现代化研究手段。目前,我们初步建立了一个以汉蒙影视剧语料库(80万字/词)和蒙古语新闻语料库(95万字)为主的蒙古语传媒语言文本语料库。本文主要介绍了该语料库的构建工作,包括总体规划、语料采集、加工标注、词典建设以及软件开发等。该工作的开展和深入将促进蒙古语传媒语言语料库的开发和利用,从而推动相关理论研究和应用技术的不断发展。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

蒙古语语料库论文参考文献

[1].李秀萍.蒙古语语料库建设工程档案入藏内蒙古自治区档案馆[J].中国档案.2018

[2].包敏娜.蒙古语传媒语言文本语料库的构建[J].内蒙古师范大学学报(哲学社会科学版).2016

[3].章奎,史美越.“蒙古语语料库”建设工程一期成果展示系统通过评审[N].内蒙古日报(汉).2015

[4].吴金星.蒙古语语料库加工集成平台的构建[D].内蒙古大学.2015

[5].普日布苏荣.蒙古语语料库建设的有关问题[D].内蒙古大学.2015

[6].及庆玲.“蒙古语语料库”建设取得重大成果[N].内蒙古日报(汉).2014

[7].龙梅.基于蒙古语标注语料库的检索系统的设计与实现[D].内蒙古大学.2014

[8].佳琦.基于蒙古语语料库地名自动标注研究[D].内蒙古大学.2014

[9].孟和娜日苏.基于《蒙古语口语语料库》研究动词的式与态[D].内蒙古大学.2014

[10].王宝红.基于《蒙古语口语语料库》统计分析形动词和副动词形式[D].内蒙古大学.2014

标签:;  ;  ;  

蒙古语语料库论文-李秀萍
下载Doc文档

猜你喜欢