导读:本文包含了语料处理论文开题报告文献综述及选题提纲参考文献,主要关键词:少数民族语,语料库构建,蒙语,维语
语料处理论文文献综述
费德莲,袁凌云,权朝臣[1](2019)在《面向信息处理的少数民族语料库构建分析》一文中研究指出语料库是一切自然语言处理的基础,尤其是在机器翻译、语音识别等应用的大趋势下,构建高质量、大规模、标准化的语料库尤为重要。民族语料库构建工作自20世纪八九十年代起,到目前已取得众多成果。文章主要对我国民族语料库的建设现状及相关研究进行介绍与评价,重点分析蒙语、维语、藏语语料库研究工作,并在此基础上,针对民族语料库构建存在的问题提几点建议,以期为其他少数民族构建民族语料库提供借鉴与参考。(本文来源于《无线互联科技》期刊2019年19期)
金幕[2](2019)在《现代学生群体的压力与生活的共存性分析——一项基于微博语料的自然语言处理技术应用》一文中研究指出压力,是现实生活中由于外界环境的变化而导致的人类生理变化和情绪波动。学生的生活中是否存在压力,以及其影响程度,都是学生群体心理健康研究的重要课题。本文采用了计算语言学的方法,以心理学模型为基础,计算机科学中的自然语言处理技术为手段,借助爬虫软件提取了具有代表性的现代大学生群体微博内容,用以探究学生群体压力与生活的共存性关系。分析结果显示,在现代学生群体的生活中,压力是不可或缺的一部分,它主要来自于家庭、学校、人际交往。为此,合理对待生活中的压力、积极面对生活是现代学生群体解压的有效途径。(本文来源于《金华职业技术学院学报》期刊2019年01期)
黄琼[3](2018)在《古籍数字化处理中专书语料库设计简述》一文中研究指出随着计算机技术的推广普及,古籍数字化进程进一步加快。文中尝试从语料库设计思路、设计程序等多角度着手,分别以《说文通训定声》和《庄子》作为实例进行操作讲解,详细叙述了数据库建模及精加工过程,以期为语言研究及其他专项应用研究行业的同仁们提供某些参考和帮助。(本文来源于《计算机产品与流通》期刊2018年06期)
艾山江·亚生[4](2018)在《面向手语信息处理的维吾尔文本语料库构建技术的研究》一文中研究指出聋哑人(听障人)是一个特殊的“少数民族”。手语是聋哑人(听障人)学习、生活及融入主流社会的一种特殊的交际工具。21世纪以来,我国手语语言文字资源建设逐步向专用型的文本语料库方向发展。中国手语研究是在自然语言处理、深度学习、文本挖掘、机器学习等领域中也需要深入研究和分析。随着中国手语的不断发展,我国少数民族手语研究也同步迈下了新的研究步伐。针对我国少数民族手语中的维吾尔自然手语信息处理研究而言,在中国手语的基础上,将维吾尔文本信息转换成手语信息序列研究是维吾尔自然手语文本语料库建立研究的重点研究对象。因此在自然科学理论的基础上提出关于面向手语信息处理的维吾尔文本语料库构建技术是对于我国少数民族自然手语研究、手语合成研究以及手语文本处理研究方面起到客观性作用。从学术的角度看,手语文本语料库的构建是深入研究文本处理技术,进一步提高聋哑人的手语研究效果的重要环节。因此,本文以少数民族手语教学的规范化研究提供数据资源、促进国家通用语言教学的普遍性、为聋哑人提供学习国语平台、为聋哑人提供更好的学习新知识的环境与接触外世界的平台、为聋哑人语言教育提供教学资源、教学设计规划、课堂教学方案与学习评估,为将维吾尔文本信息转换为基于中国手语的维吾尔手语信息序列提供可靠的科学依据、为基于维吾尔文本的手语合成研究提供必要的数据和技术支持为主要研究目标的学术性研究课题。针对建立文本语料库而言,采集训练文本语料是作为建立语料库研究的首要重点工作之一,手语文本语料的采集研究是需要大量的数据来源、文本资源、人力、精力以及时间的过程。本文为了保证采集文本语料研究的正规性及可靠性,更重视选取文本数据的来源并通过对聋哑学校的课本材料进行采集、整理、统计研究。此外,为了解决在文本转换研究过程中如何表示“手势语词典”之外的词汇信息的问题,通过新增训练词元库来实现一对多信息搜索与匹配,初步解决原有训练文本在语料库中在使用过程中产生的弊端问题,并通过此词元库来扩大文本语料数据的范围。在维吾尔文本中,词汇的弱化现象和拼写错误现象是比较常见的语法问题之一。因此在研究的过程中,对这些词汇信息进行整理与统计是有必要的。本文的研究重点是对于训练文本语料进行词干切分研究及文本转换。通过采用基于有限状态自动机算法的词干切分方法初步地实现了维吾尔语词干提取。此外,本文在词干切分、手语文本信息转换研究以及指导思想的基础上,初步提出了面向中国手语信息处理的维吾尔文本语料库的构建技术及方法,并最后对此所提出的技术和方法进行实验和测试达到了预期研究目标。(本文来源于《新疆大学》期刊2018-06-01)
刘玉安[5](2017)在《《语料库标注和分析中的计算机处理方法》介评》一文中研究指出本文是对《语料库标注和分析中的计算机处理方法》的介评。全书立足于当代语料库语言学研究领域前沿,运用最新的计算机手段,从对语料库,尤其是大型语料库中的词进行自动或半自动地标注和分析,到句子的标注和分析,再到语意、语用、话语中的计算机处理工具和方法,研究范围不断拓展,为当代语料库语言学研究提供了最新标注分析技术。(本文来源于《外语教育》期刊2017年00期)
肖自辉[6](2017)在《用EXMARalDA软件处理方言留存数字语料》一文中研究指出近十多年汉语方言调查留存了大量文本记录和多媒体录音资料。随着时间推移和软件或操作系统升级换代,许多留存的电子文件面临无法使用的危险,而这些语料现在和今后仍有研究价值。本文推荐利用EXMARalDA软件处理汉语方言留存的数字语料。先概述现存汉语方言留存数字语料文本编排版式,再介绍如何操作EXMARalDAPE软件,将不同版面格式的方言文本导入,生成多层标注并与录音同步链接的转写文件和多媒体静态网页文件。(本文来源于《方言》期刊2017年04期)
葛永莉[7](2017)在《基于语料库的《推拿》英译本对人物话语和心理描写的处理——以金嫣为例》一文中研究指出借助茅盾文学奖作品汉英平行语料库的子库——《推拿》汉英平行语料库,对小说《推拿》中人物金嫣的话语描写和心理描写同其英译本进行对比,考察两种描写方式的转变对塑造人物性格的影响及与叙事距离的关系。研究发现,英译本中话语和心理描写处理方式的改变使人物金嫣的性格弱化了,且英译文有明显地拉开读者与人物间叙事距离的趋势。(本文来源于《河北北方学院学报(社会科学版)》期刊2017年05期)
余秀芬[8](2017)在《英语母语语料库词频对英语二语词汇处理时间的预测》一文中研究指出本论文研究了英语母语语料库词频对英语作为二语的词汇决定任务中词汇处理时间的预测。59名大学英语专业学生参加了本研究。根据其英语水平,他们被分成高水平和低水平两组。被试们首先进行词汇决定任务,完成后再做一份英语水平测试(Oxford quick placement test)和一份关于语言背景的调查问卷。词汇决定任务要求被试又快又准地判断屏幕上出现的字母串是否是英语里的一个词。词汇决定任务中183个词的词频来自五个词库,分别是KF(Kucera&Francis norms),CELEX,BNC(British National Corpus),SUBTLEX-UK和SUBTLEX-US。这些词在五个词库里标记的词频分别与这些词的反应时做相关分析。本论文的主要研究结果如下:来源于电视电影字幕的词频(SUBTLEX-US和SUBTLEX-UK)比其它叁个传统的书面词频更能预测中国学生英语词汇决定时间,无论是对于高频词还是低频词。低英语水平学生的词频效应比高英语水平学生的词频效应大。在本研究中,Lemma词频并没比Word-form词频有显着的优势。本研究的结论是,字幕词频最能预测中国学生词汇决定任务的词汇处理时间。本研究的结果,特别是五个词库之间的对比,对英语作为二语的词汇研究提供方法上的借鉴,并给英语作为二语的教学带来启示。(本文来源于《广东外语外贸大学》期刊2017-04-15)
袁家宏[9](2017)在《大规模语音语料库的采集、处理和研究》一文中研究指出信息技术和大数据的发展为语言学研究和语言资源保护提供了一个新的思路:语言材料的采集、处理和研究彼此分离,由不同的人在不同的时间实施并共享。本文以大规模语料库语音学为例,阐述语音的采集、处理和研究中的问题和方法,希望对语言资源保护工作能有所启发。本文还介绍了使用大规模语料库进行语音研究的最重要的工具——强制对齐,并以汉语普通话中的停顿和停填顿充词为例,阐述如何运用大规模语音语料库和强制对齐进行语音学研究。(本文来源于《语言学研究》期刊2017年01期)
张瑞朋[10](2016)在《汉语中介语语料库中的汉字偏误处理研究》一文中研究指出汉语中介语语料库中的汉字偏误处理是目前汉语中介语语料库中比较薄弱的环节。它主要包括偏误汉字的判断辨认、呈现、标注、检索等几个环节。语料库中的语境和语料属性对错别字的研究也具有重要意义。文章以中山大学汉字偏误标注的汉语中介语语料库系统为例研究了这些问题,并就相关问题做了分析讨论,最后结合建库实践提出了相关解决方法和建议。(本文来源于《语料库语言学》期刊2016年02期)
语料处理论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
压力,是现实生活中由于外界环境的变化而导致的人类生理变化和情绪波动。学生的生活中是否存在压力,以及其影响程度,都是学生群体心理健康研究的重要课题。本文采用了计算语言学的方法,以心理学模型为基础,计算机科学中的自然语言处理技术为手段,借助爬虫软件提取了具有代表性的现代大学生群体微博内容,用以探究学生群体压力与生活的共存性关系。分析结果显示,在现代学生群体的生活中,压力是不可或缺的一部分,它主要来自于家庭、学校、人际交往。为此,合理对待生活中的压力、积极面对生活是现代学生群体解压的有效途径。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语料处理论文参考文献
[1].费德莲,袁凌云,权朝臣.面向信息处理的少数民族语料库构建分析[J].无线互联科技.2019
[2].金幕.现代学生群体的压力与生活的共存性分析——一项基于微博语料的自然语言处理技术应用[J].金华职业技术学院学报.2019
[3].黄琼.古籍数字化处理中专书语料库设计简述[J].计算机产品与流通.2018
[4].艾山江·亚生.面向手语信息处理的维吾尔文本语料库构建技术的研究[D].新疆大学.2018
[5].刘玉安.《语料库标注和分析中的计算机处理方法》介评[J].外语教育.2017
[6].肖自辉.用EXMARalDA软件处理方言留存数字语料[J].方言.2017
[7].葛永莉.基于语料库的《推拿》英译本对人物话语和心理描写的处理——以金嫣为例[J].河北北方学院学报(社会科学版).2017
[8].余秀芬.英语母语语料库词频对英语二语词汇处理时间的预测[D].广东外语外贸大学.2017
[9].袁家宏.大规模语音语料库的采集、处理和研究[J].语言学研究.2017
[10].张瑞朋.汉语中介语语料库中的汉字偏误处理研究[J].语料库语言学.2016