中文纠错论文-张松磊

中文纠错论文-张松磊

导读:本文包含了中文纠错论文开题报告文献综述及选题提纲参考文献,主要关键词:中文拼写纠错,噪声信道模型,中文分词,N元语言模型

中文纠错论文文献综述

张松磊[1](2018)在《中文拼写检错和纠错算法的优化及实现》一文中研究指出随着计算机和互联网的发展,越来越多的行业在工作或生活中使用计算机和电子文档等进行沟通和协作。中文拼写检错和纠错是保证沟通和协作过程中正确性的重要技术,是检验中文是否存在拼写错误并给出正确建议字的重要工具和中文自然语言处理研究领域中的重要课题。中文拼写纠错的应用领域十分广泛,如中文输入法、手写体识别、文档编辑、搜索引擎和问答系统等等。由于中文自然语言处理的起步较晚,多音、形近,以字为单位的中文特点导致中文拼写纠错难度较大,所以中文拼写纠错的精度一直较低。在前人的基础上,提出了新的检错和纠错算法。提出了基于N元语言模型和中文分词的中文拼写检错算法以及基于加权噪声信道模型的中文拼写纠错算法。经过详细的调查,总结了中文拼写错误的多种错误类型和成因,并设计和实现了一个用于拼写检错和纠错的框架。将中文文本进行基于字的N元切分并统计概率,结合混淆集,提出了基于N元概率的检错算法。将两者结合并引入N元语言模型;将噪声信道模型、字频概率和字与字拼音之间的最小编辑距离结合,提出了基于加权噪声信道模型的中文拼写纠错算法。为了寻找最优的参数集合和解码速度,实现了多种平滑方法的N元语言模型框架和Beam Search解码算法。对提出的多种中文拼写检错算法和中文拼写纠错算法在相同的测试数据集上做了实验。经过实验数据的对比和分析发现,提出的中文拼写检错算法在准确率、精确率和F1值上具有一定的优越性。提出的基于加权噪声信道模型的纠错算法在准确率、召回率和F1值上具有一定的优越性。为该领域提供了一定的参考和借鉴以及进一步推动了相关领域技术的进一步发展。(本文来源于《华中科技大学》期刊2018-12-01)

杨劲男[2](2018)在《基于神经网络的中文语法纠错关键技术研究》一文中研究指出现阶段中文文本分类研究重点主要集中两方面,一方面是文本情感分析,一方面是中文计算机辅助学习,其中中文计算机辅助学习的研究热点主要是中文语法纠错和中文错别字订正。但目前现有模型面临泛化能力差,需要大量人工标注特征,本地词语库词语较少,模型复杂等问题。所以设计可靠可用的中文辅助学习工具仍然是一项具有挑战的工作。针对上述问题,本文基于门控递归单元与条件随机场,研究整合字,词,词性在中文中的特点,分析句子成分,主要内容包括以下两个方面:(1)针对判定中文语法错误,本文提出了一种基于门控递归单元与条件随机场的组合模型(GRU_CRF),该模型使用字向量表示句子特征,通过GRU整合句子特征来分类语法错误,最终使用CRF判定错误发生的位置。解决了中文句子由于分词导致歧义,文本特征不好拟合,以及单独使用CRF模型需要大量人工标注特征的问题。对比实验结果表明该模型优于现有机器学习模型以及其他神经网络模型。(2)针对错别字订正,本文使用词性标注句子,利用CRF模型拟合中文句子词语搭配特征。解决了现有模型需要制定大量规则,泛化能力较差的问题,同时在实验中引入网络词语库,改进了本地词语库词语量过少造成很多词语无法匹配的问题。实验结果表明,与现有模型比较也能获得了较好的错别字订正效果。(本文来源于《云南大学》期刊2018-05-01)

邬龙,黎塔,刘建[3](2017)在《基于短语翻译模型的中文语音识别纠错算法》一文中研究指出识别结果纠错是提升语音识别系统的一个重要手段。本文将识别结果纠错看成是错误的识别结果到正确的结果之间的翻译,提出一种基于短语翻译模型的语音识别纠错算法。该方法首先将识别的拼音串结果通过翻译模型映射成纠错拼音串,然后使用基于动态树的束搜索算法将纠错拼音串转成纠错汉字串。实验表明,在两个领域相关的测试集上经过纠错模块处理以后,字错误率分别相对下降9.6%和11.6%。最后,为了提高纠错系统在领域不相关测试集上的鲁棒性,把经过纠错的汉字结果和语音识别输出的汉字结果进行融合。在领域不相关的测试集上字错误率相对下降1.5%。(本文来源于《第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集》期刊2017-10-11)

胡熠,刘云峰,杨海松,张小鹏,段建勇[4](2016)在《搜索引擎的一种在线中文查询纠错方法》一文中研究指出该文主要解决中文搜索引擎的查询纠错问题。错误的查询,已经偏离用户真实的搜索意图时,搜索质量很差,甚至导致搜索结果数为零。为此该文提出了一种服务于实际搜索引擎,较为完整的查询纠错方案。该文重点描述了纠错查询候选生成、纠错查询候选评价、以及基于核函数,挑选最优纠错查询候选等内容。通过在开放测试集上的准确率/召回率验证,以及在搜索引擎中实际的DCG评测,该文的方案都取得了较好的效果。(本文来源于《中文信息学报》期刊2016年01期)

黎心琴[5](2015)在《印尼中文世界补习学校汉语课堂口语纠错问题研究》一文中研究指出本文以作者所在的印尼泗水中文世界补习学校汉语课堂教学情况为研究对象,主要针对汉语课堂学生口语表达错误及教师采取的纠错策略情况,对口语表达纠错反馈机制进行相关实践与调研。笔者主要通过课堂录音的实验手段,真实记录汉语课堂上学习者所犯错误与教师所采取的纠错策略,并辅以统计数据的对比分析及一定量的问卷调查,考察真实汉语课堂上纠错反馈行为的运用比例及采用效果。并在数据分析的结果上得出相关的教学启示。根据数据分析结果表明,在四大语言项目纠错频率对比上,初级阶段的汉语课堂纠错重点较为平均,中高级则多侧重于语法语用。与之相应地,在纠错策略的采用频率对比上,初级阶段课堂教师多采用重述纠错手段,而中高级课堂则多采用引导与元语言提示等形式协商手段;在纠错主体方面,以教师纠正为主;在纠错时机的选择问题上师生表现出一定差异,但基本还是以立即纠正为主;在纠错重点上,教师绝大多数认为语用错误的纠正最为重要,而学习者则视词汇纠错为重点;师生对于纠错必要性的思考也有所不同,教师认为纠错不太必要,学习者则认为非常必要。最后本文通过数据的分析与访谈得出了五点教学启示,以期对汉语教师提供一定帮助。(本文来源于《广东外语外贸大学》期刊2015-05-05)

蒋志鹏,关毅,董喜双[6](2014)在《基于多层协同纠错的中文层次句法分析》一文中研究指出层次句法分析是一种简单快速的完全句法分析方法,该方法将句法分析分解为词性标注、组块分析和构建句法树叁个阶段。该文将其中的组块分析细分为基本块分析和复杂块分析,利用条件随机域模型代替最大熵模型进行序列化标注。由于层次句分析中错误累积问题尤为严重,该文提出了一种简单可行的错误预判及协同纠错算法,跟踪本层预判的错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错。实验结果表明,加入纠错方法后,层次句法分析在保证解析速度的同时,获得了与主流中文句法分析器相当的解析精度。(本文来源于《中文信息学报》期刊2014年04期)

秦英[7](2012)在《问答系统中文输入纠错技术研究》一文中研究指出在迅速发展的Web时代,问答系统在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对问答系统的要求也越来越高,其功能也在不断丰富和完善当中,除了推理功能等,输入自动检查纠错功能也是一项非常重要的附加技术。对于中文问答系统来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果问答系统没有计算出与用户问句相同的句子,而经过对用户句子进行纠错之后,能够得到与用户问句相似的句子,则用户将会在问答系统页面看到系统提供的推测到的相似问句。针对以上问题,根据中文语言的特点,对中文语料库建立了N-gram统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了拼音纠错和映射表相结合的纠错方法,并首次提出使用语言模型解码算法对纠错检查结果再次计算比较,最终得出优化的纠错结果。以上所提出的理论模型,本文进行了实验验证,在统计语言模型的基础上,采用叁种不同的纠错方法进行实验对比,一是只有拼音纠错,二是拼音纠错与映射表结合,叁是拼音纠错与映射表结合并利用语言模型解码算法优化。最后对实验结果进行了分析,验证得出利用最后一种方法即第叁种方法能够取得较好的效果,并且上下文语境信息越多,纠错的召回率和准确率也就越高。最后,对本论文所做的工作进行总结,指出了下一步的研究方向。(本文来源于《山东大学》期刊2012-04-15)

陈智鹏[8](2010)在《基于统计的搜索引擎中文输入纠错技术研究》一文中研究指出在已经到来的Web 2.0时代,搜索引擎在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对搜索引擎的要求也越来越高,其功能也在不断丰富和完善当中,输入自动检查纠错功能就是一项非常重要的附加技术,并且已经得到了较为广泛的应用和推广。对于中文搜索引擎来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果搜索引擎在返回结果中计算出与此关键词相似的另一形式(如词组中出现同音不同字,或者某一错别字现象)得到大量的搜索结果,用户将会在搜索结果页面看到系统提供的推测到的关键词项。针对以上问题,首次将一种完全通过分析上下文统计信息的方法引入搜索引擎的输入纠错技术中(未见文献报道),根据中文语言的特点,对中文语料库建立了N-gram统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了TF/IDF权重计算方法,将初步统计语言模型得出的纠错检查结果再次计算比较,最终得出优化的纠错结果。以上所提出的理论模型,在以Nutch和Hadoop为基础搭建的分布式搜索引擎平台上进行了实验验证,采用了不同规模数量级的语料库(数量级从100K左右到5个GB左右),将检查纠错的统计分析和比较结果通过图表的方式进行展现,验证了完全通过上下文统计信息来对进行中文搜索引擎的输入检查纠错是能够取得较好的效果的,并且上下文语境信息越多,纠错的召回率和准确率也就越高。(本文来源于《北京邮电大学》期刊2010-01-10)

陈智鹏,吕玉琴,刘华生,刘刚,屠辉[9](2009)在《基于N-gram统计模型的搜索引擎中文纠错》一文中研究指出搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。(本文来源于《中国电子科学研究院学报》期刊2009年03期)

李晓东[10](2008)在《搜索引擎中中文分词与纠错模块的设计与实现》一文中研究指出随着互联网的蓬勃发展,各种应用服务层出不穷,搜索引擎是其中最流行的一种服务,仅次于电子邮件。伴随着搜索引擎的普及,越来越多的人通过使用搜索引擎,获取日常工作和生活中需要的信息。搜索引擎涉及多种技术,其中,自然语言处理技术是其中重要的一种,它可以帮助搜索引擎提高查询准确度,并丰富搜索引擎的特色功能。中文分词技术与中文纠错技术是自然语言处理技术的两个分支,可应用在搜索引擎的分析系统与检索系统中,对于提高用户检索效率和检索结果准确度具有十分重要的意义。论文选题来源于一个提供旅游信息搜索的搜索引擎系统。文中对中文分词技术和中文查询词纠错技术进行了研究,并从软件工程的角度出发,设计与实现了系统的中文分词模块与纠错模块。具体的工作包括:(1)对一种基于规则的分词算法进行了改进,使用双hash词典结构降低了算法正向、反向最大匹配时的匹配次数;使用正反最大匹配切分策略取代逐词切分策略,降低了算法切分字符串的次数,提高了算法的分词效率。(2)通过相关算法研究提出并实现了一种基于拼音hash词典的同音别字词纠错算法,应用于搜索引擎系统中,用于同音别字词的纠错。(3)改进了双字驱动词典的结构,并结合新的字符串模糊匹配算法对漏字多字查询词进行纠错,增强了系统对漏字多字查询词的纠错能力。(4)将词典技术与Ajax技术相结合,实现了查询词智能提示功能。(5)采用N-gram切分的新词识别算法,用于发现未登录词,实现分词词库的动态更新,提高了中文分词模块的分词准确度。(6)在漏字多字查询词纠错建议中,选择相似度在一定范围内、词频数高于某一阀值的纠错建议词条,作为相关查询词,模拟了相关查询词推荐功能的实现。(本文来源于《北京交通大学》期刊2008-12-01)

中文纠错论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

现阶段中文文本分类研究重点主要集中两方面,一方面是文本情感分析,一方面是中文计算机辅助学习,其中中文计算机辅助学习的研究热点主要是中文语法纠错和中文错别字订正。但目前现有模型面临泛化能力差,需要大量人工标注特征,本地词语库词语较少,模型复杂等问题。所以设计可靠可用的中文辅助学习工具仍然是一项具有挑战的工作。针对上述问题,本文基于门控递归单元与条件随机场,研究整合字,词,词性在中文中的特点,分析句子成分,主要内容包括以下两个方面:(1)针对判定中文语法错误,本文提出了一种基于门控递归单元与条件随机场的组合模型(GRU_CRF),该模型使用字向量表示句子特征,通过GRU整合句子特征来分类语法错误,最终使用CRF判定错误发生的位置。解决了中文句子由于分词导致歧义,文本特征不好拟合,以及单独使用CRF模型需要大量人工标注特征的问题。对比实验结果表明该模型优于现有机器学习模型以及其他神经网络模型。(2)针对错别字订正,本文使用词性标注句子,利用CRF模型拟合中文句子词语搭配特征。解决了现有模型需要制定大量规则,泛化能力较差的问题,同时在实验中引入网络词语库,改进了本地词语库词语量过少造成很多词语无法匹配的问题。实验结果表明,与现有模型比较也能获得了较好的错别字订正效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文纠错论文参考文献

[1].张松磊.中文拼写检错和纠错算法的优化及实现[D].华中科技大学.2018

[2].杨劲男.基于神经网络的中文语法纠错关键技术研究[D].云南大学.2018

[3].邬龙,黎塔,刘建.基于短语翻译模型的中文语音识别纠错算法[C].第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集.2017

[4].胡熠,刘云峰,杨海松,张小鹏,段建勇.搜索引擎的一种在线中文查询纠错方法[J].中文信息学报.2016

[5].黎心琴.印尼中文世界补习学校汉语课堂口语纠错问题研究[D].广东外语外贸大学.2015

[6].蒋志鹏,关毅,董喜双.基于多层协同纠错的中文层次句法分析[J].中文信息学报.2014

[7].秦英.问答系统中文输入纠错技术研究[D].山东大学.2012

[8].陈智鹏.基于统计的搜索引擎中文输入纠错技术研究[D].北京邮电大学.2010

[9].陈智鹏,吕玉琴,刘华生,刘刚,屠辉.基于N-gram统计模型的搜索引擎中文纠错[J].中国电子科学研究院学报.2009

[10].李晓东.搜索引擎中中文分词与纠错模块的设计与实现[D].北京交通大学.2008

标签:;  ;  ;  ;  

中文纠错论文-张松磊
下载Doc文档

猜你喜欢