导读:本文包含了混淆集论文开题报告文献综述及选题提纲参考文献,主要关键词:错别字混淆集,自扩展,开源数据,基于规则和统计
混淆集论文文献综述
施恒利,刘亮亮,王石,符建辉,张再跃[1](2014)在《汉字种子混淆集的构建方法研究》一文中研究指出汉字混淆集是错别字识别中的重要资源之一。在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、"可错成"关系为边,将混淆集构造成一个错别字混淆集图。由于人工总结错别字具有很大的局限性,因此在种子错别字混淆集图的基础上,设计了自扩展算法和开源外部补充算法来对错别字混淆集图进行扩展,以发现新的错别字对。根据实验,新发现了15133组错别字对。经过随机抽样校对,准确率达到87.35%。(本文来源于《计算机科学》期刊2014年08期)
施恒利[2](2013)在《汉字种子混淆集的构建方法研究》一文中研究指出汉字种子混淆集技术的研究一直是中文文本自动校对技术的一个重要的基础性课题,也是一个瓶颈问题,它对中文文本自动校对技术的发展有巨大的推动作用。本文对汉字种子混淆集领域涉及到的主要技术进行了比较全面和仔细的研究,包括汉字种子在中文文本中出现的错误类型、大数据词典的存储方式、中文文本分词算法、混淆集的排序。本文从一个新的角度对汉字混淆集进行了研究,通过错别字出现的各种类型来人工创建11935个汉字可能的错别字;以这些汉字为节点,“可错成”的关系为边,将混淆集构造成一个错别字混淆集图;在错别字混淆集图的基础上,设计了自扩展算法来发现内部规则进行补充和验证错别字混淆集;通过外部大数据来开源补充混淆集,发现新的错别字对,并对每个种子汉字的混淆集进行了排序,最终构建一个种子汉字混淆集字典。根据实验,经过随机抽样校对,准确率达到87.35%。本文的主要贡献如下:首先,对中文文本中出现的错别字形式进行了广泛而深入的研究,通过对大批量的文本进行发现,整理出中文文本错别字出现的错误类型,包括音似、形似、相邻键位击键错误、拼音相同词组误选等文本的错误形式,并对其进行分析,并提出解决的方法。其次,对汉字种子的错别字混淆集从一个崭新的角度对其进行自动添加,提出了错别字混淆集图的概念,并通过对错别字图的研究,发现规则对其补充。再次,进一步通过大数据对混淆集进行自动补充,最终形成一部种子汉字混淆集字典。最后,通过错别字的字频和形相似度对错别字混淆集进行排序,对混淆集进行了排序,对后续的纠错系统能够起到很好的帮助。并且通过大规模语料获取的错别词词典和生词词典不受领域的限制,应用的领域广泛,对文本校对有很大的帮助。(本文来源于《江苏科技大学》期刊2013-12-31)
混淆集论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
汉字种子混淆集技术的研究一直是中文文本自动校对技术的一个重要的基础性课题,也是一个瓶颈问题,它对中文文本自动校对技术的发展有巨大的推动作用。本文对汉字种子混淆集领域涉及到的主要技术进行了比较全面和仔细的研究,包括汉字种子在中文文本中出现的错误类型、大数据词典的存储方式、中文文本分词算法、混淆集的排序。本文从一个新的角度对汉字混淆集进行了研究,通过错别字出现的各种类型来人工创建11935个汉字可能的错别字;以这些汉字为节点,“可错成”的关系为边,将混淆集构造成一个错别字混淆集图;在错别字混淆集图的基础上,设计了自扩展算法来发现内部规则进行补充和验证错别字混淆集;通过外部大数据来开源补充混淆集,发现新的错别字对,并对每个种子汉字的混淆集进行了排序,最终构建一个种子汉字混淆集字典。根据实验,经过随机抽样校对,准确率达到87.35%。本文的主要贡献如下:首先,对中文文本中出现的错别字形式进行了广泛而深入的研究,通过对大批量的文本进行发现,整理出中文文本错别字出现的错误类型,包括音似、形似、相邻键位击键错误、拼音相同词组误选等文本的错误形式,并对其进行分析,并提出解决的方法。其次,对汉字种子的错别字混淆集从一个崭新的角度对其进行自动添加,提出了错别字混淆集图的概念,并通过对错别字图的研究,发现规则对其补充。再次,进一步通过大数据对混淆集进行自动补充,最终形成一部种子汉字混淆集字典。最后,通过错别字的字频和形相似度对错别字混淆集进行排序,对混淆集进行了排序,对后续的纠错系统能够起到很好的帮助。并且通过大规模语料获取的错别词词典和生词词典不受领域的限制,应用的领域广泛,对文本校对有很大的帮助。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
混淆集论文参考文献
[1].施恒利,刘亮亮,王石,符建辉,张再跃.汉字种子混淆集的构建方法研究[J].计算机科学.2014
[2].施恒利.汉字种子混淆集的构建方法研究[D].江苏科技大学.2013