导读:本文包含了汉字智能造字论文开题报告文献综述及选题提纲参考文献,主要关键词:智能造字,汉字基元,回归分析,曲线拟合
汉字智能造字论文文献综述
鄢琦,骆仁波,皮佑国[1](2012)在《无字库智能造字中汉字基元的统计分析与预测》一文中研究指出针对建立长期稳定和规模合理的字库标准这一难题,提出了基于认知机理的无字库智能造字系统,以汉字基元库代替汉字字库。文中在介绍无字库智能造字机理及其汉字基元的基础上,就该汉字基元库进行基元统计分析与预测,运用回归分析的方法,得到拟合模型方程,运用该方程拟合出基元库中基元数量随着汉字数量增加的变化规律曲线,从而预测出10万汉字的时候基元的数量,证明了在已有的全部10万汉字的情况下,基元数量在现有基础上增加不多。(本文来源于《计算机技术与发展》期刊2012年04期)
卢建平,皮佑国[2](2010)在《汉字智能造字的理论和方法研究》一文中研究指出针对现行的汉字字库方式不足的问题,提出了开展汉字智能造字和采用智能造字方式取代字库方式的研究。运用拓扑知识描述了汉字结构的数学表示和可以从汉字中挑选汉字基元的理论,为用汉字基元来拼合造字提供数学理论上的依据。运用层次分析法研究如何从汉字中挑选汉字基元的问题,并给出汉字智能造字的方法和数学模型,从理论上解决了汉字由基元通过结构来智能拼合的问题。智能造字实验结果表明了汉字智能造字理论的准确性和汉字造字的可操作性。(本文来源于《计算机工程与设计》期刊2010年23期)
卢建平[3](2010)在《基于拓扑学和统计学的无字库汉字智能造字研究》一文中研究指出以文化和技术角度描述的无字库汉字智能造字理论研究已经取得了丰富的成果,设计开发的汉字智能造字软件系统成功地实现了汉字字符集GB18030-2005中规定的70244个汉字的智能造字实验。为研究汉字智能造字的内在规律性,本文采用了拓扑、统计等数学工具,对研究的汉字基元、汉字结构、汉字编码进行符号化,研究汉字基元理论、结构理论、编码理论和造字理论的合理性、严肃性和稳定性,从而丰富和完善智能造字理论。为了检验智能造字的效果,研究智能造字的降熵机理并对智能造字的信息化效率进行评价。下面介绍作者在论文研究期间所从事的主要工作以及取得的进展:1.汉字基元理论研究。(1)利用拓扑理论对汉字基元进行了数学描述:分析了汉字集合,汉字成分集合和汉字基元集合之间的关系;建立了汉字基元和数学拓扑基之间的关系,为汉字基元的中文命名提供了数学理论上的支撑。(2)建立了可选择汉字基元的数学描述理论,解决了如何在不同的汉字子集合上各自选择基元集而不互相冲突的问题;并说明了汉字基元集合的确定性问题。(3)进一步地,用层次分析法建立了从汉字集合中选择汉字基元的数学模型,解决了实际如何从汉字集合中选择汉字基元的数学问题。(4)汉字基元个数的稳定性。由于汉字基元具有组成的确定性以及实验获取的稳定性的两个特性,用统计模型的可线性化的一元非线性回归预测了汉字基元个数的稳定性。2.汉字结构理论研究。(1)利用拓扑理论对汉字结构进行了数学描述:利用现代拓扑学中商空间、同伦论等理论对汉字智能造字中具有不同拓扑特征的结构类分别进行了研究,形成一套对汉字结构的数学描述理论,从而实现了运用拓扑知识对汉字结构进行数学描述的目标。(2)汉字结构种类的稳定性:由于汉字结构具有定义的确定性和实验获取汉字结构种类的稳定性的两个特性,从汉字拼合方式的拓扑特性预测了汉字结构种类的稳定性。3.汉字编码理论研究。针对汉字智能造字中的编码包括结构编码和基元编码两个部分的特性,(1)从数学上描述了汉字智能造字编码,并说明了汉字智能造字编码是一种“结构+基元”特征的组合编码;(2)从数学理论上验证了智能造字中的汉字编码的机内码是单义可译码和即时码。对GB18030-2005中的全部70244个汉字在编码平台下都有编码且是唯一编码的实验结果,汉字编码理论从数学角度对智能造字中汉字机内码编码的完备性和唯一性予以了解释。4.汉字智能造字理论和系统模型研究。对汉字造字过程进行了数学描述:(1)从拓扑学的角度证明了可以造字的数学命题,解决了汉字造字的数学理论支撑的问题。(2)根据智能造字的理论思想建立了智能造字的数学模型,解决了智能造字的理论从定性描述向数学理论描述的转化问题。可造字的数学理论解释了汉字造字的可实现性,并进一步地建立了汉字智能造字的数学模型,造字实验结果也证实了本章提出的模型方法的可行性和有效性。5.汉字智能造字的降熵机理和信息熵计算。现有的中文信息系统均采用汉字字库方式,以汉字作为最小的处理单元,其静态平均信息熵为9.65比特/字符,是开销最大和效率最低的文字处理系统。在分析了现有汉字字库方式的汉字系统信息熵偏高的原因及其降熵机理的基础上,以汉字基元为汉字处理的单位进行了信息熵实验,得到信息熵是5.29比特/字符,达到与拼音文字相接近的水平,实验结果表明上述方案有效地降低了汉字的信息熵。(本文来源于《华南理工大学》期刊2010-12-03)
丘志文[4](2008)在《基于认知机理的汉字智能造字之汉字基元研究》一文中研究指出现有的中文信息处理系统都采用字库,基于字库的中文处理平台虽然为我国的中文信息化做出了不可磨灭的贡献,但由于其不是造字而是选字的特点而带有许多不足:不能建立长期稳定的信息化标准、不能很好地传承汉字文化、不符合汉字认知机理、与汉字教育脱节、信息熵高等。本文在对汉字的认知机理进行分析研究的基础上,将汉字文化和认知科学的成果相结合,对汉字智能造字的基础——汉字基元进行了深入的研究和探讨。主要研究内容和研究结果如下:(1)在对汉字字库相关中文信息处理流程进行深入分析和述评的基础上,在认知心理学原型理论的指导下,深入研究了人对汉字的认知机理,并将这种认知机理应用于计算机,在计算机进行汉字智能造字的实现原理方面进行了理论分析和实验研究。(2)本文着重研究作为造字基石的汉字基元。深入分析了与汉字基元相关的研究,得出汉字部首和汉字部件可作为汉字基元的主要来源但不能直接采用的结论。在此基础上,兼顾传承文化、方便使用和方便计算机处理的原则,提出了汉字基元的提取流程。(3)依据上述流程开展大量的实验研究,探索了以工程实验方法研究文化问题的途径。本文选取GB18030收录的27484个汉字作为实验样本集,以独体字和《辞海》的250个部首作为初始基元进行大量的实验研究,通过实验和分析,提取获得了877个汉字基元。(4)利用计算机技术设计开发了汉字基元计算机研究平台。研究平台对相关信息进行查询以便研究分析;对汉字基元进行字频统计,表明提取得到的汉字基元集符合汉字的认知规律且能够完全覆盖27484个汉字;对汉字基元字形信息的分类统计可为汉字基元映射知识提供前期研究的实验数据;对汉字编码的识别解析为智能造字的输入提供了可能的解决途径。(本文来源于《华南理工大学》期刊2008-05-18)
梁添才[5](2008)在《基于认知机理的汉字智能造字研究》一文中研究指出文字信息化是信息化的重要内容,现有的中文信息处理主要基于字库方式。基于字库方式的中文信息处理系统,以汉字作为信息处理的基本单元,这种方式基本满足了社会的主要需求,但还存在以下不足:(1)难以形成规模适度又长期稳定的国家标准和国际标准;(2)不符合汉字造字规律和不能很好地传承中华文明;(3)不符合汉字教学认知规律,与现行的汉字教学脱节;(4)不能全面满足社会的应用需求,(5)信息熵高,信息处理效率低。信息化智能化是时代的特征,认知科学是探究人类智能本质的学科,智能科学和认知科学的发展,为解决汉字信息处理存在的问题提供了可能的研究方法和解决途径。本文将智能化技术与认知科学的研究成果相结合,对汉字智能造字的理论和方法做了深入研究。主要研究内容和研究结果如下:(1)在对汉字传统造字理论和汉字认知机理深入分析基础上,把传统造字理论和认知心理学的原型理论结合起来,提出了基于认知机理的汉字智能造字理论,指出汉字智能造字的内容和研究任务。在上述研究基础上,以点集拓扑学为数学工具,建立了汉字智能造字模型,并设计了汉字智能造字的计算机体系架构。(2)深入分析了与汉字原型相关的研究,得出汉字部首和汉字部件是汉字原型主要来源的结论。在此基础上,提出了兼顾传承文化,方便使用和兼顾计算机处理效率的汉字原型提取原则。结合汉字原型提取原则,以独体字和《辞海》中的部首为汉字原型的初次试验集,通过汉字原型拼组实验,采用实验、分析调整、再实验的循环优化流程来研究汉字原型的提取。依照上述流程,以GB18030-2000中的27484个汉字为实验集,进行汉字原型的提取实验,得到覆盖全体实验集的汉字原型阶段性集合一个。实验结果表明本文提出的汉字原型提取流程可行并具有推广性,可推广到其它实验集的汉字原型提取研究。原型提取实验的成功,在一定程度上验证了基于认知机理的汉字智能造字的可行性。(3)在对汉字结构相关研究进行深入分析的基础上,针对现有的汉字结构分类方法的不足,提出了一种以图形层次为基础的汉字结构分类理论。根据上述汉字结构分类理论,以原有13种汉字结构类型为基础,提出18种汉字结构分类方法.以GB2312-80和GB18030-2000为实验集,进行汉字结构分类实验,实验结果表明18种汉字结构分类方法的有效性,完全覆盖实验集。从计算机信息处理的角度出发,建立了用于汉字结构的识别的网格数学模型,并以GB2312-80为实验集,结合本文提出的18种汉字结构分类方法,设计了基于网格数学模型的汉字结构的计算机识别实验,实验结果表明了汉字结构分类的正确性。(4)结合编码理论,深入分析了汉字认知机理和汉字的传统使用习惯,制定了汉字编码的研究目标。在上述研究基础上,提出“汉字结构+汉字原型”的汉字编码方案。方案采用汉字结构分级编码的方法,符合汉字学习者的“先整体后局部、先大后小,从上到下,从左到右,先外后内”的认知结构。按照上述汉字编码方案,以GB18030-2000收录的27484个汉字为实验集,结合计算机辅助实验软件,采用优化调整的实验流程进行汉字编码实验研究。实验结果表明,按本文提出的汉字编码方法进行编码,得到的汉字编码结果集无重码,汉字编码的平均码长少于5,汉字编码包含汉字的所有特征信息,达到预期的目标。(5)根据汉字智能造字实验的需求,分析了汉字智能造字实验平台的系统需求,给出了汉字智能造字实验平台的技术方案,在Linux操作系统上实现了汉字智能造字实验平台。(本文来源于《华南理工大学》期刊2008-04-11)
汉字智能造字论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对现行的汉字字库方式不足的问题,提出了开展汉字智能造字和采用智能造字方式取代字库方式的研究。运用拓扑知识描述了汉字结构的数学表示和可以从汉字中挑选汉字基元的理论,为用汉字基元来拼合造字提供数学理论上的依据。运用层次分析法研究如何从汉字中挑选汉字基元的问题,并给出汉字智能造字的方法和数学模型,从理论上解决了汉字由基元通过结构来智能拼合的问题。智能造字实验结果表明了汉字智能造字理论的准确性和汉字造字的可操作性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
汉字智能造字论文参考文献
[1].鄢琦,骆仁波,皮佑国.无字库智能造字中汉字基元的统计分析与预测[J].计算机技术与发展.2012
[2].卢建平,皮佑国.汉字智能造字的理论和方法研究[J].计算机工程与设计.2010
[3].卢建平.基于拓扑学和统计学的无字库汉字智能造字研究[D].华南理工大学.2010
[4].丘志文.基于认知机理的汉字智能造字之汉字基元研究[D].华南理工大学.2008
[5].梁添才.基于认知机理的汉字智能造字研究[D].华南理工大学.2008