导读:本文包含了机械分词论文开题报告文献综述及选题提纲参考文献,主要关键词:甲骨卜辞,分词技术,机械分词,特征扫描
机械分词论文文献综述
陆公正,开金宇[1](2013)在《使用机械分词与特征扫描实现对甲骨卜辞的切分》一文中研究指出依据甲骨文语法及甲骨文词典对甲骨卜辞进行切分,是建立甲骨文语料库实现计算机辅助甲骨文考释的前提和基础.针对甲骨卜辞的切分,采用机械分词与特征扫描相结合的中文分词技术对200条比较完整的卜辞进行切分实验,将只使用机械分词和结合了特征扫描的两种方法进行比较.结果表明,采用机械分词与特征扫描相结合,实现甲骨卜辞的切分的正确率和效率都较高.(本文来源于《苏州市职业大学学报》期刊2013年04期)
蒋龙[2](2012)在《基于统计的汉语分词在机械产品设计中的应用》一文中研究指出汉语分词是自然语言理解中的一个主要组成部分,同时也是文本挖掘,机器翻译,信息检索的基础。由于汉语分词问题本身的复杂性,故而寻求准确有效的汉语分词方法成为自然语言理解的主要研究内容之一。本文设计了基于统计和语义分析相结合的分词模型,将其应用在产品的设计过程中。通过该模型将用户以自然语言形式描述的需求进行切分,将切分结果经过自然语言理解系统的其余模块的处理转化成为计算机能够识别的概念设计要求。本文分析了现有汉语分词的方法及其主要存在的问题,研究了基于语料库的分词方法及其关键技术,结合现有的分词方法,提出将机械分词、语料库统计分词和语义分析相结合的分词模型,并将此分词模型嵌入到某领域汉语理解系统之中。机械分词阶段,利用改进的最大匹配法,以求尽量得出所有的切分形式并用有向图的形式表现出来,并且找出分词中的歧义字段,对其进行消除歧义。语料库统计阶段,先将歧义字段中的各种常见搭配组合利用语料库统计方法统计,统计其共现度和搭配情况,并把搭配情况反馈到统计词典中,实现分词系统和整个自然语言理解系统的自我完善和良性互动,同时对合成词(“2+2”,“2+3”和“3+2”模式)的可信度进行统计;然后采用语义分析中的动名词结构,结合概念从属的知识表示方法,对分词结果进一步消除歧义,提高了分词系统的准确率,降低分词系统的复杂度。最后结合实际将该分词模型应用于产品设计的用户需求分析领域。(本文来源于《西安电子科技大学》期刊2012-01-01)
齐忠琪[3](2009)在《智能化中文机械分词组件的设计》一文中研究指出分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显着影响自然语言的处理效果。在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景。(本文来源于《中国教育技术装备》期刊2009年21期)
王靖[4](2009)在《基于机械切分和标注的中文分词研究》一文中研究指出计算技术和互联网的发展使信息量呈指数级增长,人工的查找和分析已经不能满足应用的要求。信息处理特别是自然语言处理变得日益重要。要进行自然语言处理,就必须让计算机“理解”人类的语言。“理解”的第一步就是进行词法分析,即分词技术。将中文字符串切分成有意义的词序列的过程即中文分词过程。中文分词是中文信息处理的基础。中文分词的方法大致可以分为叁类:机械分词、统计分词和语义分词。机械分词是一种重要的粗分方法,在很多领域得到应用。作为统计分词方法的一种,近年提出的标注方法在国际中文分词评测中表现突出。在此背景下,本文对机械切分和标注方法进行深入研究,并结合搜索引擎这个具体应用,给出了一个同时采用机械分词和标注分词的模型RMT(Reverse Matching and Matching and Tagging)。RMT在索引阶段同时采用多种机械分词方法,保留不同的分词结果,分别建立索引;在搜索阶段,由于用户输入的关键字较短,同时采用机械分词和标注分词,这样既保证了能够快速返回搜索结果,也可以有效的发现新词并扩充词库。RMT的机械分词使用了一种先进的词典结构,可以提高建立索引和进行搜索引擎的速度。开发了一个基于Lucene的搜索引擎系统,按照模型RMT对该搜索引擎的分词模块进行了改进,测试结果表明,RMT模型适合用于搜索引擎。标注分词中需要使用语料库进行机器学习,本文通过对机器学习模型的研究,在CRF++的基础上对机器学习模型进行优化。优化后的模型可以为字强制指定标注,将训练好的二进制模型导出为文本模型。实验结果表明,所进行的优化可以有效的提高分词速度。(本文来源于《湖南大学》期刊2009-04-28)
费洪晓,胡海苗,巩燕玲[5](2006)在《基于Hash结构的机械统计分词系统研究》一文中研究指出在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。(本文来源于《计算机工程与应用》期刊2006年05期)
丰博[6](2006)在《领域汉语理解中的智能分词和聚类及其在机械产品设计中的应用》一文中研究指出本文设计并实现了领域汉语理解中的智能分词及聚类模型,并将其应用于机械产品的设计过程,依托整个领域汉语理解系统实现了自然语言形式描述的用户设计要求到计算机能够识别的概念设计要求或设计参数的转化。首先,分析了现有的分词系统设计的优点及其存在的不足,提出了基于系统论的机械分词和基于语义理解的分词相结合的智能分词模型。将智能分词模块嵌入到整个领域汉语理解系统中,在机械分词阶段提供所有可能的分词结果,并进行词法分析级别的歧义排除,在后续的汉语理解系统的语义分析模块中排除存在语义歧义的分词结果,最后利用体现其智能性的反馈模块将理解结果反馈回分词词库,实现分词系统和整个自然语言理解系统的自我完善及良性互动。其次,将聚类分析应用于领域汉语理解系统的领域划分模块中,完成对分词结果的领域定位。同时将词汇聚类系统运用于领域汉语理解系统的反馈模块中,用理解完毕后,自动建模之前的准分词结果对词汇聚类系统进行训练,使其逐步完善,最终完成对分词词库的词汇聚类,提高分词及领域汉语理解的准确性和效率。最后,结合实际将领域汉语理解及其智能分词和聚类分析系统应用在机械产品设计的用户需求分析领域,通过系统测试,结果比较令人满意。(本文来源于《西安电子科技大学》期刊2006-01-01)
杨彦[7](2005)在《基于Hash结构的机械统计分词系统》一文中研究指出中文分词作为中文信息处理的基础,已经吸引了众多国内外计算机专家的极大兴趣,同时也涌现出了许多中文分词系统。本文在综合比较分析了常用的机械分词方法和统计分词方法基础上,设计并实现了一个基于Hash结构的机械统计分词系统。 为使得机械分词方法和统计分词方法能有机结合,优势互补,最大发挥各自性能,本文在如下几方面作了深入研究:在机械分词阶段,将最大匹配长度的赋值方式由静态分配改进为动态分配,以减少不必要的匹配操作;将词频信息作为切分评估的另一标准,以弥补“长词优先”标准的不足;采用了Hash分词词典机制,以提高分词的效率。在统计分词阶段,为了提高统计操作的效率,对分词单位的概念进行了泛化,并把词频统计操作融合于机械分词操作,同时还采用了Hash表来存储词频统计的结果,从而提高机械分词速度。 在编程实现系统之后,对其进行了大量语料的测试。通过归纳统计、曲线拟合等方法对系统性能进行测试,发现该系统对不同领域、不同文本长度的语料进行分词操作都会表现出不同分词速度和准确度。当采用含词量不同的词典时,该系统表现出来的分词速度和准确度也有差异。所设计的系统分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。(本文来源于《中南大学》期刊2005-11-01)
梁刚[8](2005)在《基于机械分词与统计学的新词识别研究》一文中研究指出分词是所有中文信息处理工作的基础,也是汉语信息处理的难点之一,如何识别文中出现的新词更成为当前研究的重点之一。本文综合利用几种传统的机械分词方法,加上统计学的方法,提出了一种从文献中抽取新词的新方法。(本文来源于《情报理论与实践》期刊2005年05期)
机械分词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
汉语分词是自然语言理解中的一个主要组成部分,同时也是文本挖掘,机器翻译,信息检索的基础。由于汉语分词问题本身的复杂性,故而寻求准确有效的汉语分词方法成为自然语言理解的主要研究内容之一。本文设计了基于统计和语义分析相结合的分词模型,将其应用在产品的设计过程中。通过该模型将用户以自然语言形式描述的需求进行切分,将切分结果经过自然语言理解系统的其余模块的处理转化成为计算机能够识别的概念设计要求。本文分析了现有汉语分词的方法及其主要存在的问题,研究了基于语料库的分词方法及其关键技术,结合现有的分词方法,提出将机械分词、语料库统计分词和语义分析相结合的分词模型,并将此分词模型嵌入到某领域汉语理解系统之中。机械分词阶段,利用改进的最大匹配法,以求尽量得出所有的切分形式并用有向图的形式表现出来,并且找出分词中的歧义字段,对其进行消除歧义。语料库统计阶段,先将歧义字段中的各种常见搭配组合利用语料库统计方法统计,统计其共现度和搭配情况,并把搭配情况反馈到统计词典中,实现分词系统和整个自然语言理解系统的自我完善和良性互动,同时对合成词(“2+2”,“2+3”和“3+2”模式)的可信度进行统计;然后采用语义分析中的动名词结构,结合概念从属的知识表示方法,对分词结果进一步消除歧义,提高了分词系统的准确率,降低分词系统的复杂度。最后结合实际将该分词模型应用于产品设计的用户需求分析领域。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
机械分词论文参考文献
[1].陆公正,开金宇.使用机械分词与特征扫描实现对甲骨卜辞的切分[J].苏州市职业大学学报.2013
[2].蒋龙.基于统计的汉语分词在机械产品设计中的应用[D].西安电子科技大学.2012
[3].齐忠琪.智能化中文机械分词组件的设计[J].中国教育技术装备.2009
[4].王靖.基于机械切分和标注的中文分词研究[D].湖南大学.2009
[5].费洪晓,胡海苗,巩燕玲.基于Hash结构的机械统计分词系统研究[J].计算机工程与应用.2006
[6].丰博.领域汉语理解中的智能分词和聚类及其在机械产品设计中的应用[D].西安电子科技大学.2006
[7].杨彦.基于Hash结构的机械统计分词系统[D].中南大学.2005
[8].梁刚.基于机械分词与统计学的新词识别研究[J].情报理论与实践.2005