词典分词论文-尤众喜,华薇娜,潘雪莲

词典分词论文-尤众喜,华薇娜,潘雪莲

导读:本文包含了词典分词论文开题报告文献综述及选题提纲参考文献,主要关键词:中文分词器,情感极性词典,情感分析

词典分词论文文献综述

尤众喜,华薇娜,潘雪莲[1](2019)在《中文分词器对图书评论和情感词典匹配程度的影响》一文中研究指出【目的】比较由不同中文分词器带来的语料和情感极性词典匹配程度的差异。【方法】采用6款分词器对自主构建的图书评论语料库进行分词,结合常见情感词典编写程序对输入的语料进行处理,统计语料对情感词典、否定词表和程度词表的覆盖率与匹配次数,计算低频词的比率和中性语料的比率。【结果】针对不同的情感词典,分词器在语料–词典匹配度、词典低频词比例以及中性语料占比方面表现出不同程度的差异。【局限】实验语料不足,没有基于词典和规则进行句子级的测试。【结论】本研究将有助于从事涉及到基础情感词典的各种研究在选择中文分词器时减少随意性。(本文来源于《数据分析与知识发现》期刊2019年07期)

方婷婷[2](2019)在《中文分词中词典分词和模型分词融合的实证研究》一文中研究指出将一连串的字段根据一定的规律分成一个个独立的、可识别的字段就是中文分词过程。因为中文是由一个个汉字组成,没有便于切分汉字之间的分隔符,所以中文分词是自然语言处理的第一步,是不可避免的基本步骤,分词处理结果是否理想直接决定了最后的结果是否理想化。在知识更新迭代变化快的今天,对分词处理方法的灵活性和科学性有了更多、更高的要求。互联网的普及让大量的新词汇不断涌现,这些新词汇的产生不仅是互联网进步的一个反应,同时也对词典分词发起了新的挑战,如何高效迅速的处理这些包含新词汇的文本是文本词典的重点研究对象。目前的分词系统中主要使用词典分词或者机器学习分词完成分词任务。而词典分词虽然可控性好、分词速度快,但是其对未登录词无法正确切分。虽然机器学习模型CRF能够很好解决未登录词问题,但训练CRF需要人工设计很多特征,且需要花费很多时间来验证特征的有效性。基于深度学习的自然语言处理算法逐渐兴起之后,在序列标注任务上使得模型能够自动的抽取特征成为可能,大大减少了人工设计特征的工作量。虽然基于模型的分词能够很好的解决未登录词问题,但是其可控性没有词典分词好,对于一个未解决的新词模型,词典分词可以快速的人工添加新词到词典解决问题。而对于模型而言可能就需要添加很多相关的训练语料,这些训练语料往往是比较难获取或者获取成本很大的。本文为了提高中文自动分词效果,使用MMseg算法实现词典分词模块以及BI-LSTM+CRF作为模型分词模块,最终将两者进行融合进而达到既能够有词典分词的可控性,又能够通过模型分词解决词典分词的未登录词问题。本文的方法在SIGHAN的汉语处理评测的Bakeoff语料中进行测试。首先实现MMseg的词典分词模块,然后针对模型分词的算法先进行各种参数调优,最后融合两者的结果。实验表明在模型融合之后的结果中,准去率、召回率、F1(F1-Measure)值都有所提升,而且模型融合后能够很好解决模型的可控性和未登录词问题。(本文来源于《广西师范大学》期刊2019-06-01)

李筱瑜[3](2019)在《基于新词发现与词典信息的古籍文本分词研究》一文中研究指出现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。(本文来源于《软件导刊》期刊2019年04期)

蒋卫丽,陈振华,邵党国,马磊,相艳[4](2019)在《基于领域词典的动态规划分词算法》一文中研究指出由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。(本文来源于《南京理工大学学报》期刊2019年01期)

冯雪[5](2019)在《中文分词模型词典融入方法比较》一文中研究指出基于统计的方法一般采用人工标注的句子级的标注语料进行训练,但是这种方法往往忽略了已有的经过多年积累的人工标注的词典信息。这些信息尤其是在面向跨领域时,由于目标领域句子级别的标注资源稀少,从而显得更加珍贵。因此,如何充分且有效地在基于统计的模型中利用词典信息是一个非常值得关注的工作。最近已有部分工作对它进行了研究,按照词典信息融入方式大致可以分为两类:一类是在基于字的序列标注模型中融入词典特征;另一类是在基于词的柱搜索模型中融入特征。对这两类方法进行比较,并进一步进行结合。实验表明,这两类方法结合之后,词典信息可以得到更充分的利用,最终无论是在同领域测试和还是在跨领域测试上都取得了更优的性能。(本文来源于《计算机应用研究》期刊2019年01期)

刘伍颖,王琳[6](2018)在《越南语分词词典半监督集成构建算法》一文中研究指出针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.(本文来源于《郑州大学学报(理学版)》期刊2018年01期)

周世宇[7](2017)在《基于词典与统计结合的中文分词方法研究及全文检索系统设计》一文中研究指出随着信息时代的飞速发展,信息量越来越多,如何从众多的信息中找出自己想要的信息变得越来越重要,如荆楚资源库中的武当山资源库,资源总量达到几百G,各种类型的文档总数有几千个,从众多的文档中找出特定的信息变得比较困难,信息检索技术就是用来解决这个问题。全文检索作为信息检索的一种,正在扮演者越来越重要的角色,很多大型搜索引擎都采用了全文检索技术。中文分词是中文信息处理的第一步,无论是自然语言处理还是全文检索,都离不开中文信息的提取,而信息提取必然涉及到分词。中文由于字与字之间没有空格作为词分隔符且中文语义语境都比较复杂,导致中文分词一直是一个难点,针对中文分词人们提出了各种各样的方法来分词,如词典分词、统计分词、理解分词等。本文分析了全文检索技术的原理并讨论了开源的全文检索框架Lucene,接着针对全文检索必须要使用文本切分提取信息,讨论了中文分词相关原理及技术,针对目前广泛采用的词典分词和统计分词做了详细的讨论,比较了各种分词方法的优点以及缺点,提出了一种基于词典与统计相结合的分词方法。本文所做的工作如下:1.分析了全文检索和中文分词的研究背景和研究现状,并对目前比较常用的全文检索和中文分词技术做了分析和描述;2.分析了常用的分词技术并在比较各种方法的优劣的基础上提出了一种基于词典与统计相结合的分词方法,该方法利用词典分词切分整体效果良好和统计分词具有歧义识别的优点,采用词典分词做粗分和HMM模型做歧义判断,以达到提高分词精度的目的。3.利用Lucene框架结合自定义分析器,进行资源库全文检索系统的设计。(本文来源于《华中师范大学》期刊2017-05-01)

王仁强,康晶[8](2017)在《复杂适应系统语言观视角的当代英语过去分词词化研究——以《牛津高阶英语词典》(第8版)为例》一文中研究指出近年来,词化现象成为语言学研究中的一个热点和难点问题。然而,不少词化研究缺少基于大数据的实证调查,同时也缺乏深度的理论阐释。本文以复杂适应系统语言观为理论基础,基于《牛津高阶英语词典》(第8版),对当代英语过去分词词化现象进行研究,以期揭示现代英语词化现象的生成机制,优化现代英语词典的收词立目。(本文来源于《英语研究》期刊2017年01期)

李慧[9](2016)在《词典与统计相结合的傣文分词方法与实现》一文中研究指出随着计算机及互联网应用的普及,人们对语音合成技术提出了更广泛的应用需求。文本处理是语音合成系统的重要组成部分,与汉语文本类似,在傣语文本中,不存在自然分界符,因此,对于傣语语音合成系统而言,分词是文本处理的重要环节,分词的效果将直接影响到语言合成的自然度。分词技术归纳起来有叁种:基于理解的分词方法、基于词典的分词方法以及基于统计的分词方法。基于理解的方法是利用语法、语义以及语句信息等知识进行分词,比较难以实现。基于词典的分词方法有很高的分词效率,但是不能够识别未登录词。而采用基于统计的分词方法对未登录词有很好的识别,但分词的准确度却很低。因此,在对未登录词有较好识别的前提下,提高傣语分词的准确度,本文采用了基于词典与统计相结合的方法,并进行深入的研究。论文的主要工作包括:(1)详细介绍了FMM、MMSEG以及基于条件随机场(CRF)的分词原理。(2)获取语料库,从网络上下载语料,对这些语料进行整理。然后构建词典,对这些傣语文本进行分词,首先是基于正向最大匹配算法(FMM)的分词,指出了其不能消除歧义。为了弥补这个缺陷,我们使用了MMSEG的分词方法,为了能够消除歧义,MMSEG加入了四种歧义消除规则,然而MMSEG对于未登录词不能够识别,又提出了基于MMSEG+CRF的分词方法,这种分词方法对与一些专有名词、人名以及地名有了很好的识别。(3)对实验结果进行了分析,并对对叁种分词方法进行了评估,包括准确度和召回率。实验结果表明:使用MMSEG+CRF分词具有较高的准确率,其正确率达到了97.7%,召回率到达了95.6,F1值为96.6,是可以满足傣语分词要求的,并且合成出的语音是具有较好的自然度。(本文来源于《云南大学》期刊2016-05-01)

郑木刚,刘木林,沈昱明[10](2016)在《一种基于词典的中文分词改进算法》一文中研究指出深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。(本文来源于《软件导刊》期刊2016年03期)

词典分词论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

将一连串的字段根据一定的规律分成一个个独立的、可识别的字段就是中文分词过程。因为中文是由一个个汉字组成,没有便于切分汉字之间的分隔符,所以中文分词是自然语言处理的第一步,是不可避免的基本步骤,分词处理结果是否理想直接决定了最后的结果是否理想化。在知识更新迭代变化快的今天,对分词处理方法的灵活性和科学性有了更多、更高的要求。互联网的普及让大量的新词汇不断涌现,这些新词汇的产生不仅是互联网进步的一个反应,同时也对词典分词发起了新的挑战,如何高效迅速的处理这些包含新词汇的文本是文本词典的重点研究对象。目前的分词系统中主要使用词典分词或者机器学习分词完成分词任务。而词典分词虽然可控性好、分词速度快,但是其对未登录词无法正确切分。虽然机器学习模型CRF能够很好解决未登录词问题,但训练CRF需要人工设计很多特征,且需要花费很多时间来验证特征的有效性。基于深度学习的自然语言处理算法逐渐兴起之后,在序列标注任务上使得模型能够自动的抽取特征成为可能,大大减少了人工设计特征的工作量。虽然基于模型的分词能够很好的解决未登录词问题,但是其可控性没有词典分词好,对于一个未解决的新词模型,词典分词可以快速的人工添加新词到词典解决问题。而对于模型而言可能就需要添加很多相关的训练语料,这些训练语料往往是比较难获取或者获取成本很大的。本文为了提高中文自动分词效果,使用MMseg算法实现词典分词模块以及BI-LSTM+CRF作为模型分词模块,最终将两者进行融合进而达到既能够有词典分词的可控性,又能够通过模型分词解决词典分词的未登录词问题。本文的方法在SIGHAN的汉语处理评测的Bakeoff语料中进行测试。首先实现MMseg的词典分词模块,然后针对模型分词的算法先进行各种参数调优,最后融合两者的结果。实验表明在模型融合之后的结果中,准去率、召回率、F1(F1-Measure)值都有所提升,而且模型融合后能够很好解决模型的可控性和未登录词问题。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

词典分词论文参考文献

[1].尤众喜,华薇娜,潘雪莲.中文分词器对图书评论和情感词典匹配程度的影响[J].数据分析与知识发现.2019

[2].方婷婷.中文分词中词典分词和模型分词融合的实证研究[D].广西师范大学.2019

[3].李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊.2019

[4].蒋卫丽,陈振华,邵党国,马磊,相艳.基于领域词典的动态规划分词算法[J].南京理工大学学报.2019

[5].冯雪.中文分词模型词典融入方法比较[J].计算机应用研究.2019

[6].刘伍颖,王琳.越南语分词词典半监督集成构建算法[J].郑州大学学报(理学版).2018

[7].周世宇.基于词典与统计结合的中文分词方法研究及全文检索系统设计[D].华中师范大学.2017

[8].王仁强,康晶.复杂适应系统语言观视角的当代英语过去分词词化研究——以《牛津高阶英语词典》(第8版)为例[J].英语研究.2017

[9].李慧.词典与统计相结合的傣文分词方法与实现[D].云南大学.2016

[10].郑木刚,刘木林,沈昱明.一种基于词典的中文分词改进算法[J].软件导刊.2016

标签:;  ;  ;  

词典分词论文-尤众喜,华薇娜,潘雪莲
下载Doc文档

猜你喜欢