分词器论文-尤众喜,华薇娜,潘雪莲

分词器论文-尤众喜,华薇娜,潘雪莲

导读:本文包含了分词器论文开题报告文献综述及选题提纲参考文献,主要关键词:中文分词器,情感极性词典,情感分析

分词器论文文献综述

尤众喜,华薇娜,潘雪莲[1](2019)在《中文分词器对图书评论和情感词典匹配程度的影响》一文中研究指出【目的】比较由不同中文分词器带来的语料和情感极性词典匹配程度的差异。【方法】采用6款分词器对自主构建的图书评论语料库进行分词,结合常见情感词典编写程序对输入的语料进行处理,统计语料对情感词典、否定词表和程度词表的覆盖率与匹配次数,计算低频词的比率和中性语料的比率。【结果】针对不同的情感词典,分词器在语料–词典匹配度、词典低频词比例以及中性语料占比方面表现出不同程度的差异。【局限】实验语料不足,没有基于词典和规则进行句子级的测试。【结论】本研究将有助于从事涉及到基础情感词典的各种研究在选择中文分词器时减少随意性。(本文来源于《数据分析与知识发现》期刊2019年07期)

刘岩[2](2016)在《基于MMSEG算法的中文分词器的设计与实现》一文中研究指出随着互联网的不断发展和繁荣,信息也开始呈现爆炸式的发展,整个互联网的信息量体量越来越庞大,这么大数据量对互联网公司来说都是极大的挑战,不论是信息的存储还是信息的查询。对于搜索引擎来说,其核心技术就是分词器。对于中文搜索来说其核心技术就是中文分词器。中文分词与英文分词有很大的区别,这样在中文本身的特点。如果有效进行中文分词,提高分词正确率是亟待解决的重要问题。本文正是在这样的背景下提出了中文分词算法的研究,并给予算法进行中文分词器的实现。本文主要对MMSEG算法进行深入的研究,特别是它的复杂分词模式和歧义处理规则的分析。在此基础上结合Lucene搜索框架实现了中文分词器MMSEG Analyzer。本文主要的工作内容如下:首先对Lucene搜索框架进行了深入的分析,这里包括Lucene的体系结构和索引技术,通过对Lucene的深入分析,为中文分词器MMSEGAnalyzer的设计提供了方法论。对当前的中文分词算法进行了深入的分析,尤其对中文分词当前的主要难题歧义分词进行归类和分析。然后对MMSEG中文分词算法进行了详细的分析,这里主要从词典的实现方案、分词算法以及歧义消除规则。词典的实现方案目前主要有基于整词二分的词典构造、基于逐字二分的词典构造以及基于TRIE索引树的词典构造等。MMSEG算法目前的分词算法主要分为简单最大匹配算法和复杂最大匹配算法。最后对MMSEGAnalyzer中文分词器进行了详细的设计和实现。MMSEGAnalyzer中文分词器的实现也可分为四大块:词典管理模块、分词模块、分词歧义处理模块、Lucene接口管理模块。词典管理模块主要负责词典的存储、加载和解析,本文主要从词典加载、词典解析以及词典自动加载等叁个方面展开了实现。分词歧义处理模块根据MMSEG算法的四大歧义处理规则实现的,这些过滤规则在复杂最大匹配分词模块中使用。Lucene接口管理模块主要提供了MMSEGAnalyzer中文分词器对Lucene的分词器的接入,实现了对Lucene的集成。本文基于MMSEG分词算法实现了MMSEGAnalyzer中文分词器。MMSEGAnalyzer中文分词器通过Lucene可以很好的实现中文分词应用场景,很大提高了中文分词的准确率。(本文来源于《湖南大学》期刊2016-04-15)

马军,杨维明,周民[3](2015)在《采用Lucene.Net与盘古分词器的网上书城站内搜索方法》一文中研究指出该文针对网上书城对信息实时性与准确性高的要求,提出了使用lucene与盘古分词器相结合的站内搜索系统解决方案。通过分析lucene内置分词器与盘古分词器的性能差异,选择了针对中文开发的盘古分词器,提高了搜索的准确性;通过采用"生产者与消费者"多线程模式与"单例"设计模式相结合的方法,实现了数据的实时更新。实验结果证明了设计方案的有效性。(本文来源于《电脑知识与技术》期刊2015年20期)

罗惠峰,郭淑琴[4](2015)在《基于Lucene的中文分词器的改进与实现》一文中研究指出Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终构建出了一个高效的中文全文检索系统。(本文来源于《微型机与应用》期刊2015年11期)

姚中原[5](2014)在《基于双分词器的医疗类网站站内搜索研究与实现》一文中研究指出站内搜索引擎技术是搜索引擎技术的一个重要分支,专门适用于医疗信息类网站的站内搜索引擎可以帮助医生和患者更加快捷方便的查找和定位信息,同时,针对适用于医疗信息类网站站内搜索性能指标需要更高于通用搜索引擎的特点,本文研究设计并实现一个适用于医疗信息类网站的基于双分词器的站内搜索系统具有一定的研究价值和实用价值。本文开篇介绍了研究的背景和意义,并随后介绍了站内搜索的相关知识及一般构建站内搜索引擎的几种方式。通过对比分析,选择使用通用搜索引擎技术来解决适用于医疗信息类网站的站内搜索问题。紧接着,进一步介绍了通用搜索引擎及通用搜索中的关键技术。然后,介绍了几种用户搭建通用搜索引擎的两种方式,并通过对比分析,选择了使用开源全文搜索引擎框架Nutch来二次开发实现适用于医疗信息类网站站内搜索引擎。基于以上的研究和分析,本文主要做了以下两分面的工作:首先,本文根据医疗服务类网站站内最重要信息基本与医生和疾病及症状相关的特点,以及用户访问此类网站查询信息时输入查询条件基本是医生与疾病症状关键字的结合的查询习惯,在对开源搜索引擎框架Nutch进行了定制和二次开发的基础上,针对通用站内搜索无法正确处理错别字查询条件、拼音查询条件以及在通用站内搜索中排序合理性较差等问题,提出了一种基于双分词器的医疗类网站站内搜索模型。该模型将Nutch默认中文分词器替换为基于字典库的庖丁分词器(Paoding-Tokenizer)并扩展其字典库,同时嵌入另一个拥有特殊字典的自己编写的分词器,并且利用这个特殊分词器来处理几乎全部的用户输入,切分出输入中的医生姓名和疾病及症状名称关键字,并忽略其他的无关信息,仅将这些关键字提交给索引器去检索索引库。其次,本文对基于双分词的站内搜索模型和单分词器的传统站内搜索模型进行了详细的对比实验,实验内容不仅包括常规的查询时间、查准率、排序合理性参数等搜索引擎性能指标,还详细分析了不同类别关键词组成的长查询语句在两种站内搜索引擎模型下的性能表现,从而得出基于双分词器的站内搜索模型在长查询语句条件下相比传统单分词器搜索模型在搜索引擎性能指标上表现的更有优势。除此之外,对基于双分词的站内搜索模型是否可以正确理解拼音查询和由拼音引起的错别字查询进行了实验分析,实验表明该站内搜索系统是可以对上述两类查询进行正确的处理的。(本文来源于《郑州大学》期刊2014-04-01)

王韵婷[6](2014)在《基于Lucene的中文分词器设计与实现》一文中研究指出随着数字信息时代的到来,搜索引擎的索引数据变得越来越大,其开发与维护的成本亦越来越高。开源的全文搜索引擎工具包Lucene作为一个优秀的全文检索核心框架,得到了越来越广泛的应用。但是,Lucene对中文信息处理能力的不足严重制约了它在中文搜索引擎项目中的有效应用。鉴于此,本文设计并实现了一个基于Lucene的具有添加同义词功能中文分词器MySameAnalyzer,用来提高Lucene对中文信息的处理能力。首先,在分析对比了现有中文分词算法的基础上,本文得出了对搜索引擎而言,目前中文分词最好的解决方案就是基于词典的机械分词法的结论,因此,本文提出并设计了一种优化的基于Trie索引树的分词词典机制—Map-Array联合Trie索引树词典机制,简称MACTIT词典机制。通过实验证明,该词典机制与传统的Trie索引树词典机制相比,其时间开销和空间开销都得到了极大的优化,从而有效地提高了分词算法的分词速度,节约了分词词典的存储空间。其次,鉴于Lucene搜索时采用的是倒排索引的索引结构,其搜索的速度优势在于“全词匹配”而非“like匹配”,因此,对于过于粗粒度的分词输出,尽管其分词结果好看,却常常会导致用户搜不到东西。针对上述问题,本文采用了特有的“正向迭代最细粒度”分词算法,对待分析的文本进行最细粒度的切分,以保证分词搜索过程中检索系统的召回率。再次,在分词过程中,歧义字段是普遍存在的,其中最常见的就是交集型歧义字段,因此,对搜索过程中常遇到的交集型歧义字段的处理,本文充分利用TreeSet数据结构的自定义排序功能,将分词过程中所产生的相交词块存放到TreeSet中,再根据六条歧义消除规则,贪心地选择其中不相交的、近似最优的一组分词结果来进行输出,该分词歧义消除方法并没有遍历TreeSet中所有可能的分词结果,以此来达到节省分词时间的目的。通过实验证明,本文所设计的分词算法和现有的实现了 Lucene接口的几款中文分词器的分词算法相比,其分词速度和分词精度的综合性能是最好的。最后,本文所设计并实现的MySameAnalyzer分词器,充分考虑了用户在实际的搜索行为中对各种产品以及名址信息搜索这一块的应用,因此,对MySameAnalyzer设计了叁个子分词器,强化了中文分词中对英文、数字、英文数字混合以及中文数词量词的处理。同时,该分词器支持用户扩展词典、扩展停止词典的加载与更新,并支持用户添加自定义同义词的功能。通过实验测试表明,本文对MySameAnalyzer分词器所设计的这些扩展功能在实际的应用中均取得了良好的分词效果,为Lucene提供了灵活且可靠的中文处理支持,并有效地改善了 Lucene中文全文检索系统的查全率和查准率。(本文来源于《哈尔滨工程大学》期刊2014-03-01)

王桐,王韵婷[7](2014)在《基于Lucene的自定义中文分词器的设计与实现》一文中研究指出该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。(本文来源于《电脑知识与技术》期刊2014年02期)

黄翼彪[8](2013)在《开源中文分词器的比较研究》一文中研究指出中文分词是中文信息处理的基础,随着人们对中文分词技术的不断深入研究,越来越多的中文分词器诞生了,开源为大家的学习和交流带了很多便利,然而问题也随之而来了,当我们有具体的应用需求时,面对这么多免费的开源分词器,究竟该如何选择呢?正是为了解决这个问题,本文从26个开源中文分词器中筛选了8个比较有代表性的作为研究对象,并针对不同的性能指标设计测试方案,进行比较测试,最终根据测试结果对选定的分词器进行比较评价。分词准确率、分词速度、未登录词的识别和资源开销等都是衡量一个分词器优劣的评测标准。为了对这些标准进行测试,论文设计了5个测试。它们分别是分词效果测试、分词准确率测试、人名识别和地名识别测试、分词速度测试和资源开销测试。最后,通过对试验结果的对比分析,对选定的研究对象进行评价,为人们的应用选择提供参考。(本文来源于《郑州大学》期刊2013-05-01)

刘晓婉,胡燕祝,艾新波[9](2013)在《开源中文分词器在web搜索引擎中的应用》一文中研究指出目前,在信息检索方面,一般分词器对英文的支持相对较好,但对中文分词效果不太理想;随着web搜索在互联网中的广泛应用,中文分词器也出现了突飞猛进的发展,尤其以IKAnalyzer分词器为主的分词工具,为更多企事业单位所采纳。本文主要在词条化等方面对分词原理进行深入的分析,并且对如何构造智能分词词典进行了探讨。同时,对分词内部结构进行研究,在分词数目和速率方面对目前主流的中文分词器进行了比较,并运用htmlparser库对北京邮电大学的网站进行解析,采用分词工具Paoding Analysis建立索引文件存入本地,利用solt4.0全文搜索服务器给出运用中文分词后的查询效果图,实现对北京邮电大学网站的全文搜索功能。(本文来源于《软件》期刊2013年03期)

陶荣[10](2013)在《中文分词技术及JE中文分词器在Nutch中的运用与实现》一文中研究指出阐述中文分词技术,分析对比Lucene自带的分析器,针对JE中文分词器进行研究,并将JE中文分词器在Nutch中加以运用并改进,实现Nutch的中文分词。(本文来源于《广西教育》期刊2013年07期)

分词器论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网的不断发展和繁荣,信息也开始呈现爆炸式的发展,整个互联网的信息量体量越来越庞大,这么大数据量对互联网公司来说都是极大的挑战,不论是信息的存储还是信息的查询。对于搜索引擎来说,其核心技术就是分词器。对于中文搜索来说其核心技术就是中文分词器。中文分词与英文分词有很大的区别,这样在中文本身的特点。如果有效进行中文分词,提高分词正确率是亟待解决的重要问题。本文正是在这样的背景下提出了中文分词算法的研究,并给予算法进行中文分词器的实现。本文主要对MMSEG算法进行深入的研究,特别是它的复杂分词模式和歧义处理规则的分析。在此基础上结合Lucene搜索框架实现了中文分词器MMSEG Analyzer。本文主要的工作内容如下:首先对Lucene搜索框架进行了深入的分析,这里包括Lucene的体系结构和索引技术,通过对Lucene的深入分析,为中文分词器MMSEGAnalyzer的设计提供了方法论。对当前的中文分词算法进行了深入的分析,尤其对中文分词当前的主要难题歧义分词进行归类和分析。然后对MMSEG中文分词算法进行了详细的分析,这里主要从词典的实现方案、分词算法以及歧义消除规则。词典的实现方案目前主要有基于整词二分的词典构造、基于逐字二分的词典构造以及基于TRIE索引树的词典构造等。MMSEG算法目前的分词算法主要分为简单最大匹配算法和复杂最大匹配算法。最后对MMSEGAnalyzer中文分词器进行了详细的设计和实现。MMSEGAnalyzer中文分词器的实现也可分为四大块:词典管理模块、分词模块、分词歧义处理模块、Lucene接口管理模块。词典管理模块主要负责词典的存储、加载和解析,本文主要从词典加载、词典解析以及词典自动加载等叁个方面展开了实现。分词歧义处理模块根据MMSEG算法的四大歧义处理规则实现的,这些过滤规则在复杂最大匹配分词模块中使用。Lucene接口管理模块主要提供了MMSEGAnalyzer中文分词器对Lucene的分词器的接入,实现了对Lucene的集成。本文基于MMSEG分词算法实现了MMSEGAnalyzer中文分词器。MMSEGAnalyzer中文分词器通过Lucene可以很好的实现中文分词应用场景,很大提高了中文分词的准确率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分词器论文参考文献

[1].尤众喜,华薇娜,潘雪莲.中文分词器对图书评论和情感词典匹配程度的影响[J].数据分析与知识发现.2019

[2].刘岩.基于MMSEG算法的中文分词器的设计与实现[D].湖南大学.2016

[3].马军,杨维明,周民.采用Lucene.Net与盘古分词器的网上书城站内搜索方法[J].电脑知识与技术.2015

[4].罗惠峰,郭淑琴.基于Lucene的中文分词器的改进与实现[J].微型机与应用.2015

[5].姚中原.基于双分词器的医疗类网站站内搜索研究与实现[D].郑州大学.2014

[6].王韵婷.基于Lucene的中文分词器设计与实现[D].哈尔滨工程大学.2014

[7].王桐,王韵婷.基于Lucene的自定义中文分词器的设计与实现[J].电脑知识与技术.2014

[8].黄翼彪.开源中文分词器的比较研究[D].郑州大学.2013

[9].刘晓婉,胡燕祝,艾新波.开源中文分词器在web搜索引擎中的应用[J].软件.2013

[10].陶荣.中文分词技术及JE中文分词器在Nutch中的运用与实现[J].广西教育.2013

标签:;  ;  ;  

分词器论文-尤众喜,华薇娜,潘雪莲
下载Doc文档

猜你喜欢