导读:本文包含了无词典分词论文开题报告文献综述及选题提纲参考文献,主要关键词:自动分词,无词典分词,后缀数组
无词典分词论文文献综述
刘京城,刘锋[1](2011)在《一种改进的基于后缀数组的无词典分词方法》一文中研究指出文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集。文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数。试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集。适用于对词条频度敏感,对计算速度要求较高的中文信息处理。(本文来源于《计算机技术与发展》期刊2011年11期)
高晓梅,杨旭[2](2009)在《基于自然语言网络教学答疑中无词典分词算法的研究》一文中研究指出提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度.(本文来源于《西安工程大学学报》期刊2009年03期)
王军辉[3](2009)在《基于无词典分词的中文生物医学文献相关性数据库构建方法研究》一文中研究指出作为提升生物医学文献检索系统智能化水平的一种重要手段,基于生物医学文献相关性数据库的相关文献检索对于满足医疗卫生领域临床、教学和科研人员的知识需求有重要意义。中国医学科学院医学信息研究所近年来对中文生物医学文献相关性数据库的构建方法进行了大量的研究,但中文自动分词方法和文献相关性判定的时间复杂度两大问题,仍有待深入探讨。本研究针对中文自动分词问题,尝试引入一种基于重现原理的无词典分词方法,通过对分词结果的分析,初步证实了该分词方法在中文生物医学文献相关性数据库构建过程中应用的可行性;针对文献相关性判定时间复杂度问题,尝试提出“倒排-SIM法”,较明显提高了文献相关性判定的速度,为中文生物医学文献相关性数据库的应用实践做了技术上的铺垫。最后,通过相关准率、MAP和P@10叁个指标的综合评判,表明本研究中基于无词典分词构建的文献相关性数据库在相关文献揭示的整体效果上,达到了和原来基于词典分词构建的中国生物医学工程文献相关性数据库相同的水平,证实了基于无词典分词构建中文生物医学文献相关性数据库的可行性。(本文来源于《中国协和医科大学》期刊2009-06-05)
王军辉,胡铁军,李丹亚[4](2009)在《基于重现的无词典分词方法在中文生物医学文本挖掘中的应用》一文中研究指出在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据库、发现医学新名词、预测新兴研究趋势和基于文献的知识发现中的应用设想。(本文来源于《医学信息学杂志》期刊2009年02期)
张玉连,张敏,张波[5](2005)在《一种无词典分词方法的分析与研究》一文中研究指出1引言自动分词一直是中文信息处理技术研究的一个热点和难点,从1980年以来,国内研究学者们就对文档的自动分词开展了大量研究,提出了许多自动分词方法。对语料库中相邻的字的组合频度进行统计,根据一定的频度计算公式来决定字符串成(本文来源于《第二十二届中国数据库学术会议论文集(技术报告篇)》期刊2005-08-19)
张长利,赫枫龄,左万利[6](2004)在《一种基于后缀数组的无词典分词方法》一文中研究指出提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.(本文来源于《吉林大学学报(理学版)》期刊2004年04期)
傅赛香,袁鼎荣,黄柏雄,钟智[7](2002)在《基于统计的无词典分词方法》一文中研究指出通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 ,无词典分词模型能够满足快速分词的要求(本文来源于《广西科学院学报》期刊2002年04期)
胥桂仙,苏筱蔚,陈淑艳[8](2002)在《中文文本挖掘中的无词典分词的算法及其应用》一文中研究指出对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。(本文来源于《吉林工学院学报(自然科学版)》期刊2002年01期)
韩客松,王永成,陈桂林[9](1999)在《汉语语言的无词典分词模型系统》一文中研究指出本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。(本文来源于《计算机应用研究》期刊1999年10期)
无词典分词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
无词典分词论文参考文献
[1].刘京城,刘锋.一种改进的基于后缀数组的无词典分词方法[J].计算机技术与发展.2011
[2].高晓梅,杨旭.基于自然语言网络教学答疑中无词典分词算法的研究[J].西安工程大学学报.2009
[3].王军辉.基于无词典分词的中文生物医学文献相关性数据库构建方法研究[D].中国协和医科大学.2009
[4].王军辉,胡铁军,李丹亚.基于重现的无词典分词方法在中文生物医学文本挖掘中的应用[J].医学信息学杂志.2009
[5].张玉连,张敏,张波.一种无词典分词方法的分析与研究[C].第二十二届中国数据库学术会议论文集(技术报告篇).2005
[6].张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报(理学版).2004
[7].傅赛香,袁鼎荣,黄柏雄,钟智.基于统计的无词典分词方法[J].广西科学院学报.2002
[8].胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘中的无词典分词的算法及其应用[J].吉林工学院学报(自然科学版).2002
[9].韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究.1999