导读:本文包含了串频统计论文开题报告文献综述及选题提纲参考文献,主要关键词:专有名词识别,串频统计,Nagao算法,SSR算法
串频统计论文文献综述
柯修,王惠临,于薇[1](2011)在《基于串频统计的汉语和孟加拉语专有名词识别》一文中研究指出基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的的n元串,使用改进的SSR算法过滤多余子串,利用字串的相邻字信息计算所有n元串成为专有名词的概率,并据此筛选专有名词。最后,实现基于串频统计的跨语言专有名词识别系统。实验表明,系统能够从输入的生语料中有效地识别出人名、地名、团体机构名等。(本文来源于《现代图书情报技术》期刊2011年12期)
于娟,党延忠[2](2010)在《结合词性分析与串频统计的词语提取方法》一文中研究指出在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高.优良的自动提词结果能够保证文本自动处理的性能,进而促进相关领域的自动化程度与性能的提高.(本文来源于《系统工程理论与实践》期刊2010年01期)
沈静[3](2008)在《基于串频统计和词形匹配的分词系统》一文中研究指出中文分词是中文文本挖掘的重要环节。中文分词的方法主要有基于辞典与规则和基于统计两种,"基于串频统计和词形匹配的分词系统"在一定程度上结合了中文分词两种方法的优点于一体,它充分利用文本本身的信息建立临时辞典,再配合一定的常用辞典,用词形匹配的方法达到分词的目的。(本文来源于《中国高新技术企业》期刊2008年13期)
潘大志,成琥,黄青松[4](2008)在《基于规则、串频统计和上下文关系的现代汉语分词系统的实现》一文中研究指出介绍了一种集合了规则、串频统计和中文上下文关系分析的现代汉语分词系统.系统对原文进行叁次扫描,首先将原文读入内存,利用规则将原文变成若干个串,构成语段十字链表;然后对每个串中的子串在上下文中重复出现的次数进行统计,把根据统计结果分析出的最有可能是词的子串作为临时词;最后利用中文语法的上下文关系并结合词典对原文进行分词处理.系统对未登录词的分词有很好的效果.(本文来源于《内蒙古师范大学学报(自然科学汉文版)》期刊2008年01期)
李素建,李芸,纪鹭宁,徐睿峰[5](2005)在《词典匹配和串频统计相结合在自动主题分析中的应用》一文中研究指出当前主题分析主要采用基于词表的自动抽词技术,这种方法的局限性在于无法处理知识库中未登录的关键词。因此本文提出了在专家知识库的词典匹配基础上,结合词的串频统计技术,进行自动主题分析,获取文档的关键词候选项。实验证明,该方法可以获得94%以上的召回率,并且获取结果中合理串的比例达到96%,从而保证了自动标引的进一步处理。(本文来源于《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》期刊2005-08-01)
刘挺,吴岩,王开铸[6](1998)在《串频统计和词形匹配相结合的汉语自动分词系统》一文中研究指出本文介绍了一种汉语自动分词软件系统,该系统对原文进行叁遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第叁遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词,特别适用于文献检索等领域(本文来源于《中文信息学报》期刊1998年01期)
串频统计论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高.优良的自动提词结果能够保证文本自动处理的性能,进而促进相关领域的自动化程度与性能的提高.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
串频统计论文参考文献
[1].柯修,王惠临,于薇.基于串频统计的汉语和孟加拉语专有名词识别[J].现代图书情报技术.2011
[2].于娟,党延忠.结合词性分析与串频统计的词语提取方法[J].系统工程理论与实践.2010
[3].沈静.基于串频统计和词形匹配的分词系统[J].中国高新技术企业.2008
[4].潘大志,成琥,黄青松.基于规则、串频统计和上下文关系的现代汉语分词系统的实现[J].内蒙古师范大学学报(自然科学汉文版).2008
[5].李素建,李芸,纪鹭宁,徐睿峰.词典匹配和串频统计相结合在自动主题分析中的应用[C].全国第八届计算语言学联合学术会议(JSCL-2005)论文集.2005
[6].刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报.1998