重复串论文-张海军,史树敏,丁溪源,黄河燕

重复串论文-张海军,史树敏,丁溪源,黄河燕

导读:本文包含了重复串论文开题报告文献综述及选题提纲参考文献,主要关键词:未登录词识别,重复串,条件随机域模型,中文分词

重复串论文文献综述

张海军,史树敏,丁溪源,黄河燕[1](2011)在《基于分词提取重复串的未登录词遗漏量化模型》一文中研究指出基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。(本文来源于《中文信息学报》期刊2011年02期)

殷波,蒋华[2](2009)在《一种基于重复串的STC改进算法》一文中研究指出目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。(本文来源于《微计算机信息》期刊2009年27期)

黄旭,朱艳琴,罗喜召[3](2007)在《重复串特征提取算法在不良信息检测中的应用》一文中研究指出根据同一类文档的主题相关性,利用文档实例集中频繁出现的一组重复子串作为该类文档的特征描述,设计了基于重复串的特征提取算法。该算法避免了分词处理。实验表明,能够降低特征维数, 有效提高不良信息检测的效率。(本文来源于《第叁届全国信息检索与内容安全学术会议论文集》期刊2007-11-01)

胡吉祥,许洪波,刘悦,程学旗[4](2007)在《重复串特征提取算法及其在文本聚类中的应用》一文中研究指出针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特征,且对于中文无需分词。实验表明,该方法可以降低特征空间维度,同时能有效改善传统以词为特征的聚类算法的性能。(本文来源于《计算机工程》期刊2007年02期)

胡吉祥,许洪波,刘悦,王斌,程学旗[5](2005)在《基于重复串的短文本聚类研究》一文中研究指出随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突出。对于此类信息的组织和分析挖掘在话题检测与跟踪,在线社区发现以及信息安全等方面有着十分重要的意义。文本聚类分析是组织文本的一种有效方法,在传统研究中被广泛应用于未知话题的自动发现并取得了不错的效果。本文分析了短文本这种特定语料的内在特性,提出一种新的基于重复串的特征提取算法,并将其应用于短文本的聚类。实验结果证明了该方法可行并且比传统方法更有效。(本文来源于《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》期刊2005-08-01)

重复串论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

重复串论文参考文献

[1].张海军,史树敏,丁溪源,黄河燕.基于分词提取重复串的未登录词遗漏量化模型[J].中文信息学报.2011

[2].殷波,蒋华.一种基于重复串的STC改进算法[J].微计算机信息.2009

[3].黄旭,朱艳琴,罗喜召.重复串特征提取算法在不良信息检测中的应用[C].第叁届全国信息检索与内容安全学术会议论文集.2007

[4].胡吉祥,许洪波,刘悦,程学旗.重复串特征提取算法及其在文本聚类中的应用[J].计算机工程.2007

[5].胡吉祥,许洪波,刘悦,王斌,程学旗.基于重复串的短文本聚类研究[C].全国第八届计算语言学联合学术会议(JSCL-2005)论文集.2005

标签:;  ;  ;  ;  

重复串论文-张海军,史树敏,丁溪源,黄河燕
下载Doc文档

猜你喜欢