度频繁词序列论文-余琴琴,彭敦陆,刘丛

度频繁词序列论文-余琴琴,彭敦陆,刘丛

导读:本文包含了度频繁词序列论文开题报告文献综述及选题提纲参考文献,主要关键词:MapReduce,词序列,加权关联规则,频繁词集

度频繁词序列论文文献综述

余琴琴,彭敦陆,刘丛[1](2018)在《大规模词序列中基于频繁词集的特征短语抽取模型》一文中研究指出目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语.(本文来源于《小型微型计算机系统》期刊2018年05期)

马文超[2](2009)在《基于2度频繁词序列的文本聚类算法研究》一文中研究指出随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。文本挖掘成为人们发现资源和知识的重要工具,不需要预先定义类别信息的文本聚类成为文本挖掘一个新的研究热点。传统的聚类算法没有解决文本数据的高维度,聚类准确度低,没有为聚类结果提供一个合理的类描述等问题。基于频繁词集合的文本聚类算法采用频繁词进行聚类,解决了这些问题。基于频繁词集合的层次文本聚类算法提出了以簇为中心的思想,提供了一个便于浏览的主题层次结构,但是作为簇标签的频繁词集合有时不能很好的表示文本的语义信息。基于频繁词序列的文本聚类算法利用能够更好地反映文档的主题的频繁词序列进行聚类,提高了聚类的精确度,但是簇之间存在大量重迭。本文的主要工作如下:1.针对基于频繁词序列的文本聚类算法利用频繁词序列构建初始聚类后没有设法将文本指派到合适的簇中,造成了大量的簇间重迭。本文通过在文本中对簇标签进行2度频繁词序列的验证将文本指定到合适的簇,弥补了基于频繁词序列文本聚类算法的不足,提高了聚类的精确度。2.向量空间模型进行文本表示时忽略了特征词之间次序的语义信息。本文提出了2度频繁词序列的概念,用2度频繁词序列构建了一种新的文本表示模型,该模型保留了文档中的频繁词序列和序列中的词语,更好的表达了文本的语义。3.在改进算法理论的基础上,通过实验与基于频繁词序列的文本聚类算法进行比较。实验结果表明:改进的算法在一定程度上解决了基于频繁词序列的文本聚类算法初始聚类簇间重迭过大的问题,算法无论在传统聚类的评估标准上,还是在聚类的精确度方面都有了一定程度的提高。(本文来源于《河南大学》期刊2009-05-01)

马文超,张建国,胡冰[3](2009)在《基于频繁词序列的层次文本聚类算法研究》一文中研究指出提出一种基于频繁词序列的层次文本聚类算法,该算法考虑频繁词的次序关系和频繁词序列的文本频繁的重要性,构造了一种更合理的层次关系。实验证明,基于频繁词序列的层次文本聚类算法能够提高文本聚类的精确度。(本文来源于《计算机时代》期刊2009年04期)

度频繁词序列论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。文本挖掘成为人们发现资源和知识的重要工具,不需要预先定义类别信息的文本聚类成为文本挖掘一个新的研究热点。传统的聚类算法没有解决文本数据的高维度,聚类准确度低,没有为聚类结果提供一个合理的类描述等问题。基于频繁词集合的文本聚类算法采用频繁词进行聚类,解决了这些问题。基于频繁词集合的层次文本聚类算法提出了以簇为中心的思想,提供了一个便于浏览的主题层次结构,但是作为簇标签的频繁词集合有时不能很好的表示文本的语义信息。基于频繁词序列的文本聚类算法利用能够更好地反映文档的主题的频繁词序列进行聚类,提高了聚类的精确度,但是簇之间存在大量重迭。本文的主要工作如下:1.针对基于频繁词序列的文本聚类算法利用频繁词序列构建初始聚类后没有设法将文本指派到合适的簇中,造成了大量的簇间重迭。本文通过在文本中对簇标签进行2度频繁词序列的验证将文本指定到合适的簇,弥补了基于频繁词序列文本聚类算法的不足,提高了聚类的精确度。2.向量空间模型进行文本表示时忽略了特征词之间次序的语义信息。本文提出了2度频繁词序列的概念,用2度频繁词序列构建了一种新的文本表示模型,该模型保留了文档中的频繁词序列和序列中的词语,更好的表达了文本的语义。3.在改进算法理论的基础上,通过实验与基于频繁词序列的文本聚类算法进行比较。实验结果表明:改进的算法在一定程度上解决了基于频繁词序列的文本聚类算法初始聚类簇间重迭过大的问题,算法无论在传统聚类的评估标准上,还是在聚类的精确度方面都有了一定程度的提高。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

度频繁词序列论文参考文献

[1].余琴琴,彭敦陆,刘丛.大规模词序列中基于频繁词集的特征短语抽取模型[J].小型微型计算机系统.2018

[2].马文超.基于2度频繁词序列的文本聚类算法研究[D].河南大学.2009

[3].马文超,张建国,胡冰.基于频繁词序列的层次文本聚类算法研究[J].计算机时代.2009

标签:;  ;  ;  ;  

度频繁词序列论文-余琴琴,彭敦陆,刘丛
下载Doc文档

猜你喜欢