导读:本文包含了中文文本聚类论文开题报告文献综述及选题提纲参考文献,主要关键词:文本聚类,特征词典,BIRCH,特征提取
中文文本聚类论文文献综述
杨秀璋,夏换,于小民,武帅,赵紫如[1](2019)在《基于特征词典构建和BIRCH算法的中文百科文本聚类研究》一文中研究指出针对传统文本聚类存在数据维度过高,无法深层次理解语义等问题,提出一种基于特征词典构建和BIRCH算法的文本聚类方法。该方法通过LDA主题模型和语义特征构建特征词典,利用BIRCH算法进行文本聚类,并对维基百科、百度百科和互动百科中的景点、动物、人物和国家四个主题的网页文档进行实验分析。实验结果表明,特征词典结合了主题关键词和语义相似度,其准确率、召回率和F特征值较传统方法有所提高,该方法可以广泛应用于文本挖掘、知识图谱和自然语言处理等领域。(本文来源于《计算机时代》期刊2019年11期)
齐向明,孙煦骄[2](2019)在《基于语义簇的中文文本聚类算法》一文中研究指出针对中文文本聚类受语义、语法、语境等因素的影响,在使用传统向量空间模型向量化表征后,文本向量之间相互独立,语义关系被忽略,影响聚类分析结果的问题,提出一种基于语义簇的中文文本聚类算法.该算法根据词共现的原理和语义相关性,首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重,利用特征词的搭配向量构建语义簇;然后使用特征词及其搭配词的权重,将特征词向语义簇中心进行空间变换,求得嵌入语义信息的文档向量;最后利用文档向量进行K-means聚类分析.实验结果表明,该向量化表示方法,能有效提高文本向量对文本语义的逼近能力,同时可提高文本聚类结果的准确率和召回率.(本文来源于《吉林大学学报(理学版)》期刊2019年05期)
沈美英[3](2018)在《基于免疫网络学习机制的中文网络短文本聚类算法》一文中研究指出近些年来,越来越多人习惯用网络上的文本来写作或者记录一些比较重要的事情。如果网络安全工作没做好,将会给个人带来一些不必要的损失。为了避免这种情况的出现,可以用网络短文本聚类来保护网络文本内容的安全。但网络文本聚类在使用过程中也有自身的缺点,例如网络文本的关键词不够准确、存在大量的变形词等,本文主要就是针对这种情况提出基于免免疫网络学习的文本聚类算法,首先选择合适的拼音序列组成网络文本来表示,然后将选择的文本构建一个学习机制,从中找到网络文本聚类之间的联系,致力于获得一个合理的结果。(本文来源于《自动化与仪器仪表》期刊2018年10期)
戴月明,王明慧,张明,王艳[4](2018)在《SVD优化初始簇中心的K-means中文文本聚类算法》一文中研究指出为了改善传统K-means算法在聚类过程中,聚类数目K难以准确预设,聚类结果受初始中心影响,对噪声点敏感,不稳定等缺点,同时针对文本聚类中文本向量化后数据维数较高,空间分布稀疏,存在潜在语义结构等问题,提出了一种利用奇异值分解(Singular Value Decomposition, SVD)的物理意义进行粗糙分类,再结合K-means算法的中文文本聚类优化算法(SVD-Kmeans)。新算法利用SVD分解的数学意义对文本数据进行了平滑处理,同时利用SVD分解的物理意义对文本数据进行粗糙分类,将分类的结果作为K-means算法的初始聚类中心点。实验结果表明,相比其他K-means及其改进算法,SVD-Kmeans算法的聚类质量F-Measure值有明显提升。(本文来源于《系统仿真学报》期刊2018年10期)
季圣洁,葛万成[5](2018)在《DMK算法在中文文本聚类中的应用》一文中研究指出对中文文本聚类进行了研究,将所改进的DMK算法应用于实际的中文文本聚类中。将百度百科数据集中的不同类型词条内容经过文本处理(分词、去停用词、特征选取、降维)后分别使用原始K-means聚类算法和DMK(Density-based and Max-min-distance K-means)算法进行聚类,并选择F-measure值及RI值(Rand Index)等指标对聚类结果进行分析。结果表明,针对实验中使用的百度百科中文数据集,DMK算法的F-measure值较原始算法平均提高0.342%,RI值较原始算法平均提高9.34%,验证了所设计的DMK算法对实际中文文本聚类的实质性优化。(本文来源于《信息通信》期刊2018年07期)
尹积栋,谢茶花,彭崧,刘红,曾昭虎[6](2018)在《基于句法结构分析的中文文本聚类方法研究》一文中研究指出现有的K-means聚类算法大多语料载体都是数字,难以应用到中文文本聚类分析中。论文提出了一种新的基于句法结构分析的文本聚类方法,该方法能够准确地对中文文本进行语义相似度计算和聚类分析。该方法融合了改进K-means算法的优点,增加了句法结构分析方法对文本集的处理,降低了文本集的复杂度,提高了文本间语义相似度计算的准确度。试验表明,该算法的聚类查准率达到0.96,优于文中提到的其他几种聚类方法。(本文来源于《计算机与数字工程》期刊2018年05期)
夏儒斐[7](2018)在《基于频繁项集关联的海量中文文本聚类系统及其在Spark平台的实现》一文中研究指出文本聚类作为重要的文本挖掘技术为海量网络文本分析提供了行之有效的方法。面对高数据量级的文本聚类,传统的文本聚类方法对聚类个数的确定和类簇边界的划分没有明确的标准,同时文本聚类算法大多涉及到大量迭代计算产生海量中间数据,对时间空间软硬件要求都极高。结合文本数据高频共现词项间语义关联优化初始聚类中心,可有效减少聚类过程中的迭代次数,同时降低产生局部最优解的可能性,使文本聚类算法具有更强的稳定性。基于内存计算的Spark能够更好的适用于需要海量数据运算的聚类算法中,可极大的提升计算速度。本文在文本信息挖掘的基础上,研究基于频繁项集关联的文本聚类算法以及其在Spark平台的并行实现方案。本文主要工作包括以下几个方面:本文提出了基于频繁项集关联的中文文本聚类算法。该算法通过关联规则挖掘频繁项集,自定义频繁项集过滤规则滤出共现程度高的文本表征词集准频繁项集。本文基于频繁项集间语义距离进行粗归簇获得语义相似度尽可能高的簇,自定义的簇心选取规则促使不同簇间尽可能远。通过这种预聚类方式优化初始质心的选取,有效降低后续聚类过程的迭代次数,优化文本聚类算法效率。针对基于频繁项集关联的中文文本聚类算法设计了海量中文文本聚类系统模型。详述了系统流程和各个功能模块组成。解释说明了各模块并行化设计思路,完成了整个系统从文本预处理、预聚类、文本表示和后续聚类分析全过程在Spark平台的并行编码实现。同时实现了Spark平台下基于K-means思想的中文文本聚类系统,用以进行性能比较验证。基于海量中文文本聚类系统设计,搭建了Spark分布式集群测试平台。详述了集群搭建过程、测试数据集设计和实验评价指标。测试了系统的聚类效果、聚类效率和并行性能,并在相同数据集相同测试环境下和基于K-means思想的海量中文文本聚类系统性能进行了分析比较,采用图表的方式直观展示了分析结果。(本文来源于《华南理工大学》期刊2018-04-12)
杨开平[8](2018)在《基于语义相似度的中文文本聚类算法研究》一文中研究指出随着我国互联网的迅速发展,网络上涌现出大量的中文文本信息。面对海量的中文文本信息,如何快速的找到需要的信息是一个迫切的问题。文本聚类方法作为一种聚类方式,可以帮助我们从海量文本数据中找出数据规律。本文对中文文本聚类中存在的一些问题展开了研究。首先,研究了中文文本的语义相似度描述不够全面的问题。传统的编辑距离相似度和余弦相似度忽略了中文文本中含有大量的同义词和近义词。本文基于词语相似度和文本长度,构造了文本间相似度计算算法,克服了传统的相似度算法语义考虑的不全使文本的相似度准确性不够的问题,更准确的描述了同义词和近义词的句子语义的相似性。该算法中的词语间相似度计算是基于word2vec算法对中文文本语料进行训练得到语料中词语的词向量,进而根据词向量计算得出词语间的相似度值。实验证明,改进的文本相似度计算算法相比于余弦相似度和编辑距离相似度都有很好的提高。其次,改进了K-means聚类算法,克服聚类个数的确定存在的主观性和初始聚类中心的选择存在的随机性问题。K-means聚类算法在中文文本聚类算法中使用广泛,目前聚类结果的精确度较低和稳定性差。本文采用最大间距法选取初始聚类中心和动态的调整聚类的类别个数的方法对K-means算法进行了改进,克服K-means算法的这两个缺点,提高了算法的稳定性和实用性。实验显示,改进后的K-means算法的能够较好地识别聚类类别数。与传统的LSI、LDA等相比,在聚类的准确度方面也有提高。(本文来源于《电子科技大学》期刊2018-03-26)
张琳,牟向伟[9](2018)在《基于Canopy+K-means的中文文本聚类算法》一文中研究指出随着互联网的发展,网络电子文本的数量急剧增加,给人们快速高效地从海量数据中挖掘出所需要的信息带来了巨大挑战。文本聚类是解决这个问题的一种可行方法。文章在文本聚类的过程中,针对K-means算法在聚类时需要事先指定簇的个数k和k个初始中心点这两方面的不足,采用Canopy+K-means的聚类算法进行中文文本聚类。为了提高K-means的聚类效果,先使用Canopy算法对数据进行"粗"聚类,在得到k值和聚类中心后,再使用K-means算法进行"细"聚类。在聚类过程中,为了避免"维灾难"现象,本文基于Word2vec通过获得同义词或近义词来有效减少文本特征向量的维度。实验结果表明,基于Canopy+K-means的聚类效果比传统的K-means算法有较好的纯度、准确率、召回率和F值。(本文来源于《图书馆论坛》期刊2018年06期)
王明慧[10](2017)在《基于骨干粒子群算法的中文文本聚类研究》一文中研究指出近年来随着互联网科技与技术的快速发展,数据所携带的信息也越来越多,如何从这些大量的数据中发现有用的信息与期望的规律是亟待解决的问题,由此产生数据挖掘这门学科。作为数据挖掘中的关键技术之一的聚类算法,它主要用于在未知类的数据集合中发现并归纳出不同的类,在面对大量的非结构化数据时,文本聚类逐渐成为学术研究和人们关注的热点问题之一。由于文本数据具有高维、稀疏、非结构化等特点,不同的特征选择方法对聚类的效果有着重要的影响。近年来,群智能算法由于其良好的寻优能力和全局搜索能力得到了深入的研究,且被广泛应用于许多领域,并取得良好的效果。本文的研究目的、方法与结果如下:1、深入研究骨干粒子群算法(Bare Bones Particle Swarm Optimization,BBPSO),针对骨干粒子群算法的易于早熟,易陷入局部最优解等缺点,提出了一种基于冯诺依曼拓扑结构的改进骨干粒子群算法(Von Neumann BBPSO,VBBPSO)。该算法提出“兼顾落后粒子”的概念,应用冯诺依曼拓扑结构构造邻域,运用邻域最优解取代全局最优解。此外,该算法引入中心项调节系数,在邻域范围内调整BBPSO算法的进化中心项与离散控制项,提高算法的全局搜索能力与局部开发能力。2、系统性的分析文本聚类问题的难点,文本向量化后数据维数较高,数据空间的分布较为稀疏,空间向量之间会存在潜在的语义结构。而传统的K-means算法难以准确地预设初始聚类的数目K,聚类结果受初始中心影响,造成对噪声点敏感,聚类不稳定等缺点。针对以上问题,本文结合奇异值分解(Singular Value Decomposition,SVD),提出了一种改进的K-means中文文本聚类算法(SVD-Kmeans)。该算法首先根据SVD分解的物理意义对数据集进行粗糙的类型判别,同时利用其数学意义对文本数据进行平滑处理,将类型判别后的类别作为K-means算法的初始聚类的中心点。3、针对文本向量空间高维、稀疏等特点,将VBBPSO算法应用到中文文本特征选择中。首先将文本向量进行编码把离散问题转化为线性问题,并为文本聚类特征选择算法设计出新的适应度函数。其次,利用改进的骨干粒子群算法进行寻优,将选出的全局最佳粒子进行解码,从而确定选出的文本特征。最后,根据选出的文本特征向量,利用SVD-Kmeans算法进行文本的聚类。聚类结果显示VBBPSO算法用于文本的特征选择能有效的优化聚类质量,同时对大部分聚类算法都有一定的效果。(本文来源于《江南大学》期刊2017-06-01)
中文文本聚类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对中文文本聚类受语义、语法、语境等因素的影响,在使用传统向量空间模型向量化表征后,文本向量之间相互独立,语义关系被忽略,影响聚类分析结果的问题,提出一种基于语义簇的中文文本聚类算法.该算法根据词共现的原理和语义相关性,首先使用词频-逆向文档频率(TF-IDF)方法求得特征词权重,利用特征词的搭配向量构建语义簇;然后使用特征词及其搭配词的权重,将特征词向语义簇中心进行空间变换,求得嵌入语义信息的文档向量;最后利用文档向量进行K-means聚类分析.实验结果表明,该向量化表示方法,能有效提高文本向量对文本语义的逼近能力,同时可提高文本聚类结果的准确率和召回率.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
中文文本聚类论文参考文献
[1].杨秀璋,夏换,于小民,武帅,赵紫如.基于特征词典构建和BIRCH算法的中文百科文本聚类研究[J].计算机时代.2019
[2].齐向明,孙煦骄.基于语义簇的中文文本聚类算法[J].吉林大学学报(理学版).2019
[3].沈美英.基于免疫网络学习机制的中文网络短文本聚类算法[J].自动化与仪器仪表.2018
[4].戴月明,王明慧,张明,王艳.SVD优化初始簇中心的K-means中文文本聚类算法[J].系统仿真学报.2018
[5].季圣洁,葛万成.DMK算法在中文文本聚类中的应用[J].信息通信.2018
[6].尹积栋,谢茶花,彭崧,刘红,曾昭虎.基于句法结构分析的中文文本聚类方法研究[J].计算机与数字工程.2018
[7].夏儒斐.基于频繁项集关联的海量中文文本聚类系统及其在Spark平台的实现[D].华南理工大学.2018
[8].杨开平.基于语义相似度的中文文本聚类算法研究[D].电子科技大学.2018
[9].张琳,牟向伟.基于Canopy+K-means的中文文本聚类算法[J].图书馆论坛.2018
[10].王明慧.基于骨干粒子群算法的中文文本聚类研究[D].江南大学.2017