聚类距离比较论文-林滨

聚类距离比较论文-林滨

导读:本文包含了聚类距离比较论文开题报告文献综述及选题提纲参考文献,主要关键词:文本聚类,TF-IDF,K-Means,距离计算

聚类距离比较论文文献综述

林滨[1](2016)在《K-Means聚类的多种距离计算方法的文本实验比较》一文中研究指出针对文本类型数据的分类进行研究,用VSM模型和TF-IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。(本文来源于《福建工程学院学报》期刊2016年01期)

余莉[2](2011)在《距离邻近与自然邻近典型聚类方法比较》一文中研究指出空间聚类(spatial clustering)是空间数据挖掘和知识发现(SDMKD, Spatial Data Mining and Knowledge Discovery)领域中一个极其重要的研究方向,以数学建模提取空间特征模式为前提,采用指定的相似性测度来计算空间实体之间的邻近程度,进而解译与评估空间实体分布的聚集性。针对复杂空间目标几何形体的直接聚类,是空间聚类区别于传统聚类分析的标志。然而空间实体形状的多样性和位置的随机性,使得几何要素之间的相似性难以定义和计算,导致空间聚类分析的应用较为局限。目前,多数商业空间数据库系统所支持的聚类分析算法是采用欧氏距离(Euclidean)、曼哈坦距离(Manhattan)、马氏距离(Mahalanobis)等作为聚类统计量,既缺乏点、线、面等复杂形状的正确表达,也难以计算要素之间的邻近程度,最终导致算法难以自适应地发现任意形状的簇类,特别是在处理有障碍物约束的聚类时,传统基于距离邻近的聚类算法就无法实施。结合实验分析,造成以上缺陷的根本原因来自距离度量的局限,主要表现在以下两方面:(1)基础理论方面,距离邻近的计算模型与人类的空间认知习惯有明显的差距,理想化的距离定义难以描述实际空间的复杂分布;(2)实际应用方面,距离邻近计算模型忽略了实际应用所依托的客观环境,缺乏空间障碍物的识别与处理的能力,降低了聚类结果的准确性和可解释性,进而限制了实际应用。基于Voronoi图所定义的自然邻近(natural adjacency)空间关系能够有效地克服距离邻近的不足,为空间数据聚类提供了一种有效的度量途径。本文以实现二维空间几何数据聚类为目标,首先采用距离邻近测度,基于改进的树ART2神经网络,实现了空间带状分布数据点的聚类;然后进一步考虑到空间数据的复杂几何属性和障碍物阻隔,引入自然邻近测度,借助Voronoi多边形的直接邻近表达和优化面积阈值计算,提出自然邻近空间聚类算法(SCBNA, Spatial Clustering Base on Natural Adjacency);最终结合实际应用,对距离邻近和自然邻近的聚类方法进行了比较。同时,为了有效地提取Voronoi邻近关系,文中提出了基于栅格数据的变速Voronoi图构建算法和基于矢量数据的全要素Voronoi图生成方法,并对算法的复杂度和收敛性进行了分析。论文的主要内容及成果分述为以下叁点:(1)经典ART2神经网络采用向量的相位信息作为相似性测度以实施聚类,具有伸缩性好、结构相对简单、识别能力强等特点。但其作用于二维空间数据,不仅存在模式漂移和向量幅度信息缺失的问题,而且网络不能自适应地以不同粒度划分空间,难以适应不规则形态分布的空间数据聚类。本文提出了树ART2(TART2, Tree-ART2)网络模型,通过长期记忆模式(LTM, Long Time Memory)的调整和向量幅度信息的学习,该网络保持了带空间欧氏距离约束的旧模式记忆,并引入树结构优化,降低了警戒参数设置的主观要求和模式交混现象的发生。对比实验结果表明,更适用于带状分布的空间数据聚类,具有较高的可塑性和自适应性,是一种典型的距离邻近聚类方法。(2)结合实际考虑,河流、湖泊、公园、铁路等障碍物的存在破坏了空间的连续性,以距离邻近的聚类方法不能准确表达空间障碍物的复杂几何形体,且难以正确定义离散待聚类实体的空间邻近关系。本文引入自然邻近计算方法,以两个相离空间目标是否共享Voronoi边来判断邻近关系,提出了一种带障碍物约束的聚类方法——SCBNA,通过构建全要素Voronoi图,采用自然邻近测度准确表达空间实体间的相对位置,优化分析面积阈值以划分数据归属,算法无需自定义参数,能够发现任意形态且密度渐变的簇,可以精确识别带障碍物约束的空间集群目标,提升了聚类的准确性和自适应性。(3)以考查生长源的生长过程为出发点,通过置换权重常数为权重函数,使生长速度描述为权重距离的时间导数形式,提出一种新的Voronoi图-变速Voronoi图,其核心思想是顾及数字高程模型的高程变化并以形态学膨胀操作为基础,用高程的变化建立权重函数及依据时间消耗的膨胀过程收敛。在表达势力范围及Voronoi邻近关系计算方面,变速Voronoi图具有更佳的实际应用价值与意义。(本文来源于《昆明理工大学》期刊2011-10-10)

周轼,陈兵[3](2009)在《基于聚类和距离比较的约简加权SVM入侵检测方法》一文中研究指出针对入侵检测样本数据集过于庞大,学习速度过慢的问题,提出了一种将聚类和距离比较算法相结合的SVM样本数据预选取算法(US-PLN),该算法通过舍弃一些相似的点,而只保留其代表点,以达到削减样本数量,提高训练及检测速度的目的。在此基础上提出一种相应的约简加权单类SVM算法(RWOCSVM),该算法通过从预选取算法中所得的样本权值解决了标准加权SVM算法中相应权值无法直接确定的问题,并且通过给予代表点以相应的权值补偿从而将因舍弃部分样本数据而带来的检测性能的减弱程度降到最低。实验采用KDD99测试数据,结果表明,该方法在保持了较高检测精度的情况下,极大地提高了训练和检测效率。(本文来源于《数据采集与处理》期刊2009年02期)

李慧芳,陈宽维,韩威,张学余,高玉时[4](2008)在《遗传距离聚类法和模型聚类法在地方鸡种群体遗传结构分析中的比较》一文中研究指出利用16个微卫星标记,计算品种间DA遗传距离和基因流(Nm),并基于DA遗传距离运用NJ算法和基于Structure程序构建2类聚类图,比较分析10个地方鸡品种群体间的遗传结构和亲缘关系。结果表明:基于DA遗传距离运用NJ算法构建的聚类图将10个地方鸡品种总体上分为2大类:轻体型的鸡种(包括茶花鸡、藏鸡、仙居鸡、固始鸡和白耳鸡)和重体型的鸡种(包括狼山鸡、大骨鸡、北京油鸡、鹿苑鸡和萧山鸡);在轻体型的类别中,茶花鸡和藏鸡、仙居鸡和固始鸡聚为一类;在重体型的类别中,鹿苑鸡和萧山鸡聚为一类,狼山鸡、大骨鸡和北京油鸡则表现为独立分支,聚类结果与品种间基因流动相一致。Structure程序在预先未标识个体品种来源的条件下,准确推断出10个地方鸡种群体所属类别,构建的聚类图与遗传距离聚类结果基本一致。Structure程序还根据个体基因组分数,指出了10个地方鸡种群体中迁移个体和具有复杂遗传基础个体的分布,这是遗传距离聚类法所不能揭示的。(本文来源于《畜牧兽医学报》期刊2008年11期)

徐海明,邱英雄,胡晋,王建成[5](2004)在《不同遗传距离聚类和抽样方法构建作物核心种质的比较》一文中研究指出以棉花种质资源 16 8个基因型 ,5个纤维性状 [2 5 %跨长 (mm)、整齐度 (% )、强度 (gf/tex)、伸长度 (% )、麦克隆值 ]数据为例 ,用混合线性模型分析方法无偏地预测基因型值 ,利用得到的基因型值 ,分别采用 2种遗传距离 (马氏距离和欧氏距离 )和 7种系统聚类方法 (最短距离法、最长距离法、中间距离法、重心法、类平均法、加权配对算术平均法、离差平方和法 ) ,3种抽样方法 (随机取样法、优先取样法、偏离度取样法 ) ,30 %的抽样比率构建作物种质资源核心种质。用均值、方差、极差和变异系数 4个指标评价不同遗传距离、聚类方法、抽样方法构建核心种质的优劣。结果表明 ,马氏距离优于欧氏距离 ,优先取样法和偏离度取样法都能显着地提高核心种质的方差和变异系数 ,前者略优于后者。最短距离法构建的核心种质能极显着地增加性状的方差和变异系数 ,使核心种质的方差和变异系数最大化 ,是构建核心种质较好的系统聚类方法 ,其次分别是中间距离法、重心法、类平均法。(本文来源于《作物学报》期刊2004年09期)

陈红菊,岳永生,樊新忠,张传生,杜立新[6](2004)在《山东地方鸡种遗传距离与聚类分析方法比较研究》一文中研究指出选用5个多态性较好的微卫星标记,检测了山东省仅存的5个地方鸡种:寿光鸡、日照麻鸡、莱芜黑鸡、济宁百日鸡、鲁西斗鸡,以及一个外来鸡种———安卡黄鸡和一个外省地方鸡种———广西黄鸡共7个鸡种的遗传多样性。根据测试结果计算了每个等位基因的频率,并以基因频率为基础计算了Nei氏标准遗传距离(Ds)和DA遗传距离,发现日照麻鸡与济宁百日鸡的距离最近,而鲁西斗鸡与其他6个鸡种距离都较远。根据两种遗传距离分别进行了NJ法和UPGMA法聚类,得到4个聚类图。结果表明:DA遗传距离的UPGMA聚类图比较可靠。(本文来源于《畜牧兽医学报》期刊2004年01期)

贺德化,朱锋峰,彭英伟[7](1998)在《有类间距离因素聚类结果的比较分析》一文中研究指出本文对于有类间距离因素聚类结果的比较,提出了类结构的空间描述方法和比较相似度的度量指标──夹角余弦,并推导出它的一些性质.最后,用蒙特卡洛模拟的结果阐明用夹角余弦作为聚类结果的相似性度量指标是合理的.(本文来源于《运筹学学报》期刊1998年02期)

聚类距离比较论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

空间聚类(spatial clustering)是空间数据挖掘和知识发现(SDMKD, Spatial Data Mining and Knowledge Discovery)领域中一个极其重要的研究方向,以数学建模提取空间特征模式为前提,采用指定的相似性测度来计算空间实体之间的邻近程度,进而解译与评估空间实体分布的聚集性。针对复杂空间目标几何形体的直接聚类,是空间聚类区别于传统聚类分析的标志。然而空间实体形状的多样性和位置的随机性,使得几何要素之间的相似性难以定义和计算,导致空间聚类分析的应用较为局限。目前,多数商业空间数据库系统所支持的聚类分析算法是采用欧氏距离(Euclidean)、曼哈坦距离(Manhattan)、马氏距离(Mahalanobis)等作为聚类统计量,既缺乏点、线、面等复杂形状的正确表达,也难以计算要素之间的邻近程度,最终导致算法难以自适应地发现任意形状的簇类,特别是在处理有障碍物约束的聚类时,传统基于距离邻近的聚类算法就无法实施。结合实验分析,造成以上缺陷的根本原因来自距离度量的局限,主要表现在以下两方面:(1)基础理论方面,距离邻近的计算模型与人类的空间认知习惯有明显的差距,理想化的距离定义难以描述实际空间的复杂分布;(2)实际应用方面,距离邻近计算模型忽略了实际应用所依托的客观环境,缺乏空间障碍物的识别与处理的能力,降低了聚类结果的准确性和可解释性,进而限制了实际应用。基于Voronoi图所定义的自然邻近(natural adjacency)空间关系能够有效地克服距离邻近的不足,为空间数据聚类提供了一种有效的度量途径。本文以实现二维空间几何数据聚类为目标,首先采用距离邻近测度,基于改进的树ART2神经网络,实现了空间带状分布数据点的聚类;然后进一步考虑到空间数据的复杂几何属性和障碍物阻隔,引入自然邻近测度,借助Voronoi多边形的直接邻近表达和优化面积阈值计算,提出自然邻近空间聚类算法(SCBNA, Spatial Clustering Base on Natural Adjacency);最终结合实际应用,对距离邻近和自然邻近的聚类方法进行了比较。同时,为了有效地提取Voronoi邻近关系,文中提出了基于栅格数据的变速Voronoi图构建算法和基于矢量数据的全要素Voronoi图生成方法,并对算法的复杂度和收敛性进行了分析。论文的主要内容及成果分述为以下叁点:(1)经典ART2神经网络采用向量的相位信息作为相似性测度以实施聚类,具有伸缩性好、结构相对简单、识别能力强等特点。但其作用于二维空间数据,不仅存在模式漂移和向量幅度信息缺失的问题,而且网络不能自适应地以不同粒度划分空间,难以适应不规则形态分布的空间数据聚类。本文提出了树ART2(TART2, Tree-ART2)网络模型,通过长期记忆模式(LTM, Long Time Memory)的调整和向量幅度信息的学习,该网络保持了带空间欧氏距离约束的旧模式记忆,并引入树结构优化,降低了警戒参数设置的主观要求和模式交混现象的发生。对比实验结果表明,更适用于带状分布的空间数据聚类,具有较高的可塑性和自适应性,是一种典型的距离邻近聚类方法。(2)结合实际考虑,河流、湖泊、公园、铁路等障碍物的存在破坏了空间的连续性,以距离邻近的聚类方法不能准确表达空间障碍物的复杂几何形体,且难以正确定义离散待聚类实体的空间邻近关系。本文引入自然邻近计算方法,以两个相离空间目标是否共享Voronoi边来判断邻近关系,提出了一种带障碍物约束的聚类方法——SCBNA,通过构建全要素Voronoi图,采用自然邻近测度准确表达空间实体间的相对位置,优化分析面积阈值以划分数据归属,算法无需自定义参数,能够发现任意形态且密度渐变的簇,可以精确识别带障碍物约束的空间集群目标,提升了聚类的准确性和自适应性。(3)以考查生长源的生长过程为出发点,通过置换权重常数为权重函数,使生长速度描述为权重距离的时间导数形式,提出一种新的Voronoi图-变速Voronoi图,其核心思想是顾及数字高程模型的高程变化并以形态学膨胀操作为基础,用高程的变化建立权重函数及依据时间消耗的膨胀过程收敛。在表达势力范围及Voronoi邻近关系计算方面,变速Voronoi图具有更佳的实际应用价值与意义。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类距离比较论文参考文献

[1].林滨.K-Means聚类的多种距离计算方法的文本实验比较[J].福建工程学院学报.2016

[2].余莉.距离邻近与自然邻近典型聚类方法比较[D].昆明理工大学.2011

[3].周轼,陈兵.基于聚类和距离比较的约简加权SVM入侵检测方法[J].数据采集与处理.2009

[4].李慧芳,陈宽维,韩威,张学余,高玉时.遗传距离聚类法和模型聚类法在地方鸡种群体遗传结构分析中的比较[J].畜牧兽医学报.2008

[5].徐海明,邱英雄,胡晋,王建成.不同遗传距离聚类和抽样方法构建作物核心种质的比较[J].作物学报.2004

[6].陈红菊,岳永生,樊新忠,张传生,杜立新.山东地方鸡种遗传距离与聚类分析方法比较研究[J].畜牧兽医学报.2004

[7].贺德化,朱锋峰,彭英伟.有类间距离因素聚类结果的比较分析[J].运筹学学报.1998

标签:;  ;  ;  ;  

聚类距离比较论文-林滨
下载Doc文档

猜你喜欢