导读:本文包含了层次式聚类论文开题报告文献综述及选题提纲参考文献,主要关键词:社会标注,标签树,资源组织,导航
层次式聚类论文文献综述
罗鹏程,陈翀[1](2013)在《从大众分类到层次式资源组织体系——利用聚类信息构建标签树》一文中研究指出提出一种合理运用大众标注数据自动构建资源导航体系的方法,首先使用聚类技术将标签分成主题相近的簇,然后在簇内按标签的泛指度和相似性构造标签树。将该方法用在公开的标签数据集SocialODP-2k9上进行实效评价,结果表明,本方法减少了以往标签树构造方法中"意义漂移"的缺陷,使组织结构有更好的语义一致性,且具有更好的导航效率,从而使本研究能适应信息组织与服务的实际需要。(本文来源于《图书情报工作》期刊2013年22期)
王元元[2](2009)在《层次式协同聚类算法及模型选择技术研究》一文中研究指出随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚类,要么只是对词进行聚类,忽略了文档与词之间的相互关系。基于信息论的协同聚类算法ITCC(Information Theoretic Co-clustering algorithm)将文档-词矩阵看作一个联合概率分布,以最小化初始变量和聚类后的变量间的互信息损失为目标函数,同时对文档和词进行聚类。这种方法从信息论的角度捕获了文档和词之间的自然关系,对高维稀疏的文本数据起到很好的聚类效果。本文在分析了协同聚类算法的优缺点的基础上,提出了一些改进方案,并进行了大量的实验分析,完成了以下研究工作:(1)本文提出了层次协同聚类算法HITCC(Hierarchical Information Theoretic Co-clustering),该算法结合了分裂的层次聚类的思想,将每一层的节点分裂都看作一次协同聚类过程,而且在节点分裂时基于父亲节点的协同聚类结果对文档和词同时分裂,然后使用互信息或者卡方检验的方法作为停止条件控制树的增长。此方法不仅能发现存在子空间的簇,而且可以显示簇与簇之间的层次关系,另外也避免了协同聚类算法确定行簇和列簇数目的问题。通过实验证明,HITCC算法可以获得比平面的协同聚类算法更好的聚类效果,而且与当前经典的文本层次聚类算法的效果相当,甚至更好。(2)本文基于HITCC算法又提出了其改进算法——基于模型选择的层次式聚类算法MS-HITCC(Model Selection-HITCC)。该算法在层次树的每一层只是按照协同聚类结果对文档进行分裂,保留父亲节点所有的词。在进入下一层协同聚类前,使用特征选择的方法选择一部分词进行聚类。这样的操作可以在分裂过程中保留重要词的信息,有利于聚类过程的进行。基于此操作,MS-HITCC算法将多项式混合模型应用于层次式协同聚类方法中,并且使用AIC或者BIC的方法进行模型选择,从而避免设置任何参数值,对数据更有普遍适用性。(本文来源于《哈尔滨工业大学》期刊2009-06-01)
层次式聚类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚类,要么只是对词进行聚类,忽略了文档与词之间的相互关系。基于信息论的协同聚类算法ITCC(Information Theoretic Co-clustering algorithm)将文档-词矩阵看作一个联合概率分布,以最小化初始变量和聚类后的变量间的互信息损失为目标函数,同时对文档和词进行聚类。这种方法从信息论的角度捕获了文档和词之间的自然关系,对高维稀疏的文本数据起到很好的聚类效果。本文在分析了协同聚类算法的优缺点的基础上,提出了一些改进方案,并进行了大量的实验分析,完成了以下研究工作:(1)本文提出了层次协同聚类算法HITCC(Hierarchical Information Theoretic Co-clustering),该算法结合了分裂的层次聚类的思想,将每一层的节点分裂都看作一次协同聚类过程,而且在节点分裂时基于父亲节点的协同聚类结果对文档和词同时分裂,然后使用互信息或者卡方检验的方法作为停止条件控制树的增长。此方法不仅能发现存在子空间的簇,而且可以显示簇与簇之间的层次关系,另外也避免了协同聚类算法确定行簇和列簇数目的问题。通过实验证明,HITCC算法可以获得比平面的协同聚类算法更好的聚类效果,而且与当前经典的文本层次聚类算法的效果相当,甚至更好。(2)本文基于HITCC算法又提出了其改进算法——基于模型选择的层次式聚类算法MS-HITCC(Model Selection-HITCC)。该算法在层次树的每一层只是按照协同聚类结果对文档进行分裂,保留父亲节点所有的词。在进入下一层协同聚类前,使用特征选择的方法选择一部分词进行聚类。这样的操作可以在分裂过程中保留重要词的信息,有利于聚类过程的进行。基于此操作,MS-HITCC算法将多项式混合模型应用于层次式协同聚类方法中,并且使用AIC或者BIC的方法进行模型选择,从而避免设置任何参数值,对数据更有普遍适用性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
层次式聚类论文参考文献
[1].罗鹏程,陈翀.从大众分类到层次式资源组织体系——利用聚类信息构建标签树[J].图书情报工作.2013
[2].王元元.层次式协同聚类算法及模型选择技术研究[D].哈尔滨工业大学.2009