导读:本文包含了图数据挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:社交网络,图数据挖掘,应用
图数据挖掘论文文献综述
魏利梅[1](2018)在《图数据挖掘在社交网络中的应用》一文中研究指出随着当前网络信息技术不断发展,网络在社会上各个方面均得到广泛应用,并且发挥的作用也越来越重要,在社交领域的应用就是十分重要的一点,使得社交网络得以形成。在当前社交网络应用及发展中,越来越多的新技术得以应用,图数据挖掘就是其中比较重要的一种,因而对该技术进行合理应用也就十分必要。该文就图数据挖掘在社交网络中的应用进行分析,从而为图数据挖掘应用提供理论支持。(本文来源于《电脑知识与技术》期刊2018年23期)
王晓东[2](2018)在《基于图数据挖掘的化合物性质预测方法研究》一文中研究指出随着人工智能领域的不断发展,通过计算机提升人类对现有庞大信息处理效率的应用屡见不鲜。AI智能的优势结合化学家的经验,使得人工虚拟合成的化合物数量急剧增加。如何快速、高效的划分这些未知化合物的性质则成为现实中的一大难题。对化合物性质预测的主要内容是通过对已知性质的化合物进行分析,探寻出规律用以对未知化合物的生化活性分类。在机器学习中可描述为通过对训练集学习构造预测分类模型。在化合物性质的预测模型构建时,若将原子作为顶点,将原子间的相互作用关系作为边,就可将化合物的结构信息转化为图数据进行处理,进而将化合物分类问题转化为图分类问题;由于使用生化实验的方法来构造负例样本集的代价昂贵,在数据集仅有一类样本集确定的情况下,对应的分类场景可以归结为单类分类场景。因此,在本文中对化合物性质的分类实际上可总结为单类图分类问题。针对这个问题,本文提出了基于图数据挖掘的化合物性质预测方法研究,主要成果如下:(1)化合物的特征子图提取。利用频繁子图挖掘算法对化合物图数据进行特征子图提取,提出自适应闭频繁子图挖掘算法(Adaptive CloseGraph-Based Substructure Pattern Mining,AC-gSpan)处理该问题,传统的gSpan(Graph-Based Substructure Pattern Mining)算法对化合物图数据的频繁子图挖掘需要提前知道支持度参数的上界,并且挖掘得到的频繁子图中存在大量信息表达重复的情况。而AC-gSpan可以通过利用初始频繁单边的频繁度,设置挖掘阶段,解决了支持度参数的先验问题,并对闭频繁子图进行挖掘以削减冗余子图的出现。实验结果表明,自适应闭频繁子图挖掘算法可以明显地提高子图挖掘效率,挖掘出的特征子图也能够有效地表示化合物图数据。(2)化合物性质的分类分析。通过单类集成分类方法构建预测分类模型,提出了基于Adaboost的单类集成分类方法(One Class Adaptive Boosting algorithm,OC-Adaboost)处理化合物预测分类问题。对于单类分类问题,通常是通过一类的训练集进行学习,构造出一个对此类数据的描述模型,但存在的问题是对参数选择敏感,针对所描述类别的数据表现良好的召回率却在精确率和稳定性上表现不足。而OC-Adaboost可以减弱分类器性能对调优参数选择的依赖,通过按比例有放回的抽样方法来减弱单类基分类器对整体的影响,以提升集成效果和泛化能力。对比实验证明,文本提出的OC-Adaboost分类方法获得的分类模型具有更好的精确率和泛化性。(本文来源于《西北农林科技大学》期刊2018-05-01)
崔景洋[3](2018)在《图数据挖掘研究》一文中研究指出随着近几年信息技术的发展,人们在生产生活的各个方面积累了大量复杂类型数据结构,图数据结构就是其中之一,对于图挖掘的研究也逐渐成为了科研领域的热点.文章通过对于目前学术界关于图挖掘的研究成果的总结,介绍了几类基本的图算法.同时,对于图数据研究的应用与面临的挑战也做了简要分析.(本文来源于《太原师范学院学报(自然科学版)》期刊2018年01期)
王次臣[4](2017)在《基于深度学习的大规模图数据挖掘》一文中研究指出随着大数据思维逐渐深入人心以及深度学习的广泛研究和应用,图结构逐渐被用来表征现实世界中大规模的、错综复杂的数据,而深层挖掘大规模图数据内部隐含的信息也逐渐成为了研究的热点。在信息爆炸的时代,传统的基于关键字匹配的搜索引擎已经难以满足用户希望迅速、准确、简便地获取信息的需求,为此知识图谱通过建立基于语义的信息实体图来满足人们新的查询需求。本文首先通过回顾学者、科研机构及公司对知识图谱的研究内容,对知识图谱的发展和构建方法作了全面的介绍,包括知识图谱概念的起源、发展以及最终形成过程;构建知识图谱的数据来源;构建过程中涉及的方法,包括本体和实体的抽取,图谱的构建、更新、维护,以及面向知识图谱的内部结构挖掘和外部扩展应用。最后,对知识图谱的未来发展方向和面临的挑战作了展望。针对大规模图数据挖掘面临的计算复杂、数据稀疏的问题,本文在word2vec算法基础上进行改进设计了一种基于深度学习的网络表示学习算法,通过将图结点表示为低维向量为图数据挖掘工作中能够使用成熟的机器学习算法和线性代数的理论和工具提供了可能。该算法针对图结点的多标签分类任务,利用部分标签信息指导在结点间游走的过程,然后使用逻辑回归分类模型对结点的特征表示进行多标签分类。实验结果显示通过有指导地游走,标签分类准确率有明显提升。另外,本文利用网络表示学习算法得到的图结点的向量表示设计了一种生成边特征表示的组合方法,同时通过构建深度置信网络的分类模型,实现了对复杂网络的链路预测。(本文来源于《南京邮电大学》期刊2017-10-26)
索全明[5](2017)在《社会网络分析中图数据挖掘技术研究》一文中研究指出随着信息处理技术和互联网技术的日益发展,互联网访问量逐渐增大并形成了大规模虚拟的社交网络数据。在庞大而复杂网络数据集中,有价值的信息如何被挖掘出来显得甚为重要,尤其是社区发现及相关问题的分析一直被视为的研究热点。然而,图挖掘领域仍然具有许多挑战:首先,在实际应用中绘制拓扑图的规模变得越来越大,而传统的图挖掘方法只适用于小型或中型规模的数据;其次,当拓扑图更大、更复杂时,有许多边携带着冗余和虚假的信息,甚至其噪声极易混淆图的内在结构属性,导致两个后果:一是诱导徒劳的计算;二是产生低质量的图聚类。这些挑战使得传统的图聚类挖掘效率低和精度低,图中边和点的数量巨增导致程序执行效率低和硬件资源的使用率相对较低。针对上述挑战,本文对图挖掘研究的背景和意义以及国内外的研究现状、典型图聚类方法进行了详细研究。针对网络数据结构复杂、数据量巨大的特点,本文开展了相关研究工作,提出了基于环型网络模体应用马尔科夫聚类的图挖掘模型(gmmMcanm),主要创新点包括:1、提出了一种环型网络模体判定的方法。首先,依据输入图的点集和边集,采用Erd?s-Rényi模型生成一组随机图。然后,证明向量的加法性质可以作为环型网络子图判断条件。最后,构造四元结构体,在在输入图和随机图的子图挖掘进程中,计算环型子图的两个统计特征:和,以此来判定子图是否为模体。该方法数据结构简单,图统计特征准确、快速。2、构造出一个基于模体的图聚类模型。首先,量化每条边的贡献值并求解拓扑图的边绝对贡献值关联矩阵。然后,利用动态阈值法求得的贡献阈值对该矩阵进行二值化处理。最后,模拟一个流动过程:通过每一结点添加自返和所有列的元素分别进行归一化,形成马尔科夫矩阵;对该矩阵经行迭代地扩张和膨胀操作,使其达到收敛状态;采用NMI和对聚类结果做出评价。实验结果表明,本文模型以有效地减少运算时间,在保证聚类质量的情况下提高聚类运算效率,特别当图数据集较大、较为稠密时,本文方法优势更为明显。在数据挖掘和人工智能研究领域中,图挖掘被视为重要研究方向,一直是研究庞大而复杂网络的最活跃、最有效的方法。在未来的研究工作重点是:关注不同类型的网络模体在图数据挖掘所起的作用和找到最佳的随机图构造模型。(本文来源于《辽宁师范大学》期刊2017-06-01)
闫朋,高建瓴[6](2016)在《图数据挖掘在社交网络的应用研究》一文中研究指出社交网络数据的复杂性为数据挖掘带来严峻的考验,对于数据的复杂性,在社交网络中使用具有针对性的处理方法显得尤为重要。图数据挖掘依据图数据关系,可以很好地利用其本有的优势来开发和分析这类互相联系紧密的实体联系的复杂数据。该文根据图数据挖掘的特性和图数据挖掘的处理方式,首先介绍了图数据挖掘方面的若干定义、计算模型以及在图数据挖掘方面的处理系统;然后介绍了图数据挖掘的应用,主要包括图数据库的相关内容以及图数据算法等;最后,从整体上简要介绍了社交网络的发展情况以及图数据挖掘与社交网络的的不同模型不同的结合过程和处理方法。(本文来源于《电子世界》期刊2016年08期)
张素智,张琳,曲旭凯[7](2015)在《图数据挖掘技术的现状与挑战》一文中研究指出图作为一种重要的数据结构,可以用来描述事物之间的复杂联系。随着社交网络、Web网等网络中图数据数量不断增加,图数据挖掘技术逐渐成为研究热点。传统数据挖掘技术不断应用到图数据挖掘领域,加快图数据挖掘技术的发展。首先介绍图数据的定义,其次介绍现阶段图数据挖掘算法,包括图分类、图聚类、图查询、图匹配、图的频繁子图挖掘等,以及图数据库的发展现状,最后介绍图挖掘技术所面临的挑战。(本文来源于《现代计算机(专业版)》期刊2015年26期)
杨博[8](2015)在《基于GPU异构体系结构的大规模图数据挖掘关键技术研究》一文中研究指出图(graph)作为最基本的数据结构之一,在生物信息学、化学数据分析、社交网络研究以及程序bug检测等众多应用领域被用于构建和表示对象之间的复杂关系。随着这些应用领域的不断发展,图数据挖掘作为这些应用领域的关键基础工具,重要性日益凸显,涉及领域和内涵不断扩展。由于这些领域应用图数据规模的不断增长,而且大多数图处理算法具有很高的计算复杂度,因此大规模的图数据挖掘急需高性能计算研究的支持。近些年来,相对通用CPU计算平台GPU异构计算平台由于在计算能力、访存带宽、性能功耗比方面的明显优势,逐渐被广泛的应用于众多通用计算领域,也为高效的处理大规模图数据提供了机遇。本文针对大规模图数据挖掘领域的几类重要问题,其中包括:图遍历、图分析、图同构与图挖掘,研究了其典型算法在GPU平台上的细粒度并行问题,提出了相应的基于GPU的并行算法,集中解决了基于GPU的细粒度并行算法设计中面临的若干技术难点,达到了提高大规模图数据挖掘性能的目的。本文取得的重要研究成果如下:1.基于GPU的大规模图遍历研究本文提出了基于优化的顶点前沿队列的GPU广度优先搜索算法,解决了已有基于顶点前沿队列的并行广度优先搜索算法在每层迭代内两个阶段中遇到的性能瓶颈。主要包括:针对已有算法邻居收集过程中采用的prefix-sum和warp-centric任务调度方法在GPU Warp内出现负载不均衡问题,提出了基于虚拟队列的任务调度方法更好的缓解邻居收集过程中的负载不均衡问题;其次针对已有的边前沿队列局部去重方法的不足,提出了一种新的全局去重方法,完全剔除边前沿队列的重复顶点,另一方面针对无尺度图的广度优先遍历中某几次迭代中边前沿队列冗余顶点多的问题,提出了一种正向和逆向混合的遍历方法,有效的减少了对冗余顶点的遍历。实验结果表明,本文提出的算法相对目前性能最好的GPU广度优先搜索算法Merrill算法,在基于Nvidia K40c GPU的异构计算平台上最高获得了3.2倍的性能加速比。2.基于GPU的大规模图分析研究本文提出了一种基于GPU的图中介中心度计算算法。针对中介中心度计算过程中的最短路径计算阶段和相关度累加阶段,首先结合前一章提出的基于虚拟队列的任务调度方法和全局去重方法给出一种基于前沿队列的方法,有效的解决了已有的基于前沿队列方法中遇到的负载不均衡问题,同时消除了其对原子操作的使用。此外,提出一种基于收集的最短路径数目计算方法,消除了最短路径数目统计中的数据竞争。其次,提出一种改进的基于顶点并行的方法,解决了已有基于顶点并行方法负载不均衡问题。最后,提出一种混合方法,有效的整合了前面两种算法各自的优势。实验结果表明,本文提出的算法相对目前性能最好的GPU中介中心度计算算法Mc-Sampling算法,在基于Nvidia K40c GPU的异构计算平台上获得了1.2-1.9倍的性能加速比。同时,该算法还具有良好的可扩展性。3.基于GPU的大规模子图同构查询研究本文首次提出了一种基于图遍历的GPU子图同构算法,该算法使用区域遍历方法确定匹配顺序,主要由GPU区域遍历和GPU子图匹配两部分组成。工作主要包括:首先,针对区域遍历过程,基于深度优先遍历过程中形成的部分子树映射树中不同分支上顶点(部分子树映射)之间的独立性和不同分支控制流的相似性,给出了一种递归计算模式的数据集细粒度并行方法,提出了一种细粒度的数据级并行的区域遍历算法,同时给出了一种高效的面向并行区域遍历的用于存储候选顶点集合的数据结构。其次,针对子图匹配过程,利用子图匹配迭代中不同的部分子图映射的独立性,提出了一种基于候选顶点扩展的GPU子图匹配算法。最后,针对图的不规则性带来的区域遍历和子图匹配过程中负载不均衡问题,提出了两种负载均衡的任务分配策略。研究结果表明,相比目前性能最好的CPU子图同构算法TurboISO算法,在基于Nvidia K40c GPU的异构计算平台上,本文提出的GPU算法获得了1.4-2.6倍的加速比。4.基于CPU/GPU异构平台的频繁子图挖掘研究本文提出了一种基于CPU/GPU异构平台的gSpan频繁子图挖掘算法,有效的挖掘了gSpan算法的粗粒度和细粒度并行性。工作主要包括:首先,针对模式图扩展,提出一种基于虚拟队列的并行子图映射扩展算法,解决了已有并行子图映射扩展的负载不均衡问题。其次,针对扩展边的支持度计算,提出两种相比已有方法时间复杂度更低的并行支持度计算算法,基于数据图收集的方法和基于扩展边排序的方法,分别用于处理两种不同类型图数据集的支持度计算。然后,针对最小DFS编码验证可并行性低的问题,提出了一种基于CPU的粗粒度并行的最小DFS编码验证算法,此外给出一种负载均衡的流水线协同计算方式,有效隐藏了CPU/GPU间通信开销。最后,针对子图映射的生长,给出一种并行子图映生长算法。相比经典的gSpan算法和已有的基于GPU的gSpan算法,在基于Intel E5-2670 CPU和Nvidia K40c GPU的异构计算平台上,本文提出的基于GPU的频繁子图挖掘算法最高分别获得了17倍和3.7倍的性能加速比。(本文来源于《国防科学技术大学》期刊2015-04-01)
李桃陶,周斌,王忠振[9](2014)在《基于社交网络的图数据挖掘应用研究》一文中研究指出社交网络数据的高度复杂性给数据挖掘研究带来了巨大的挑战,而社交网络数据挖掘更注重实体之间相互关联的特点,使得图数据挖掘技术的研究与应用逐渐成为该领域的热点。传统数据挖掘,如聚类、分类、频繁模式挖掘等技术逐渐拓展到图数据挖掘领域。文中首先介绍了现阶段图数据挖掘算法(其中包括图查询、图聚类、图分类和图的频繁子图挖掘)的研究内容和存在的问题;其次介绍了图形数据库研究现状,以及对比了主流图形数据库管理系统的优劣;最后介绍了图挖掘技术在社交网络中的应用。(本文来源于《计算机技术与发展》期刊2014年10期)
李桃陶[10](2014)在《面向微博社区的图数据挖掘技术研究与实现》一文中研究指出近年,微博作为热门的社交网络平台,凭借其信息量大、开放性高和准入门槛低等特点,使得其用户数量和活跃度都保持较快速度的增长。随着用户数量的增大,微博中存在的关联关系变得越来越复杂。用户通过发表博文、参与话题、关注用户等关联方式构成了具有某种特征的社区,其中特征包括有相似兴趣爱好,朋友圈或价值观等。在处理大量关联关系时,使用关系数据库进行数据挖掘的方法已经难以满足实际应用的需求。本文运用图数据挖掘技术和工具对微博用户关联关系进行处理,能够发现用户群体的特征,并能进行用户推荐、事件分析、产品推广和市场营销等。对于微博社区挖掘的问题,本文主要做了以下几方面工作:(1)针对新浪微博中用户关联关系的特点来构建用户关系模型,关系模型中使用用户标签来标识用户特征。然后基于频繁子图挖掘的方法,提出两种随机游走的方式来生成模式图,并通过计算生成模式图的支持度,挖掘关系结构中的频繁模式图,再通过计算关系模式图之间结构相似度来进行聚类,进而发现用户关系中的特征结构。最后通过使用图数据库来处理新浪微博关注关系数据,验证并比较了两种方法的处理效率和效果。(2)针对在新浪微博用户使用的标签数据中存在很多相似标签的特点,本文将相似标签图挖掘算法应用于频繁模式图支持度计算中,提高发现关系结构中特征结构的效果,并通过相应的实验分析,最终给出了相似标签图挖掘和微博关联关系结构发现的评估结果。(3)从新浪微博实际应用需求角度出发,提出了一种构建在图数据库上的微博社区发现服务架构,详细介绍了构架中的各个模块的功能,并简要介绍了在新浪微博中的服务策略。(本文来源于《国防科学技术大学》期刊2014-04-01)
图数据挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着人工智能领域的不断发展,通过计算机提升人类对现有庞大信息处理效率的应用屡见不鲜。AI智能的优势结合化学家的经验,使得人工虚拟合成的化合物数量急剧增加。如何快速、高效的划分这些未知化合物的性质则成为现实中的一大难题。对化合物性质预测的主要内容是通过对已知性质的化合物进行分析,探寻出规律用以对未知化合物的生化活性分类。在机器学习中可描述为通过对训练集学习构造预测分类模型。在化合物性质的预测模型构建时,若将原子作为顶点,将原子间的相互作用关系作为边,就可将化合物的结构信息转化为图数据进行处理,进而将化合物分类问题转化为图分类问题;由于使用生化实验的方法来构造负例样本集的代价昂贵,在数据集仅有一类样本集确定的情况下,对应的分类场景可以归结为单类分类场景。因此,在本文中对化合物性质的分类实际上可总结为单类图分类问题。针对这个问题,本文提出了基于图数据挖掘的化合物性质预测方法研究,主要成果如下:(1)化合物的特征子图提取。利用频繁子图挖掘算法对化合物图数据进行特征子图提取,提出自适应闭频繁子图挖掘算法(Adaptive CloseGraph-Based Substructure Pattern Mining,AC-gSpan)处理该问题,传统的gSpan(Graph-Based Substructure Pattern Mining)算法对化合物图数据的频繁子图挖掘需要提前知道支持度参数的上界,并且挖掘得到的频繁子图中存在大量信息表达重复的情况。而AC-gSpan可以通过利用初始频繁单边的频繁度,设置挖掘阶段,解决了支持度参数的先验问题,并对闭频繁子图进行挖掘以削减冗余子图的出现。实验结果表明,自适应闭频繁子图挖掘算法可以明显地提高子图挖掘效率,挖掘出的特征子图也能够有效地表示化合物图数据。(2)化合物性质的分类分析。通过单类集成分类方法构建预测分类模型,提出了基于Adaboost的单类集成分类方法(One Class Adaptive Boosting algorithm,OC-Adaboost)处理化合物预测分类问题。对于单类分类问题,通常是通过一类的训练集进行学习,构造出一个对此类数据的描述模型,但存在的问题是对参数选择敏感,针对所描述类别的数据表现良好的召回率却在精确率和稳定性上表现不足。而OC-Adaboost可以减弱分类器性能对调优参数选择的依赖,通过按比例有放回的抽样方法来减弱单类基分类器对整体的影响,以提升集成效果和泛化能力。对比实验证明,文本提出的OC-Adaboost分类方法获得的分类模型具有更好的精确率和泛化性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
图数据挖掘论文参考文献
[1].魏利梅.图数据挖掘在社交网络中的应用[J].电脑知识与技术.2018
[2].王晓东.基于图数据挖掘的化合物性质预测方法研究[D].西北农林科技大学.2018
[3].崔景洋.图数据挖掘研究[J].太原师范学院学报(自然科学版).2018
[4].王次臣.基于深度学习的大规模图数据挖掘[D].南京邮电大学.2017
[5].索全明.社会网络分析中图数据挖掘技术研究[D].辽宁师范大学.2017
[6].闫朋,高建瓴.图数据挖掘在社交网络的应用研究[J].电子世界.2016
[7].张素智,张琳,曲旭凯.图数据挖掘技术的现状与挑战[J].现代计算机(专业版).2015
[8].杨博.基于GPU异构体系结构的大规模图数据挖掘关键技术研究[D].国防科学技术大学.2015
[9].李桃陶,周斌,王忠振.基于社交网络的图数据挖掘应用研究[J].计算机技术与发展.2014
[10].李桃陶.面向微博社区的图数据挖掘技术研究与实现[D].国防科学技术大学.2014