导读:本文包含了链接相似度论文开题报告文献综述及选题提纲参考文献,主要关键词:语义相似度,维基百科,基于链接,基于特征值
链接相似度论文文献综述
张波[1](2019)在《基于维基百科链接特征的词语语义相似度计算》一文中研究指出针对目前基于维基百科的相似度计算方法预处理过程烦琐、计算量大的问题,本文以维基百科为本体引入基于特征的词语语义计算,提出了一种基于维基百科的快速词语相似度计算方法。根据维基百科页面链接结构的特点,该方法把页面的入链接和出链接作为页面特征值构建特征向量模型,通过计算页面的特征向量相关系数计算对应词语的语义相似度。本文还改进了维基百科消歧处理算法,在一词多义的处理中减少社会认知度低的义项页面的干扰,进一步提高了计算准确度。经Miller&Charles(MC30)和Rubenstein&Goodenough(RG65)测试集的测试,测试结果表明了基于维基百科链接特征的方法在计算相似度方面的可行性,也验证了本文的计算策略和消歧改进算法的合理性。(本文来源于《软件工程》期刊2019年10期)
许国威[2](2017)在《基于节点相似度和链接次数组合时序的链接预测算法》一文中研究指出在网络中,节点表示实体,链接表示它们之间的关系。随着越来越多真实网络数据的获得,通过对网络的分析来挖掘一些有价值的规律成为研究热点。作为链接挖掘最重要的问题之一,链接预测,即根据观察到的节点和链接信息,来估计两个节点之间存在链接的可能性。在众多应用的推动下,链接预测的研究取得了丰硕的成果。目前采用较为广泛的是基于节点相似度的方法,通过相似性分数的大小,预测产生链接的可能性。相似度的计算主要包括基于网络拓扑的方法与基于节点属性的方法,此外社区信息也被证明有助于链接预测。上述静态链接预测方法曾在某些领域取得了不错的效果,但是在现实世界中,网络往往是动态变化的。静态方法里,网络随时间的变化被忽视,如果只采用最近一个时间快照下的网络图,网络变化比较频繁时,预测效果就会急剧下降;如果把历史上各时间快照下的网络图迭加,则不能用于链接重复发生的情况,如电话、邮件等通信链接。随着互联网的发展,链接重复发生的场景越来越广泛,网络的演化越来越普遍,静态链接预测方法已远远不能适应新形势下的需求,因此,近些年时间信息逐渐得到重视。目前,针对链接预测问题的研究,主要有两个方向,一个方向是继续完善静态方法,充分提取当前观察到的有用网络信息,包括拓扑信息、属性信息、社区信息等;另一个方向是给空间结构加上时间维度,考虑如何利用网络随时间的变化,更好地完成预测。时间序列在描述时间信息上取得了较好的效果,将历史上各时间段的网络信息表示为离散的时间序列图,并进行链接预测,主要有两种方式。一种是节点间链接次数的时间序列,仅仅根据节点间过去的链接次数预测未来的链接情况,取得了与静态方法类似的结果,将其与静态方法相结合,能进一步提高预测效果。这种方法的优势在于,考虑链接历史上出现的次数而不是是否出现,时间序列模型较好地利用了链接的变化情况及最近时间的链接信息。同时,混合模型将静态方法预测新链接的能力与时间序列预测重复链接的能力结合起来,是一种较为全面的方法。这种方法存在的问题是,对于新链接,由于失去了链接次数时间序列,混合模型就降级成了静态相似度方法;此外,混合模型将最终的静态方法预测值与时间序列预测值相乘,难以描述每个时间段的网络信息。另一种时间序列方法做出了改进,采用节点相似性分数的时间序列,根据节点间历史上各时间段的相似性分数,预测未来的相似性,从而预测链接情况。这种方法也尝试将节点间通过整个网络计算的相似性分数与节点间真正发生的链接次数结合,混合模型将每个时间段的相似性分数与链接次数归一化后相加,以此作为时间序列的输入,然后以一元时间序列预测值作为未来链接发生的分数。但是,由于模型过于简单未能描述相似性分数与链接次数的关系,两者的变化规律不同,混合模型得到的结果反而不如仅仅采用相似性分数时间序列。针对以上不足,本文提出了一种新的基于节点相似度和链接次数组合时序的链接预测方法SOTS(Similarities and Occurrences Time Series)。首先通过有趋向的随机游走,计算历史各时间段节点间的相似性分数,然后采用时间序列模型将其与各时间段节点间的实际链接次数组合起来,预测下个时间段各节点对发生链接的可能性。通过两种组合时间序列模型,本文研究了节点间相似性分数与实际链接次数的关系。该方法能够用于演化网络中未来新的链接以及重复出现链接的预测。本文贡献如下:(1)采用一种新的方法将属性社区与网络拓扑组合起来,计算相似性分数。(2)研究了链接的形成与相似性分数的关系。(3)将相似性分数与链接次数有机结合,充分提取每个时间段的信息。尤其是二元时间序列模型的结合方式,有效描述了二者随时间的协同演化。通过对时间序列与静态信息的分析,我们将网络结构的时间、空间两个维度结合起来。该方法比传统方法利用的网络信息更加全面,模型更加有效,经过详实的实验,本文在中文DBLP数据集上评价了该方法与前人方法的预测效果,实验证明,该方法提高了约15%的预测准确度,达到了本文工作的预期目标。(本文来源于《吉林大学》期刊2017-05-01)
姚飞亚,陈崚[3](2016)在《基于相似度传播的二分网络链接预测》一文中研究指出链接预测是复杂网络分析中的重要研究问题。提出了一个基于链接相似度传播的二部图链路预测算法。该算法将链接相似度得分通过随机游走在网络中进行传播和更新。在该算法中,网络里的每一条边都被分配一个基于相似度的传播概率。不同部分的节点之间的链接相似性得分根据它们的边的传播概率来传播。在不同大小的真实社交网络上的实验结果证明,该算法可以取得比其他算法更精确的预测结果。(本文来源于《计算机科学》期刊2016年04期)
韦莎,朱焱[4](2016)在《主题相似度与链接权重相结合的垃圾网页排序检测》一文中研究指出针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(Anti-TrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进Anti-TrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAM-UK2007上进行的实验结果表明,与Anti-TrustRank和WATR相比,TLDR的Spam Factor分别提高了45%和23.7%,F1-measure(阈值取600)分别提高了3.4个百分点和0.5个百分点,spam比例(前叁个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。(本文来源于《计算机应用》期刊2016年03期)
陆钊,李石君[5](2015)在《基于链接相似度和作弊系数的Spam网页识别算法》一文中研究指出Spam网页主要通过链接作弊手段达到提高搜索排名而获利的目的,根据链接作弊的特征,引入链接相似度和作弊系数两个指标来判定网页作弊的可能性。借鉴BadRank算法思想,从Spam网页种子集合通过迭代计算链接相似度和作弊系数,并根据与种子集合的链接指向关系设置权重,将待判定的网页进行度量。最后选取Anti-Trust Rank等算法作对比实验,结果验证了本文算法在准确率和适应性方面优于对比算法。(本文来源于《计算机工程与科学》期刊2015年10期)
杨巧[6](2015)在《基于改进相似度的社会网络链接预测研究》一文中研究指出链接预测是社会网络分析领域的热点问题,它通过对网络已知结构分析,预测两个不相连节点发生链接的可能性。目前,绝大多数的链接预测模型都是基于网络特征构建,该类模型通过挖掘拓扑结构特征,计算节点间的相似度,判断链接是否存在,其中具有代表性的有基于共邻节点信息方法,如CN(Common Neighbors)、AA(Admic Adar)、RA(Resource Allocation)等。但是该类算法主要利用共邻节点及节点度的网络结构信息,不能全面反映社会网络的复杂结构。此外,基于朴素贝叶斯(Local Na?ve Bayesian,简称LNB)模型构建的链接预测算法具有较好的预测效果。但是该算法有两个不足:(1)基于独立性假设而建立,而这一假设在实际中往往是不成立的;(2)基于无权网络,忽略社会网络边权这一属性。根据以上叁个问题,文章开展了对社会网络链接预测算法的研究,主要工作和创新点如下:首先,为了更深入地挖掘网络内部结构属性,文章第叁章在经典算法CN基础上加入了社区划分的概念构建相似度算法,将网络节点划分到不同的社区,差分化处理共邻节点的角色以及贡献。同时,推广该算法到Jaccard之中,并在人工数据集、真实数据集的实验分析中表明:改进算法优于经典算法。然后,针对LNB模型的缺陷一,本文第四章中引入了一种树状贝叶斯分类模型(Tree Augmented Na?ve,简称TAN),放松了贝叶斯分类器中的独立性假设,同时结合信息熵概念,在CN算法基础上获取了共邻节点对的联合贡献,提出了算法TAN_CN。接着,又将TAN模型拓展到AA、RA中构建算法TAN_AA、TAN_RA。在不同的真实数据集中进行实验,与经典算法、LNB模型下算法相比得出:TAN模型下算法更优。最后,针对LNB模型的缺陷二,第五章将链接预测问题的研究由无权网络拓展到了加权网络,并提出了基于WLNB(Weighted_LNB)模型的CN、AA、RA算法。该算法在计算预测节点对共邻节点的贡献时,引入了加权凝聚系数,反映了共邻节点的边权结构属性对相似度的影响,其精度也得到了提高。本章最后将该算法运用到了无权网络中,实现了加权算法在加权、无权网络的自由切换。(本文来源于《华南理工大学》期刊2015-05-04)
张涛,刘康,赵军[7](2015)在《一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用》一文中研究指出实体链接是指将文本中具有歧义的实体指称项链接到知识库中相应实体的过程。该文首先对实体链接系统进行了分析,指出实体链接系统中的核心问题—实体指称项文本与候选实体之间的语义相似度计算。接着提出了一种基于图模型的维基概念相似度计算方法,并将该相似度计算方法应用在实体指称项文本与候选实体语义相似度的计算中。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统在性能上获得了达到state-of-art的水平。(本文来源于《中文信息学报》期刊2015年02期)
张应龙,李翠平,陈红[8](2014)在《信息网络中一个有效的基于链接的结点相似度度量》一文中研究指出信息网络无处不在.通过把网络中的对象抽象为点,把对象之间的关系刻画为边,相应的信息网络就可以用图来表示.图中结点相似度计算是图数据管理中的基本问题,在很多领域都有运用,比如社会网络分析、信息检索和推荐系统等.其中,着名的相似度度量是以Personalized Page Rank和Sim Rank为代表.这两种度量本质都是以图中的路径来定义,然而它们侧重的路径截然不同.为此,提出了一个度量Super Sim Rank.它不仅涵盖了这些路径,而且考虑了Personalized Page Rank和Sim Rank两者都没有考虑的路径,从而能够更加体现出这种链接关系的本质.在此基础上对Super Sim Rank进行了理论分析,从而提出了相应的优化算法,使得计算性能从最坏情况O(kn4)提高到O(knl).这里,k是迭代次数,n是结点数,l是边数.最后,通过实验验证了Super Sim Rank优于Sim Rank和Personalized Page Rank,同时验证了优化算法在各种情况下都是有效的.(本文来源于《软件学报》期刊2014年11期)
仇丽青,陈卓艳[9](2014)在《基于共有邻居相似度的链接预测算法》一文中研究指出首先分析社会网络中链接预测的研究意义和背景,并对研究现状进行总结,指出其不足之处;在此基础上,提出了支持力的定义,对每个共有邻居节点赋予一定权值,并以此衡量每个共有邻居节点对链接预测的贡献度;最后给出了改进的共有邻居相似度的链接预测算法。(本文来源于《信息与电脑(理论版)》期刊2014年05期)
靳黛露,张月琴,张明西[10](2014)在《基于链接关系的Web页面相似度搜索》一文中研究指出Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。实验结果显示,WSR显着降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。(本文来源于《计算机应用与软件》期刊2014年01期)
链接相似度论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在网络中,节点表示实体,链接表示它们之间的关系。随着越来越多真实网络数据的获得,通过对网络的分析来挖掘一些有价值的规律成为研究热点。作为链接挖掘最重要的问题之一,链接预测,即根据观察到的节点和链接信息,来估计两个节点之间存在链接的可能性。在众多应用的推动下,链接预测的研究取得了丰硕的成果。目前采用较为广泛的是基于节点相似度的方法,通过相似性分数的大小,预测产生链接的可能性。相似度的计算主要包括基于网络拓扑的方法与基于节点属性的方法,此外社区信息也被证明有助于链接预测。上述静态链接预测方法曾在某些领域取得了不错的效果,但是在现实世界中,网络往往是动态变化的。静态方法里,网络随时间的变化被忽视,如果只采用最近一个时间快照下的网络图,网络变化比较频繁时,预测效果就会急剧下降;如果把历史上各时间快照下的网络图迭加,则不能用于链接重复发生的情况,如电话、邮件等通信链接。随着互联网的发展,链接重复发生的场景越来越广泛,网络的演化越来越普遍,静态链接预测方法已远远不能适应新形势下的需求,因此,近些年时间信息逐渐得到重视。目前,针对链接预测问题的研究,主要有两个方向,一个方向是继续完善静态方法,充分提取当前观察到的有用网络信息,包括拓扑信息、属性信息、社区信息等;另一个方向是给空间结构加上时间维度,考虑如何利用网络随时间的变化,更好地完成预测。时间序列在描述时间信息上取得了较好的效果,将历史上各时间段的网络信息表示为离散的时间序列图,并进行链接预测,主要有两种方式。一种是节点间链接次数的时间序列,仅仅根据节点间过去的链接次数预测未来的链接情况,取得了与静态方法类似的结果,将其与静态方法相结合,能进一步提高预测效果。这种方法的优势在于,考虑链接历史上出现的次数而不是是否出现,时间序列模型较好地利用了链接的变化情况及最近时间的链接信息。同时,混合模型将静态方法预测新链接的能力与时间序列预测重复链接的能力结合起来,是一种较为全面的方法。这种方法存在的问题是,对于新链接,由于失去了链接次数时间序列,混合模型就降级成了静态相似度方法;此外,混合模型将最终的静态方法预测值与时间序列预测值相乘,难以描述每个时间段的网络信息。另一种时间序列方法做出了改进,采用节点相似性分数的时间序列,根据节点间历史上各时间段的相似性分数,预测未来的相似性,从而预测链接情况。这种方法也尝试将节点间通过整个网络计算的相似性分数与节点间真正发生的链接次数结合,混合模型将每个时间段的相似性分数与链接次数归一化后相加,以此作为时间序列的输入,然后以一元时间序列预测值作为未来链接发生的分数。但是,由于模型过于简单未能描述相似性分数与链接次数的关系,两者的变化规律不同,混合模型得到的结果反而不如仅仅采用相似性分数时间序列。针对以上不足,本文提出了一种新的基于节点相似度和链接次数组合时序的链接预测方法SOTS(Similarities and Occurrences Time Series)。首先通过有趋向的随机游走,计算历史各时间段节点间的相似性分数,然后采用时间序列模型将其与各时间段节点间的实际链接次数组合起来,预测下个时间段各节点对发生链接的可能性。通过两种组合时间序列模型,本文研究了节点间相似性分数与实际链接次数的关系。该方法能够用于演化网络中未来新的链接以及重复出现链接的预测。本文贡献如下:(1)采用一种新的方法将属性社区与网络拓扑组合起来,计算相似性分数。(2)研究了链接的形成与相似性分数的关系。(3)将相似性分数与链接次数有机结合,充分提取每个时间段的信息。尤其是二元时间序列模型的结合方式,有效描述了二者随时间的协同演化。通过对时间序列与静态信息的分析,我们将网络结构的时间、空间两个维度结合起来。该方法比传统方法利用的网络信息更加全面,模型更加有效,经过详实的实验,本文在中文DBLP数据集上评价了该方法与前人方法的预测效果,实验证明,该方法提高了约15%的预测准确度,达到了本文工作的预期目标。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
链接相似度论文参考文献
[1].张波.基于维基百科链接特征的词语语义相似度计算[J].软件工程.2019
[2].许国威.基于节点相似度和链接次数组合时序的链接预测算法[D].吉林大学.2017
[3].姚飞亚,陈崚.基于相似度传播的二分网络链接预测[J].计算机科学.2016
[4].韦莎,朱焱.主题相似度与链接权重相结合的垃圾网页排序检测[J].计算机应用.2016
[5].陆钊,李石君.基于链接相似度和作弊系数的Spam网页识别算法[J].计算机工程与科学.2015
[6].杨巧.基于改进相似度的社会网络链接预测研究[D].华南理工大学.2015
[7].张涛,刘康,赵军.一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用[J].中文信息学报.2015
[8].张应龙,李翠平,陈红.信息网络中一个有效的基于链接的结点相似度度量[J].软件学报.2014
[9].仇丽青,陈卓艳.基于共有邻居相似度的链接预测算法[J].信息与电脑(理论版).2014
[10].靳黛露,张月琴,张明西.基于链接关系的Web页面相似度搜索[J].计算机应用与软件.2014