序列相似性分析论文-陈海兰,高学东

序列相似性分析论文-陈海兰,高学东

导读:本文包含了序列相似性分析论文开题报告文献综述及选题提纲参考文献,主要关键词:时间序列,相似性度量,聚类,波动特征

序列相似性分析论文文献综述

陈海兰,高学东[1](2019)在《基于波动特征的时间序列相似性度量及聚类分析》一文中研究指出在时间序列数据挖掘中,传统的时间序列相似性度量算法没有考虑反映时间序列结构的关键点特征。为了解决该问题,文章提出了基于波动特征的时间序列相似性度量算法,并通过聚类进行了效果分析。研究中首先利用小波分析方法提取时间序列整体变化趋势,然后给出了针对小波分析得到的序列进行波动点识别的方法,构造出包含时间序列重要波动信息的波动点序列。最后提出了非等长时间序列的相似性度量方法计算波动点序列间的距离。实验结果表明,该时间序列度量方法能更好地反映时间序列的趋势特征。(本文来源于《统计与决策》期刊2019年11期)

王刚,郭雪梅[2](2019)在《融合用户行为分析和兴趣序列相似性的个性化推荐方法研究》一文中研究指出[目的/意义]将基于时间信息的用户兴趣序列引入推荐方法之中可以动态获取用户的兴趣偏好,提高推荐质量。[方法/过程]首先,通过用户对资源的访问顺序得到用户兴趣序列,并提取用户访问记录之间的最长公共兴趣子序列(LCISS)和全部公共兴趣子序列(ACISS),以此为基础计算用户之间的兴趣序列相似性;然后对用户行为量化,得到用户—项目评分矩阵;最后,将用户兴趣序列相似性与用户相似性度量相结合,提出了基于用户兴趣序列的改进协同过滤推荐方法。[结果/结论]文章提出的方法与基于用户协同过滤推荐和混合推荐方法在实验数据集进行比较,实验结果发现该方法在推荐效果上优于对比方法。此外,通过实验数据分析了推荐方法中的参数取值对推荐效果的影响。[局限]由于动态获取用户兴趣序列的变化,使得当用户数量及访问资源增多时,推荐的时间复杂度上升。(本文来源于《情报理论与实践》期刊2019年07期)

张静,周小安,赵宇[3](2019)在《基于多尺度熵的DNA序列相似性分析》一文中研究指出DNA序列的相似性分析已成为当前生物信息学科中的研究热点,对分析算法的需求也逐步增加,基于样本熵的DNA序列相似性分析方法存在一定的效率问题。本文提出了一种基于多尺度熵的分析方法,以7种病毒DNA序列作为实验研究的对象,采用整数法将其分别表示为时间序列,而后通过对比多个时间尺度下序列之间样本熵互值大小来显示序列之间的相关性,并与原有的样本熵算法的分析结果进行比较。实验表明,本文提出多尺度熵分析方法是切实可行的。(本文来源于《智能计算机与应用》期刊2019年01期)

吴东根,周小安[4](2018)在《基于最长公共子序列的DNA序列相似性分析》一文中研究指出近半个世纪以来,大量有关DNA序列相似性分析的方法被不同领域的专家、学者挖掘出来,在生物信息学领域取得了不错的进展。针对DNA序列的相似性分析,本文提出了一种新方法,即最长公共子序列方法,以7种病毒DNA序列和10种伊球蛋白(globin)基因的第一个外显子DNA序列作为分析对象,来验证最长公共子序列方法对DNA相似性的分析是否有效,并分析其优缺点。实验结果表明,最长公共子序列方法对DNA序列的相似性分析是有效的。(本文来源于《智能计算机与应用》期刊2018年06期)

潘以红,钱东,朱平[5](2018)在《蛋白质序列图形变换及其相似性聚类分析》一文中研究指出基于氨基酸的疏水性和相对分子质量,先把20种氨基酸分为8类,按不同间隔角度放置于圆周上。根据z轴坐标的划分,建立一个坐标空间。将蛋白质序列中的氨基酸按排列顺序映射到空间坐标系中,得到序列的3D模型。将3D模型转换为20维矩阵图,分析序列中氨基酸对数量特征及相似性。进一步将空间坐标转换为数值序列,进行离散傅里叶变换(discrete Fourier transform,DFT),得到原蛋白质序列的功率谱,将不同长度的功率谱扩展到数据集中最长序列的长度m维。再通过计算功率谱序列间的欧氏距离来度量序列相似性,构建系统发育树。最后对不同数据集进行验证,结果显示:聚类结果与矩阵图的分析相符,且优于其他算法的效果,表明此算法对蛋白质相似性研究具有一定的有效性。(本文来源于《生命科学研究》期刊2018年03期)

赵宇[6](2018)在《基于多尺度熵的DNA序列相似性分析》一文中研究指出人类基因组计划的完成,分子生物学技术迅猛发展,庞大数量的基因序列数据被获得,人们的研究重点逐渐向着数据分析转变。在这个波澜壮阔的后基因时代中,生物信息学的出现标志着人们提出了一门研究生物学数据的新型交叉学科,它是以计算机和网络为处理工具,运用数学、统计学、物理学和信息学等相关理论和方法来深入研究核酸和蛋白质等生物大分子。我们迫切需要处理的任务就是分析和理解生物序列数据所要表达的生物意义和深刻内涵。目前科学家们将研究重点放置于研究DNA和蛋白质等生物大分子以及它们之间的关联性等方面的问题。生物信息学已经走在了生命科学和自然科学深入研究的前沿。DNA序列相似性分析是生物信息学中基础而又具有重要意义的研究课题,它在研究生物序列的结构与功能、生物进化关系和物种分类等方面都扮演着至关重要的角色。本文基于多尺度熵对DNA序列的相似性进行分析,主要研究的内容和创新点如下:1)通过图形和数值两种表示方法,对七种病毒DNA序列进行了转换,然后计算每个序列的样本熵以及各个序列之间的互样本熵。通过实验数据说明了利用样本熵和互样本熵的方法对DNA序列相似性进行分析是切实可行的,而且选择合适的序列表示方法是非常重要的。2)通过滑动窗口的方法对DNA序列的局部相似性进行了动态仿真,使用不同的窗口大小并对该窗口内的序列求其样本熵,然后对得到的图形进行观察,找到了在不同表示方法下的“最匹配”窗口大小。利用“最匹配”的窗口进行动态仿真,得到的图形既能够清晰地观察序列之间的相似程度,又能够判断序列之间差异发生的大致位置。3)在多个时间尺度下对DNA序列的样本熵进行仿真计算,证明了多尺度熵比样本熵在序列相似性分析中具有更好的效果,最后还与DTW算法进行比较,加强了实验结果的说服力,证明了使用多尺度熵对DNA序列相似性分析方法切实可行。(本文来源于《深圳大学》期刊2018-06-30)

王培屹[7](2018)在《时间序列数据挖掘中的特征表示与相似性度量方法研究分析》一文中研究指出随着信息技术的快速发展,时间序列的数据量增长速度也逐步加快。与此同时,数据挖掘技术在时间序列数据库中的应用也越来越普遍。通过将把相同长度和不同长度的时间序列作为对象进行深入的研究,探讨各种表示方法的内涵与特征,使这些表示方法更加完善以及更好地应用于时间序列数据的挖掘工作中,从而能够更加方便有效地获取有价值的信息。(本文来源于《电脑与电信》期刊2018年06期)

王磊[8](2018)在《基于位置序列的蛋白质序列相似性分析及其应用》一文中研究指出随着生物信息学的应运而生和人类基因组进化的提出和发展,越来越多的生物序列数据被广泛应用到科学研究中,而生物序列数据中蕴含着大量的生物信息,且随着科学技术的快速发展,越来越多的蛋白质序列需要进行分析。蛋白质是保证生命活动的物质基础,通过对蛋白质的了解,人类一方面可以更好地认识生命的本质,另一方面还可以促进人类的健康发展。蛋白质也是遗传信息的载体,所以研究蛋白质具有极其重要的生物学意义。蛋白质序列可以决定蛋白质结构,进而决定蛋白质的功能。所以对蛋白质序列的分析是进行蛋白质的结构和功能分析的基础,也是根据已知序列对未知序列进行研究的基础。基于氨基酸的位置信息,本文对蛋白质序列的相似性分析方法进行了相关研究,主要内容包括以下两点:(1)通过定义蛋白质序列的两种k-字区间平均距离,构建蛋白质序列的数值向量表示,在此基础上提出了两种基于k-字位置序列的蛋白质序列的相似性分析方法,分别称为标准化的k-字区间平均距离的方法和改进的标准化的k-字区间平均距离的方法。利用向量之间的欧氏距离或曼哈顿距离得到物种间的相似性距离,进而得到序列的聚类图。以9个物种ND5蛋白质序列和8个物种的ND6蛋白质序列两个数据集来验证这两个方法的实用性和有效性。通过交叉验证方法可知基于改进的标准化的k-字区间平均距离的方法在准确度和标准差上均优于基于标准化的k-字区间平均距离的方法。(2)将氨基酸的9个经过标准化处理后的物化性质和氨基酸出现的频率和平均位置结合起来构建了蛋白质序列的49-维的数值向量表示。利用向量间的欧氏距离以刻画物种间的相似性距离,进而可以得到序列间的系统进化树。利用该方法构建了9个物种ND5蛋白质序列和8个物种ND6蛋白质序列的系统进化树。以成熟的比对方法Clustal W的相似距离为标准,评价了本文提出的非比对分析方法,结果表明:基于标准化后的物化性质的方法与基于k-字位置序列的数值化表示方法和已有方法相比较,不仅在数值化向量表示的维数上相对较低,且最终的分类结果较为理想和稳定。最后,将本文提出的方法应用到28个流感病毒的蛋白质序列数据集上,结果表明:本文的方法是可以广泛有效地应用到蛋白质序列的比较上。(本文来源于《西北农林科技大学》期刊2018-05-01)

吕芳,郭文,丁刚,刘玮,詹冬梅[9](2018)在《中国近海铜藻ITS与coxⅠ序列相似性分析》一文中研究指出本研究分别对2016和2017年中国近海10个铜藻(Sargassumhorneri)漂浮地理种群以及3个定生种群的51个采集样本进行了ITS和coxⅠ序列分析及相似性比对。结果显示,51个样本的coxⅠ序列完全一致,ITS序列存在2个变异位点,按基因型的异同可分为4个类型,其中大连龙王塘、烟台大钦岛和南隍城岛的漂浮铜藻基因型相同,青岛金沙滩漂浮型、烟台大钦岛和大连獐子岛的定生铜藻基因型相同,威海俚岛和温州洞头的漂浮铜藻基因型相同,青岛雕塑园、王哥庄、大珠山、威海乳山的漂浮型和枸杞岛定生铜藻基因型相同,而同一种群内部即便是不同年份的个体间基因型并没有差异。基于ITS序列构建的系统树显示,来自中国的所有铜藻样本聚为一支,与来自韩国的铜藻样本有一定的遗传距离。以上结果说明,我国近海漂浮和定生铜藻的不同地理株间ITS和coxⅠ的遗传变异水平较低,漂浮铜藻可能具有不同的来源,为进一步探明中国近海海域铜藻的分子遗传背景提供依据。(本文来源于《渔业科学进展》期刊2018年06期)

钟翩宇[10](2017)在《基于复杂网络特征的DNA和蛋白质序列相似性分析》一文中研究指出随着高通量测序技术的发展,特别人类基因组计划和千人基因组计划的完成,人类积累了大量的DNA和蛋白质序列数据。分析和理解这些DNA序列和蛋白质序列的特征、功能、结构和物种进化是目前生物学家承待解决的问题,也是一项极具挑战性的工作。本文从一个全新的角度研究DNA和蛋白质序列的相似性,即序列的进化特征。利用DNA和蛋白质顺式序列构造复杂网络,利用复杂网络特征研究DNA和蛋白质序列的相似性。对于DNA序列,借鉴生物学的中心法则的思想为DNA序列构造5种复杂网络。选择9个物种的线粒体DNA序列为例,利用每个网络的特征为9个物种的线粒体DNA序列构造向量,根据欧几里德距离和向量夹角余弦作为度量构造相似性矩阵,利用相似性矩阵构建系统发育树。由此产生的9个种物种之间的系统发育树表示的物种之间的亲缘关系与实际情况一致。然后对构造的5种复杂网络中的部分复杂网络的全局特征基于向量的欧几里德距离或向量夹角余弦分析9个物种的线粒体DNA序列的相似性。由此产生的9个种物种之间的系统发育树表示的物种之间的亲缘关系与实际情况部分一致。最后对9个物种的线粒体DNA序列的5个顺式核苷酸序列复杂网络的局部特征分析DNA序列的相似性。以9个物种的顺式五核苷酸序列网络的拓扑系数为例来说明DNA序列的相似性。对蛋白质序列,首先对每条蛋白质序列构造2个网络,分别为二和叁氨基酸顺式序列网络。然后,利用每个网络的14个特征为每个蛋白质序列构造向量,根据向量的欧几里德距离作为度量构造相似性矩阵,利用相似性矩阵构建系统发育树。由此产生的10个物种之间的亲缘关系与实际情况基本一致。我们还考查只用叁氨基酸顺式序列网络的全局特征基于向量的欧几里德距离分析蛋白质序列的相似性。对蛋白质二和叁氨基酸顺式序列网络以及叁氨基酸顺式序列网络基于全局特征进行相似性分析。结果显示两个网络基于欧几里德距离的相似性矩阵建立的10个物种的系统发育树基本相同。最后,利用构造的蛋白质序列的2个顺式氨基酸序列复杂网络的局部特征分析蛋白质序列的相似性。(本文来源于《华南理工大学》期刊2017-05-17)

序列相似性分析论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

[目的/意义]将基于时间信息的用户兴趣序列引入推荐方法之中可以动态获取用户的兴趣偏好,提高推荐质量。[方法/过程]首先,通过用户对资源的访问顺序得到用户兴趣序列,并提取用户访问记录之间的最长公共兴趣子序列(LCISS)和全部公共兴趣子序列(ACISS),以此为基础计算用户之间的兴趣序列相似性;然后对用户行为量化,得到用户—项目评分矩阵;最后,将用户兴趣序列相似性与用户相似性度量相结合,提出了基于用户兴趣序列的改进协同过滤推荐方法。[结果/结论]文章提出的方法与基于用户协同过滤推荐和混合推荐方法在实验数据集进行比较,实验结果发现该方法在推荐效果上优于对比方法。此外,通过实验数据分析了推荐方法中的参数取值对推荐效果的影响。[局限]由于动态获取用户兴趣序列的变化,使得当用户数量及访问资源增多时,推荐的时间复杂度上升。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

序列相似性分析论文参考文献

[1].陈海兰,高学东.基于波动特征的时间序列相似性度量及聚类分析[J].统计与决策.2019

[2].王刚,郭雪梅.融合用户行为分析和兴趣序列相似性的个性化推荐方法研究[J].情报理论与实践.2019

[3].张静,周小安,赵宇.基于多尺度熵的DNA序列相似性分析[J].智能计算机与应用.2019

[4].吴东根,周小安.基于最长公共子序列的DNA序列相似性分析[J].智能计算机与应用.2018

[5].潘以红,钱东,朱平.蛋白质序列图形变换及其相似性聚类分析[J].生命科学研究.2018

[6].赵宇.基于多尺度熵的DNA序列相似性分析[D].深圳大学.2018

[7].王培屹.时间序列数据挖掘中的特征表示与相似性度量方法研究分析[J].电脑与电信.2018

[8].王磊.基于位置序列的蛋白质序列相似性分析及其应用[D].西北农林科技大学.2018

[9].吕芳,郭文,丁刚,刘玮,詹冬梅.中国近海铜藻ITS与coxⅠ序列相似性分析[J].渔业科学进展.2018

[10].钟翩宇.基于复杂网络特征的DNA和蛋白质序列相似性分析[D].华南理工大学.2017

标签:;  ;  ;  ;  

序列相似性分析论文-陈海兰,高学东
下载Doc文档

猜你喜欢