字符串核函数论文-沈黎,肖勇,刘莺

字符串核函数论文-沈黎,肖勇,刘莺

导读:本文包含了字符串核函数论文开题报告文献综述及选题提纲参考文献,主要关键词:中文关键字符串核函数,农业文本,文本分类

字符串核函数论文文献综述

沈黎,肖勇,刘莺[1](2019)在《一种基于中文关键字符串核函数的分类算法》一文中研究指出提出了一种基于中文关键字符串核函数的分类算法,并在农业文本上进行了分类性能测试.实验结果表明,与传统的中文分类算法相比,基于中文关键字符串核函数的分类算法准确率更高.(本文来源于《吉首大学学报(自然科学版)》期刊2019年01期)

王天祺[2](2016)在《用于预测剪切位点的一种改进字符串核函数研究》一文中研究指出随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表达为蛋白质的DNA片段,这一步骤称为基因识别或基因预测。基因预测的难点是真核生物的基因识别算法,与原核生物相比,真核生物的一个主要不同是只有外显子部分才会最终编码成蛋白质。外显子与内含子的边界称为剪切位点,因此剪切位点的预测成为了基因识别的一个关键问题。这一问题可以转换成碱基序列文本的二分类问题。目前,支持向量机模型以及核函数方法在剪切位点识别算法的研究中受到了广泛的关注。在生物信息学问题中常用的核函数有两种,一种方法是基于特征空间的核函数,另一种是直接根据序列信息计算序列的相似性,也就是字符串核函数。目前字符串核函数在识别剪切位点问题上的性能已经达到了研究的前沿水平。在已经提出的用于剪切位点预测的字符串核函数中,Weighted Degree(WD)核是其中性能最好的一种。本文在分析WD核函数有效性的基础上,提出了WD核函数的准确率与碱基保守性的分布位置有关的假设以及验证该假设的实验方案。本文定义叁个变量描述在某一位置上组成DNA的四种核苷酸碱基A、G、C和T分别在正例数据和反例数据上的分布以及其分布的差异,使用这叁个变量定义关键因子的概念,用于表示该位置上的碱基对于区分正例和反例的重要程度。并使用这个概念在公共数据集上进行实验从而选出了可能会在分类时有重要作用的“关键位置”。通过在计算核函数时分别去除或保留这些位置上的碱基信息,证明了碱基所在位置这一信息对WD核函数预测剪切位点性能有着重要影响并且某一位置对应的关键因子可以用于描述该位置上的碱基在分类时的重要程度。在证明了WD核函数的性能与碱基所在位置有关后,本文对碱基位置的重要性进行扩展,即可能存在会对WD核函数性能造成不良影响的“迷惑位置”,并提出了迷惑因子的概念用于找出这种位置。基于找到的关键位置和迷惑位置,对每个位置分别按其对WD核函数的影响程度的不同赋予相应权值,并在计算核函数时使用。本文将这种基于位置重要性赋予权值的改进WD核函数方法称为Adaptive WD核函数,实验证明,在两个剪切位点公共数据集上,Adaptive WD核函数均能取得优于WD核函数的性能。随后为得到更好的分类效果,本文提出使用以Adaptive WD核为核函数的支持向量机分类器作为基分类器,分别应用Bagging和Adaboost两种集成学习方法提升预测效果。实验结果表明使用两种集成学习方法后,分类器的性能均能提升2%左右,证明了使用集成学习方法有着良好的提升效果。(本文来源于《哈尔滨工业大学》期刊2016-12-01)

史永泉[3](2012)在《基于GPU的字符串核函数并行实现》一文中研究指出字符串相似性匹配是计算机领域最基础的技术之一,被广泛应用于网络安全、信息检索等领域,同时还被广泛应用于生物学信息处理,文本词根识别等应用。然而随着网络发展的日新月异,网络数据流量成倍增加以及匹配要求从精确匹配到模糊匹配的日益复杂。字符串的匹配处理速度慢,不足以适应当今大规模数据集任务的要求,迫切需要提出新的更有效以及质量更高的算法来满足大规模数据集的处理需求。当今GPU(图形处理器)更新换代提速,GPU功能越来越强大。NVIDIA公司于2007年推出CUDA(Compute Unified Device Architecture)架构,使显卡用于解决图像计算以外的任务。CUDA这一新的基础架构可以用来解决工业、商业以及科学计算方面的复杂问题。采用CUDA具有众多优点:便宜的价格,高效并行性,高密集运算,超长流水线。现在CPU+GPU(中央处理器+图形处理器)异构处理平台已逐渐成为主流的并行解决方案。本文旨在利用CPU+GPU异构处理平台的高效并行能力,更为有效的进行大规模数据集处理。本论文首先概述基于字符串核函数的SVM(支持向量机)的广泛应用及面临的挑战,同时论述了GPU的架构特点以及NVIDIA推出的专用平台CUDA(the Compute Unified Device Architecture,计算统一设备框架),详细论述了CUDA中线程的调度、内存的种类以及分配和充分发挥GPU计算能力的原则,并回顾了国内外基于CUDA的字符串处理研究。其次本文对经典的字符串核函数算法一一编辑距离核函数(Edit Distance Kerne)、p频谱核函数(P-spectrum Kernel)、序列间隔加权核函数(Gap-Weighted Subsequence Kernel1一一进行了GPU并行优化,结合CPU+GPU异构平台的特点将上述核函数算法使用CUDA平台并行化向GPU移植。使用Reuters-21578和SpamAssassin公共语料库对本文的gpuSKSVM进行评估,叁种核函数的计算获得了比原系统7-33倍的速度提升。(本文来源于《山东大学》期刊2012-04-20)

王义,张阳,李书琴[4](2007)在《基于字符串核函数的热点新闻发现系统》一文中研究指出随着网络新闻类门户网站的不断增多,如何从纷繁复杂的新闻信息中得到当日热点新闻,为用户提供一个方便的访问界面成为当前主要问题。通过对超文本进行聚类分析从而得到热点新闻,采用字符串核函数(string kerne l)来计算文本相似度,并将其应用到超文本聚类分析中。实验表明字符串核对于超文本的聚类分析有较好效果。(本文来源于《广西师范大学学报(自然科学版)》期刊2007年04期)

字符串核函数论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表达为蛋白质的DNA片段,这一步骤称为基因识别或基因预测。基因预测的难点是真核生物的基因识别算法,与原核生物相比,真核生物的一个主要不同是只有外显子部分才会最终编码成蛋白质。外显子与内含子的边界称为剪切位点,因此剪切位点的预测成为了基因识别的一个关键问题。这一问题可以转换成碱基序列文本的二分类问题。目前,支持向量机模型以及核函数方法在剪切位点识别算法的研究中受到了广泛的关注。在生物信息学问题中常用的核函数有两种,一种方法是基于特征空间的核函数,另一种是直接根据序列信息计算序列的相似性,也就是字符串核函数。目前字符串核函数在识别剪切位点问题上的性能已经达到了研究的前沿水平。在已经提出的用于剪切位点预测的字符串核函数中,Weighted Degree(WD)核是其中性能最好的一种。本文在分析WD核函数有效性的基础上,提出了WD核函数的准确率与碱基保守性的分布位置有关的假设以及验证该假设的实验方案。本文定义叁个变量描述在某一位置上组成DNA的四种核苷酸碱基A、G、C和T分别在正例数据和反例数据上的分布以及其分布的差异,使用这叁个变量定义关键因子的概念,用于表示该位置上的碱基对于区分正例和反例的重要程度。并使用这个概念在公共数据集上进行实验从而选出了可能会在分类时有重要作用的“关键位置”。通过在计算核函数时分别去除或保留这些位置上的碱基信息,证明了碱基所在位置这一信息对WD核函数预测剪切位点性能有着重要影响并且某一位置对应的关键因子可以用于描述该位置上的碱基在分类时的重要程度。在证明了WD核函数的性能与碱基所在位置有关后,本文对碱基位置的重要性进行扩展,即可能存在会对WD核函数性能造成不良影响的“迷惑位置”,并提出了迷惑因子的概念用于找出这种位置。基于找到的关键位置和迷惑位置,对每个位置分别按其对WD核函数的影响程度的不同赋予相应权值,并在计算核函数时使用。本文将这种基于位置重要性赋予权值的改进WD核函数方法称为Adaptive WD核函数,实验证明,在两个剪切位点公共数据集上,Adaptive WD核函数均能取得优于WD核函数的性能。随后为得到更好的分类效果,本文提出使用以Adaptive WD核为核函数的支持向量机分类器作为基分类器,分别应用Bagging和Adaboost两种集成学习方法提升预测效果。实验结果表明使用两种集成学习方法后,分类器的性能均能提升2%左右,证明了使用集成学习方法有着良好的提升效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

字符串核函数论文参考文献

[1].沈黎,肖勇,刘莺.一种基于中文关键字符串核函数的分类算法[J].吉首大学学报(自然科学版).2019

[2].王天祺.用于预测剪切位点的一种改进字符串核函数研究[D].哈尔滨工业大学.2016

[3].史永泉.基于GPU的字符串核函数并行实现[D].山东大学.2012

[4].王义,张阳,李书琴.基于字符串核函数的热点新闻发现系统[J].广西师范大学学报(自然科学版).2007

标签:;  ;  ;  

字符串核函数论文-沈黎,肖勇,刘莺
下载Doc文档

猜你喜欢