字符串核论文-沈黎,肖勇,刘莺

字符串核论文-沈黎,肖勇,刘莺

导读:本文包含了字符串核论文开题报告文献综述及选题提纲参考文献,主要关键词:中文关键字符串核函数,农业文本,文本分类

字符串核论文文献综述

沈黎,肖勇,刘莺[1](2019)在《一种基于中文关键字符串核函数的分类算法》一文中研究指出提出了一种基于中文关键字符串核函数的分类算法,并在农业文本上进行了分类性能测试.实验结果表明,与传统的中文分类算法相比,基于中文关键字符串核函数的分类算法准确率更高.(本文来源于《吉首大学学报(自然科学版)》期刊2019年01期)

马淑娟[2](2018)在《基于字符串核的股吧文本情感分类》一文中研究指出传统的金融学理论是在股民满足理性假设的基础上提出的,此理论只适用于比较成熟的股票市场,要求股民可以理智地对股票市场进行判断,对于所得到的市场信息可以进行正确地解读。很显然对于尚不成熟的中国股市而言,这种要求有些苛刻。中国股市现在仍处于不断发展的阶段,而且还会呈现暴涨暴跌的状况,行为金融学家对此进行了相关研究。研究结果表明,股票市场中非理性股民的投资行为会对股票涨跌造成一定的影响,股民投资情绪是否高涨也和股市有着密切的关系,所以分析股民的情绪变化对于最终分析股票的涨跌情况,有着至关重要的作用。在如今互联网时代,大部分股民可以在网上进行交流和获取信息。股吧就是一个股票交流平台,参与对象主要是股民,股民通过股吧可以分享投资经验、表达自我观点,同时也为分析股民当下的情感倾向提供了平台。本文以股吧(东方财富网股吧)评论文本作为研究对象,对其进行情感倾向分类研究。首先通过Scrapy爬虫技术抓取股吧评论的文本,进行文本筛选以及词汇过滤,而后应用提出的基于LSA和PageRank的同义词识别算法,对文本进行同义词替换,最终在支撑向量机(Support Vector Machine,SVM)的基础上,利用提出的MSK字符串核对股吧文本进行情感分类,通过实验验证,MSK字符串核的文本分类效果优于传统字符串核函数和常用核函数。本文的主要研究内容如下:1.提出了基于LSA和PageRank的同义词识别算法。该算法将LSA和PageRank两个算法相结合,既保留了LSA中语义挖掘的优点,又利用PageRank算法对文中的语句结构信息进行了整合,最终通过实验结果分析,发现将二者进行结合可以有效地提高同义词识别的效率。2.提出了MSK字符串核函数。首先在字符串的基础上提出了子序列权重的算法,它由子序列紧密度和子序列重要度组成。在利用字符串核函数对文本进行情感分类时,在子序列权重基础上,通过改进传统字符串核函数的核值计算公式,得到MSK字符串核函数。通过实验结果验证,MSK核函数的文本分类效果优于传统字符串核函数和常用核函数。(本文来源于《北京工业大学》期刊2018-06-01)

王天祺[3](2016)在《用于预测剪切位点的一种改进字符串核函数研究》一文中研究指出随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表达为蛋白质的DNA片段,这一步骤称为基因识别或基因预测。基因预测的难点是真核生物的基因识别算法,与原核生物相比,真核生物的一个主要不同是只有外显子部分才会最终编码成蛋白质。外显子与内含子的边界称为剪切位点,因此剪切位点的预测成为了基因识别的一个关键问题。这一问题可以转换成碱基序列文本的二分类问题。目前,支持向量机模型以及核函数方法在剪切位点识别算法的研究中受到了广泛的关注。在生物信息学问题中常用的核函数有两种,一种方法是基于特征空间的核函数,另一种是直接根据序列信息计算序列的相似性,也就是字符串核函数。目前字符串核函数在识别剪切位点问题上的性能已经达到了研究的前沿水平。在已经提出的用于剪切位点预测的字符串核函数中,Weighted Degree(WD)核是其中性能最好的一种。本文在分析WD核函数有效性的基础上,提出了WD核函数的准确率与碱基保守性的分布位置有关的假设以及验证该假设的实验方案。本文定义叁个变量描述在某一位置上组成DNA的四种核苷酸碱基A、G、C和T分别在正例数据和反例数据上的分布以及其分布的差异,使用这叁个变量定义关键因子的概念,用于表示该位置上的碱基对于区分正例和反例的重要程度。并使用这个概念在公共数据集上进行实验从而选出了可能会在分类时有重要作用的“关键位置”。通过在计算核函数时分别去除或保留这些位置上的碱基信息,证明了碱基所在位置这一信息对WD核函数预测剪切位点性能有着重要影响并且某一位置对应的关键因子可以用于描述该位置上的碱基在分类时的重要程度。在证明了WD核函数的性能与碱基所在位置有关后,本文对碱基位置的重要性进行扩展,即可能存在会对WD核函数性能造成不良影响的“迷惑位置”,并提出了迷惑因子的概念用于找出这种位置。基于找到的关键位置和迷惑位置,对每个位置分别按其对WD核函数的影响程度的不同赋予相应权值,并在计算核函数时使用。本文将这种基于位置重要性赋予权值的改进WD核函数方法称为Adaptive WD核函数,实验证明,在两个剪切位点公共数据集上,Adaptive WD核函数均能取得优于WD核函数的性能。随后为得到更好的分类效果,本文提出使用以Adaptive WD核为核函数的支持向量机分类器作为基分类器,分别应用Bagging和Adaboost两种集成学习方法提升预测效果。实验结果表明使用两种集成学习方法后,分类器的性能均能提升2%左右,证明了使用集成学习方法有着良好的提升效果。(本文来源于《哈尔滨工业大学》期刊2016-12-01)

史永泉[4](2012)在《基于GPU的字符串核函数并行实现》一文中研究指出字符串相似性匹配是计算机领域最基础的技术之一,被广泛应用于网络安全、信息检索等领域,同时还被广泛应用于生物学信息处理,文本词根识别等应用。然而随着网络发展的日新月异,网络数据流量成倍增加以及匹配要求从精确匹配到模糊匹配的日益复杂。字符串的匹配处理速度慢,不足以适应当今大规模数据集任务的要求,迫切需要提出新的更有效以及质量更高的算法来满足大规模数据集的处理需求。当今GPU(图形处理器)更新换代提速,GPU功能越来越强大。NVIDIA公司于2007年推出CUDA(Compute Unified Device Architecture)架构,使显卡用于解决图像计算以外的任务。CUDA这一新的基础架构可以用来解决工业、商业以及科学计算方面的复杂问题。采用CUDA具有众多优点:便宜的价格,高效并行性,高密集运算,超长流水线。现在CPU+GPU(中央处理器+图形处理器)异构处理平台已逐渐成为主流的并行解决方案。本文旨在利用CPU+GPU异构处理平台的高效并行能力,更为有效的进行大规模数据集处理。本论文首先概述基于字符串核函数的SVM(支持向量机)的广泛应用及面临的挑战,同时论述了GPU的架构特点以及NVIDIA推出的专用平台CUDA(the Compute Unified Device Architecture,计算统一设备框架),详细论述了CUDA中线程的调度、内存的种类以及分配和充分发挥GPU计算能力的原则,并回顾了国内外基于CUDA的字符串处理研究。其次本文对经典的字符串核函数算法一一编辑距离核函数(Edit Distance Kerne)、p频谱核函数(P-spectrum Kernel)、序列间隔加权核函数(Gap-Weighted Subsequence Kernel1一一进行了GPU并行优化,结合CPU+GPU异构平台的特点将上述核函数算法使用CUDA平台并行化向GPU移植。使用Reuters-21578和SpamAssassin公共语料库对本文的gpuSKSVM进行评估,叁种核函数的计算获得了比原系统7-33倍的速度提升。(本文来源于《山东大学》期刊2012-04-20)

张伟[5](2009)在《双阈值控制的字符串核SVM研究》一文中研究指出支持向量机(SVM)是在统计学习理论(SLT)的基础上发展起来的一种机器学习方法。它建立在结构风险最小原则(SRM)之上,能有效避免过学习、维数灾难、产生局部极小点等问题,在小样本条件下仍具有良好的推广能力。本文旨在对序列最小优化算法(SMO)进行改进,并构造一个字符串核SVM。论文对SMO算法进行详细的分析,指出当所有训练样本都在边界,阈值无法确定时,使用取上下界均值方法带来的优化效率下降问题。针对这个问题,本文提出使用双阈值控制的方法,将KKT条件进行推导转化形成新的优化判断条件,避免了不正确的阈值更新引起的冗余计算。然后本文讨论了结构化数据向量转化中的信息丢失问题,引入结构化核函数的概念。并根据字符串结构特征,构造了一个有限字符串结构核函数,准确地描述了字符串的相似度。并将其应用于字符串样本训练,形成基于字符串核的支持向量机(SSVM),从而将SVM适用范围拓展到结构化数据。实验证明,双阈值SMO算法比SMO算法效率更高,SSVM在字符串分类中能达到较好的效果。最后,本文在LIBSVM基础上开发了一个双阈值控制的SSVM模拟系统。(本文来源于《天津师范大学》期刊2009-06-01)

王义,张阳,李书琴[6](2007)在《基于字符串核函数的热点新闻发现系统》一文中研究指出随着网络新闻类门户网站的不断增多,如何从纷繁复杂的新闻信息中得到当日热点新闻,为用户提供一个方便的访问界面成为当前主要问题。通过对超文本进行聚类分析从而得到热点新闻,采用字符串核函数(string kerne l)来计算文本相似度,并将其应用到超文本聚类分析中。实验表明字符串核对于超文本的聚类分析有较好效果。(本文来源于《广西师范大学学报(自然科学版)》期刊2007年04期)

游智,李战怀,张阳[7](2006)在《基于字符串核的免分词中文文本分类方法》一文中研究指出文本分类是获取文本信息的重要一步,现有的分类方法主要是基于统计理论和机器学习的,其中着名的有Bayes[1]、KNN[2]、SVM[3]、神经网络等方法。实验证明这些方法对英文分类都表现出较好的准确性和稳定性[4]。对于中文文本分类,涉及对文本进行分词的工作。但是中文分词本身又是一件困难的事情[5]。论文尝试一种基于字符串核函数的支持矢量机方法来避开分词对中文文本分类,实验表明此方法表现出较好的分类性能。(本文来源于《计算机工程与应用》期刊2006年26期)

字符串核论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

传统的金融学理论是在股民满足理性假设的基础上提出的,此理论只适用于比较成熟的股票市场,要求股民可以理智地对股票市场进行判断,对于所得到的市场信息可以进行正确地解读。很显然对于尚不成熟的中国股市而言,这种要求有些苛刻。中国股市现在仍处于不断发展的阶段,而且还会呈现暴涨暴跌的状况,行为金融学家对此进行了相关研究。研究结果表明,股票市场中非理性股民的投资行为会对股票涨跌造成一定的影响,股民投资情绪是否高涨也和股市有着密切的关系,所以分析股民的情绪变化对于最终分析股票的涨跌情况,有着至关重要的作用。在如今互联网时代,大部分股民可以在网上进行交流和获取信息。股吧就是一个股票交流平台,参与对象主要是股民,股民通过股吧可以分享投资经验、表达自我观点,同时也为分析股民当下的情感倾向提供了平台。本文以股吧(东方财富网股吧)评论文本作为研究对象,对其进行情感倾向分类研究。首先通过Scrapy爬虫技术抓取股吧评论的文本,进行文本筛选以及词汇过滤,而后应用提出的基于LSA和PageRank的同义词识别算法,对文本进行同义词替换,最终在支撑向量机(Support Vector Machine,SVM)的基础上,利用提出的MSK字符串核对股吧文本进行情感分类,通过实验验证,MSK字符串核的文本分类效果优于传统字符串核函数和常用核函数。本文的主要研究内容如下:1.提出了基于LSA和PageRank的同义词识别算法。该算法将LSA和PageRank两个算法相结合,既保留了LSA中语义挖掘的优点,又利用PageRank算法对文中的语句结构信息进行了整合,最终通过实验结果分析,发现将二者进行结合可以有效地提高同义词识别的效率。2.提出了MSK字符串核函数。首先在字符串的基础上提出了子序列权重的算法,它由子序列紧密度和子序列重要度组成。在利用字符串核函数对文本进行情感分类时,在子序列权重基础上,通过改进传统字符串核函数的核值计算公式,得到MSK字符串核函数。通过实验结果验证,MSK核函数的文本分类效果优于传统字符串核函数和常用核函数。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

字符串核论文参考文献

[1].沈黎,肖勇,刘莺.一种基于中文关键字符串核函数的分类算法[J].吉首大学学报(自然科学版).2019

[2].马淑娟.基于字符串核的股吧文本情感分类[D].北京工业大学.2018

[3].王天祺.用于预测剪切位点的一种改进字符串核函数研究[D].哈尔滨工业大学.2016

[4].史永泉.基于GPU的字符串核函数并行实现[D].山东大学.2012

[5].张伟.双阈值控制的字符串核SVM研究[D].天津师范大学.2009

[6].王义,张阳,李书琴.基于字符串核函数的热点新闻发现系统[J].广西师范大学学报(自然科学版).2007

[7].游智,李战怀,张阳.基于字符串核的免分词中文文本分类方法[J].计算机工程与应用.2006

标签:;  ;  ;  

字符串核论文-沈黎,肖勇,刘莺
下载Doc文档

猜你喜欢