吉布斯算法论文-周晓堂

导读:本文包含了吉布斯算法论文开题报告文献综述及选题提纲参考文献，主要关键词:主题模型,潜在狄利克雷分配,主题推断,吉布斯采样

吉布斯算法论文文献综述

周晓堂^[1]（2018）在《主题模型的快速吉布斯采样主题推断算法研究》一文中研究指出随着智能手机的逐渐普及以及互联网尤其是移动互联网的飞速发展,网络上文本类型数据的数量呈现爆炸式地增长,政府、企业以及个人对智能文本挖掘方法的需求越来越强。为解决这些需求,学术界相继提出了一系列智能文本挖掘方法。在已提出的众多文本挖掘方法中,主题模型是一种能够有效地挖掘和发现文本数据中潜在语义主题的非监督学习方法。采用主题模型准确地并快速地挖掘文本数据中的潜在主题能够在较大程度上满足我们在较高概念层次上对大量文本进行组织和管理的需求。因此,在主题模型研究领域中,提高挖掘主题的“准确性”和“时效性”是两个关键的基本问题。其中,在兼顾“准确性”的前提下提高挖掘主题过程的“时效性”是一个较为重要的研究方向。本文主要针对主题模型挖掘过程的“时效性”进行研究,在不改变算法结果“准确性”的前提下提出时效性更高的快速吉布斯采样主题推断算法:~1)针对潜在狄利克雷分配(~(Latent Dirichlet Allocation,LDA))这种较具有代表性和一般性的主题模型,本文提出了一种更适用于长文本数据集主题推断的快速吉布斯采样算法(~(ESparseLDA));~2)针对用于短文本数据集主题挖掘的双词主题模型(~(Biterm Topic Model,BTM)),本文提出了两种快速吉布斯采样主题推断算法(~(SparseBTM)和~(ESparseBTM))。详细地,本文的主要工作内容如下:(1)针对~(LDA)模型的~(SparseLDA)算法在主题推断过程中存在的“重用计算”问题,我们基于~(SparseLDA)算法提出了一种精确的和时效性更高的用于~(LDA)模型主题推断的快速吉布斯采样算法——~(ESparseLDA)算法。~(SparseLDA)算法是用于~(LDA)模型的一种精确的和快速的吉布斯采样主题推断算法。然而,由于在主题推断过程中“相邻词项的词型通常是不同的”导致它“不能重用更多的中间计算结果”。因此,它的时效性受到了限制而不能进一步地得到提高。~(ESparseLDA)算法解决这个问题的核心想法是:首先根据词型重排每个文本内的词项,以使得文本内词型相同的词项聚集在一起;然后采用缓存策略以重用更多的中间计算结果,并最终达到提高算法时效性的目的。~(ESparse LDA)算法完成和~(SparseLDA)算法同样的任务,并且保证结果的精确度不变。我们从理论分析和对比实验两个方面验证了~(ESparse LDA)算法思路的正确性、结果的精确性和收敛速度的时效性。理论上,~(ESparse LDA)算法的时间复杂度低于~(SparseLDA)算法。相应的对比实验结果表明,在实验使用的不同数据集上~(ESparseLDA)算法的时效性能够高于SparseLDA算法~(31.85%)。从实际情况来看,~(ESparseLDA)算法更适用于文本内词型数相对较少且词项数相对较多的长文本数据集(比如小说、专利和学术论文等)。此外需要说明的是,~(ESparseLDA)算法中的核心想法具有一定的一般性,也可以用来为部分其他的主题模型提出相应的快速吉布斯采样主题推断算法。(2)针对~(BTM)模型主题推断过程中存在的“时间复杂度较高”、“收敛时间较长”问题,我们提出了一种精确的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(SparseBTM)算法。~(BTM)模型是一种有效地用于短文本数据集主题挖掘的主题模型,但是它的标准吉布斯采样算法(~(StdBTM)算法)存在“时间复杂度较高”、“收敛时间较长”问题。针对这个问题,我们基于~(StdBTM)算法提出了一种精确的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(SparseBTM)算法。SparseBTM算法的主要想法是通过重用中间计算结果和利用~(BTM)模型中主题~-词型计数矩阵~(NT)W的稀疏性来减少~(StdBTM)算法中不必要的计算,并最终达到降低推断算法时间复杂度和减少模型收敛时间的目的。本质上,~(SparseBTM)算法在时间开销和空间开销上进行了权衡,即通过增加部分空间开销来减少部分时间开销。理论上,~(SparseBTM)算法的时间复杂度低于~(StdBTM)算法。相应的对比实验结果表明,在较大的主题个数(~K为~(1000))设置下,~(SparseBTM)算法的收敛速度可以达到~(StdBTM)算法的~(18)倍。(3)为解决~(BTM)模型的~(SparseBTM)算法在短本文主题推断过程中存在的“重用计算”问题,我们基于~(SparseBTM)算法提出了一种精确的和时效性更高的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(ESparseBTM)算法。SparseBTM算法是~(BTM)模型的一种精确的和快速的吉布斯采样主题推断算法。然而,由于在主题推断过程中“相邻双词词项的双词词型通常是不同的”导致它“不能重用更多的中间计算结果”。因此,它的时效性受到了限制而不能进一步地得到提高。~(ESparseBTM)算法解决这个问题的核心想法是:首先根据双词词型重排整个双词数据集内的所有双词词项,以使得数据集内双词词型相同的所有双词词项聚集在一起;然后采用缓存策略以重用更多的中间计算结果,并最终达到提高算法时效性的目的。~(ESparseBTM)算法完成和~(SparseBTM)算法同样的任务,并且保证结果的精确度不变。我们从理论分析和对比实验两个方面验证了ESparseBTM算法结果的精确性和收敛速度的时效性。理论上,~(ESparseBTM)算法的时间复杂度低于~(SparseBTM)算法。相应的对比实验结果表明,~(ESparseBTM)算法的时效性高于~(SparseBTM)算法,尤其是在双词词型个数与双词词项个数比率较小的数据集上。具体地,在对比实验使用的不同数据集上,~(ESparseBTM)算法的时效性能够高于~(SparseBTM)算法~(39.5%)。(本文来源于《吉林大学》期刊2018-06-01）

裴超^[2]（2018）在《面向吉布斯采样的DNA模体发现算法研究》一文中研究指出众所周知,对基因表达调控机制的揭示和基因调控网络的建立是生物信息学领域的艰巨任务,而且至今难以完成。识别调控元素对于理解和揭示基因调控机制并构建基因调控网络至关重要。调控元素包括顺式调控元素和反式作用因子,转录因子是一种反式作用因子,是开启基因转录的钥匙,因此对转录因子的研究是揭示基因表达调控机制的重要切入点。由经验可知,研究转录因子和其在DNA序列上的结合位点的交互作用有助于探索转录因子的生物意义。对于这种交互作用的研究可以转化为DNA模体发现问题,因此,解决DNA模体发现问题是理解、揭示基因表达调控机制的关键。在数据规模非常大且结构复杂的DNA序列数据集中,想要高效并准确地查找出具有生物意义的模体并在基因中定位这些模体是一个巨大的难题。生物实验技术和计算机信息技术的结合给模体发现问题的解决带来了希望,旨在提出一种解决该问题的高效、高预测准确率算法。为了保持较高时间性能,同时提高算法的模体预测准确率,本文提出一种新的算法。本文的主要研究内容:提出了一种适用于大数据集的高效算法,是一种吉布斯采样和极大团聚类结合的模体发现算法(Combining Parallel Gibbs Sampling with Maximal Cliques for hunting DNA Motif,GSMC)。不局限于OOPS模型和限制固定的模体长度,本文采用ZOOPS模型和模体长度可变机制,基于互斥并行吉布斯采样算法的全局并行搜索的能力、互斥性、快速性、随机性、模体长度可变、可扩展性等优点,结合极大团聚类算法逻辑性强、步骤简单、灵活、可扩展和并行计算效率高等特性,把两个算法进行融合,并对融合算法中的模体信息量函数、模体相似度得分函数及模体聚类函数等进行进一步的优化,避免陷入局部极值,从而找到全局最优解。本文采用互斥并行吉布斯采样算法快速随机生成初始模体,然后基于SPIC列间相似度计量方法计算出所有满足IC的模体对间的相似度,利用极大团聚类算法兼并行计算从而高效地聚类并筛选出最终的候选模体。通过比对实验可以看出,不像当前大多数模体发现算法,本文提出的算法不仅在模体识别准确度上有所提高,同时还保持着较好的时间性能,另外,还能检测出更多辅模体。(本文来源于《湖南大学》期刊2018-05-04）

乔良,郑辉^[3]（2015）在《SIMO系统吉布斯盲迭代均衡算法》一文中研究指出针对符号间干扰信道的多天线分集接收问题,提出一种单输入多输出(SIMO)系统盲迭代均衡算法。该算法利用吉布斯样本法处理思路,在SIMO条件下推导了信道冲击响应、发送符号等未知参数的条件后验分布,根据该条件概率逐个参数进行随机采样,通过不断迭代更新来逼近最大后验概率(MAP)估计的结果。该算法的一个显着特点是具有软输入软输出(SISO)结构,因此在编码系统中可以与信道译码结合,通过联合迭代进一步提升均衡的性能。计算机仿真结果表明,在严重符号间干扰信道条件下,SIMO系统盲迭代均衡算法的性能非常接近于已知信道时迭代均衡算法的性能,距离理想无符号间干扰信道分集合成的性能差距只有约1 d B。(本文来源于《四川大学学报(工程科学版)》期刊2015年03期）

乔良,郑辉^[4]（2015）在《吉布斯采样联合符号检测和相位恢复算法》一文中研究指出针对未知载波相位的符号检测问题,基于吉布斯样本法处理框架,提出了一种贝叶斯符号检测算法。该算法通过对载波相位、发送符号等未知参数进行条件后验分布采样,实现了符号检测和相位估计的联合处理。该算法的一个显着特点是具有软输入软输出结构,因此在编码系统中可以与信道译码结合进行迭代处理,从而进一步改善符号检测的性能。计算机仿真的结果表明,该算法同传统的非数据辅助(non-data-aided,NDA)算法相比,具有明显的性能优势,在Turbo编码条件下,其误码性能相比于NDA算法具有大于1dB的增益。(本文来源于《系统工程与电子技术》期刊2015年10期）

邹吉利^[5]（2014）在《基于吉布斯采样和典型相关分析的TWA检测算法研究》一文中研究指出ECG自动诊断技术在心血管疾病的诊断中占据着重要地位。研究发现ECG信号中T波电交替是预防心源性猝死一个很重要的预测指标,因而T波交替检测关键技术的研究是当前信号处理领域和医学界关注的热点。文章首先介绍了TWA检测的一般系统模型,主要包括预处理模块,T波提取与对齐模块,TWA检测模块。本文在总结分析TWA研究的现状和进展的基础上,主要针对T波提取与对齐和TWA检测这两个方面做了新的改进和研究工作：(1)T波的提取与对齐。本文提出了一种基于贝叶斯估计和吉布斯抽样的方法来对心电信号的T波进行识别,这种算法首先建立了心电信号的T波分层贝叶斯模型,利用共轭先验分布,推出该贝叶斯模型各个未知参数(T波位置,幅度,波形)的后验分布,然后利用吉布斯抽样算法对后验分布生成样本,最后利用贝叶斯MMSE估计T波模型中的未知参数。从而完成对T波的提取。提取之后的T波矩阵由于长度不一,影响对TWA检测的处理,再利用插值的方法进行对齐。(2)TWA检测。先针对TWA的特点以及检测难点进行了论述,并对各种检测方法进行了比较分析。然后本文提出了一种新的基于典型相关分析的TWA检测方法。首先将心电信号分成奇偶心拍,利用典型相关分析寻找两组心拍的最大相关向量,利用这两组向量对TWA进行定量分析。这种方法大大提高了检测的准确度。(3)软件实现。主要介绍了心电智能分析的软件,并在软件中实现了本文的心电智能算法。基于C#和matlab混合编程,采用SQL Server 2000数据库存储用户信息,利用文件系统存储心电数据。本文所采用的TWA检测方法,与传统的方法相比有一定的特点和优点,主要体现在：T波的提取方法较普通的提取方法相比,利用了T波的形态信息,可以准确检测各种形态的T波；在TWA检测方面利用典型相关分析方法利用了信号的相关性,提高了估计的准确度。该算法有比较好的抗噪性能,准确率较高并且对不同形态的TWA都有良好的检测结果。(本文来源于《东北大学》期刊2014-06-01）

夏娜,陈秀珍,徐朝农,郑榕^[6]（2011）在《多信道无线网络中优化QoM吉布斯采样信道选择算法》一文中研究指出在无线网络中采用专用节点对用户的通信活动进行监测可实现网络的故障诊断和资源管理.由于硬件资源受限,无线节点通常在一个时刻只能工作在一个信道上,因此优化各个节点的信道选择使整个网络收集的用户信息量达到最大,即网络监测质量(QoM)达到最优是一个关键问题.文中提出一种基于吉布斯采样(Gibbs Sampler)的分布式节点信道选择算法.根据优化目标构造了能量函数,以计算各个信道的选择概率,并完成对信道的优化选择.该算法复杂度低,具有可证明的收敛性,大量实验结果表明该算法可以实现无线网络QoM最优化问题的分布式求解,而且解的质量近似达到了集中式算法的性能.(本文来源于《计算机学报》期刊2011年07期）

张景云^[7]（2011）在《基于吉布斯采样推理算法的交通预测研究》一文中研究指出上世纪50年代,随着汽车工业的发展,交通拥堵开始出现,现代交通科学应运而生。60多年来,人们对交通运输的运行规律逐渐有了较为清晰的了解。学者们对交通预测的研究也愈来愈多。人们认识到,交通系统是复杂的局系统,具有明显的随机性、动态性、复杂性。本文从贝叶斯网的理论知识和推理着手,运用马尔可夫覆盖理论、吉布斯采样近似推理等理论,系统的阐述了基于吉布斯采样推理算法进行交通预测的技术。文章创新点在吉布斯采样推理算法用于交通预测时添加了路口结点间的行驶时间与交通堵塞密度(车流量、车速、车道占有率的关系式)有关的思想,以及计算了动态条件概率,或许能为以后的研究提供一种借鉴和参考。论文的结构如下：首先,论文简要介绍了贝叶斯网的理论知识,着重学习了条件概率的表达、马尔可夫覆盖。接着阐述了贝叶斯网近似推理抽样算法的思想,进而引出了吉布斯采样推理算法,为其后文的应用奠定了基础。然后,论文从贝叶斯网的构建和吉布斯采样推理算法的应用两方面展开对交通预测的阐述,文章第叁章重点介绍了如何由交通图构建贝叶斯网、贝叶斯网的存储以及对从交通局获得的原始交通数据进行简单处理,从而基于前人的成果,对交通参数间的关系进行推理并得到交通堵塞密度的表达式,最终构建贝叶斯网参数表。文章第四章重点展开对吉布斯采样推理算法的介绍,包括该算法的原理、思想和算法实例,为交通预测的研究奠定基础。最后,论文选取一二一附近的交通状况来研究,阐述了吉布斯采样推理算法用于交通预测的整个过程,并且通过实验来体现了吉布斯采样推理算法收敛性的特点,验证了吉布斯采样推理算法应用于交通预测的可行性。(本文来源于《云南大学》期刊2011-05-01）

李蕴奇,李小明,何杰,钟鸣^[8]（2010）在《关于吉布斯采样算法识别MOTIF的研究》一文中研究指出1.引言GIBBS采样算法是一种较特殊的蒙特卡罗(Makov chain Monte Carlo,MCMC)法。该算法最早由Lawrence用于蛋白质序列中的模式识别。后来Liu将该算法综合进贝叶斯模型(本文来源于《才智》期刊2010年31期）

戈鲁宁^[9]（2010）在《基于吉布斯采样的模体识别算法研究》一文中研究指出生物序列中的模体对DNA的转录、翻译起着重要作用,因此对生物序列中模体的识别具有重大意义和理论价值,模体识别问题成为了生物信息学研究领域的热点问题之一。目前,已经有很多行之有效的算法被用来解决模体识别问题,例如YMF算法,MEME算法和随机投影算法等。1993年,Chip Lawrence和他的同事们率先使用吉布斯采样算法来识别生物DNA序列中的模体。由于吉布斯采样算法的敏感性和快速收敛性,该方法成为目前启发式识别模体的有效方法之一。本文首先阐述了模体识别问题的定义,分析了常用的模体表示模型,并且对基于不同模体模型的几种已有模体识别算法进行了分析和比较。针对这些传统算法中有的基于穷举搜索,非常耗时,有的容易陷入局部最优,无法找到全局最佳模体等缺陷,本文基于经典吉布斯采样算法,提出了一种新的改进算法进行模体识别。此改进算法依据模体间蕴涵的依赖关系,建立了高阶背景模型；首次结合运用了随机投影的思想,舍弃了随机策略构造的初始训练集,代之以投影优化构造的初始训练集,有效地提高了迭代过程的收敛性和模体识别的准确率。通过在多组数据上的实验结果分析表明,识别性能在准确率方面有了较大的提高。(本文来源于《西安电子科技大学》期刊2010-01-01）

张引沁^[10]（2008）在《利用神经网络算法推算超额吉布斯自由能》一文中研究指出利用神经网络算法推算了超额吉布斯自由能GEm,并将推算结果与实验结果进行了比较,推算的平均相对误差均在1.42%以内。(本文来源于《新乡学院学报(自然科学版)》期刊2008年04期）

吉布斯算法论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

众所周知,对基因表达调控机制的揭示和基因调控网络的建立是生物信息学领域的艰巨任务,而且至今难以完成。识别调控元素对于理解和揭示基因调控机制并构建基因调控网络至关重要。调控元素包括顺式调控元素和反式作用因子,转录因子是一种反式作用因子,是开启基因转录的钥匙,因此对转录因子的研究是揭示基因表达调控机制的重要切入点。由经验可知,研究转录因子和其在DNA序列上的结合位点的交互作用有助于探索转录因子的生物意义。对于这种交互作用的研究可以转化为DNA模体发现问题,因此,解决DNA模体发现问题是理解、揭示基因表达调控机制的关键。在数据规模非常大且结构复杂的DNA序列数据集中,想要高效并准确地查找出具有生物意义的模体并在基因中定位这些模体是一个巨大的难题。生物实验技术和计算机信息技术的结合给模体发现问题的解决带来了希望,旨在提出一种解决该问题的高效、高预测准确率算法。为了保持较高时间性能,同时提高算法的模体预测准确率,本文提出一种新的算法。本文的主要研究内容:提出了一种适用于大数据集的高效算法,是一种吉布斯采样和极大团聚类结合的模体发现算法(Combining Parallel Gibbs Sampling with Maximal Cliques for hunting DNA Motif,GSMC)。不局限于OOPS模型和限制固定的模体长度,本文采用ZOOPS模型和模体长度可变机制,基于互斥并行吉布斯采样算法的全局并行搜索的能力、互斥性、快速性、随机性、模体长度可变、可扩展性等优点,结合极大团聚类算法逻辑性强、步骤简单、灵活、可扩展和并行计算效率高等特性,把两个算法进行融合,并对融合算法中的模体信息量函数、模体相似度得分函数及模体聚类函数等进行进一步的优化,避免陷入局部极值,从而找到全局最优解。本文采用互斥并行吉布斯采样算法快速随机生成初始模体,然后基于SPIC列间相似度计量方法计算出所有满足IC的模体对间的相似度,利用极大团聚类算法兼并行计算从而高效地聚类并筛选出最终的候选模体。通过比对实验可以看出,不像当前大多数模体发现算法,本文提出的算法不仅在模体识别准确度上有所提高,同时还保持着较好的时间性能,另外,还能检测出更多辅模体。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

吉布斯算法论文参考文献

[1].周晓堂.主题模型的快速吉布斯采样主题推断算法研究[D].吉林大学.2018

[2].裴超.面向吉布斯采样的DNA模体发现算法研究[D].湖南大学.2018

[3].乔良,郑辉.SIMO系统吉布斯盲迭代均衡算法[J].四川大学学报(工程科学版).2015

[4].乔良,郑辉.吉布斯采样联合符号检测和相位恢复算法[J].系统工程与电子技术.2015

[5].邹吉利.基于吉布斯采样和典型相关分析的TWA检测算法研究[D].东北大学.2014

[6].夏娜,陈秀珍,徐朝农,郑榕.多信道无线网络中优化QoM吉布斯采样信道选择算法[J].计算机学报.2011

[7].张景云.基于吉布斯采样推理算法的交通预测研究[D].云南大学.2011

[8].李蕴奇,李小明,何杰,钟鸣.关于吉布斯采样算法识别MOTIF的研究[J].才智.2010

[9].戈鲁宁.基于吉布斯采样的模体识别算法研究[D].西安电子科技大学.2010

[10].张引沁.利用神经网络算法推算超额吉布斯自由能[J].新乡学院学报(自然科学版).2008

标签：主题模型; 潜在狄利克雷分配; 主题推断; 吉布斯采样;

吉布斯算法论文-周晓堂

吉布斯算法论文文献综述

吉布斯算法论文开题报告

吉布斯算法论文参考文献

猜你喜欢