导读:本文包含了基于正例的学习论文开题报告文献综述及选题提纲参考文献,主要关键词:黄土滑坡,PU-Learning,半监督学习,Bagging
基于正例的学习论文文献综述
邱维蓉,吴帮玉,贾骏雄[1](2019)在《基于正例和未标记样本的半监督集成学习方法在滑坡易发性预测中的应用》一文中研究指出本文利用甘肃省平凉市灵台县的历史滑坡数据,并结合区域地理因素数据中缺乏已经证实的非灾点数据的特点,将所选区域的203个历史滑坡点作为正例样本点,从区域内180万个栅格单元中随机选择10万个点作为未标记的样本点,使用基于Bagging集成的半监督学习方法 Positive-Unlabeled Learning从正例样本点和未标记的样本点中学习模型,对区域内所有点的滑坡易发性指数进行预测,利用自然分段法将概率区间分为5个等级,绘制滑坡易发性区划图,并以表格的形式统计出区域内180万栅格样本点和203个滑坡栅格样本点在5个等级中出现的数量和频率以及两者的频率比。结果表明PU-Bagging模型在选定区域内的滑坡预测正确率为87.193%,证明模型拟合程度良好。(本文来源于《中国石油学会2019年物探技术研讨会论文集》期刊2019-09-09)
李婷婷,吕佳,范伟亚[2](2019)在《基于新型间谍技术的半监督自训练正例无标记学习》一文中研究指出正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。(本文来源于《计算机应用》期刊2019年10期)
张金蕾,李梅,张阳,梁春泉,王勇[3](2016)在《P-AnDT:平均n依赖决策树的正例未标注学习算法》一文中研究指出为了在仅有正例和未标注样本的训练数据集下进行机器学习(positive unlabeled learning,PU学习),提出一种可用于PU学习的平均n依赖决策树(P-AnDT)分类算法。在构造决策树时,选取样本的n个属性作为依赖属性,在每个分裂属性上计算依赖属性和类别属性的共同影响;然后分别选用不同的输入属性作为依赖属性建立多个有差异的分类器并对结果求平均值,构造集成分类算法。最终通过估计正例在数据集中的比例参数p,使该算法能够在PU学习场景下进行分类。在多组UCI数据集上的实验结果表明,与基于贝叶斯假设的PU学习算法(PNB、PTAN等算法)相比,P-AnDT算法有更好更稳定的分类准确率。(本文来源于《计算机应用研究》期刊2016年07期)
张道坤[4](2015)在《针对文本和时间序列数据的正例未标注学习算法研究》一文中研究指出分类分析作为数据挖掘的一项子任务,在人类生产生活中有着广泛的应用。传统的分类算法需要用户提供已标注类别的样本作为训练样本。然而,由于人力、物力和时间的限制,用户只会选择性地标注一些他们感兴趣的、隶属于某一类别的样本作为正例样本。如何利用用户提供的少量正例样本和大量未标注样本学习分类器是正例未标注学习(Positive Unlabeled Learning,PU学习)研究的内容。PU学习有着重大的应用价值,已经受到了研究者们的广泛关注。针对文本数据和时间序列数据,论文讨论了新的PU学习算法。(1)对于文本数据的PU学习问题,论文针对训练样本集仅包含少量正例样本的情形,借助邻域核的思想和维基百科丰富的背景知识,设计出了基于维基百科知识的邻域核。Reuters-21578数据集上的实验结果表明,采用阈值为0.25的基于维基百科知识的邻域核的单类别支持向量机的1F平均值相比于采用线性核的单类别支持向量机提升了10.1%;20-Newsgroup数据集上的实验结果表明,采用阈值为0.25的基于维基百科知识的邻域核的单类别支持向量机的1F平均值相比于采用线性核的单类别支持向量机提升了54.8%。这表明基于维基百科知识的邻域核可以有效克服单类别文本分类中训练样本不足的缺陷,从而提升单类别支持向量机的性能。(2)对于针对时间序列数据的PU学习问题,论文利用Markov性质和“完全随机假设”设计出了正例未标注Markov(Positive Unlabeled Markov,PU Markov)时间序列分类器。实验结果表明,在14个满足Markov性质的UCR时间序列数据集上,相比于采用欧氏距离和动态时间规整(Dynamic Time Warping,DTW)距离的正例最邻近分类器,分类性能最好的2阶PU Markov分类器的1F值在正例样本的标注比为0.3时分别提升了12.5%和5.2%,在正例样本的标注比为0.4时分别提升了16.1%和9.4%,在正例样本的标注比为0.5时分别提升了18.0%和11.1%。与此同时,相比于分类性能较好的采用DTW距离的正例最邻近分类器,2阶PU Markov分类器的训练效率和测试效率均有所提高,其中,测试效率显着提高。(本文来源于《西北农林科技大学》期刊2015-05-01)
邵强,张阳,蔡晓妍[5](2014)在《基于随机森林的正例与未标注学习》一文中研究指出为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。(本文来源于《计算机工程与设计》期刊2014年12期)
邵强[6](2014)在《基于随机森林的正例与未标注学习研究》一文中研究指出正例与未标注学习(Positive and Unlabeled Learning,PU学习)是只用正例与未标注数据训练分类模型的学习问题。传统的分类算法需要全标注的训练样本来训练分类模型,而在现实中,数据经常是未标注或少量标注的。对于二分类问题,在许多情况下除了未标注数据,还可以容易地获取正例数据。如果只用正例与未标注数据就能训练出和全标注数据下相似的分类模型,则可以节约因标注数据而花费的时间和资源。针对PU学习问题,本文研究如何基于全标注的随机森林算法组合POSC4.5算法,得到一个具有较高分类性能、使用较少训练时间的PU学习随机森林集成算法。主要研究成果如下:(1)对POSC4.5算法进行扩展,加入了随机特征选择。POSC4.5决策树算法是一个分类效果好、具备计算学习理论基础等优点的PU算法,本文将POSC4.5算法用作随机森林的基学习算法。首先对其进行扩展,使算法在生成决策树的过程中,在每个树结点上可以随机选择一个属性子集,然后在这个集合中使用PU学习中计算信息增益率的方法得到划分属性。(2)针对两种不同的PU场景,提出了两种用于PU学习的随机森林算法。在PU学习的两种场景中,PU训练数据以不同的方式产生。在分析POSC4.5算法的计算学习理论基础之后,针对不同的场景,对于随机森林中的自助法抽样采用两种处理方式:先将正例放入未标注数据再进行抽样和直接在正例与未标注数据上分别进行抽样。相应地得到了两种用于PU学习的随机森林算法。(3)提出了针对PU训练数据计算袋外误差的方法,用于随机特征选择参数K的选取。在全标注的随机森林算法中,可使用训练集计算模型的袋外误差,袋外误差是泛化误差的无偏估计。袋外误差可用于选择随机森林中的随机特征选择参数K,以得到一个泛化误差较小的分类模型。本文利用POSC4.5中的参数选择指标,提出了针对PU训练数据计算袋外误差的方法,用于参数K的选择。在UCI数据集上的实验结果表明,本文提出的用于PU学习的随机森林算法同POSC4.5算法、装袋法的POSC4.5算法、偏置支持向量机算法相比有较高的分类精度,同支持向量机算法相比有较短的训练时间。(本文来源于《西北农林科技大学》期刊2014-05-01)
张夏欢,李玉鉴,张晨光[7](2012)在《正例半监督学习眉毛图像分割》一文中研究指出针对传统交互图像分割方法需要同时标注背景和前景的问题,提出一种新的交互图像分割方法——正例半监督学习图像分割。该方法结合正例半监督学习和图半监督学习,仅需要在感兴趣的图像区域标记少量像素点,就可以完成该区域的分割。在北工大眉毛图像数据库上的实验表明本文提出的方法与图半监督学习、随机游走和Lazy Snapping相比具有更稳定的分割效果。(本文来源于《计算机与现代化》期刊2012年09期)
潘世瑞,张阳,李雪,王勇[8](2010)在《针对不确定正例和未标记学习的最近邻算法(英文)》一文中研究指出研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearestneighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。(本文来源于《NDBC2010第27届中国数据库学术会议论文集A辑二》期刊2010-10-13)
潘世瑞,张阳,李雪,王勇[9](2010)在《针对不确定正例和未标记学习的最近邻算法(英文)》一文中研究指出研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。(本文来源于《计算机科学与探索》期刊2010年09期)
张邦佐[10](2009)在《基于正例和无标记样例学习研究》一文中研究指出随着World Wide Web的迅猛发展,Web信息呈现出爆炸式指数级涌现,催生了搜索引擎这一激动人心的研究领域。各种搜索引擎已经成为人们使用因特网的最重要的信息服务工具,但是人们要想找到许多重要信息仍然如同大海捞针一般,研究者们公认面向主题的搜索是搜索引擎未来最重要的发展方向。主题爬行(Focused Crawling)系统采用基于样例网页驱动的主题信息收集方法,具有重要的学术研究价值和广阔的应用前景。本文即是针对主题爬行中的关键技术——文本分类问题,将主题相关性转变为基于正例和无标记样例的学习(Learning from Positive and Unlabeled examples,PU学习)问题。PU学习范型的最大问题是没有可以利用的反例,因此传统的监督学习和半监督学习方法不能有效的使用。本文针对这一学习范型进行了跟踪,做了比较全面的综述和深入的研究,将基于机器学习的文本挖掘技术引入PU学习,并加以应用,提出了新颖的解决办法,取得丰硕而有成效的研究成果。本文创新工作主要包括如下两个方面:第一方面工作是基于两阶段策略的研究工作,针对两阶段策略中的第一阶段——提取可靠反例,提出了叁种有效的可靠反例提取算法:(1)基于经典的k-Means聚类算法的可靠反例提取算法,首先对训练集合(正例集合和无标记样例集合)采用k-Means聚类算法进行聚类,将正例比例低于某一阈值的簇标记为可靠反例;(2)基于约束k-Means聚类的可靠反例提取算法,约束k-Means聚类是一种全新的半监督聚类算法,在聚类过程中用正例集合来初始化正例中心,将正例标记做为Must-link约束进行约束聚类,本方法最后不仅标记了可靠反例,也同时扩充了正例集合;(3)基于kNN的Ranking学习算法的可靠反例提取算法,将无标记样例采用kNN算法计算其与k个正例近邻的Rank值,将Rank值低于一定阈值的样例标记为可靠反例。第二方面工作是基于协同训练范型这一半监督学习中最重要的方法提出了两种PU学习算法:(1)基于Co-EM SVM的PU学习,Co-EM SVM是对标准协同训练算法在EM算法框架之下使用SVM做为内嵌分类器的改进。首先采用基于1-DNF方法的视图划分方法,将文本特征集合划分为正例特征集和反例特征集组成两个视图,然后在单视图上提取可靠反例,最后采用Co-EM SVM进行迭代学习。(2)基于Tri-training算法的PU学习,Tri-training是采用单视图多分类器方法对协同训练算法的推广,本文采用了叁个已有的可靠反例提取算法分别初始化叁个SVM分类器,然后将其两个分类器的一致分类结果作为第叁个分类器的训练样例进行迭代学习,最终分类结果通过叁个分类器的集成得到。本文提出的方法均在经典的文本分类数据集上与相关工作进行了对比实验,并采用通常的文本分类评估指标,验证了本文工作明显优于相关工作,取得了较好的实验效果,并就本文工作进行了总结,公开发表了相关的学术论文,取得了较好的评价。(本文来源于《吉林大学》期刊2009-04-01)
基于正例的学习论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
基于正例的学习论文参考文献
[1].邱维蓉,吴帮玉,贾骏雄.基于正例和未标记样本的半监督集成学习方法在滑坡易发性预测中的应用[C].中国石油学会2019年物探技术研讨会论文集.2019
[2].李婷婷,吕佳,范伟亚.基于新型间谍技术的半监督自训练正例无标记学习[J].计算机应用.2019
[3].张金蕾,李梅,张阳,梁春泉,王勇.P-AnDT:平均n依赖决策树的正例未标注学习算法[J].计算机应用研究.2016
[4].张道坤.针对文本和时间序列数据的正例未标注学习算法研究[D].西北农林科技大学.2015
[5].邵强,张阳,蔡晓妍.基于随机森林的正例与未标注学习[J].计算机工程与设计.2014
[6].邵强.基于随机森林的正例与未标注学习研究[D].西北农林科技大学.2014
[7].张夏欢,李玉鉴,张晨光.正例半监督学习眉毛图像分割[J].计算机与现代化.2012
[8].潘世瑞,张阳,李雪,王勇.针对不确定正例和未标记学习的最近邻算法(英文)[C].NDBC2010第27届中国数据库学术会议论文集A辑二.2010
[9].潘世瑞,张阳,李雪,王勇.针对不确定正例和未标记学习的最近邻算法(英文)[J].计算机科学与探索.2010
[10].张邦佐.基于正例和无标记样例学习研究[D].吉林大学.2009
标签:黄土滑坡; PU-Learning; 半监督学习; Bagging;