自训练论文-李婷婷,吕佳,范伟亚

自训练论文-李婷婷,吕佳,范伟亚

导读:本文包含了自训练论文开题报告文献综述及选题提纲参考文献,主要关键词:正例无标记学习,间谍技术,半监督自训练,聚类

自训练论文文献综述

李婷婷,吕佳,范伟亚[1](2019)在《基于新型间谍技术的半监督自训练正例无标记学习》一文中研究指出正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。(本文来源于《计算机应用》期刊2019年10期)

李婷婷,吕佳[2](2019)在《基于加权K最近邻改进朴素贝叶斯自训练算法》一文中研究指出针对传统半监督自训练方法在学习朴素贝叶斯分类器过程中容易误标记无标记样本,且整个过程未能利用到训练样本的空间结构信息,导致正确率不高的问题,提出了一种基于加权K最近邻改进朴素贝叶斯自训练算法。该算法利用加权K最近邻算法计算出无标记样本的隶属度,通过隶属度选出与已标记样本空间结构相近的样本,使得朴素贝叶斯分类器在一个较好的空间结构上对未标记样本进行分类,充分地利用样本的空间结构信息,从而降低了自训练过程中的迭代错误。在UCI和Kaggle数据集上的对比实验结果表明,该方法的性能相对于传统半监督自训练算法有所改善。(本文来源于《武汉大学学报(理学版)》期刊2019年05期)

罗云松[3](2019)在《半监督自训练算法在乳腺癌分析预测中的应用研究》一文中研究指出近年来罹患乳腺癌的女性数量大幅增加,乳腺癌已成为全世界女性最常见的癌症,其死亡率仅次于肺癌。目前为止,早期诊断发现从而遏制乳腺癌的发展仍然是乳腺癌治疗的基础。伴随着人工智能领域的不断发展,利用机器学习的方法对乳腺癌医学数据进行归纳分析,探索规则,建立乳腺癌智能诊断系统已成为医疗卫生领域的研究热点。目前,建立乳腺癌智能诊断系统仍存在许多问题:首先,研究人员往往能搜集到大量的疑似乳腺癌样本,而能够确诊肿瘤良恶性的有标记样本往往需要专家花费大量时间会诊得出。智能诊断系统往往因为有标记样本的不足,导致模型分类精度不高,泛化性较差。其次,研究人员手中大量的无标记样本没有得到充分利用,如何选择出有价值的无标记样本加入训练尚具有盲目性。最后,原始的乳腺癌数据往往存在属性关联冗余的问题,不利于直接进行建模预测,研究人员也同时鲜有对乳腺癌原始医学数据进行具体的归纳整理分析。为解决上述乳腺癌智能诊断系统建立中存在的问题,充分发掘乳腺癌医学数据的价值,建成分类精度高,泛化性较强的诊断系统。本文所做的工作如下:(1)将半监督自训练方法应用在乳腺癌智能诊断中,提出了一种结合密度峰值优化模糊聚类的半监督自训练方法。该方法先对无标记样本集进行密度峰值聚类,在人工地选出聚类中心后,将新的聚类中心作为模糊聚类的初始聚类中心进行模糊聚类,从而筛选出有价值的无标记样本。实验结果表明,该方法与结合其他聚类算法的自训练方法相比分类精度有所提高。(2)对美国威斯康辛大学医院的乳腺癌数据进行了数据分析处理。通过数据可视化的方法与数据进行交互,将特征属性冗杂的乳腺癌数据进行归纳整理,筛选出决定肿瘤良恶性的关键特征属性,为探索乳腺癌的病因病理和乳腺癌早期的排查诊断提供了重要的检测方向。(3)利用改进的自训练方法对经过预处理的乳腺癌数据进行分类预测,建立了一种基于半监督学习的乳腺癌智能诊断系统。该系统能在初始有标记数据较少的情况下,通过迭代自训练,分类精度不断提高,泛化性不断加强,为乳腺癌的智能诊断提供了新的思路,促进了智能医疗的发展。(本文来源于《重庆师范大学》期刊2019-05-01)

马茂源[4](2019)在《基于改进半监督自训练方法的高校毕业生就业预测应用研究》一文中研究指出在高校毕业生就业前进行预测分析,可以为提高大学生就业质量提供了方向,更好地衔接高校的招生、培养和就业工作。目前,各大高校建立了较为完善的学生信息,这些数据包含了学生的生源籍贯,学业状况、就业情况等具有价值的信息,能帮助高校有针对性地挖掘出就业与各个因素之间隐藏的联系。使用传统人工的方式管理这些信息,对时间、人力、数据资源有极大的浪费。随着计算机技术的发展,数据挖掘技术在教育领域的应用使得高校管理更加便捷。由于形势政策和学生群体风格差异导致不同届学生就业情况分布不能完全吻合,半监督分类方法可以利用无就业信息的毕业生样本进行训练,扩大训练集,使预测模型更符合真实分布。本研究将改进的半监督分类方法(Semi supervised)应用到毕业生就业预测中,并对预测结果进行验证。概括起来,本研究的主要工作如下:(1)分析和总结了目前高校毕业生就业指导的意义和目前就业指导工作存在的缺陷,通过建立毕业生就业预测模型来提高就业指导工作的效率。其次,阐述高校毕业生就业预测模型的意义,通过分析影响毕业生就业情况的因素,引进数据挖掘方法到高校毕业生的就业预测中,得出基于数据挖掘方法的预测模型基本流程。(2)从机器学习的视角介绍了常见的半监督分类算法,重点对半监督自训练分类算法进行了研究,并针对基于朴素贝叶斯的自训练算法在样本数量分布不佳的情况下分类器的精度低的情况,提出改进。改进算法将相似度计算方法引入到半监督自训练方法中,通过计算未标记样本与有标记样本的相似度——欧式距离及余弦相似度,筛选置信度高的样本加入到训练集中,不断迭代至训练好贝叶斯分类器进行分类。最后通过在选取相关数据集仿真实验,验证改进算法的有效性。(3)针对重庆市S高校的毕业生信息进行数据收集、数据预处理。在MATLAB环境下,利用改进的结合相似度的半监督朴素贝叶斯自训练算法,对收集到的数据集进行实验,将改进算法的预测精度和效率与其他算法相比较,改进算法优势明显,能够更好的预测未标记样本,为下一步就业指导提供参考。其次,使用构建好高校毕业生就业预测模型对待毕业生数据进行预测,分析其结果结合S高校的实际情况提出就业指导对策。(本文来源于《重庆师范大学》期刊2019-05-01)

陶娅芝[5](2019)在《基于word2vec和自训练的无监督情感分类方法》一文中研究指出针对现有情感分类算法中存在的问题,本文提出了一种基于word2vec和自训练的无监督情感分类方法。该方法首先利用word2vec和词性标签构建领域情感词典,并在此基础上融合否定词和程度副词来计算评论的情感倾向值;其次,选取情感倾向强烈的评论作为已标注训练集,剩余部分作为待分类数据集;最后,采用机器学习方法生成分类器进行自训练学习,直到迭代结束。采用手机评论作为实验数据,结果证实了该方法的有效性。(本文来源于《科技风》期刊2019年12期)

罗云松,吕佳[6](2019)在《结合密度峰值优化模糊聚类的自训练方法》一文中研究指出【目的】为了在迭代自训练之前探索数据集分布情况,挑选出所含信息量较大且置信度较高的无标记样本加入训练集训练,让训练出的初始分类器有较高的准确性,提高自训练方法的泛化性。【方法】以聚类假设为基础,先对无标记样本集进行密度峰值聚类,在人工地选出聚类中心后,将新的聚类中心作为模糊聚类的初始聚类中心进行模糊聚类,从而筛选出有用的无标记样本。【结果】通过使用密度峰值优化模糊聚类算法,筛选出所含信息量大且置信度高的样本加入了训练集,训练出泛化性更强、分类精度更高的分类器。【结论】实验结果表明,改进后的自训练方法能快速发现样本集原始空间结构,筛选出有用无标记样本加入训练集,与结合其他聚类算法的自训练方法相比分类精度有所提高。(本文来源于《重庆师范大学学报(自然科学版)》期刊2019年02期)

马茂源,吕佳[7](2019)在《结合相似度的朴素贝叶斯半监督自训练方法》一文中研究指出【目的】自训练方法易选出低置信度的无标记样本去训练分类器,在训练中也易误标记无标记样本导致错误累积,针对这些问题提出结合相似度选择高置信度样本的朴素贝叶斯自训练方法。【方法】选择朴素贝叶斯作为基分类器,在迭代中通过相似度计算方法计算样本相似度,选择同时满足相似度阈值和类别号判别一致的无标记样本加入训练集。【结果】在UCI数据集的对比实验中发现,提出的新方法的分类正确率高于其他对比算法。【结论】新方法能够利用少量有标记样本和不断添加的置信度高的无标记样本去训练分类器,提高分类精度,解决了自训练方法因有标记样本集初始分布不均导致准确率较低的问题。(本文来源于《重庆师范大学学报(自然科学版)》期刊2019年01期)

李鑫,陈建新,陈克坚,周旭东[8](2019)在《基于Kinect的体育运动自训练系统》一文中研究指出学生体质关系着民族未来发展,而体质测试是衡量学生体质的主要手段。传统测试主要通过教师来实施,从而增加了教师的工作量,同时也可能导致测试标准不统一。这不仅为师资缺乏的地区增加了难度,还增加了体质测试的不公平性,因而研究自主测试系统具有重要意义。利用微软公司推出的深度传感器,对体育项目进行自动测试,并达到实时测量体育运动的效果,应用于学生体育项目引体向上。根据深度传感器信息确定横杆位置,并利用骨骼跟踪确定测试者下颌位置,通过手臂的叁个关节点确定手臂弯曲度;利用下颌到横杆的距离和手臂的伸直程度对本次动作进行评分和计数。同时使用者可以通过动作视频回放和评分情况进行自我调整,达到更好的训练效果。(本文来源于《计算机技术与发展》期刊2019年04期)

林俊杰,王磊,毛文吉[9](2018)在《面向社会事件的半监督自训练多方立场分析》一文中研究指出已有的立场分析方法主要采用有监督或无监督方式训练立场分类模型,有监督模型训练通常需要大量有标注数据支持,而相比有监督模型,无监督模型的性能差距较大.为了降低模型训练对有标注训练数据的要求,同时保证模型性能,文中面向社会事件相关的社交媒体文本,提出半监督自训练多方立场分析方法.对于自训练方法,在模型迭代训练过程中,选择高质量样本加入训练集合,对提升模型性能起到关键作用.为此,文中方法首先根据用户立场一致性度量文本的分类置信度,然后利用话题信息进一步筛选高质量样本扩充训练集合,保证模型性能不断提升.实验表明,相比相关工作中的代表性方法和其它半监督模型训练方式,文中方法能够取得更优的立场分类效果,并且方法依据的用户立场一致性和话题信息均有助于提升立场分类效果.(本文来源于《模式识别与人工智能》期刊2018年12期)

赵洪,王芳[10](2018)在《理论术语抽取的深度学习模型及自训练算法研究》一文中研究指出理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。(本文来源于《情报学报》期刊2018年09期)

自训练论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对传统半监督自训练方法在学习朴素贝叶斯分类器过程中容易误标记无标记样本,且整个过程未能利用到训练样本的空间结构信息,导致正确率不高的问题,提出了一种基于加权K最近邻改进朴素贝叶斯自训练算法。该算法利用加权K最近邻算法计算出无标记样本的隶属度,通过隶属度选出与已标记样本空间结构相近的样本,使得朴素贝叶斯分类器在一个较好的空间结构上对未标记样本进行分类,充分地利用样本的空间结构信息,从而降低了自训练过程中的迭代错误。在UCI和Kaggle数据集上的对比实验结果表明,该方法的性能相对于传统半监督自训练算法有所改善。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

自训练论文参考文献

[1].李婷婷,吕佳,范伟亚.基于新型间谍技术的半监督自训练正例无标记学习[J].计算机应用.2019

[2].李婷婷,吕佳.基于加权K最近邻改进朴素贝叶斯自训练算法[J].武汉大学学报(理学版).2019

[3].罗云松.半监督自训练算法在乳腺癌分析预测中的应用研究[D].重庆师范大学.2019

[4].马茂源.基于改进半监督自训练方法的高校毕业生就业预测应用研究[D].重庆师范大学.2019

[5].陶娅芝.基于word2vec和自训练的无监督情感分类方法[J].科技风.2019

[6].罗云松,吕佳.结合密度峰值优化模糊聚类的自训练方法[J].重庆师范大学学报(自然科学版).2019

[7].马茂源,吕佳.结合相似度的朴素贝叶斯半监督自训练方法[J].重庆师范大学学报(自然科学版).2019

[8].李鑫,陈建新,陈克坚,周旭东.基于Kinect的体育运动自训练系统[J].计算机技术与发展.2019

[9].林俊杰,王磊,毛文吉.面向社会事件的半监督自训练多方立场分析[J].模式识别与人工智能.2018

[10].赵洪,王芳.理论术语抽取的深度学习模型及自训练算法研究[J].情报学报.2018

标签:;  ;  ;  ;  

自训练论文-李婷婷,吕佳,范伟亚
下载Doc文档

猜你喜欢