导读:本文包含了水平分布数据论文开题报告文献综述及选题提纲参考文献,主要关键词:分布式数据挖掘,隐私保护,SVM分类,多类分类
水平分布数据论文文献综述
陶然[1](2017)在《面向水平分布数据的隐私保护分类算法研究》一文中研究指出随着信息时代中数据量的快速增长,传统的数据挖掘方法在处理大规模数据上已稍显不足。分布式数据挖掘应用越来越广泛。然而,在分布式环境中,信息的共享可能会泄露个人的敏感信息,增加隐私泄露的风险。隐私保护数据挖掘(Privacy Preserving Data Mining,PPDM)成为当前数据挖掘领域一个越来越重要的课题。本文提出了一个基于SVM分类器的隐私保护数据挖掘框架,即PPNL-SVM(Privacy Preserving No-Linear SVM)。该框架在能够保护数据隐私的同时对水平分布数据进行分类挖掘。具体来说,研究内容如下:(1)为了在分布式数据挖掘中保护数据隐私,保证分类精度和效率。本文提出一个隐私保护非线性SVM(PPNL-SVM)框架来构建PPDM的分类模型。在数据水平分布和安全多方计算的半诚实模型条件下,PPNL-SVM框架分为叁层:底层使用安全求和协议和Paillier同态加密方案将通过k-means聚类算法选择出的数据中心点进行加密来保护数据的隐私。中间层使用Nystrom近似技术和矩阵分解技术来减少复杂的通信和计算。顶层使用切平面技术加速分类模型训练过程。PPNL-SVM框架不需要依赖于可信第叁方,所有参与者平等合作。安全求和协议和Paillier同态加密方案能够保证框架的安全性,得到有效的分类挖掘结果。(2)针对SVM分类器主要对二类分类有效的局限性,本文将PPNL-SVM框架扩展到解决数据水平分布的多类分类问题。使用一对多的方案,将多类分类问题分解成多个二类分类问题。通过PPNL-SVM框架来实现二类分类。因为PPNL-SVM的安全性和效率是有保证的,所以,多类分类的安全性和效率也能得到保证。本文对提出的框架进行了验证,实验结果表明PPNL-SVM框架在分类挖掘过程中不仅能够有效地保护数据隐私,提高分类器的性能,而且也能有效地解决多类分类问题。(本文来源于《武汉理工大学》期刊2017-03-01)
单家伟[2](2015)在《数据水平分布的隐私保护数据挖掘算法研究》一文中研究指出数据挖掘是一种比传统的数据分析技术更加复杂的分析和建模方法,目的是发现数据中隐藏的规则和有用的知识。经过这些年的发展,数据挖掘已经逐渐从集中数据集的挖掘发展到多方参与下的数据挖掘,即分布式条件下的数据挖掘。传统的数据挖掘是直接作用在数据集之上,因此在分布式环境下如何保护各方的隐私信息同时进行数据挖掘已经成为科研和商业等领域关注的焦点。数据的分布方式包括水平分布和垂直分布两种情况,其中数据水平分布应用场景广泛。数据的水平分布指的是数据按照条目分布在各不同的服务器上,不同服务器上的数据具有相同的属性类别,具体的属性值可能不同。本文针对数据水平分布情况下的隐私保护数据挖掘问题,具体包括聚类挖掘、分类挖掘以及关联挖掘,均设计了相关算法来保护挖掘过程中可能存在的隐私泄露问题并对上述的算法进行了实验验证。具体研究工作如下:(1)针对聚类挖掘下的隐私信息保护问题,设计一种数据水平分布条件下的隐私保护聚类挖掘解决方案。首先,利用SMC(安全多方计算)技术初始化全局聚类中心,然后各站点依次把本地数据按照全局的聚类中心分配相应的簇,在每一轮迭代结束时,重新利用SMC技术来确定新的聚类中心,最后经过多轮迭代之后,直至聚类中心不再发生明显的变化。由于在计算全局聚类中心的过程中并不会涉及到各站点具体的数据值,因此该方案在得到正确的聚类结果同时,较好的保护用户的隐私。(2)针对分类挖掘下的隐私信息保护问题,设计一种数据水平分布下的隐私保护分类挖掘算法。本算法使用了BP神经网络进行分类分析。首先,通过各站点初始化网络权值,即随机选择各个站点给出的权值初始值;其次,对各站点输入的样本数据进行分类计算。每一轮的计算会产生权值的增量,利用同态加密技术计算各站点的权值增量和,从而保证各站点数据的独立性,隐私不会被泄露,在同态加密中使用了Paillier密码系统;最后经过多轮的迭代,直至误差精度满足要求为止。由于同态加密体制的引入,该算法在计算出正确的分类结果同时,较好的保护了各站点的隐私。(3)针对关联挖掘下的隐私保护问题,设计了一种数据水平分布下的隐私保护关联挖掘算法。本算法使用基于划分的改进Apriori算法来找出候选项集,由第叁方的站点利用同态加密来计算候选项集的计数和。经解密后,由候选项集得出频繁k项集。根据条件决定是否循环上述过程,利用各个站点找出候选k+1项集。支持计数作为各个站点的关键信息,在计算的过程中被很好的保护,因此保护了各个站点隐私。(本文来源于《北京邮电大学》期刊2015-05-03)
陆涛,刘洪伟,刘智慧,朱慧,陈丽[3](2015)在《跨组织间隐私数据水平分布线性规划协同优化算法研究》一文中研究指出供应链协同优化决策中,在保护上下游成员私有信息的同时,得到全局的协同优化决策方案.利用安全多方计算的理论和基础协议,讨论在半诚实模型下具有线性结构的供应链协同优化算法,针对线性规划模型约束矩阵的信息水平分布与不同组织且目标函数也为隐私信息的情形,提出了基于随机矩阵变换的防推断的安全解决方法.该方法相对于传统的安全多方计算方法具有较高的计算效率.(本文来源于《广东工业大学学报》期刊2015年02期)
胡天寒,叶明全,黄道斌[4](2014)在《数据水平分布下的隐私保护关联规则挖掘》一文中研究指出针对数据水平分布的关联规则隐私保护挖掘算法中隐私受损和挖掘效率较低的问题,提出一种由半诚实第叁方参与的安全多方计算方法和快速分布式关联规则挖掘方法相结合的TSum FDM挖掘算法。为了防止水平分布下各个站点信息的泄漏,该算法引入半诚实的第叁方参与计算过程,利用安全求和协议产生全局频繁项集。首先,每个站点接受的是上一个站点经过安全求和协议加密后传来的信息,并在计算过程中每个站点加入第叁方随机生成的参数来隐藏实际被支持的频繁项集,最后将生成的结果传给第叁方进行计算求得全局频繁项集,进而得到关联规则。实验结果表明,TSum FDM挖掘算法在保证水平分布各站点数据隐私不被泄露的前提下能够快速有效地挖掘关联规则。(本文来源于《宿州学院学报》期刊2014年08期)
王迪[5](2011)在《“城镇居民可支配收入”是怎么算出来的?》一文中研究指出把每月的开销统统记在本上可能不是每家每户的做法,但我市有1500户居民每天都必须将每笔日常收支详细记录在案,为的是统计部门发布每季度“城镇居民可支配收入”状况提供第一手数据。这1500家样本户是抽样产生的,覆盖不同收入水平的城镇住户,分布在全市四个主城区(本文来源于《鞍山日报》期刊2011-09-17)
严伟榆[6](2010)在《分布式数据库下数据水平分布的skyline计算研究》一文中研究指出Skyline计算就是从一个数据集中找到不被其他数据点支配的所有点的集合。如果一个数据a支配另一个数据b,那么a的每一维属性值都不比b对应属性值“差”,而且必须至少有一个属性值比b的“好”。“差”和“好”无统一定义,可以根据用户的选择和喜好定义。近年来,skyline计算逐渐成为数据库领域的一个研究热点,主要是因为它在多标准决策、数据挖掘和数据库可视化等领域有潜在的应用前景。对于集中式数据库下的skyline计算的研究已经比较成熟,分布式数据库下的skyline计算由于起步较晚,现有的研究成果仍不够成熟。本论文主要研究的是分布式数据库下数据呈水平分布时的skyline计算的问题。数据的水平分布指的是数据集合分散的存放在不同的服务器上。论文的主要工作包括以下几个方面:(1)研究各个服务器上的局部skyline集合与全局skyline集合之间的关系,提出通过汇总局部结果再次计算得到全局skyline集合的思想。(2)为了提高计算效率,提出了一种“区域划分和多窗口收集”的优化策略。论文深入讨论了区域划分的思想及不同服务器上划分区域之间的支配关系,给出了叁维数据空间下的基于“区域划分和多窗口收集”的skyline计算算法。(3)进一步讨论了对高维数据空间下进行区域划分可能出现的一些问题,提出只对数据的前叁维进行区域划分的不完全划分思想和skyline计算的解决方案。(4)进行了大量的实验,通过实验结果分析得出论文提出的“区域划分和多窗口收集”策略对提高分布式数据库上的skyline计算效率有一定的效果。(本文来源于《云南大学》期刊2010-04-01)
蒋栋栋,孙志挥,汪晓刚,吴英杰,吕建华[7](2009)在《水平分布数据集的隐私保护关联挖掘算法》一文中研究指出研究水平分布数据集的隐私保护关联规则挖掘算法。针对现有算法需要多次扫描数据集的缺点,提出一种只须对数据集进行2次扫描、基于分布式FP-tree的隐私保护挖掘算法。该算法可以有效降低通信量,能在保证准确度的同时保护原始数据。(本文来源于《计算机工程》期刊2009年02期)
杜其成,纪玉峰,徐赤东[8](2008)在《MPL探测气溶胶水平分布数据处理方法研究》一文中研究指出微脉冲激光雷达(MPL)是探测大气气溶胶和云的有效工具。为了解气溶胶和污染物在城市近地面范围内的水平分布情况,使用自行研制的MPL开展了气溶胶和污染物水平分布的探测研究。对实测的水平数据,尝试采用分段斜率法和Fernald方法计算气溶胶和污染物消光系数的水平分布。研究表明,运用分段斜率法和Fernald法计算MPL水平数据均是可行的。(本文来源于《大气与环境光学学报》期刊2008年01期)
水平分布数据论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
数据挖掘是一种比传统的数据分析技术更加复杂的分析和建模方法,目的是发现数据中隐藏的规则和有用的知识。经过这些年的发展,数据挖掘已经逐渐从集中数据集的挖掘发展到多方参与下的数据挖掘,即分布式条件下的数据挖掘。传统的数据挖掘是直接作用在数据集之上,因此在分布式环境下如何保护各方的隐私信息同时进行数据挖掘已经成为科研和商业等领域关注的焦点。数据的分布方式包括水平分布和垂直分布两种情况,其中数据水平分布应用场景广泛。数据的水平分布指的是数据按照条目分布在各不同的服务器上,不同服务器上的数据具有相同的属性类别,具体的属性值可能不同。本文针对数据水平分布情况下的隐私保护数据挖掘问题,具体包括聚类挖掘、分类挖掘以及关联挖掘,均设计了相关算法来保护挖掘过程中可能存在的隐私泄露问题并对上述的算法进行了实验验证。具体研究工作如下:(1)针对聚类挖掘下的隐私信息保护问题,设计一种数据水平分布条件下的隐私保护聚类挖掘解决方案。首先,利用SMC(安全多方计算)技术初始化全局聚类中心,然后各站点依次把本地数据按照全局的聚类中心分配相应的簇,在每一轮迭代结束时,重新利用SMC技术来确定新的聚类中心,最后经过多轮迭代之后,直至聚类中心不再发生明显的变化。由于在计算全局聚类中心的过程中并不会涉及到各站点具体的数据值,因此该方案在得到正确的聚类结果同时,较好的保护用户的隐私。(2)针对分类挖掘下的隐私信息保护问题,设计一种数据水平分布下的隐私保护分类挖掘算法。本算法使用了BP神经网络进行分类分析。首先,通过各站点初始化网络权值,即随机选择各个站点给出的权值初始值;其次,对各站点输入的样本数据进行分类计算。每一轮的计算会产生权值的增量,利用同态加密技术计算各站点的权值增量和,从而保证各站点数据的独立性,隐私不会被泄露,在同态加密中使用了Paillier密码系统;最后经过多轮的迭代,直至误差精度满足要求为止。由于同态加密体制的引入,该算法在计算出正确的分类结果同时,较好的保护了各站点的隐私。(3)针对关联挖掘下的隐私保护问题,设计了一种数据水平分布下的隐私保护关联挖掘算法。本算法使用基于划分的改进Apriori算法来找出候选项集,由第叁方的站点利用同态加密来计算候选项集的计数和。经解密后,由候选项集得出频繁k项集。根据条件决定是否循环上述过程,利用各个站点找出候选k+1项集。支持计数作为各个站点的关键信息,在计算的过程中被很好的保护,因此保护了各个站点隐私。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
水平分布数据论文参考文献
[1].陶然.面向水平分布数据的隐私保护分类算法研究[D].武汉理工大学.2017
[2].单家伟.数据水平分布的隐私保护数据挖掘算法研究[D].北京邮电大学.2015
[3].陆涛,刘洪伟,刘智慧,朱慧,陈丽.跨组织间隐私数据水平分布线性规划协同优化算法研究[J].广东工业大学学报.2015
[4].胡天寒,叶明全,黄道斌.数据水平分布下的隐私保护关联规则挖掘[J].宿州学院学报.2014
[5].王迪.“城镇居民可支配收入”是怎么算出来的?[N].鞍山日报.2011
[6].严伟榆.分布式数据库下数据水平分布的skyline计算研究[D].云南大学.2010
[7].蒋栋栋,孙志挥,汪晓刚,吴英杰,吕建华.水平分布数据集的隐私保护关联挖掘算法[J].计算机工程.2009
[8].杜其成,纪玉峰,徐赤东.MPL探测气溶胶水平分布数据处理方法研究[J].大气与环境光学学报.2008