导读:本文包含了多源数据挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:慢性病,风险因素,饮食口味,众源数据
多源数据挖掘论文文献综述
李瀚祺,贾鹏,费腾[1](2019)在《基于众源数据挖掘的中国饮食口味与慢性病的空间关联》一文中研究指出慢性病是全球最主要的死亡原因,在所有慢性病风险因素中,不健康饮食因素居于首位,也是影响最广泛的风险因素。尽管已有许多关于饮食行为的研究,但在饮食口味与慢性病关联方面尚缺乏定量研究。鉴于此,利用众源网络菜谱数据,提取菜系中多维口味信息,结合不同地区分类的餐饮类兴趣地点(POI)数据,定量分析不同地区人群口味偏好;使用地理探测器方法,从空间分异性角度建立7种口味与出血性卒中、胰腺癌、上呼吸道感染3种慢性病的关联,得到饮食口味对慢性病空间分布的解释能力度量值。结果表明:在7种口味中,过咸是出血性卒中的首要口味风险因子;一定程度的甜是胰腺癌的首要口味风险因子,且甜的程度与胰腺癌风险并非呈简单线性关系;过辛是上呼吸道感染的首要口味风险因子,叁者在统计上均表现显着。本文首次提出了基于众源数据挖掘的潜在健康风险因素定量研究方法,可以应用于病因的探索性分析,并有助于公共卫生部门制定相应的干预措施。(本文来源于《地理学报》期刊2019年08期)
洪皓珏[2](2019)在《基于多源数据挖掘技术的道路交通安全风险评估与对策研究》一文中研究指出为探讨道路交通安全风险与交通相关因素之间的相关性,实现道路交通安全风险的准确预测。本文以浙江省金华市金义东公路作为研究对象,首先,收集道路静态数据(平曲线半径、平曲线偏角、平曲线长度、纵坡坡度、竖曲线半径、竖曲线长度、路面摩擦系数、交叉口数量),交通动态数据(年平均日交通量、大小车型比例、平均车速、大小车型速度差),其它交通数据(停车视距)和事故数据进行交通数据的融合工作;其次,在融合多源交通数据的基础上,分别采用梯度提升树(GBDT)、随机森林(RF)以及线性回归(LR)等叁种技术建立了缺失数据预测模型,修复数据集中的缺失数据;再次,利用基于Hash树的Apriori算法挖掘道路交通安全风险与各交通因素之间的相关关系;然后,用循环神经网络(RNN)和长短时记忆循环神经网络(LSTM)分别建立了道路交通安全风险预测模型,对道路的交通安全风险进行预测;最后,用关联规则挖掘结果和道路交通安全风险预测模型分析关键影响因素与道路交通安全之间的关系,制定相应的交通安全改善对策。研究成果表明,GBDT模型预测效果好,均方误差小且鲁棒性相对较高,完成了缺失交通数据的修复工作;Apriori算法在关联规则挖掘上表现优异,实现了交通因素与交通安全风险之间的关联分析,且在最小置信度为0.8的条件下,一共得到了189条关联规则,并识别出了影响交通安全的关键因素是平曲线长度、交叉口数量、年平均日交通量、大小车型比例和车速;在LSTM和RNN交通事故风险预测模型中,LSTM的均方根误差为0.35,而RNN的均方根误差为0.47,表明LSTM和RNN都能对道路交通安全风险进行预测,但LSTM预测效果要优于RNN;改变交叉口数量、年平均日交通量和车速,再次用LSTM模型进行预测,发现在交叉口间距不大于500米且车速为85Km/h时,道路的交通安全风险达到最低,并且降低交通量也能提升道路交通安全水平。研究成果为机器学习和深度学习相关算法在缺失数据修复方法、关联规则分析领域、预测问题的应用以及金义东公路交通安全的改善措施提供了理论与实践依据。(本文来源于《浙江师范大学》期刊2019-03-17)
杨秋翔,王冠男,王婷[3](2019)在《基于时间序列的多源日志安全数据挖掘仿真》一文中研究指出采用当前数据挖掘方法挖掘多源日志中存在的安全数据时,数据挖掘所用的时间较长,挖掘得到的数据不完整,存在挖掘效率低和数据完整度低的问题。提出基于时间序列的多源日志安全数据挖掘方法,标记时刻不同的信号在多源日志中的强度,根据信号强度计算标签数据在多源日志中的过程时间和移动速度,根据计算结果去除多源日志中存在的脏数据和冗余数据。对多源日志中的时间序列数据做分块处理,结合二维奇异值分解方法和主成分分析方法提取子矩阵中的特征,根据提取得到的特征通过最小距离方法建立数据分类器,利用数据分类器对多源日志中存在的安全数据做分类处理,完成多源日志安全数据的挖掘。仿真结果表明,所提方法的挖掘效率高、数据完整度高。(本文来源于《计算机仿真》期刊2019年02期)
李政霖,何浪,杨孝增[4](2018)在《基于多源数据挖掘的山体保护与利用策略研究——以贵阳市为例》一文中研究指出山体是宝贵的不可再生的自然资源,是构建均衡稳定生态系统的重要载体,在净化城市环境、丰富城市景观、美化城市生活、突出城市特色等方面起着不可替代的作用。随着社会经济的发展,城乡建设活动土地资源的需求日益增多,因缺少有效的管控措施,一些生态景观资源较好山体遭到盲目破坏和侵蚀。本文以贵阳市为例,结合GIS、RS等技术手段,通过对地形、遥感、兴趣点等多源数据进行挖掘,科学识别山体界线,基于地理系统、生态体系、山川文化体系、社会性等,多重判读山体价值,分析贵阳市山体特征及存在问题,从市域层面和中心城区层面提出山体保护、利用控制实施策略。(本文来源于《共享与品质——2018中国城市规划年会论文集(05城市规划新技术应用)》期刊2018-11-24)
曹玉莹[5](2018)在《基于多源数据的药物不良反应数据挖掘研究》一文中研究指出目的:利用网络分析、统计分析等方法和数据挖掘算法对文献数据、我国药物不良反应报告数据和AERS-DM进行数据挖掘,分析国内外降血脂药物不良反应发生的特点,发现降血脂药物的潜在不良反应。利用药物不良反应本体,实现基于国内外药物不良反应报告及中文文献数据挖掘结果的整合,得出国外已报告而国内尚未发现的潜在降血脂药物不良反应。方法:(1)选取2012年万方医学网中的所有文献数据和维普数据库中的医药卫生类期刊的文献数据作为数据来源。利用Perl语言提取文献关键词,将同一篇文献中的关键词两两配对构建成关键词网络,再筛选出心血管药物子网络,然后整合OCVDAE本体,挖掘出潜在的药物不良反应。(2)从NCMI网站上下载降血脂药物使用数据和药物不良反应数据,对数据进行清洗,即提取不良反应术语、去除停用词并去重,然后基于OAE对数据进行规范化处理,使不良反应信息以规范化术语的形式表示,最后对降血脂药物不良反应发生的人口学特征、发生最多的不良反应以及严重不良反应情况进行统计分析。(3)从AERS-DM中提取RxNorm编码的降血脂药物数据和MedDRA编码的不良反应数据,对国外降血脂药物不良反应发生情况进行统计分析,然后计算降血脂药物不良反应的PRR值,得到降血脂药物不良反应信号,并对发现的不良反应信号进行统计分析。(4)将来源于文献数据库和NCMI的数据中的药物信息映射到RxNorm编码上,同时将不良反应信息OAE术语映射到MedDRA编码上,实现挖掘结果的整合。在AERS-DM挖掘结果中,将与关键词网络和NCMI结果相同的数据删除,得到国内未报到而国外已经发现的降血脂药不良反应信号。结果:本研究所构建的关键词网络中共含有380,684个结点,3,446,697对关键词。整合OCVDAE后心血管类药物子网络共包括111种心血管类药物,7,223个结点,13,148个关键词对(边),关键词对共现次数最多为81次。通过替米沙坦及苯磺酸左旋氨氯地平两个案例证实了本方法的可行性,并发现多巴胺与静脉炎的发生具有关联。NCMI中共获得843例病例报告,涉及104种药物,其中单纯降血脂药物16种,相关报告76例,利用OAE对不良反应进行规范化处理及分类后,共得到4053条不良反应记录,分属于25个类别。AERS-DM中16种降血脂药物涉及70,630不良事件报告,331,543条药物不良反应记录,涉及7,143种不良反应,共26类。通过对PRR值的计算,得到降血脂药物不良反应信号2008个。统计分析显示在国内外的不良反应报告中,男性比例均稍大于女性,在60-70岁年龄段引起不良反应最多,国内报告引起不良反应最多的给药途径是静脉滴注,过敏性休克症状是引起最多的不良反应症状,而AERS-DM信号显示引起最多的不良反应是肌肉相关疾病。挖掘结果整合后,共得到1929个国外降血脂药物不良反应信号,再去除OCVDAE中已知的不良反应,共得到1877个潜在的国外降血脂药物不良反应信号,文献验证了知识发现结果。结论:本研究在多源数据的基础上,对国内外降血脂药物不良反应进行数据挖掘研究。证实了基于关键词网络进行知识聚合与知识发现方法的可行性,并通过可视化图形显示了关键词网络,同时证实了基于PRR算法进行药物不良反应信号监测的可信性,并提出了基于本体进行药物不良反应数据整合的方法,发现了心血管类药物在国内外临床不良反应的异同,为药物的安全使用及人群中不良反应预防提供指导。(本文来源于《吉林大学》期刊2018-06-01)
李世豪[6](2018)在《基于多源数据挖掘的电力用户侧信息价值增值方法研究》一文中研究指出随着智能配用电网建设的不断深入,采集终端数量的急剧增长以及采集频度的大幅增强,逐步形成多源、海量的智能电网用户侧大数据。传统的数据挖掘方法已经不能适用于电力用户侧大数据,需要研究适用于电力用户侧大数据的数据挖掘分析方法。通过对电网内部用电数据、外部营销数据等多源用户侧大数据进行挖掘,以充分获取数据价值,使业务决策建立在更加科学的依据基础上,提高电网服务水平,降低电网运营成本,实现信息价值增值,具有重要的意义与价值。本文对电力用户侧信息价值增值相关理论进行概述。首先介绍了价值、信息价值以及信息价值增值的相关概念,然后总结梳理了智能配用电信息类型及其特点,最后针对不同类型的信息介绍了 3种信息价值增值典型应用场景;基于电网内部用电数据,针对异常用电检测典型场景应用,提出了一种基于用户分类与高斯核密度局部离群因子算法的异常用电检测方法。首先通过模糊聚类的方法将用户分类;然后,提取每一类用户的用电行为特征量,采用主成分分析法对特征集进行降维;最后,利用高斯核函数改进局部离群因子算法,提出高斯核密度局部离群因子(gaussian kernel density-based local outlier factor,GKLOF)算法,通过理论推导与仿真实验相结合的方式分析了 GKLOF算法的特性。基于电网外部营销数据,以综合售电交易平台为背景,通过挖掘售电交易平台用户的隐性偏好信息,提出了适用于售电交易平台的智能推荐算法。建立了信息价值增值与系统推荐精度关系量化模型,对信息价值增值进行量化分析。实验结果表明,改进算法在平台运营初期数据量较低的情况下仍具有较高的推荐准确率,实现信息价值增值,从而为售电交易平台带来更大收益。(本文来源于《华北电力大学(北京)》期刊2018-03-01)
操玮,李灿,朱卫东[7](2018)在《多源信息融合视角下中小企业财务危机预警研究——基于集成学习的数据挖掘方法》一文中研究指出大数据环境下,影响中小企业经营状况的因素愈发复杂。为更加准确地衡量中小企业的财务危机状况,从多源信息融合视角出发,在传统反映企业私有信息的财务数据基础上,融合分析了衡量宏观经济和市场环境的公共信息数据。考虑到多源信息数据的多维异构性,引入BPNN、SVM、KNN、LOG和MDA建立模型,并运用集成学习对不同预警模型的结果进行集成处理,以降低不同模型结果不一致带来的风险。实证结果证明融合多源信息的预警模型能提高预警准确率。(本文来源于《财会通讯》期刊2018年05期)
宋惠忠,顾华忠,顾韬,韦安强,周子誉[8](2017)在《基于多源数据挖掘的低压配电网线损智能诊断模型》一文中研究指出针对目前中低压配电网线损治理中存在的影响因素多、基础数据量大、异常诊断分析复杂、排查效率低等问题,结合多年线损管理经验,构建了中低压配电网线损智能诊断模型。通过融合PMS2.0系统、用电采集系统、营销业务系统的设备档案、用户档案、用电负荷等多源数据,采用多维度的分析视角迭加,实现低压配电网线损异常的智能诊断,精准定位导致线损异常的关键节点,极大提高了线损管理水平,取得了显着的管理效益、经济效益和社会效益。(本文来源于《浙江电力》期刊2017年12期)
蒋水宾[9](2017)在《基于多属性排序决策模型的生态效率多源异构数据挖掘研究》一文中研究指出基于数据挖掘的排序决策方法和技术被广泛运用于工程实践与管理中。传统的排序决策方法包括数据包络分析、层次分析法等,在排除主观因素时分析评价指标两两之间相关性上具有明显优势,但它们难以适应处理客观和情感、线上和线下、数量和质量等大规模的互联网决策评价数据。以生态效率评价为例的一类复杂决策系统,因其传统排序决策数据和在线评价数据的结构特征存在较大差异,数据挖掘领域中用于评价预测的方法如基于粗糙集的属性约简模型和支持向量机分类算法在处理这些数据时也面临着新的困难。因此,本文首先提出了生态效率系统数据空间,构建了在线监测数据驱动的多属性排序决策的数学模型,并在系统数据不完备性、舆情数据分析以及多源异构数据融合等方面提出了新的模型算法和决策机制。主要研究内容包括:(1)针对生态效率系统的数据特征,首先构建时序数据排序决策的新模型。从多源异构性、多属性、多口径与多粒度、不确定性四个方面,分析了生态效率系统新特征。结合粗糙集理论保持分类能力不变的前提下能够进行知识约简的优势,采用改进的粗糙集的属性简约算法方法,提出了基于属性重要度的不完备数据填补算法-优劣解距离法(IDFAAI—TOPSIS)动态评价模型。该排序决策模型及其算法,创新性地解决了数据缺失不完备造成的数据信息遗漏问题,提高了数据处理及评价模型性能。最后,通过某园区生态效率的数值实验验证了所提出方法的有效性。(2)考虑生态效率系统的互联网数据呈现爆炸式增长,首次提出了面向主题搜索和情感分析的互联网线上数据观点提取的新模型。该模型在传统的统计数据评价模型基础上,利用了支持向量机分类功能,拓展了在小样本条件下降低维度能力的排序决策方法,增强了观点提取模型的预测性能。使用关于园区生态效率影响因素的主题情感分析数值实验,验证了线上数据生态效率评价预测方法的合理性。(3)提出了基于粗糙集和情感分析的数据融合和决策新模型。首先利用了矩阵因式分解和叁角模糊数的相关理论,实现了多异构数据的数据级融合,通过实验仿真和结果对比发现,该方法在数据融合速度和误差控制方面均表现出良好的性能。进而,提出了多源异构数据融合决策的新模式,实现了对数据库的进一步扩容,对来自线上和线下、客观和主观、数量和质量的不同类型的数据进行了归一化表达,对园区生态效率的改善方向提供了支持辅助的作用。通过研究基于叁角模糊数的异构数据量化处理方法,基于OWA算子设计了数据融合算法,通过实验仿真实际说明了算法的可行的和有效性。(4)提出了基于粗糙集属性约简和支持向量机的园区生态效率预测新方法。利用粗糙集知识对园区生态效率原始影响因素进行离散化处理,选取样本值进行训练,运用支持向量机方法模拟预测结果,进而与样本值进行效果对比检验。最后,对园区生态效率的实证研究表明,本文的研究可以显着提升园区生态方面管理预测能力,对园区生态规划顶层设计具有很重要的意义。(本文来源于《天津大学》期刊2017-11-01)
冯国英,曾德贤,王夏男[10](2017)在《太空多源数据挖掘方法研究》一文中研究指出目前世界各国都拥有海量的太空数据,但由于种种原因这些数据没能被很好的利用,涉及太空大数据的研究也非常少。为了挖掘太空数据的潜在价值,揭示出蕴含在其中的规律和内在联系。首先阐述了数据挖掘的意义和价值,然后通过研究太空多源数据的内容及组成,对太空多源数据的内容及类型进行分类和描述,并指出了当前研究太空多源数据挖掘存在的难点。最后详细介绍了最新的数据挖掘智能算法,给出了了智能算法与多源数据挖掘相结合的方法,并结合实例分析了智能算法应用于太空多源数据挖掘的可行性。(本文来源于《第二届中国空天安全会议论文集》期刊2017-08-09)
多源数据挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为探讨道路交通安全风险与交通相关因素之间的相关性,实现道路交通安全风险的准确预测。本文以浙江省金华市金义东公路作为研究对象,首先,收集道路静态数据(平曲线半径、平曲线偏角、平曲线长度、纵坡坡度、竖曲线半径、竖曲线长度、路面摩擦系数、交叉口数量),交通动态数据(年平均日交通量、大小车型比例、平均车速、大小车型速度差),其它交通数据(停车视距)和事故数据进行交通数据的融合工作;其次,在融合多源交通数据的基础上,分别采用梯度提升树(GBDT)、随机森林(RF)以及线性回归(LR)等叁种技术建立了缺失数据预测模型,修复数据集中的缺失数据;再次,利用基于Hash树的Apriori算法挖掘道路交通安全风险与各交通因素之间的相关关系;然后,用循环神经网络(RNN)和长短时记忆循环神经网络(LSTM)分别建立了道路交通安全风险预测模型,对道路的交通安全风险进行预测;最后,用关联规则挖掘结果和道路交通安全风险预测模型分析关键影响因素与道路交通安全之间的关系,制定相应的交通安全改善对策。研究成果表明,GBDT模型预测效果好,均方误差小且鲁棒性相对较高,完成了缺失交通数据的修复工作;Apriori算法在关联规则挖掘上表现优异,实现了交通因素与交通安全风险之间的关联分析,且在最小置信度为0.8的条件下,一共得到了189条关联规则,并识别出了影响交通安全的关键因素是平曲线长度、交叉口数量、年平均日交通量、大小车型比例和车速;在LSTM和RNN交通事故风险预测模型中,LSTM的均方根误差为0.35,而RNN的均方根误差为0.47,表明LSTM和RNN都能对道路交通安全风险进行预测,但LSTM预测效果要优于RNN;改变交叉口数量、年平均日交通量和车速,再次用LSTM模型进行预测,发现在交叉口间距不大于500米且车速为85Km/h时,道路的交通安全风险达到最低,并且降低交通量也能提升道路交通安全水平。研究成果为机器学习和深度学习相关算法在缺失数据修复方法、关联规则分析领域、预测问题的应用以及金义东公路交通安全的改善措施提供了理论与实践依据。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多源数据挖掘论文参考文献
[1].李瀚祺,贾鹏,费腾.基于众源数据挖掘的中国饮食口味与慢性病的空间关联[J].地理学报.2019
[2].洪皓珏.基于多源数据挖掘技术的道路交通安全风险评估与对策研究[D].浙江师范大学.2019
[3].杨秋翔,王冠男,王婷.基于时间序列的多源日志安全数据挖掘仿真[J].计算机仿真.2019
[4].李政霖,何浪,杨孝增.基于多源数据挖掘的山体保护与利用策略研究——以贵阳市为例[C].共享与品质——2018中国城市规划年会论文集(05城市规划新技术应用).2018
[5].曹玉莹.基于多源数据的药物不良反应数据挖掘研究[D].吉林大学.2018
[6].李世豪.基于多源数据挖掘的电力用户侧信息价值增值方法研究[D].华北电力大学(北京).2018
[7].操玮,李灿,朱卫东.多源信息融合视角下中小企业财务危机预警研究——基于集成学习的数据挖掘方法[J].财会通讯.2018
[8].宋惠忠,顾华忠,顾韬,韦安强,周子誉.基于多源数据挖掘的低压配电网线损智能诊断模型[J].浙江电力.2017
[9].蒋水宾.基于多属性排序决策模型的生态效率多源异构数据挖掘研究[D].天津大学.2017
[10].冯国英,曾德贤,王夏男.太空多源数据挖掘方法研究[C].第二届中国空天安全会议论文集.2017