一、多策略数据挖掘平台MS Miner的元数据管理(论文文献综述)
张良韬[1](2019)在《基于模糊本体融合与推理的知识发现研究》文中认为知识发现是人类文明进步永恒不变的话题,随着大数据时代的发展,互联网各类平台存在着各类的知识资源,通过对这些多源异构的知识资源采取数据挖掘、知识融合、规则推理、神经网络等相关技术手段,对于发现知识有着极大的促进作用。随着web2.0向关联数据形成的web3.0时代迈进,互联网上的各类知识资源都将朝着关联数据、RDF三元组形式转换,知识发现活动也会越来越多地基于其“关联”的知识资源环境,因此知识发现必然面临着新的机会和挑战。同时由于网络知识资源的复杂性,知识往往兼具精确性与模糊性,本体作为一种形式化的,对于概念关系体系的明确而又详细的说明,可以有效的表述知识,在知识发现过程中为用户提供支持,然而当前相关的本体描述语言以及本体编辑工具都无法直接实现用于描述和定义模糊本体,因此本文从知识模糊性角度出发,考虑知识精确性与模糊性的并存,构建包含精确知识和模糊知识的模糊本体,探讨在本体环境下知识发现的技术和实现过程,有助于促进web3.0时代下知识发现的发展,为相关研究提供思路。本研究首先介绍了知识发现的国内外研究现状,探讨了本文的研究内容,确认本文的研究方法与创新点。然后对相关概念与理论基础展开研究,详细介绍了当前模糊知识的概念、表示方法以及相关运算等内容,论述了基于本体的知识融合与推理的相关理论,描述了知识发现中知识的类型以及其过程框架。随后基于模糊知识相关理论以及OWL本体描述语言提出了一个新的模糊本体表示模型,研究了基于此模型的模糊本体构建、融合以及推理等相关技术,最终提出了基于模糊本体融合与推理的知识发现模型。之后设计实验验证模型的正确性与有效性,通过爬取不同网络知识资源的药物相互作用药代学方面相关数据,构建本文提出的模糊本体,并对来自不同知识资源的模糊本体进行融合处理,实现全局模糊本体的构建,然后根据药物相似度机制以及药代学作用机制构建推理规则,完成药物相互作用知识发现。研究发现,本文基于OWL本体描述语言提出的模糊本体模型可以同时描述精确知识和模糊知识,可以直接完成基于本体的精确推理以及模糊推理,无需对语言进行扩展转化,可以同时完成精确知识发现以及模糊知识发现,在本文实验中结合了药物相似度模糊规则以及药代学机制精确规则,对药物相互作用知识进行发现,相较于以往基于规则推理以及药代学作用机制的药物相互作用发现研究而言,本文实验结果准确率有所降低但召回率较大幅度提高,而基于药代学的药物相互作用知识发现具有局限性,因为实际中药物相互作用以及它们的潜在机制涉及了复杂的药理学过程,除此之外,由于数据库没有保持最新的更新以及可能有更多的药物相互作用还未发现,无法证明推理得知的不在检验样本中的相互作用药物对是真的不存在药物相互作用,所以召回率实验指标在本实验中显得更为重要。由此研究者可以有针对性目的性的进行临床实验发现两种药物是否具有药物相互作用,有助于节省资源避免盲目实验,同时也验证了本文基于模糊本体融合与推理的知识发现模型的正确性与有效性,对于web3.0时代下的知识发现研究具有借鉴意义。
薄涛[2](2018)在《基于社交媒体的地震灾情数据挖掘与烈度快速评估应用》文中认为地震灾害被称为群灾之首,而我国又是全球范围内地震灾害最为严重的国家之一。地震灾害分布区域广、发生频率高、造成损失严重是我国的基本国情,减轻地震灾害损失成为我国经济建设面临和必须重点关注的现实。破坏性地震发生后,如何高效、迅速地获取灾情信息并进行与地震损失相关的烈度评估,是地震应急救援和管理面临的关键问题,对这一问题的探索一直以来都是学术界瞄准的重要研究课题,也是灾区各级政府最为关注的问题之一。近年来,伴随着移动互联网技术的快速发展,蕴含海量数据的社交媒体平台为开展地震灾情获取和地震烈度快速评估提供了全新的视角和重要的途径。由于社交媒体数据具有海量性、时空性、交互性、强扩散性、融合性等特点,公众通过社交媒体可以自由表达自己的所见、观点与情感,无形中加速了灾情信息的共享与传播。挖掘震后用户自发贡献的社交媒体海量数据,使“众包”和“群智”思想在地震应急中发挥其应有作用,是有效提升地震灾情获取能力的重要途径与手段。鉴于此,本文在吸收信息科学、工程地震学、管理科学与工程以及统计学等学科的思想和方法的基础上,对社交媒体中震后灾情数据的抓取、甄别、存储以及其时空特征与主题分布特征等若干问题进行了深入研究,在此基础上结合机器学习中的人工神经网络算法,提出了一种基于社交媒体数据的地震烈度快速评估方法。研究的主要目标是统计并分析近年来我国大陆地区在社交媒体平台产生的地震灾情数据所呈现出的特点和规律,以此来推动社交媒体地震灾情数据挖掘这一新兴研究领域的发展,并探索一种新的基于社交媒体数据的烈度快速评估方法,以期提升地震应急救援工作的效率,为地震应急指挥决策提供参考依据。在充分吸收总结前人已有成果的基础上,本文以新浪微博移动端破坏性地震灾情数据为研究对象,致力于探索、解决地震应急和震害评估中的关键性科学问题,完成的主要研究工作及取得的创新成果如下:1.提出了一种多策略的社交媒体地震灾情数据获取方案,以新浪微博移动端为数据源,建立了我国大陆地区首个社交媒体地震灾情数据库及管理平台,为开展这一领域的研究工作奠定了重要基础。以我国现有的规模最大、用户最多的社交媒体平台新浪微博为例,总结分析了现有微博数据获取方法。在此基础上,提出了新浪微博商业API、网络爬虫、烈度衰减关系以及历史震例烈度分布矢量图相结合的多策略社交媒体地震灾情数据获取方案。基于新浪微博移动端,抓取了我国自2010年以来共206次破坏性地震震后72小时内与地震相关的微博数据,建立了我国大陆地区首个社交媒体地震灾情数据库及管理平台,并实现了数据可视化。同时,收集整理了我国大陆地区26次破坏性地震的烈度分布矢量图,在此基础上完成了位置微博的提取与地图匹配。本文所建立的数据库包含文本内容数据与用户关系数据,内容丰富、资料详实,便于下载使用,该数据库的建立为今后开展地震灾情获取和数据挖掘工作提供了宝贵的基础资料。2.基于社交媒体数据,分析了2010年以来我国大陆地区破坏性地震所呈现的灾情时间特征、空间分布特征、时空变化特征以及主题特征,挖掘得出了地震灾情的统计特征和分布规律。基于第三章获取的震后72小时微博数据进行了描述性挖掘,对于总体数据开展了时间分析和空间分析,对于位置微博数据基于热力图进行了时空特征变化的分析,并应用K-means方法做了主题聚类分析,掌握了不同的灾情主题分布情况和规律,较为全面地挖掘得出了近年来我国破坏性地震社交媒体端灾情数据的统计特征和规律。3.基于社交媒体数据,以机器学习中的人工神经网络算法为基础,建立了烈度快速评估模型,提出了一种数据驱动型的地震烈度快速评估方法。将机器学习中的多分类问题思想和文本挖掘方法引入到地震烈度快速评估中,提出了基于震后社交媒体数据的地震烈度快速评估方法的总体框架和流程。采用2010年至2018年的20次破坏性地震新浪微博数据为样本,构建微博文本数据的特征向量矩阵,建立数据与烈度分区之间的对应关系,将碎片化、半结构化的微博文本数据转化为可以作为分类问题输入的空间向量形式,形成机器学习所需的结构化的数据集,在人工神经网络算法的基础上训练出地震烈度快速评估模型。这一模型经测试集性能测试评估准确率可达81%,经实例分析评估准确率超过67%。本文所提出的这种数据驱动型的地震烈度快速评估方法,从时效性和精度上均可相对较好地满足地震应急救援的实际需求。本文的学术贡献和应用价值主要在于:在大数据时代开辟了地震灾情信息获取的一条新途径,为地震应急中的灾情快速获取与烈度快速评估提供了新的技术思路,提出了一种新的地震烈度快速评估方法,在地震应急救援和政府抗震救灾中将具有重要的应用价值。
王鸽[3](2018)在《中文产品评论的情感分析与观点识别技术的研究》文中研究表明越来越多在线产品的销售导致产品评价数量呈爆炸式增长,一些网站上的单个产品评价数量就能达到成百上千条。这些评价信息对潜在客户、产品生产厂商和产品销售商都非常有价值,蕴含着巨大商机。越来越多的研究者也致力于从这些产品评价中分析购买者在评论中所表达的与所购买产品或产品特征相关的观点、态度和情绪等。这样的研究就是情感分析。它涉及到多个研究领域,如信息检索、自然语言处理和数据挖掘等。本文的主要工作如下:(1)提出一种基于句法结构关系对中文产品评论中所描述产品特征进行识别的方法,通过多策略方案抽取出产品评论中出现的不同层次的产品特征,并完成基于产品特征属性的情感分类。此项工作解决了情感分析和观点识别中两个方面的问题:产品特征的抽取和基于产品特征的情感方向识别。产品特征抽取的任务是通过计算产品评论中单词的词频和基于句法关系的双向传播算法抽取产品候选特征,并通过特征剪枝的方式去掉了影响算法准确性的冗余特征。基于产品特征的情感方向识别方法能有效对同一个情感词在不同句子中的情感进行识别,能够考虑到相同的单词可能在不同的句子中表达不同的观点,而不固定单词的情感方向。实验证明,所提方法能够获得较高的精确度、召回率和F-值。(2)提出了在语境环境因素的影响下,采用两种不同策略抽取情感词的方法,即基于距离的情感词抽取和基于句法关系的情感词抽取。通过这两种策略提取客户产品评论中出现的情感词,进而识别出产品评论中出现的观点句,判定观点句所表达的情感方向。文中对所提两种方法的执行效果进行比较,能够结合上下文关系和句子所处语境对观点词和观点句的情感极性进行预测,并对方法的有效性进行实验验证。(3)提出一种基于条件随机场模型CRF的跨领域主题词与情感词抽取算法,即CRF-CDOA算法。将中文的语法规则加入到条件随机场的模型中,通过迭代的方式不断提高源域数据和目标域数据的相关度,用相关度较高的数据去训练条件随机场模型。方法用于在不同领域中对主题词和情感词的抽取。CRF-CDOA算法可以在不标注目标数据域的情况下对语料库中的数据进行识别。最后通过实验验证所提CRF-CDOA算法的有效性。(4)提出基于多维特征工程的三种虚假评论识别方法。在加入产品特征抽取、观点句判断等条件的前提下,定义了 6个用于识别虚假评论的特征参数,构建基于多维特征工程的虚假评论识别模型,同时对挑选的特征工程的有效性进行了验证。在多维特征工程模型的基础上,提出了基于并关系的多维特征工程识别算法、基于加权多维特征工程打分的识别算法和基于加权多维特征工程分类的识别算法,文中对三种方法的执行效果进行比较。基于多维特征工程虚假评论识别模型可以有效过滤出虚假评论。
钟宇[4](2018)在《面向网络自媒体的空间数据挖掘研究》文中研究表明空间数据挖掘(SDM,Spatial Data Mining)是发掘空间数据库或者是空间实体中蕴含的消息以及实体间的空间关系的学科。在空间数据挖掘中包含着聚类分析法、空间分析法、数据可视化方法等主要方法。其中聚类分析法是指将数据集中的样本按其相似性划分到类簇中,同一类簇中样本间的相似性较高。微博平台每天发布着TB级的数据,这些数据当中隐含着关于社会和生活方方面面的信息。本文将每一个微博用户看做一个空间实体,使用聚类分析方法对微博中带有位置属性的数据进行数据挖掘,以发现微博数据中蕴含的与当下社会和生活相关的热点词,并通过可视化的手段将聚类结果中的样本呈现在地图上,以研究其空间分布状况。其中聚类分析法用到的主要算法是k-means算法;算法的实现上使用hadoop加mahout的分布式计算平台。并在该平台基础上对比了kmeans算法与Canopy算法优化后的k-means算法在文本聚类中的区别,以及两个算法在不同输入参数的环境下,收敛速度、迭代次数、簇间距离的变化情况;最终得到经过Canopy算法优化的k-means比普通的k-means聚类质量要明显提高,但是在文本类簇的主题方面,并没有产生很大的影响,只是降低了类簇间的相似性,防止了一个主题多个类别的情况;在聚类的基础上,针对类簇中样本,依据文本的相似性和地理位置上临近性做了用户相似性评价。可视化分析使用ArcGIS以及WebGIS来实现,对类簇进行核密度分析,再做渔网栅格化分析可以使离散的类簇样本具备邻接性,也能够让我们直观的看到类簇主题的主要分布情况。
王昌刚[5](2017)在《多策略数据挖掘平台MSMiner构建中若干问题的研究》文中进行了进一步梳理随着科技的快速进步,计算机软件技术在人们日常生活中的作用越来越明显。对数据挖掘软件进行了简单的介绍,对每一阶段的软件产品进行了分析,总结其优缺点,并同MSMiner相对比分析,从而突出MSMiner的优点。通过对MSMiner的每一个模块功能进行简单的分析,总结了该模型使用过程中的优点,表明该模型在使用时的作用。
刘正涛[6](2016)在《构建Web数据空间的若干关键技术研究》文中指出随着互联网技术的快速发展,Web已经成为一个巨大的信息宝库,拥有海量的数据,成为人们日常生活、电子政务和电子商务等领域不可或缺的部分。为了有效的利用Web上的数据资源,目前已经有很多专门用于Web数据处理的方法:Web数据挖掘、Deep Web数据集成、利用语义技术重构Web而建立的语义Web等。数据空间是针对新的数据特点和数据管理技术的抽象与概括,其本质是解决数据集成问题。数据空间是一个实体所拥有的所有数据的集合。Web数据空间系统是通过集成演化的构建方法,为实现用户所关心的Web上数据访问而建设的一个可持续改进的与可逐渐实现Web语义集成的Web数据集成系统。建设Web数据空间系统的目的是为个人或组织有效地利用Web数据提供一种解决方案。围绕如何构建一个Web数据空间需要解决的关键问题:系统框架、数据模型、数据源选择、模式集成、访问控制等方面开展了研究工作,具体的研究成果如下:(1)提出了Web数据空间的系统框架与构建原则。在数据空间数据集成理念的基础上,结合Web数据的特点,分析了Web数据空间的一些主要特征,给出了构建一个Web数据空间系统的一些基本原则:能够管理Web上的所有数据、使用集成演化数据构建原则、充分利用现有技术、利用协作方式、便利的数据分享方式等。设计了Web数据空间的系统框架,给出了各部分的详细功能,最后详细的讨论了使用显式反馈与隐式反馈实现Web系统空间进化的一些问题。(2)设计了Web数据空间系统的数据模型。基于RDF模型,设计完成了Web数据空间数据模型。模型首先通过RDF建立了一个数据视图,该视图实现了Web上所有数据的统一表示。具体应用时需要针对具体类型的数据进行实例化,具体的实例化模型包括:网页数据、文件&文件夹、Deep Web、数据流、关联数据等。该模型可以实现Web上所有数据的统一建模,在单一模型内部实现非结构化、结构化以及结构化数据的统一表示与访问。(3)提出了一种基于用户查询与数据源中间模式关联度、数据源数据质量、数据源最小查询代价综合考量的Web数据源选择方法。该方法分为两个阶段:第一个阶段根据查询与数据源的关联度、数据源质量选择数据源;第二个阶段使用最小查询代价模型动态选择第一阶段已经选择的数据源,满足用户k个查询记录的需求。在最小查询代价模型算法的设计中,使用了最大熵模型计算数据源之间的重复度。(4)提出了一个Web数据空间数据模式集成与映射方法。首先给出了Web数据空间模式集成的框架,然后运用组合的方法,基于K-中心点算法实现了中间模式的自动集成,最后提出了使用Top-k个模式与用户查询进行映射与匹配的方法,提高了用户查询的准确率与召回率,同时给出了使用集成演化的方法提高查询精度的方法。(5)设计了一个细粒度的基于上下文的访问控制模型。基于XACML模型,运用目前的一些语义技术:使用OWL描述主体、客体、操作与环境,使用SWRL实现语义推理,设计完成了一个细粒度的可以实现对关联数据数据空间的访问控制模型。模型中使用语义范围方法大大减少了访问规则的定义,相关语义技术的使用可以实现对数据空间数据上下文的访问控制。
徐小亚[7](2015)在《数据仓库技术经继续教育学院招生中的应用研究》文中认为随着我国教育改革的逐步深化,各高校继续教育学院蓬勃发展,招生规模逐步扩大。随之而来竞争也日趋激烈,其中招生生源更是各校必争之地。众所周知,生源是一个学校的生命线。如何利用以往的生源信息为招生管理提供决策支持以适应日趋激烈的招生环境,是摆在各继续教育学院面前急待解决的问题。大数据时代的到来使得人们越来越重视信息的价值,数据仓库的重要性也正逐步被人们所认识。数据仓库是一种新的数据处理体系,它从决策的角度管理组织数据,结合联机分析处理和数据挖掘组成决策支持系统,辅助决策。论文以某继续教育学院2010年至2013年的招生录取数据和日常学籍管理数据为依据,从应用的角度,以数据仓库技术为基础,利用OLAP和数据挖掘进行统计分析及知识发现。具体内容如下:一、紧紧围绕招生决策分析主题,采用概念模型、逻辑模型、物理模型三层数据模型合理地进行数据仓库设计。对来自于不同系统的数据源进行抽取、转换、清理、加载,完成生源数据仓库的建立。二、基于生源数据仓库进行联机分析处理,主要对录取人数具体情况、生源的文化程度及年龄段分布、专业录取人数趋势、生源质量及生源流失情况进行综合分析并将分析结果予以直观的展现。三、采用聚类分析、决策树分析、关联分析三类数据挖掘算法对生源数据仓库中的数据进行挖掘,发现函授站点、录取年份、学历层次、成绩档次、文化程度及报到注册率之间的内在联系。四、根据上述联机分析处理和数据挖掘的结果,进行规则获取、分析评估与比较,提出招生建议及策略,供招生管理人员进行决策参考。研究分析表明,数据仓库及应用技术能在继续教育学院招生领域中发挥重要作用。它能发现招生信息中各种潜在的、有价值的规律,提供有效的决策支持信息。据此招生部门可以科学地设置招生计划,合理地制定招生策略,有针对性地指导各函授站的招生工作帮助其有侧重地展开宣传,从而提高招生人数、生源质量及报到注册率。这对继续教育学院扩大规模、提高办学质量具有重要的意义。
吴湘宁[8](2014)在《地质环境数据仓库联机分析处理与数据挖掘研究》文中研究表明改革开放以来,我国经济得到快速发展,取得了举世瞩目的成就,然而,持续增长的工业化、农业现代化、城镇化进程也引发了地质灾害、地下水过度开采及污染、尾矿污染等一系列严重的地质环境问题,不但对人们的生活造成了越来越大的危害,而且也严重影响了我国经济长久发展的前景。因此,合理地利用各种自然和生态资源、对地质环境进行监控和防治、有效地减少和弥补社会经济的发展对地质环境的不利影响,是维持自然生态平衡、促进经济的可持续发展的一项重要工作。为此,我国构建了国家级、省级、地(市)级的三级地质环境监测与管理部门体系,投入了大量人力、物力,广泛开展地质环境调查工作,全面收集了基础的地质环境数据,建设了完善的地质环境监测网络,实现了对重点对象监测数据的实时采集和传输。随着时间推移,这些地质环境调查数据和监测数据经不断积累已达到了一定的规模,现有的地质环境信息处理系统已经无法有效地对这些数据进行有效的分析和深入的挖掘。主要存在以下问题:(1)上级部门和下级部门、以及平级部门的所用的数据存放平台各异,数据存放很分散且数据格式也不统一,难以实现上下级以及平级部门之间数据的共享;(2)下级部门在形成上报数据的过程中,人工参与比较多,效率不高且容易造成上下级部门之间数据的不一致:(3)地质环境数据量变得越来越庞大,在检索并分析地质环境调查数据以及地质环境监测数据时,大量的查询、连接、聚合运算操作耗时巨大,分析效率低至无法忍受:(4)对地质环境调查及监测数据的分析和评估的手段还不够丰富,没有充分地利用丰富的海量历史数据来对其内部价值进行深入的挖掘,难以找山数据后面隐藏的地质环境演变的规律和模式,也无法评估各类因素对地质环境变化的影响情况。因此,将分散地存放在不同部门的、不一致的海量地质环境调查及监测的历史数据进行抽取、转换后,有机地整合到统一的存储空间,为全方位地分析评估和深入挖掘提供数据源,拓展和发现对地质环境调查及监测数据进行分析评估的新手段,从而最大限度地分析和挖掘出海量数据后面所隐藏的地质环境对象演化演变的规律,为地质环境的评估和治理决策提供更加科学的依据,已经成为新时代地质环境监测及防治信息化建设的首要任务。本文的研究内容源自中国地质环境监测院的地质环境数据仓库建设项目,项目的建设目标是构建集成度更高的、可实现数据融合的地质环境数据仓库,并实现相应的辅助决策应用系统。本文对当前国内外地质环境数据分析和处理手段的现状、我国地质环境管理部门的行政组织结构及业务工作流程、地质环境历史调查和监测数据的分布情况、目前地质环境信息化和数据分析处理工作中存在的不足进行了全面的探讨。在此基础上,提出了一个构建地质环境数据仓库及辅助决策应用系统的完整解决框架。整个框架可对地质环境操作数据库中的数据进行重组,构建地质环境数据仓库及多维数据模型,并实现了数据从操作数据库到数据仓库的清理、转换和加载。同时,还设计和实现了对数据仓库中的数据进行联机分析处理及数据挖掘的算法及模块,为地质灾害预报预警、地下水监测与保护、矿山地质评估、资源承载力评估等各种决策工作提供了支持。本文的主要研究内容有:(1)提出并构建了一个地质环境数据仓库,并实现联机分析处理和数据挖掘功能的完整体系,由此形成了一套地质环境数据集成、分析、挖掘、展示的完整框架。涵盖了从数据的清理、转换和加载,到OLAP多维数据模型的构建及对数据的即时分析处理,再到地质环境数据的深入挖掘等实现数据仓库应用所需的各个环节,有效地提升了地质环境信息的分析和评估的机制,开拓了地质环境管理辅助决策的新途径。(2)在分析现有地质环境数据的分布状态及管理流程的基础上,对地质环境数据进行了整合,设计了地质环境数据仓库的体系结构,并按照“地质灾害监测与治理”、“地下水监测与保护”、“矿山地质环境评估与治理”、“地质遗迹调查与保护”、“地质环境及资源承载力综合评价”等不同的数据集市来组织和存储地质环境历史数据。(3)研究了一套地质环境数据仓库的性能优化方案,综合运用Bitmap索引、分区管理、以及异步CDC增量抽取策略等多种手段,有效地提高了地质环境数据仓库的检索、分析效率。(4)研究构建地质环境多维分析体系的方法,设计、实现多种地质环境多维数据立方,并提供前端系统来实现灵活的联机分析处理。(5)研究基于地质环境数据仓库的数据挖掘模型,深入发现海量地质环境数据下隐藏的规律和模式,设计基于支持向量机的地质灾害时间序列预测、基于神经网络的地下水水质评价、基于综合指数分析法的矿山地质环境评估,基于综合指数分析法的自然资源环境承载力评估等数据挖掘算法。(6)研究、设计了多平台联机分析处理和数据挖掘前端系统的方案,实现了通过Web浏览器、智能手机、平板电脑都可访问地质环境数据仓库的灵活的前端系统,为地质环境数据仓库提供丰富的、直观的用户接口。论文的主要特色和创新点有:①提出并构建了集地质环境数据集成、分析、挖掘、展示为一体的地质环境数据仓库体系,系统地变革了地质环境数据分析的机制,提高了决策效率。②设计了综合运用索引、分区、增量抽取等多种策略的地质环境数据仓库性能优化方案,有效提高了数据仓库的运行效率。③为地质环境数据仓库提供了可在多种平台使用的、丰富灵活的前端系统接口,使数据仓库中的数据获得更加多样的使用途径。论文的不足有:①联机分析处理所使用的Mondrian平台虽然有着很好的移植性,但是在内存分配和处理上还存在着一定的缺陷,而且很难对内部实现细节进行调整。②由于研究时间有限,以及许多业务领域的数据还未汇集完整的原因,没有进一步提出更多的许多数据挖掘算法,并在地质环境数据仓库中加以验证和比较。总之,地质环境数据仓库及其联机分析处理和数据挖掘系统的出现,是地质环境数据处理方式的必然变革,也必定会提高地质环境管理和决策的科学性和效率。
余永红,向晓军,高阳,商琳,杨育彬[9](2012)在《面向服务的云数据挖掘引擎的研究》文中研究表明数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。
孙涛[10](2010)在《面向半结构化数据的数据模型和数据挖掘方法研究》文中认为随着计算机技术、Internet、数据库技术的快速发展,各领域积累的半结构化数据和信息急剧增加。迫切需要面向知识发现需求设计半结构化数据模型,利用模型存储和描述半结构化数据的内容和结构信息。设计有效的半结构化数据挖掘算法,从大量半结构化数据文档中提取深层次的用于描述信息、结构特征以及事物发展趋势的预测内容,综合内容和结构等多方面信息对半结构化数据进行深层次的潜在知识发现。本文面向半结构化数据模型和数据挖掘方法展开了深入研究,主要内容包括:(1)从半结构化数据研究的整体内容出发,对该领域知识进行了详细的综述。总结了各种已提出的半结构化数据模型和数据模式;从特征提取、频繁结构的发现、文档聚类与分类等多角度详细综述了当前半结构化数据挖掘技术的研究进展;跟踪介绍了当前流行的数据挖掘系统的功能特点。(2)针对半结构化数据模型下不精确和不确定性知识,设计了基于标签树的粗糙集模型LTRS。利用LTRS模型从结构和内容两个角度分析半结构化数据,基于树的表现形式从结构和内容两个角度生成决策规则,描述树节点间的组成关系和内容上的知识约简。基于现有半结构化数据模型中缺少对数据变化趋势和变化程度的形式化定义,缺乏对数据动态性质有力描述的缺点,提出了一个带有树平均深度和平均宽度等动态变化信息的树模型ADAWT,为后续高效空间动态变化结构的发现奠定了基础。(3)提出一种新的基于数据的平衡方法—SSGP,用于处理半结构化数据固有的偏斜数据集分类问题。该算法能处理数据集中存在多种少数类别样例的情况,此外还扩展并运用了样例取模运算,使算法在计算效率上取得了较大提高。(4)在处理XML等半结构化数据集的聚类和分类问题时,都会面临类边界相互重叠,边界噪声带来聚类质量或分类精度下降的问题。借鉴方向性和物理学中万有引力定律的思想,以数据对象之间的相互作用为基础,从标量影响和方向影响两个角度讨论基于密度的聚类问题,提出一个考察对象间矢量感应的密度聚类算法VICA。使用方向相似度法和累加向量法两种计算矢量感应函数的方法判断邻域平衡,处理边界稀疏、对象密度分布不均且含有边界噪声点等情况下的数据聚类问题。(5)针对于传统的静态挖掘算法不能胜任对动态变化的XML文档进行知识发现的问题,利用所提出的ADAWT模型,设计了发现平均深度和平均宽度的空间结构变化达到用户关注程度的SCSFinder算法。此外,基于已抽取发现的各种动态结构为特征构建特征空间,将XML文档表示成特征向量的形式,利用改进的聚类算法实现了大规模XML文档的聚类分析。(6)基于已有的半结构化数据挖掘理论基础,综合目前市场及科研领域较为流行和成熟的数据挖掘产品(如SAS Enterprise Miner、Weka等)的优点,设计了一个多策略数据挖掘原型系统—DBIN Miner。系统实现了对半结构化XML数据的存储,集成了前述工作所介绍的挖掘算法和常用的基本数据挖掘算法。并针对数据挖掘技术和数据挖掘系统面临的处理大规模数据的难题,通过缓冲区和插件技术对系统的可扩展性等问题进行了重点设计与实现。本文在半结构化数据模型设计、面向半结构化数据应用的分类与聚类问题、基于半结构化数据动态特征提取的文档聚类等方向展开相关研究工作,为半结构化数据的知识发现打下理论基础。并且将所研究的理论应用于数据挖掘原型系统的设计与实现中,为相关理论的商业化应用奠定了基础。
二、多策略数据挖掘平台MS Miner的元数据管理(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、多策略数据挖掘平台MS Miner的元数据管理(论文提纲范文)
(1)基于模糊本体融合与推理的知识发现研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景与研究意义 |
1.2 国内外研究现状 |
1.3 研究内容及论文结构 |
1.3.1 研究内容 |
1.3.2 论文结构 |
1.4 研究方法与创新点 |
第2章 相关概念及理论基础 |
2.1 模糊知识 |
2.1.1 模糊集理论概述 |
2.1.2 模糊集表示方法 |
2.1.3 模糊集运算 |
2.2 本体知识融合与推理 |
2.2.1 本体 |
2.2.2 知识融合 |
2.2.3 知识推理 |
2.3 知识发现 |
2.3.1 知识类型 |
2.3.2 知识发现过程 |
第3章 基于模糊本体融合与推理的知识发现模型 |
3.1 知识发现模型构建 |
3.2 模糊本体 |
3.2.1 资源描述框架RDF |
3.2.2 OWL本体描述语言 |
3.2.3 模糊本体表示 |
3.3 模糊本体构建与融合 |
3.3.1 数据预处理 |
3.3.2 本体构建 |
3.3.3 本体融合 |
3.4 模糊本体知识推理 |
3.4.1 SWRL规则扩展 |
3.4.2 模糊知识推理 |
第4章 基于模糊本体融合与推理的知识发现模型实证 |
4.1 实证方案设计 |
4.1.1 实验数据 |
4.1.2 实验步骤 |
4.1.3 实验评估指标 |
4.2 实证实验过程 |
4.2.1 药物相似度计算 |
4.2.2 模糊本体构建 |
4.2.3 模糊本体融合与推理 |
4.3 实证结果分析 |
第5章 总结与展望 |
5.1 论文总结 |
5.2 未来展望 |
参考文献 |
论文成果 |
致谢 |
(2)基于社交媒体的地震灾情数据挖掘与烈度快速评估应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 社交媒体地震灾情数据挖掘 |
1.2.2 地震烈度快速评估 |
1.2.3 研究现状评述 |
1.3 研究目标和主要内容 |
第二章 社交媒体数据挖掘技术 |
2.1 引言 |
2.2 社交媒体相关概念 |
2.2.1 社交媒体 |
2.2.2 关于微博 |
2.3 数据挖掘 |
2.3.1 定义与分类 |
2.3.2 描述性数据挖掘 |
2.3.3 预测性数据挖掘 |
2.4 微博数据挖掘技术 |
2.4.1 微博数据的获取方法 |
2.4.2 基于用户的挖掘技术 |
2.4.3 基于内容的挖掘技术 |
2.5 本章小结 |
第三章 社交媒体地震灾情数据库的建立 |
3.1 引言 |
3.2 数据源的选择—新浪微博 |
3.3 数据的获取 |
3.3.2 地震烈度分布矢量图的收集 |
3.3.3 烈度衰减关系的确定 |
3.3.4 数据的获取 |
3.3.5 数据的预处理 |
3.4 位置微博的处理 |
3.4.1 地图匹配 |
3.4.2 烈度标签的建立 |
3.5 数据库的建立 |
3.5.1 数据库的规范设计 |
3.5.2 数据库的实现 |
3.6 本章小结 |
第四章 社交媒体地震灾情特征分析 |
4.1 引言 |
4.2 总体时空特征分析 |
4.2.1 数据随时间变化特征 |
4.2.2 总体灾情空间特征 |
4.3 位置微博时空特征分析 |
4.4 位置微博的灾情主题分布 |
4.5 本章小结 |
第五章 基于社交媒体数据的烈度快速评估方法 |
5.1 引言 |
5.2 总体思路 |
5.2.1 机器学习 |
5.2.2 方法的基本框架 |
5.3 地震烈度快速评估模型机器学习训练过程 |
5.3.1 模型的选择—浅层人工神经网络 |
5.3.2 特征向量构建 |
5.3.3 数据集的划分 |
5.3.4 学习过程 |
5.4 模型的性能检验 |
5.5 本章小结 |
第六章 实例分析—2018 年松原5.7 级地震 |
6.1 引言 |
6.2 松原地区地震地质与地震活动性背景 |
6.2.1 松原地区的地震构造背景 |
6.2.2 区域地震活动性概况 |
6.3 2018 年松原5.7 级地震烈度快速评估 |
6.3.1 2018 年松原5.7 级地震简介 |
6.3.2 2018 年松原5.7 级地震微博位置数据获取 |
6.3.3 地震烈度快速评估模型验证 |
6.4 本章小结 |
第七章 结论与展望 |
7.1 研究工作总结 |
7.2 本文的创新点 |
7.3 今后工作的展望 |
参考文献 |
致谢 |
作者简介 |
攻读博士期间发表的文章 |
攻读博士期间主持及参与的科研项目 |
攻读博士期间获得的奖励 |
(3)中文产品评论的情感分析与观点识别技术的研究(论文提纲范文)
摘要 |
Abstract |
变量注释表 |
1 绪论 |
1.1 论文研究背景和意义 |
1.2 国内外研究现状 |
1.3 论文研究内容 |
1.4 论文组织结构 |
2 情感分析与观点识别技术概述 |
2.1 情感分析与观点识别的结构 |
2.2 数据获取 |
2.3 情感分类工具 |
2.4 中义分词工具 |
2.5 中文情感词典 |
2.6 情感分析与观点识别中涉及的问题 |
2.7 本章小结 |
3 依存句法关系的多层次特征识别 |
3.1 引言 |
3.2 频繁特征抽取 |
3.3 非频繁特征的识别 |
3.4 特征剪枝 |
3.5 训练分类器 |
3.6 实验结果 |
3.7 本章小结 |
4 语境环境多策略情感词抽取和观点句情感极性预测 |
4.1 引言 |
4.2 基于语境环境的情感词抽取 |
4.3 观点句识别及情感预测的分类器训练 |
4.4 实验结果 |
4.5 本章小结 |
5 基于条件随机场模型的跨领域情感分析研究 |
5.1 引言 |
5.2 条件随机场模型 |
5.3 基于CRF-CDOA模型的跨领域情感分析 |
5.4 实验结果与讨论 |
5.5 本章小结 |
6 基于多维特征工程的虚假评论识别方法的研究 |
6.1 虚假评论的定义及分类 |
6.2 特征工程的设置 |
6.3 基于多维特征工程的虚假评论识别算法 |
6.4 实验结果与讨论 |
6.5 本章小结 |
7 总结与展望 |
7.1 本文所做主要工作 |
7.2 展望 |
参考文献 |
作者简历 |
致谢 |
学位论文数据集 |
(4)面向网络自媒体的空间数据挖掘研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 背景与意义 |
1.2 国内外研究现状 |
1.2.1 空间数据挖掘 |
1.2.2 k-means聚类算法研究现状 |
1.2.3 自媒体数据挖掘研究现状 |
1.3 研究目标与研究内容 |
1.4 论文结构 |
第2章 网络自媒体位置数据抓取策略研究 |
2.1 基于微博开放平台API的微博数据获取 |
2.2 网络爬虫技术简介 |
2.2.1 网络爬虫工作流程 |
2.3 Scrapy爬虫框架 |
2.3.1 Scrapy组件简介 |
2.3.2 Scrapy工作流程 |
2.4 NoSQL数据库 |
2.4.1 NoSQL数据库的分类 |
2.4.2 MongoDB数据库 |
2.5 基于Scrapy框架的微博爬虫实现——以新浪微博为例 |
2.5.1 新浪微博爬虫数据内容 |
2.5.2 新浪微博爬虫网页抓取组件 |
2.5.3 数据存储模块 |
2.5.4 反爬虫研究 |
2.5.5 爬虫运行与数据库可视化 |
第3章 分布式平台Hadoop简介 |
3.1 hadoop概述 |
3.1.1 Hadoop平台的构成 |
3.1.2 Hadoop数据处理流程 |
3.2 HDFS分布式文件系统 |
3.2.1 HDFS的特性与原理 |
3.2.2 HDFS工作流程 |
3.2.3 Namenode和Datanode工作机制 |
3.2.4 HDFS优缺点 |
3.3 MapReduce并行机制研究 |
3.3.1 MapReduce结构与运行流程 |
3.3.2 MapTask、ReduceTask并行度研究 |
3.3.3 MapReduce的shuffle流程 |
3.3.4 Yarn对MapReduce的资源调度 |
第4章 Mahout与K-means算法 |
4.1 k-means算法研究 |
4.1.1 K-means核心思想与算法流程 |
4.1.2 聚类算法中的距离测度选择 |
4.1.3 k-means算法的并行化研究 |
4.1.4 k-means算法的缺点 |
4.2 K-means算法优化与Canopy |
4.2.1 Canopy生成算法流程 |
4.2.2 Canopy生成算法对k-means聚类优化评估 |
4.3 基于Mahout的k-means聚类研究——以文本为例 |
4.3.1 生成输入数据 |
4.3.2 基于n-gram的TF-IDF加权算法 |
4.3.3 运行k-means聚类 |
4.3.4 k-means聚类结果分析 |
第5章 面向微博位置数据的空间聚类分析 |
5.1 数据预处理 |
5.1.1 文本分词——停用词与新增词库 |
5.1.2 样本集序列化(向量化) |
5.2 执行mahout下的K-means中文聚类 |
5.2.1 k-means聚类实验 |
5.2.2 Canopy优化k-means聚类 |
5.2.3 K-means算法与C-means算法对比 |
5.3 结合空间位置信息的用户相似性评价 |
5.3.1 文本相似性计算 |
5.3.2 可视化展示 |
5.4 基于聚类结果的热点分析——以商圈主题类簇为例 |
5.4.1 核密度分析 |
5.4.2 渔网栅格化分析 |
5.5 实验总结 |
第6章 总结与展望 |
6.1 论文总结 |
6.2 展望 |
参考文献 |
致谢 |
(6)构建Web数据空间的若干关键技术研究(论文提纲范文)
摘要 |
Abstract |
注释表 |
第一章 绪论 |
1.1 研究背景 |
1.2 Web数据处理的相关理论与方法 |
1.2.1 Web数据挖掘 |
1.2.2 Deep Web数据集成 |
1.2.3 语义Web |
1.3 Web数据空间 |
1.4 相关研究现状综述 |
1.4.1 Web数据空间系统 |
1.4.2 数据模型 |
1.4.3 数据查询 |
1.4.4 模式匹配集成 |
1.4.5 系统演化 |
1.4.6 访问控制 |
1.5 本文的研究内容 |
1.6 本文的主要结构 |
第二章 Web数据空间系统构建原则与架构 |
2.1 Web数据空间的特征 |
2.2 Web数据空间系统的构建原则 |
2.3 Web数据空间系统框架 |
2.4 群体协作构建Web空间系统 |
2.5 Web数据空间架构分析 |
2.6 小结 |
第三章 Web数据空间数据模型 |
3.1 Web数据空间数据模型数据结构 |
3.2 实例化专门数据模型数据结构 |
3.3 WebDM分析 |
3.3.1 WebDM特点 |
3.3.2 WebDM的演化 |
3.4 实验评估 |
3.5 小结 |
第四章 Web数据源选择 |
4.1 问题定义 |
4.2 数据源模式匹配 |
4.3 数据源可信度 |
4.4 最小代价查询算法 |
4.5 实验评估 |
4.5.1 实验设计 |
4.5.2 实验分析 |
4.6 小结 |
第五章 集成演化数据模式集成 |
5.1 Web数据空间模式集成框架 |
5.2 Top-k模式生成 |
5.2.1 中间模式的产生 |
5.2.2 中间模式属性集合的产生 |
5.2.3 Top-k模式生成 |
5.3 集成演化的方法提高查询的精度 |
5.4 实验评估 |
5.5 小结 |
第六章 细粒度语义访问控制模型 |
6.1 FCAC模型 |
6.1.1 FCAC模型定义 |
6.1.2 语义授权推理 |
6.1.3 语义Web技术到XACML中的应用 |
6.1.4 授权 |
6.1.5 模型分析 |
6.2 授权架构 |
6.3 实验评估 |
6.3.1 元数据和数据集 |
6.3.2 端到端的响应时间 |
6.4 相关工作比较 |
6.5 小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
在学期间的研究成果及发表的学术论文 |
(7)数据仓库技术经继续教育学院招生中的应用研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 研究目标与主要工作内容 |
1.3.1 研究目标 |
1.3.2 主要工作内容 |
1.4 论文结构 |
第二章 数据仓库及相关理论与技术 |
2.1 数据仓库 |
2.1.1 从传统数据库到数据仓库 |
2.1.2 数据仓库的定义及特征 |
2.1.3 数据库和数据仓库数据环境的分离 |
2.1.4 数据仓库系统结构 |
2.1.5 数据仓库的数据组织结构和形式 |
2.1.6 数据仓库的中的关键名词 |
2.2 联机分析处理 |
2.2.1 联机分析处理的定义及特征 |
2.2.2 OLAP的相关概念 |
2.2.3 OLAP的相关操作 |
2.2.4 OLAP的分类 |
2.2.5 OLAP的衡量标准 |
2.2.6 OLAP与数据仓库的关系 |
2.3 数据挖掘技术 |
2.3.1 数据挖掘定义 |
2.3.2 数据挖掘过程 |
2.3.3 数据挖掘的基本方法 |
2.3.4 数据挖掘与数据仓库、OLAP之间的关系 |
2.4 本章小结 |
第三章 数据仓库产品及挖掘工具的选择 |
3.1 数据仓库产品的选择 |
3.2 数据挖掘工具的选择 |
3.3 本章小结 |
第四章 生源数据仓库系统的设计和实现 |
4.1 生源数据仓库系统结构设计 |
4.2 生源数据仓库系统的设计方法 |
4.3 生源数据仓库系统设计原则 |
4.4 生源数据仓库系统构建过程 |
4.4.1 需求分析 |
4.4.2 概念模型设计 |
4.4.3 逻辑模型设计 |
4.4.4 物理模型设计 |
4.4.5 ETL |
4.4.6 ETL的实施方案 |
4.5 本章小结 |
第五章 OLAP、数据挖掘在招生决策中的应用 |
5.1 联机分析处理的实现 |
5.1.1 建立多维数据集 |
5.1.2 多维数据集分析结果展示 |
5.2 数据挖掘的实现 |
5.2.1 K-Means |
5.2.2 决策树C5.O |
5.2.3 Apriori |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
主要参考文献 |
(8)地质环境数据仓库联机分析处理与数据挖掘研究(论文提纲范文)
作者简介 |
中文摘要 |
abstract |
第—章 绪论 |
§1.1 选题来源、目的和意义 |
1.1.1 选题来源 |
1.1.2 选题的目的、意义 |
§1.2 国内外研究现状 |
1.2.1 我国地质环境信息系统研究现状 |
1.2.2 国外地质环境信息系统及数据仓库应用现状 |
1.2.3 数据仓库、联机分析处理、数据挖掘技术概述 |
1.2.4 地质灾害数据分析处理技术现状 |
1.2.5 地下水数据分析处理技术现状 |
1.2.6 矿山地质环境数据分析处理技术现状 |
1.2.7 资源环境承载力数据分析处理技术现状 |
§1.3 存在的问题和发展趋势 |
1.3.1 地质环境信息处理存在的主要问题 |
1.3.2 地质环境信息处理的发展趋势 |
1.3.3 构建地质环境数据仓库的必要性 |
§1.4 主要研究目标及研究内容 |
1.4.1 主要研究目标 |
1.4.2 研究内容 |
§1.5 研究技术路线 |
§1.6 本章小结 |
第二章 地质环境数据仓库构建及多源数据集成 |
§2.1 数据仓库相关技术及业界现状 |
§2.2 地质环境数据仓库结构设计的主要步骤 |
§2.3 地质环境数据仓库的数据集市和主题设计 |
2.3.1 “地质灾害监测与治理”数据集市 |
2.3.2 “地下水监测与保护”数据集市 |
2.3.3 “矿山地质环境评估与治理”数据集市 |
2.3.4 “地质遗迹调查与保护”数据集市 |
2.3.5 “地质环境及资源承载力综合评价”数据集市 |
§2.4 地质环境数据仓库的ETL设计 |
2.4.1 ETL的架构、功能及清洗转换策略 |
2.4.2 ETL的实施和部署 |
§2.5 地质环境数据仓库性能优化设计 |
2.5.1 地质环境数据仓库的索引策略 |
2.5.2 地质环境数据仓库的分区策略 |
2.5.3 地质环境数据仓库的增量抽取策略 |
§2.6 本章小结 |
第三章 地质环境联机分析处理模型的研究与分析 |
§3.1 联机分析处理技术 |
3.1.1 OLAP的定义 |
3.1.2 OLAP的基本概念 |
3.1.3 OLAP的多维分析操作 |
3.1.4 OLAP的实现方式 |
§3.2 地质环境联机分析处理模型研究 |
3.2.1 地质环境数据仓库OLAP系统的体系结构及实体化视图 |
3.2.2 “地质灾害监测与治理”集市多维模型设计 |
3.2.3 “地下水监测与保护”集市多维模型设计 |
3.2.4 “矿山地质环境评估与治理”集市多维模型设计 |
3.2.5 “地质遗迹调查与保护”集市多维模型设计 |
3.2.6 “地质环境与资源承载力综合评价”集市多维模型设计 |
§3.3 本章小结 |
第四章 地质环境数据仓库数据挖掘模型的研究与分析 |
§4.1 数据挖掘技术 |
4.1.1 数据挖掘的基本概念 |
4.1.2 数据挖掘、OLAP、数据仓库的区别与联系 |
§4.2 地质环境数据挖掘、分析、评估的主要指标 |
§4.3 基于支持向量机的滑坡位移时间序列预测模型 |
4.3.1 构建滑坡位移时间序列的滞后空间 |
4.3.2 移除滑坡位移时间序列的增长趋势 |
4.3.3 滑坡位移时间序列的标准化 |
4.3.4 确定滞后时间窗口的大小 |
4.3.5 建立滑坡位移支持向量机时间序列预测模型 |
4.3.6 使用支持向量机模型来预测滑坡位移 |
4.3.7 模型的对比与分析 |
§4.4 BP神经网络地下水水质评价模型 |
4.4.1 传统的地下水水质评价标准 |
4.4.2 BP神经网络地下水水质评价模型 |
§4.5 矿山地质环境综合指数评价模型 |
4.5.1 矿山地质环境的评价指标体系 |
4.5.2 矿山地质环境评价指标权重的确定 |
4.5.3 矿山地质环境综合指数法评估模型 |
§4.6 自然资源环境承载力综合指数评价模型 |
4.6.1 自然资源环境承载力的评价指标体系 |
4.6.2 自然资源环境承载力评价指标权重的确定 |
4.6.3 自然资源环境承载力综合指数法评估模型 |
§4.7 本章小结 |
第五章 联机分析处理与数据挖掘前端系统设计 |
§5.1 联机分析处理与数据挖掘前端系统的特点 |
§5.2 前端系统设计与实现的关键技术 |
5.2.1 Oracle Application Express平台 |
5.2.2 AJAX技术 |
5.2.3 图形和动画技术 |
§5.3 地质环境联机分析处理前端系统实现 |
5.3.1 动态生成多维表达式(MDX)和XMLA |
5.3.2 联机分析系统前端系统的设计 |
5.3.3 动态实时生成地质环境立方体Catalog(XML) |
5.3.4 OLAP动态报表模型设计 |
§5.4 地质环境数据挖掘前端系统实现平台 |
5.4.1 基于ODM的数据挖掘系统架构 |
5.4.2 数据挖掘算法分类 |
5.4.3 实施数据挖掘的主要步骤 |
5.4.4 Oracle数据挖掘API(ODM APIs) |
5.4.5 数据挖掘模型的管理及导入、导出 |
5.4.6 地质环境数据挖掘用户权限的设计 |
§5.5 地质环境数据挖掘前端系统展示 |
5.5.1 基于支持向量机的滑坡位移预测模块 |
5.5.2 BP神经网络地下水水质评价模块 |
5.5.3 矿山地质环境综合评价模块 |
5.5.4 自然资源环境承载力综合评价模块 |
§5.6 地质环境数据仓库与GIS空间数据的结合 |
5.6.1 数据仓库与GIS结合的解决方案 |
5.6.2 数据仓库与GIS结合的实现 |
§5.7 地质环境数据仓库移动客户端 |
5.7.1 地质环境数据仓库移动系统的总体架构 |
5.7.2 基于Android智能手机的移动客户端 |
5.7.3 基于Windows8平板电脑的移动客户端 |
§5.8 本章小结 |
第六章 结论与建议 |
§6.1 结论 |
§6.2 特色与创新 |
§6.3 论文的不足 |
§6.4 未来工作展望 |
致谢 |
参考文献 |
(9)面向服务的云数据挖掘引擎的研究(论文提纲范文)
1 引言 |
2 分布式数据挖掘 |
2.1 基于主体的分布式数据挖掘 |
2.2 基于网格的分布式数据挖掘 |
2.3 基于云平台的分布式数据挖掘 |
3 面向服务的云数据挖掘引擎 |
3.1 信息服务模块 |
3.2 资源配置服务模块 |
(1) 概念模型的转换 |
(2) 抽象执行计划的实例化 |
(3) 分布式数据挖掘应用的调度 |
(4) 任务监控 |
3.3 数据挖掘服务 |
3.4 客户端 |
(1) 数据操作 |
(2) 资源元数据的管理 |
(3) 分布式数据挖掘应用概念模型的设计与提交 |
(4) 任务监控 |
(5) 日志管理 |
4 结束语 |
(10)面向半结构化数据的数据模型和数据挖掘方法研究(论文提纲范文)
内容提要 |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 半结构化数据模型研究 |
1.2.1 基于关系的数据模型及扩展 |
1.2.2 基于对象描述的数据模型 |
1.2.3 基于有向图的数据模型 |
1.3 半结构化数据模式研究 |
1.3.1 基于逻辑描述的模式 |
1.3.2 基于图描述的模式 |
1.4 半结构化数据挖掘算法 |
1.4.1 半结构化数据的特征提取 |
1.4.2 半结构化数据的分类与聚类 |
1.5 国内半结构化数据挖掘研究 |
1.6 数据挖掘系统介绍 |
1.7 本文工作及组织结构 |
第2章 面向数据挖掘需求的半结构化数据模型 |
2.1 基于标签树的粗糙集模型LTRS |
2.1.1 基础定义 |
2.1.2 LTRS模型定义 |
2.1.3 LTRS模型中的决策规则 |
2.2 标记空间结构变化信息的树模型ADAWT |
2.2.1 XML文档变化操作 |
2.2.2 基本概念 |
2.2.3 用于空间变化结构挖掘的树模型ADAWT |
2.3 本章小结 |
第3章 基于偏斜数据集分类问题的数据平衡算法 |
3.1 相关工作 |
3.2 基本定义及性质 |
3.3 SSGP算法介绍 |
3.3.1 算法的数据预处理 |
3.3.2 样例取模思想 |
3.3.3 SSGP算法描述 |
3.4 实验结果与分析 |
3.5 本章小结 |
第4章 对象间矢量感应聚类算法 |
4.1 相关工作 |
4.2 理论基础 |
4.2.1 半结构化数据的聚类问题 |
4.2.2 算法的思想基础 |
4.2.3 相关定义 |
4.2.4 算法的理论基础 |
4.3 VICA算法介绍 |
4.3.1 算法描述 |
4.3.2 参数的讨论 |
4.3.3 算法有效性分析 |
4.3.4 时间复杂度分析 |
4.4 实验结果及分析 |
4.5 本章小结 |
第5章 基于XML动态变化结构的特征提取与文档聚类研究 |
5.1 基本动态结构的定义和挖掘 |
5.1.1 频繁变化结构FCS |
5.1.2 冰冻结构FS |
5.1.3 基于时序模型的FCS挖掘 |
5.2 基于动态结构特征空间的XML文档聚类 |
5.2.1 基于FCS的XML文档聚类 |
5.2.2 基于加权余弦相似度的XML文档聚类 |
5.2.3 基于冰冻结构FS的XML文档聚类 |
5.3 空间变化子结构发现算法SCSFinder |
5.3.1 空间变化结构的动态度量指标 |
5.3.2 SCS结构发现算法 |
5.3.3 算法复杂性分析 |
5.3.4 实验结果及性能分析 |
5.4 本章小结 |
第6章 多策略数据挖掘系统DBIN Miner |
6.1 相关研究背景 |
6.1.1 数据挖掘过程模型 |
6.1.2 数据挖掘系统的发展 |
6.1.3 数据挖掘系统的国际业界标准 |
6.2 数据挖掘系统DBIN Miner的设计 |
6.2.1 系统的开发背景及任务概述 |
6.2.2 系统的需求分析 |
6.2.3 系统的主要功能模块划分 |
6.2.4 系统的其他特点 |
6.3 系统的实现情况 |
6.4 本章小结 |
第7章 结论与展望 |
参考文献 |
攻读博士学位期间发表的论文及参加的项目 |
致谢 |
摘要 |
Abstract |
四、多策略数据挖掘平台MS Miner的元数据管理(论文参考文献)
- [1]基于模糊本体融合与推理的知识发现研究[D]. 张良韬. 武汉大学, 2019(06)
- [2]基于社交媒体的地震灾情数据挖掘与烈度快速评估应用[D]. 薄涛. 中国地震局工程力学研究所, 2018
- [3]中文产品评论的情感分析与观点识别技术的研究[D]. 王鸽. 山东科技大学, 2018
- [4]面向网络自媒体的空间数据挖掘研究[D]. 钟宇. 江西理工大学, 2018(07)
- [5]多策略数据挖掘平台MSMiner构建中若干问题的研究[J]. 王昌刚. 电脑编程技巧与维护, 2017(03)
- [6]构建Web数据空间的若干关键技术研究[D]. 刘正涛. 南京航空航天大学, 2016(11)
- [7]数据仓库技术经继续教育学院招生中的应用研究[D]. 徐小亚. 东南大学, 2015(02)
- [8]地质环境数据仓库联机分析处理与数据挖掘研究[D]. 吴湘宁. 中国地质大学, 2014(01)
- [9]面向服务的云数据挖掘引擎的研究[J]. 余永红,向晓军,高阳,商琳,杨育彬. 计算机科学与探索, 2012(01)
- [10]面向半结构化数据的数据模型和数据挖掘方法研究[D]. 孙涛. 吉林大学, 2010(08)