一、基于Web的数据挖掘(论文文献综述)
蒲道北[1](2021)在《基于Web的数据挖掘模型研究》文中研究说明从海量、复杂的Web数据中获取有价值的信息一直以来都是互联网研究的热点,本文在基于Web数据挖掘的研究中,优化出一种新的面向Web的数据挖掘模型,该模型利用Robot程序采集到的Web数据与特征信息进行匹配规范,然后在数据层中进行容差处理,调整差值数据,最终通过模式分析得到有用信息。实验结果表明,利用提出的模型对Web数据的挖掘结果质量上有了明显的改善和提升。
苗雷[2](2021)在《Web数据挖掘技术在信息管理中的应用》文中研究表明为强化数据整合与利用,充分挖掘数据价值,分析了几种基于Web数据库的数据挖掘方法:粗糙集方法、模糊集方法、神经网络法。分析了Web数据挖掘技术在信息管理中的应用,即在搜索引擎、个性化服务、电子商务等方面的应用。该技术提高了检索效率和结果精度,为信息管理提供了更多便利。
张倩[3](2021)在《数据流聚类算法在Web访问日志分析中的应用研究》文中研究说明近年来互联网技术取得了惊人的发展成绩,各类使用也日益普及,在使用互联网的过程中产生了大量的Web数据,如何从这些海量数据中统计和分析出有价值的信息,挖掘日志数据中蕴藏的访问行为是一个值得研究和关注的热点问题。对这一问题的研究有助于网站管理员及时发现网站安全风险,修复网站漏洞,不断提升网站运维人员的网络安全意识,也有助于管理员及时了解用户关注的网站内容,及时更新维护相关内容,更好发挥网站的作用。本文针对Web访问日志分析的问题,对数据流相关的概念及算法进行研究,提出数据流聚类算法优化方法,对现有的基于密度网格的数据流聚类算法进行改进。然后在充分研究Storm框架基本原理的前提下,将改进算法基于Storm进行分布式并行化设计,提高改进数据流聚类算法的处理效率。最后将改进的分布式数据流聚类算法在实际采集的Web访问日志的分析上加以应用。本文的主要研究内容如下:(1)选择基于密度网格的数据流聚类算法作为Web访问日志分析的基础算法。针对现有算法在阈值参数设置和簇边界判定两个方面的不足,对现有算法进行改进,以提高现有算法聚类性能为目的,提出改进的基于密度网格的数据流聚类算法。(2)针对无法在单机环境下高效处理Web访问日志这类实时、海量数据的问题,搭建分布式流处理平台Storm,以并行化分布式的方式来设计数据流聚类算法,并且基于Storm来实现该算法。(3)将基于Storm实现的分布式数据流聚类算法在Web访问日志分析中应用,设计Web访问日志分析模型。基于实际采集的校园网站Web访问日志进行实验,结果表明,改进的算法聚类效果更优,并行化的计算更好地适应了Web访问日志的数据特点,算法具有分布性、实时性和准确性。得出的分析结果对网站的管理具有一定的参考价值,可以为网站管理中的类似问题提供参考依据。
伍洁[4](2020)在《Web数据挖掘技术在中国电子商务领域的应用研究综述》文中指出Web数据挖掘是将传统数据挖掘技术与Web技术相结合,并综合统计学、可视化等多个学科领域的一种技术。电子商务是与Web技术紧密联系的行业,各大电商平台都应用了Web技术与用户进行交互。近年来,越来越多的学者开始关注Web数据挖掘在电子商务中的应用,主要着重于对电子商务网络营销、电子商务服务质量以及网络安全与Web数据挖掘技术相结合的3个方面进行研究。电子商务怎样与Web数据挖掘技术更好地契合、实现电商平台利益最大化和用户体验最优化成为人们关注的问题,也吸引了众多专家学者进行研究。基于此,文章通过对检索文献的整理、归纳,综述数据挖掘在电子商务领域中的应用研究现状,为进一步的研究指明方向,并指出未来的研究方向是可视化Web数据挖掘技术在电子商务中的应用。
刘芳[5](2020)在《基于Web的数据挖掘可视化平台研究与实现》文中研究表明在科学技术引领的大数据时代背景下,海量的数据给各领域都带来了数据分析的需求,并且数据挖掘的技术门槛、工作量、工作繁琐程度也日益提高。基于上述需求,许多企业将可视化技术与数据挖掘技术相结合,将数据挖掘过程与结果以直观的形式展示给用户,提高数据挖掘工作的效率、准确性和有效性。但是目前已有的数据挖掘可视化平台还存在以下缺点:1)数据挖掘模型执行流程未结合系统底层计算框架的工作流程与任务调度逻辑,计算性能利用率有待提高;2)缺乏对数据挖掘工作完整生命周期的考虑,对数据挖掘建模工作的难度、繁琐程度和重复度优化不足;3)缺乏数据挖掘完整流程的工作报告,未能对数据挖掘工作的总结学习,优化提升提供有效途径。针对上述缺点,本文的研究内容如下:1)结合分布式数据挖掘框架Spark的工作流程,设计并实现数据挖掘流水线模型的执行流程。该流程为系统提供基础的数据挖掘算法,基于分布式框架的任务调度逻辑为流水线模型提供模型翻译技术和模型执行流程。2)结合数据挖掘完整生命周期,设计并实现数据挖掘可视化系统。该系统支持用户拖拽式构建数据挖掘流水线模型,提供各类数据挖掘算法WebAPI、配置模块以及可视化的执行结果与日志模块,为数据挖掘完整流程提供可视化工作环境。3)设计与实现数据挖掘可视化报告子系统,该系统基于组件化设计,根据数据挖掘算子数据类型,为用户提供多种算子报告模板,支持用户结合系统报告模板,选择数据挖掘项目的模型数据和结果数据,自主编辑生成数据挖掘报告。基于以上研究内容,本文设计与实现了基于Web的数据挖掘可视化平台。该平台基于Spark分布式框架为用户提供高效的数据挖掘计算能力,提供拖拽式的流水线建模方式,将用户高度接入数据挖掘过程中,提供自主编辑与系统模板相结合的数据挖掘报告生成功能,将数据挖掘的完整生命周期以高度可视化的方式呈现给用户。该可视化平台对于提升数据挖掘性能,降低数据挖掘工作难度、复杂度和重复度,降低数据挖掘学习难度有极大意义。
张庄[6](2020)在《工业大数据分析建模平台研究与实现》文中认为如今,全球掀起了的新一轮工业变革——智能制造,而工业大数据作为制造智能化的核心驱动力之一,已成为了工业领域的研究热点。作为工业大数据分析技术的关键环节,分析建模的好坏将会直接影响工业大数据分析的质量与效率。然而工业大数据分析发展至今,在数据采集和算法研究上取得了较大的进展,数据完整性和处理能力有很大的提高,相对而言,构建分析模型的能力较为滞后,数据难以转化为可直接进行决策的信息。因此,本文以工业大数据分析建模为研究对象,对其建模方法体系进行分析,并设计开发了工业大数据分析建模平台。主要研究内容如下:(1)通过分析工业大数据中业务梳理、数据支持、分析建模和平台的内部组成和各部分之间的关系,基于CRISP-DM模型形成工业大数据分析建模方法体系,在此基础上对工业大数据分析建模平台进行需求分析,并形成了平台的总体架构;(2)针对支持多计算模式的大数据计算框架问题,首先基于Lambda架构提出多模式大数据处理架构;随后筛选出批处理和流处理两种计算模式下典型、开源的大数据框架进行性能测评;最终形成面向工业大数据分析建模平台的Hadoop+Spark+Flink多模式集成的大数据计算框架;(3)针对大规模、强关联、多维度的工业大数据可视分析问题,提出了基于聚类挖掘算法的可视分析方法。通过将K-means算法与平行坐标法结合,解决工业大数据强关联、多维度的可视化问题,提高数据挖掘的准确度和易见性;随后基于Flink大数据处理框架完成K-means聚类算法的并行化改造,解决大规模工业大数据的计算问题,提高数据挖掘的效率;(4)基于Hadoop、Spark、Flink等开源大数据框架,利用Java Web相关开发技术,完成了工业大数据分析建模平台的开发。
刘齐[7](2020)在《PageRank算法在Web挖掘中的研究与应用》文中研究说明随着计算机网络技术的快速发展,用户获取信息的途径越来越多,但面对庞大的信息资源,如何高效准确的获取对自己有用的信息成为一个难题。在Web结构挖掘中,通过分析网页间的链接关系,结合用户搜索主题,能为用户提供更全面、更精确的信息。本文以Web结构挖掘的Page Rank算法为对象,对其数学模型和实际应用情况进行深入研究,指出了存在主题漂移和偏重旧网页的不足,并提出改进算法,实验结果表明,改进后的算法提高了搜索效果。本文主要工作内容如下:(1)首先对Web数据挖掘和搜索引擎进行研究,介绍了Web数据挖掘的研究背景和发展趋势,详细介绍了其各自的应用场景、发展状况和优缺点;介绍了搜索引擎的原理和应用流程等。(2)针对主题漂移的缺点,本文基于IDF词频计算和二元检索模型提出了BM25概率检索模型,该模型区别于传统的余弦相似度计算,在计算关键字和文档的相关度的过程中,具有更灵活、更高效的优势。(3)针对偏重旧网页的不足,本文引入时间反馈因子,使用搜索引擎搜索到的周期数来替代网页的发布时间,避免了因网页结构差异而导致发布时间获取规则的不统一的问题,能有效对质量高的新网页提供补偿。(4)根据(2)(3)的工作,提出一种改进的Page Rank算法,为了验证改进算法的优势,通过网页爬虫工具Nutch抓取原始网页,进行预处理后作为数据集存储到数据库中,最后分别用原始Page Rank算法和改进的Page Rank算法进行试验,验证了改进算法的有效性。
黄灵[8](2019)在《Web数据挖掘中PageRank和Kmeans算法的改进研究》文中提出自20世纪90年代以来,互联网和万维网得到了迅猛发展,其功能和业务也在不断扩展和增加,这使得它们成为21世纪用户获取资源、数据和信息的主要场所,这也使得Web数据挖掘的任务迫在眉睫。当前,kmeans算法是最经典和使用最广泛的划分聚类算法,而PageRank算法是Web结构挖掘中使用最广泛的算法。基于此,研究了这两种算法的原理,并提出了两种算法的改进方法。传统kmeans算法选择初始聚类中心的方法是随机数法,这种方法易产生聚类结果陷入局部最优解和聚类精度低的问题,而且聚类结果受孤立点的影响很大。为了解决这一问题,提出了一种基于密度标准差的kmeans改进算法。首先计算数据集样本的平均值和标准差,接着计算每个数据点的密度分布函数值,然后计算样本的平均密度和密度标准差,若某一数据点的密度分布函数值小于样本的密度标准差,则划分为孤立点;搜索密度分布函数值数组中的最大值,那么最大值对应的样本点即为初始聚类中心,并将以初始聚类中心为原点,以样本平均值为半径的圆内各点的密度函数值赋值为0,如此重复,直到找到k个初始聚类中心。传统PageRank算法不考虑用户的喜好,存在主题漂移的现象,为了改进PageRank算法的两个缺点,提出了基于用户喜好和主题链接的改进PageRank算法。该算法首先计算网站的出度和入度的权威值,其次计算用户访问某一网站的概率,紧接着计算此网站的权威值,然后计算此网站内的网页的主题链接向量,接着计算主题链接向量的相似度,最后计算网页的PR值,以PR值的大小排序此网站内的网页,如此循环,直至网页全部排序完毕。两种传统算法和改进算法均由Python语言在PyCharm平台编码实现。通过实验对比传统算法和改进算法,实验结果表明,改进kmeans算法消除了孤立点的影响,具有更高的准确率和更好的聚类结果。改进PageRank算法能够根据用户喜好来排序网页,大大提升了用户的体验度,减少了用户自己筛选有用网页的时间。用户不同,得到的排序结果也是不同的。由于此改进算法是基于主题链接的相似度计算PR值的,故此算法在一定程度上可以改进主题漂移的现象。从而证明了两种改进算法的可行性。
夏烈阳[9](2019)在《大数据背景下基于Web日志的用户访问模式挖掘研究》文中研究表明随着互联网的快速发展,网络用户规模不断扩大,网络用户比例不断增加,网络用户行为也变得越来越复杂。尽管许多学者对Web挖掘技术和用户行为挖掘进行了深入研究,但仍存在一些问题。传统的数据挖掘算法在大数据处理效率方面并不令人满意。与此同时,对于电子商务领域,随着网购越来越流行,网民的不断增加以及新的商品出现,大量的商品和用户没有发生交互数据,系统更倾向于给用户推荐热门商品,导致大多数电子商务平台中都存在重复推荐的情况,无法提供更精准的个性化服务,以及长尾物品的发现和物品的权重调整。同时大量的中小型企业想完成数据驱动服务的升级,包括用户行为挖掘、个性化推荐等。这些问题迫切需要解决。因此,本文选择电子商务领域,基于电子商务后台日志的数据特征,重点分析和研究电子商务用户行为,构建用户行为挖掘的基本模式。本文研究内容主要包括以下几点:首先,在深入了解Web用户行为理论的基础上,基于交互的内容对用户的行为进行分类,同时基于大数据背景,在介绍了传统的一些数据挖掘算法的基础上,做了进一步的优化,以符合现实的商业化需求,对于Web日志来说,在大数据环境以及多样的用户行为的影响下,其采集方法与处理方法变得更加的复杂,本文在此基础上深入研究和理解Web用户的行为特征以及Web日志的数据表示并总结出了互联网用户行为所具有的特征。其次,基于上述研究成果,针对大数据时代的应用场景,在对传统算法改进的基础上进行并行化处理,大幅提高算法的运行效率,同时采用分布式的文件存储结构,提高了系统数据处理的容错性。同时,深入研究了协同过滤推荐算法的优缺点。协同过滤当前有着非常广泛的应用,在不改变协同过滤算法的基础上,引入迁移学习,提出了基于标签共享和用户兴趣的跨域迁移的推荐。实验结果表明,与现有的协同过滤推荐算法相比,基于迁移学习的推荐模型的准确率有一定程度的提高,也有助于解决数据稀疏性引起的冷启动问题。同时对原来系统中已存在的推荐算法,对其算法本身的侵入性非常的小。最后,基于上述研究内容和结果,本文构建的Web用户行为挖掘系统,可进行多维度高效率的挖掘。它通过精准的营销和准确的建议,帮助电子商务商家、内容提供商等了解他们的用户并实现更好的商业价值,完成数据驱动服务的升级。
马成平[10](2019)在《商务网站行为分析系统的设计与实现》文中认为用户的点击和浏览行为记录在Web网站日志中,挖掘Web网站日志,分析用户的行为,进而优化电子商务网站,是近些年的研究热点。用户行为分析通常包含访问偏好分析、转化率分析等等,业界有大量的访问偏好分析的研究,并将其应用于个性化推荐领域,但针对转化率分析和网站信息结构分析的研究较少,本文设计和实现的用户行为分析系统侧重这两个方面的研究,并解决了大型电子商务网站大规模日志处理的可扩展性问题。本文主要工作包括如下三个方面:(1)用户的点击路径是电子商务网站用户行为分析的基础,本文设计了从非结构化的原始日志中构造用户点击路径的算法,并使用MapReduce编程模型来解决大规模Web日志分析的可扩展性问题。(2)单一的依赖漏斗模型分析转化率存在缺点,即只能发现薄弱点,不能根据用户点击路径来分析出转化率低的原因。本文提出将漏斗模型和频繁模式挖掘相结合的转化率分析方法,即将通过漏斗模型发现的单步转化率低的节点的点击数,作为阈值输入给频繁模式挖掘程序,从而最大限度的挖掘关联的频繁路径,为企业优化网站提供参考依据。(3)提出了一种使用神经网络模型来分析网站信息结构是否合理的方法。先使用word2vec将用户点击路径向量化,再通过LSTM神经网络模型学习和预测用户的点击分布,并与网站的预期进行比较,以优化网站的信息结构。
二、基于Web的数据挖掘(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于Web的数据挖掘(论文提纲范文)
(1)基于Web的数据挖掘模型研究(论文提纲范文)
引言: |
一、Web数据挖掘技术 |
1.1 Web数据挖掘的任务 |
1.2常用Web数据挖掘技术 |
1.路径分析技术: |
2.关联规则挖掘技术: |
3.序列模式挖掘技术: |
4.聚类分类技术: |
二、Web数据智能挖掘模型和实现分析 |
2.1 数据采集层 |
1.用户接口: |
2.提取特征信息: |
3.Web信息获取: |
4.信息特征匹配: |
5.数据规范: |
6.文档知识库: |
2.2 数据层 |
2.3 数据分析层 |
三、仿真实例及其分析 |
四、结束语 |
(2)Web数据挖掘技术在信息管理中的应用(论文提纲范文)
1 Web数据挖掘技术 |
1.1 Web数据库技术 |
1.2 数据挖掘技术 |
2 基于Web数据库的数据挖掘方法 |
2.1 粗糙集方法 |
2.2 模糊集方法 |
2.3 神经网络法 |
3 Web数据挖掘技术在信息管理中的应用 |
3.1 在搜索引擎中的应用 |
3.2 在个性化服务中的应用 |
3.3 在电子商务中的应用 |
4 结语 |
(3)数据流聚类算法在Web访问日志分析中的应用研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 Web日志分析 |
1.2.2 数据流聚类算法 |
1.3 研究内容 |
1.4 论文结构 |
第二章 相关理论与技术 |
2.1 Web日志挖掘 |
2.1.1 Web挖掘概述 |
2.1.2 Web日志挖掘概述 |
2.1.3 Web日志挖掘过程 |
2.2 数据流聚类算法 |
2.2.1 数据流 |
2.2.2 数据流模型 |
2.2.3 数据流挖掘 |
2.2.4 数据流聚类算法 |
2.3 分布式流处理技术 |
2.3.1 分布式流处理技术 |
2.3.2 分布式流处理平台Storm |
2.4 本章总结 |
第三章 改进的密度网格数据流聚类算法研究 |
3.1 基于密度网格的数据流聚类算法D-Stream |
3.1.1 D-Stream算法概述 |
3.1.2 D-Stream算法基本定义 |
3.1.3 时间周期gap与网格检查 |
3.1.4 算法描述 |
3.1.5 D-Stream算法的不足 |
3.2 改进算法设计 |
3.2.1 改进算法基本思想 |
3.2.2 改进算法基本定义及相关概念 |
3.2.3 算法描述 |
3.3 实验与结果分析 |
3.3.1 实验数据与实验环境 |
3.3.2 算法参数的设置 |
3.3.3 实验结果分析 |
3.4 本章总结 |
第四章 算法并行化设计及其基于Storm的实现 |
4.1 算法并行化设计 |
4.1.1 算法并行化设计基本思想 |
4.1.2 分布式数据流聚类算法概述 |
4.2 算法基于Storm的实现方案 |
4.3 实验与结果分析 |
4.3.1 实验数据与实验环境 |
4.3.2 实验结果分析 |
4.4 本章总结 |
第五章 基于Storm的改进算法在Web日志分析中的应用 |
5.1 Web访问日志格式说明 |
5.2 基于Storm的Web访问日志分析模型设计 |
5.3 模型应用结果及分析 |
5.4 本章总结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
在学期间取得的科研成果和科研情况说明 |
致谢 |
(4)Web数据挖掘技术在中国电子商务领域的应用研究综述(论文提纲范文)
1 国内研究现状 |
2 关键技术 |
2.1 Web数据挖掘技术 |
2.2 电子商务 |
3 Web数据挖掘在电子商务中的应用 |
3.1 Web数据挖掘在电子商务网络营销中的应用 |
3.2 Web数据挖掘在提高电子商务服务质量中的应用 |
3.3 Web数据挖掘在电子商务网络安全中的应用 |
3.4 应用分析总结 |
4 结语 |
(5)基于Web的数据挖掘可视化平台研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状及分析 |
1.2.1 数据挖掘技术研究现状 |
1.2.2 数据挖掘可视化平台研究现状 |
1.2.3 国内外研究现状总结 |
1.3 研究内容与论文工作 |
1.4 论文组织结构 |
第二章 数据挖掘可视化技术相关理论及技术研究 |
2.1 数据挖掘理论及技术 |
2.1.1 数据挖掘概念研究 |
2.1.2 分布式数据挖掘 |
2.1.3 分布式数据集模型 |
2.1.4 Spark工作流程 |
2.1.5 数据挖掘技术小结 |
2.2 可视化技术 |
2.2.1 可视化技术分类 |
2.2.2 Web前端框架 |
2.2.3 数据可视化实现工具 |
2.2.4 可视化技术小结 |
2.3 可视化技术与数据挖掘技术的结合 |
2.4 本章小结 |
第三章 pipeline执行流程的设计与实现 |
3.1 模型通用执行流程 |
3.2 Spark性能保障 |
3.3 数据挖掘pipeline执行流程的设计与实现 |
3.3.1 数据挖掘算法封装模块 |
3.3.2 pipeline模型翻译技术 |
3.3.3 模型执行流程 |
3.4 pipeline模型执行流程应用 |
3.5 本章小结 |
第四章 数据挖掘可视化平台的需求分析与总体设计 |
4.1 数据挖掘可视化系统特点分析 |
4.2 系统需求分析 |
4.2.1 数据挖掘可视化系统需求分析 |
4.2.2 数据挖掘可视化报告子系统需求分析 |
4.3 系统的架构设计 |
4.3.1 表现层 |
4.3.2 业务层 |
4.3.3 算法层 |
4.3.4 计算层 |
4.3.5 数据层 |
4.4 系统流程设计 |
4.5 系统数据库接口设计 |
4.5.1 数据库接口架构设计 |
4.5.2 数据库基本数据表设计 |
4.5.3 数据挖掘可视化系统数据管理设计 |
4.5.4 数据挖掘pipeline模型执行流程数据管理 |
4.5.5 数据挖掘可视化报告子系统数据管理设计 |
4.6 本章小结 |
第五章 数据挖掘可视化平台的核心模块设计与实现 |
5.1 数据挖掘可视化系统的设计与实现 |
5.1.1 组件模块 |
5.1.2 数据挖掘pipeline建模工作平台 |
5.1.3 配置模块 |
5.1.4 日志模块 |
5.1.5 运行结果可视化模块 |
5.2 数据挖掘可视化报告子系统的设计与实现 |
5.3.1 报告模板 |
5.3.2 数据挖掘可视化报告编辑 |
5.3.3 数据挖掘可视化报告存储 |
第六章 基于Web的数据挖掘可视化平台的应用与测试 |
6.1 基于Web的数据挖掘可视化平台的部署 |
6.2 基于Web的数据挖掘可视化平台的应用说明 |
6.2.1 数据挖掘可视化系统应用介绍 |
6.2.2 数据挖掘可视化报告子系统应用介绍 |
6.3 系统功能测试 |
6.3.1 数据挖掘pipeline模型构建测试 |
6.3.2 模型算子节点配置模块测试 |
6.3.3 数据挖掘项目与模型的复用 |
6.3.4 数据挖掘pipeline模型执行模块测试 |
6.3.5 可视化报告生成测试 |
6.4 系统性能测试 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 研究展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(6)工业大数据分析建模平台研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 工业大数据平台研究现状 |
1.2.2 分析建模方法研究现状 |
1.2.3 大数据计算框架研究现状 |
1.3 论文的主要内容与结构框架 |
第二章 工业大数据分析建模方法体系与平台架构 |
2.1 引言 |
2.2 分析建模方法体系 |
2.2.1 业务梳理 |
2.2.2 数据支持 |
2.2.3 分析建模 |
2.3 分析建模平台架构 |
2.3.1 平台需求分析 |
2.3.2 平台总体架构 |
2.4 本章小结 |
第三章 工业大数据分析建模计算框架方案 |
3.1 引言 |
3.2 基于Lambda的多框架集成架构 |
3.2.1 Lambda架构理论 |
3.2.2 基于Lambda的多模式大数据处理架构 |
3.3 大数据处理框架概述 |
3.4 大数据计算框架性能评价 |
3.4.1 批处理计算框架性能评价 |
3.4.2 流式实时计算框架性能评价 |
3.5 分析建模的多模式大数据计算框架 |
3.6 本章小结 |
第四章 工业大数据挖掘的可视分析方法 |
4.1 引言 |
4.2 K-means聚类算法 |
4.2.1 K-means算法基本思想 |
4.2.2 K-means算法步骤流程 |
4.3 基于平行坐标法的K-means算法可视分析 |
4.3.1 K-means聚类算法的改进策略 |
4.3.2 基于平行坐标的可视化方法 |
4.3.3 基于平行坐标的K-Means算法可视化挖掘 |
4.3.4 实例分析 |
4.4 基于Flink的聚类算法并行化 |
4.4.1 Flink运行机制 |
4.4.2 K-means算法并行化 |
4.4.3 实例分析 |
4.5 本章小结 |
第五章 工业大数据分析建模平台的实现 |
5.1 引言 |
5.2 平台功能模块设计 |
5.3 平台开发基础 |
5.3.1 平台开发工具 |
5.3.2 平台运行环境 |
5.4 平台开发关键技术 |
5.4.1 基于Web的可视化技术 |
5.4.2 Flink和Yarn的融合 |
5.5 平台应用实例与功能界面 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介 |
(7)PageRank算法在Web挖掘中的研究与应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作 |
1.4 本文组织结构 |
第二章 Web数据挖掘和搜索引擎 |
2.1 Web数据挖掘概述 |
2.1.1 数据挖掘介绍 |
2.1.2 Web数据挖掘介绍 |
2.1.3 Web数据挖掘的步骤 |
2.1.4 Web数据挖掘的趋势 |
2.2 Web数据挖掘的分类 |
2.2.1 Web结构挖掘 |
2.2.2 Web内容挖掘 |
2.2.3 Web使用挖掘 |
2.2.4 Web语义挖掘 |
2.3 搜索引擎技术介绍 |
2.3.1 搜索引擎的原理 |
2.3.2 搜索引擎的分类 |
2.3.3 搜索引擎系统流程 |
2.4 本章小结 |
第三章 Page Rank算法的研究与分析 |
3.1 Page Rank算法概述 |
3.2 Page Rank算法解析 |
3.2.1 Page Rank原理 |
3.2.2 Page Rank算法的简单模型 |
3.2.3 Page Rank算法的线性代数解法 |
3.3 Page Rank算法的实现 |
3.4 本章小结 |
第四章 基于Page Rank的综合排序算法 |
4.1 Page Rank算法的优缺点 |
4.2 改进的Page Rank算法 |
4.2.1 BM25模型的相关研究 |
4.2.2 时间反馈研究 |
4.3 提出新的Page Rank算法 |
4.4 本章小结 |
第五章 实验与分析 |
5.1 实验方案 |
5.2 实验环境搭建 |
5.3 实验设计 |
5.4 实验结果与分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 研究总结 |
6.2 工作展望 |
参考文献 |
攻读硕士学位期间的科研成果 |
致谢 |
(8)Web数据挖掘中PageRank和Kmeans算法的改进研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 论文研究背景 |
1.1.1 互联网和万维网的产生 |
1.1.3 万维网的特点 |
1.1.4 研究意义 |
1.2 国内外研究现状 |
1.2.1 k_means算法的研究现状 |
1.2.2 PageRank算法的研究现状 |
1.3 论文研究内容 |
1.4 论文组织结构 |
2 Web数据挖掘的相关理论 |
2.1 Web数据挖掘的定义 |
2.1.1 什么是数据挖掘 |
2.1.2 什么是Web数据挖掘 |
2.2 Web数据挖掘的特点 |
2.3 Web数据挖掘的分类 |
2.3.1 Web结构挖掘 |
2.3.2 Web内容挖掘 |
2.3.3 Web使用挖掘 |
2.4 Web数据挖掘的应用 |
2.5 本章小结 |
3 Web数据挖掘算法分析 |
3.1 k_means算法的原理 |
3.1.1 基本定义 |
3.1.2 算法思想 |
3.1.3 算法步骤 |
3.2 PageRank算法的原理 |
3.2.1 基本概念 |
3.2.2 一般解法 |
3.2.3 线性代数解法 |
3.3 本章小结 |
4 k_means算法的改进研究 |
4.1 基本定义 |
4.2 改进k_means算法原理 |
4.2.1 改进算法的思想 |
4.2.2 改进算法的步骤 |
4.3 孤立点的处理 |
4.4 实验结果分析 |
4.4.1 模拟实验数据的结果分析 |
4.4.2 UCI实验数据的结果分析 |
4.4.3 现有改进算法的结果分析 |
4.5 本章小结 |
5 PageRank算法的改进研究 |
5.1 基本概念 |
5.2 改进PageRank算法原理 |
5.2.1 改进算法的相关定义 |
5.2.2 改进算法的思想 |
5.3 实验结果分析 |
5.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(9)大数据背景下基于Web日志的用户访问模式挖掘研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
第一节 选题背景及研究意义 |
第二节 国内外相关研究动态 |
一、Web日志挖掘的研究现状 |
二、大数据背景下数据挖掘研究现状 |
三、个性化推荐的研究现状 |
四、研究中存在的一些缺陷和不足之处 |
第三节 论文的研究内容 |
第四节 论文结构安排 |
第二章 相关理论与技术研究 |
第一节 Web用户行为理论 |
一、Web用户行为概念与特征 |
二、Web用户行为的分类 |
第二节 Web日志挖掘 |
第三节 相关算法研究 |
一、聚类 |
二、分类 |
三、序列挖掘 |
四、推荐算法 |
第四节 大数据处理框架Hadoop |
一、Hadoop体系结构 |
二、MapReduce计算框架 |
三、HDFS分布式文件存储 |
第五节 Hadoop平台日志数据处理优势 |
第六节 本章小结 |
第三章 数据处理及用户行为识别 |
第一节 数据源介绍 |
第二节 数据预处理 |
一、数据清洗 |
二、数据衍生 |
第三节 用户行为识别 |
一、用户及会话识别 |
二、事务识别 |
三、模块标记识别 |
第四节 本章小结 |
第四章 基于大数据平台的数据挖掘算法改进 |
第一节 大数据背景下算法并行化的必要性 |
第二节 基于改进的PrefixSpan的并行模式挖掘算法 |
一、介绍及定义 |
二、PrefixSpan算法描述 |
三、PrefixSpan算法优化 |
四、实验结果及分析 |
第三节 基于样本密度的的FCM模糊聚类算法 |
一、FCM介绍 |
二、基于样本密度的FCM聚类算法 |
三、并行化处理 |
四、算法实验 |
第四节 本章小结 |
第五章 基于标签共享的用户兴趣模型迁移推荐 |
第一节 传统协同过滤推荐及面临问题 |
第二节 迁移学习与跨域 |
第三节 基于标签共享的用户兴趣模型迁移推荐 |
第四节 模型算法 |
一、矩阵奇异值分解算法 |
二、皮尔逊(Pearson)相关系数 |
三、Xgboost集成分类 |
第五节 实验数据及预处理 |
第六节 实验设计 |
一、用户兴趣度模型构建 |
二、迁移源领域兴趣度模型至目标领域 |
三、实验评测及结果 |
第七节 本章小结 |
第六章 Web用户访问模式挖掘系统 |
第一节 需求分析 |
第二节 用户访问模式挖掘系统原型设计与实现 |
一、用户访问兴趣分类 |
二、用户访问习惯挖掘 |
三、站点访问分析 |
四、用户综合推荐 |
第三节 本章小结 |
第七章 总结与展望 |
第一节 总结 |
第二节 展望 |
参考文献 |
致谢 |
在读期间的研究成果 |
(10)商务网站行为分析系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 用户行为分析的研究现状 |
1.2.2 研究现状存在的问题 |
1.3 研究内容 |
1.4 论文组织结构 |
第二章 相关技术 |
2.1 Web数据挖掘 |
2.1.1 Web挖掘分类 |
2.1.2 Web日志挖掘 |
2.2 数据挖掘算法 |
2.3 用户行为分析方法 |
2.4 Hadoop |
2.5 Spark |
2.5.1 工作原理 |
2.5.2 Spark和 Hadoop的关系 |
2.6 word2vec |
2.7 LSTM |
2.8 MongoDB |
第三章 系统需求分析与架构 |
3.1 引言 |
3.2 需求分析 |
3.2.1 用户类型 |
3.2.2 功能性需求 |
3.2.3 非功能性需求 |
3.2.4 运行环境 |
3.3 架构设计 |
3.3.1 点击路径构造模块 |
3.3.2 转化率分析模块 |
3.3.3 信息结构评价模块 |
3.4 本章小结 |
第四章 系统设计与实现 |
4.1 引言 |
4.2 点击路径构造模块的设计与实现 |
4.2.1 Web日志格式解析 |
4.2.2 Web日志预处理 |
4.2.3 构造用户点击路径 |
4.2.4 基于Hadoop平台和Spark平台构造用户点击路径 |
4.3 转化率分析模块的设计与实现 |
4.3.1 转化率定义 |
4.3.2 分析流程设计 |
4.3.3 基于漏斗模型的转化率分析 |
4.3.4 基于AprioriSome算法的频繁路径挖掘 |
4.4 信息结构评价模块的设计与实现 |
4.4.1 方案设计 |
4.4.2 训练模型 |
4.4.3 部署模型 |
4.5 本章小结 |
第五章 系统测试及结果分析 |
5.1 引言 |
5.2 点击路径构造模块测试 |
5.3 转化率分析模块测试 |
5.3.1 转化率分析测试 |
5.3.2 频繁路径挖掘测试 |
5.4 信息结构评价模块测试 |
5.4.1 下一跳页面概率分布测试 |
5.4.2 不同时段的用户行为变化监控测试 |
5.5 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
四、基于Web的数据挖掘(论文参考文献)
- [1]基于Web的数据挖掘模型研究[J]. 蒲道北. 中国新通信, 2021(19)
- [2]Web数据挖掘技术在信息管理中的应用[J]. 苗雷. 黑龙江科学, 2021(18)
- [3]数据流聚类算法在Web访问日志分析中的应用研究[D]. 张倩. 天津理工大学, 2021(08)
- [4]Web数据挖掘技术在中国电子商务领域的应用研究综述[J]. 伍洁. 无线互联科技, 2020(09)
- [5]基于Web的数据挖掘可视化平台研究与实现[D]. 刘芳. 北京邮电大学, 2020(05)
- [6]工业大数据分析建模平台研究与实现[D]. 张庄. 西安电子科技大学, 2020(05)
- [7]PageRank算法在Web挖掘中的研究与应用[D]. 刘齐. 江苏科技大学, 2020(12)
- [8]Web数据挖掘中PageRank和Kmeans算法的改进研究[D]. 黄灵. 兰州交通大学, 2019(03)
- [9]大数据背景下基于Web日志的用户访问模式挖掘研究[D]. 夏烈阳. 云南财经大学, 2019(01)
- [10]商务网站行为分析系统的设计与实现[D]. 马成平. 东南大学, 2019(06)