导读:本文包含了语义结构挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:文本挖掘,概念层次构建,层次聚类,稀有类别检测
语义结构挖掘论文文献综述
涂鼎[1](2016)在《基于层次语义结构的流式文本数据挖掘》一文中研究指出文本作为一种人类信息交流的基本方式,在非结构化数据中占有极其重要的地位。与其他形式的数据相比,文本数据通常价值较高,因而对文本数据自动分析和挖掘方法的研究一直是计算机领域的一个热门话题。目前互联网上的文本数据增长十分迅速,且是每时每刻持续不断生成的,因此可将其看作是一条条连续的文本流。与传统文本数据相比,流式文本数据具有一些新的特点:1)文本流中的很多数据是低质量的,较难提取有效语义信息;2)文本流中的模式是动态变化的,对挖掘技术提出了准确捕捉这种变化的要求。以上这些特点对现有文本数据挖掘技术提出了新的挑战。目前流式文本数据挖掘技术尚未十分完善,急需提出针对以上挑战的相关算法。层次结构作为常见的数据组织方式,不仅能够更加精确的反映数据间的固有关系,并且是实现自适应方法的一种重要途径,而基于自适应方法可实现自动匹配流式数据中不断变化的模式。本文将层次结构应用到流式文本数据挖掘中,从概念层次构建、稀有类别检测和在线主题检测等叁方面入手,提出了叁种方法以期提高流式文本数据挖掘的性能。最后基于上述方法,本文提出了一种针对流式文本数据挖掘的半监督在线层次主题模型。本文具体贡献如下:1)针对现有概念层次构建方法在微博、用户评论等不规范短文本中语义关系提取精度较低的问题,提出了一种基于复合语义距离的多路概念层次构建方法。该方法中的复合语义距离结合了语义字典距离和上下文距离的优点,并且保证了方法的适用范围和所获取的语义关系的精度。同时,本文还提出一种改进的多路凝聚聚类算法用以构建概念层次。相对传统凝聚聚类而言,多路凝聚聚类能保持概念对间的相对远近关系。此外,本文还提出一种改进的概念层次相似度标准,该标准解决了其原始形式中可能出现的多次匹配问题。实验结果表明,该方法生成的概念层次与真实概念层次的相似度为所有对比方法中最高。2)针对从文本流的概念层次或主题层次中发现新概念或主题的问题,提出了一种基于层次密度聚类的稀有类别检测方法。在社交网络或新闻流中,发现新颖的文档或者新兴主题是很有价值的,异常检测在新颖数据检测中可发挥关键作用。为了改进现有检测方法,本文首先提出了一种基于相对距离约束和核函数的半监督密度聚类算法(Relative Comparison Kernel Mean Shift,RKMS)。与其原始形式相比,RKMS可扩展性更强,且更加适合层次聚类这种应用场景。然后本文基于RKMS提出了一种基于层次结构的稀有类别检测方法。与现有同类方法相比,该方法的优点是无需预先指定类别的数目,且可通过结合主动学习和半监督学习实现模型的逐步优化。实验结果表明,该稀有类别检测方法在使用线性映射和非线性映射的情况下均比其他方法表现更好。3)针对从持续输入的文本流中检测和跟踪主题的问题,提出了一种在线的层次主题模型(Hierarchical Online Non-negative Matrix Factorization,HONMF)。现有在线主题模型大多以扁平方式组织已发现的主题,但将每个主题视作互相独立的个体忽略了主题间的潜在关系,因而限制了这些主题模型的表达能力。针对该问题,本文首先对在线字典学习方法进行扩展并提出一种层次的在线稀疏矩阵分解方法,其可生成以层次形式组织的主题。同时,本文借鉴均值漂移(Mean Shift)聚类的思想提出一种基于主题带宽(Topic Bandwidth)的主题层次结构控制机制,其可自适应的决定主题节点的数目和主题层次的深度。此外,本文还提出在已有主题层次中检测新兴主题和消亡主题的标准,并基于这些标准实现主题层次结构的动态演化。实验结果表明,HONMF能够在更短的运行时间内发现更高质量的主题,并且可跟踪主题结构的变化。4)为了验证本文研究路线的整体效果和进一步提升HONMF的性能,提出了一种基于语义关系的半监督层次在线主题检测框架(Semantic Relation based Semi-supervised Hierarchical Online Non-negative Matrix Factorization,SSHONMF),其将本文前述研究工作整合融合到一套流程中。该流程首先根据语义词典和训练文档生成针对特定文本挖掘任务的概念层次,并基于其中的语义关系对原始文档矩阵进行调整。接着其会使用HONMF检测文本流中的主题层次,同时基于本文稀有类别检测方法中的选择指标从主题层次中选择出线索文档。最后,其将根据线索文档学习出新的相似度度量并用于后续的HONMF过程。实验结果表明,通过结合前述方法,SSHONMF的性能比HONMF有所提升,证明了本文研究路线的合理性和有效性。(本文来源于《浙江大学》期刊2016-04-01)
陆远,胡莹,涂海宁[2](2010)在《基于语义结构的工艺知识挖掘技术研究》一文中研究指出为实现工艺知识挖掘的自动化及工艺知识的及时更新,提出了基于语义结构的产生式规则工艺知识表示法,通过词汇链及特征表达式析取出关键词并形成工艺知识词汇链;为提高知识挖掘效率,提出了工艺知识挖掘机模型并给出了该模型的工作原理及知识挖掘策略。(本文来源于《组合机床与自动化加工技术》期刊2010年05期)
姚娅川[3](2008)在《数据挖掘在视频语义结构化中的应用》一文中研究指出要从浩如烟海的视频数据库中挖掘分析它所蕴涵的语义相关内容,这是视频摘要生成方法面临的难题。本文提出了一种视频结构挖掘的概念框架和视频结构挖掘的系统框架,在概念框架中对视频结构挖掘相关概念给出了规范化的定义,视频结构挖掘框架包括的主要内容有视频基本结构挖掘、视频语法结构挖掘和视频语义结构挖掘。重点讨论了语义预处理及语义相关内容挖掘。(本文来源于《第六届全国信息获取与处理学术会议论文集(3)》期刊2008-08-06)
语义结构挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为实现工艺知识挖掘的自动化及工艺知识的及时更新,提出了基于语义结构的产生式规则工艺知识表示法,通过词汇链及特征表达式析取出关键词并形成工艺知识词汇链;为提高知识挖掘效率,提出了工艺知识挖掘机模型并给出了该模型的工作原理及知识挖掘策略。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语义结构挖掘论文参考文献
[1].涂鼎.基于层次语义结构的流式文本数据挖掘[D].浙江大学.2016
[2].陆远,胡莹,涂海宁.基于语义结构的工艺知识挖掘技术研究[J].组合机床与自动化加工技术.2010
[3].姚娅川.数据挖掘在视频语义结构化中的应用[C].第六届全国信息获取与处理学术会议论文集(3).2008