文本知识发现论文-黄丽丽,杨鑫禹,厚继承,刘万钊,邹元君

文本知识发现论文-黄丽丽,杨鑫禹,厚继承,刘万钊,邹元君

导读:本文包含了文本知识发现论文开题报告文献综述及选题提纲参考文献,主要关键词:社交媒体,文本数据,知识发现系统,运行机制

文本知识发现论文文献综述

黄丽丽,杨鑫禹,厚继承,刘万钊,邹元君[1](2019)在《社交媒体文本数据知识发现系统运行机制研究》一文中研究指出【目的/意义】针对社交媒体文本数据知识发现系统的外部环境和内部结构,探讨社交媒体文本数据知识发现系统的运行机制。【方法/过程】依据系统论、协同论和耗散结构理论原理从理论层面剖析知识发现系统运行机制。【结果/结论】在系统论、协同论和耗散结构理论指导下,将知识发现系统的外部环境、内部系统及系统与外部接口视为统一整体,探讨了知识发现系统中的基于系统论的需求动力机制、基于协同论的系统的内部元素及其作用机制和基于耗散结构理论的内外接口机制,研究可为社交媒体文本数据知识发现研究提供理论参考。(本文来源于《情报科学》期刊2019年11期)

朱吕行[2](2019)在《面向生物医学文本及图谱的知识挖掘与知识发现》一文中研究指出随着生物医学的相关研究迅速发展,大量的领域数据及知识被发现与记录。构造生物信息知识图谱能够有效组织丰富多样的领域知识,从而进行信息检索、数据挖掘与知识发现,为生物学、病理学和药理学提供支持。生物知识图谱的构建过程需要知识提取、知识表示,知识融合以及知识发现等步骤。本文研究这一系列技术步骤中的两个关键问题,分别是面向生物医学文献的信息提取,和面向基因-疾病网络的关联预测,针对这些问题给出了专用的机器学习模型。本文完成的主要工作有:(1)为提取生物医学文献中的事件,提出一种基于混合神经网络的新型组合策略。海量的生物医学以献以非结构化的文本格式记录了大量知识,而事件是一种描述这些知识的有效结构。本文使用了混合深度神经网络模型提取事件相关信息,以消除对人工特征工程的依赖;并使用了一种组合策略作为后处理过程,来改善提取过程中的误差积累。在多个BioNLP公开事件数据集上的实验结果表面本方法的取得了良好的性能表现。(2)为预测基因-疾病关联,给出一个基于关联知识图谱的图卷积模型。众多的数据库记录了的大量的基因和疾病的关联信息,将其组织为知识图谱可以挖掘其中的隐藏知识。本研究使用基于图卷积网络的方法预测其中未知基因-疾病关联,描述了一种邻接矩阵Dropout技术并定义了一个新型的聚簇损失函数,用来增强模型的泛化能力。在DisGeNet数据集上的实验说明了本方法的预测性能达到了已有工作的最佳水平。(3)为解决文献挖掘和关联预测中标注数据不足的问题,给出了基于自训练的半监督学习方法。生物医学数据普遍存在的标记样本数量不足的问题,使得监督学习性能受限。本研究在文本挖掘和基因-疾病关联预测任务上应用了自训练方法,借助已有的标注数据和大量的无标注数据,按照预测结果可信度指标筛选样本,用来扩充标注数据集并迭代训练。对比实验的结果证明了原始模型加入自训练后取得了积极的作用。(本文来源于《中国科学技术大学》期刊2019-05-23)

丁永健[3](2018)在《《数字时代知识发现海牙宣言》的版权立场及其评述——以图书馆从事文本与数据挖掘服务的版权问题为视角》一文中研究指出文本与数据挖掘技术在图书馆的应用引发了新的版权利益冲突。为此,欧洲研究图书馆协会发布《数字时代知识发现海牙宣言》,阐明图书馆界的版权立场,不仅展现了图书馆勇于维护公共利益的责任担当,而且以"软法"的形式对立法施加积极的影响,并对适度校正图书馆领域的版权扩张趋势也有重要的意义。(本文来源于《河南图书馆学刊》期刊2018年08期)

范馨月,崔雷[4](2018)在《基于文本挖掘的药物副作用知识发现研究》一文中研究指出【目的】利用文本挖掘方法发现潜在的药物–副作用关系,为完善现有药物–副作用数据库及药物副作用早期预测提供有效途径。【方法】从PubMed数据库获取2011年–2016年间与人类药物治疗和副作用相关文献共100 873篇,对文献集进行Perl语言切分处理、基于词典的命名实体识别、R语言生成药物–副作用共现矩阵、gCLUTO双聚类分析等一系列研究。【结果】以聚类结果中一类为例,计算得到本方法提取药物–副作用的准确率达75.65%,其中发现潜在的药物–副作用关系比例达13.91%。【局限】仅使用基于词典的命名实体识别方法,并未考虑语法、词法等因素,造成较高的假阳性率。【结论】本研究可用于发现数据库中尚无记载的药物副作用,为药物副作用的早期发现提供参考,为进一步运用自动学习的方法更加准确地提取药物–副作用提供可行的方案。(本文来源于《数据分析与知识发现》期刊2018年03期)

牟冬梅,琚沅红,戴文浩,黄丽丽[5](2018)在《虚拟健康社区文本数据知识发现策略与模型》一文中研究指出[目的 /意义]分析并提出虚拟健康社区文本数据的知识发现策略,构建虚拟健康社区文本数据知识发现模型。[方法 /过程]通过总结分析虚拟健康社区文本数据特点,针对其特点带来的数据挖掘困难制定相应的知识发现策略,并在DIKW体系指导下,依据提出的知识发现策略构建虚拟健康社区文本数据知识发现模型。通过应用计算机编码、自然语言处理技术、句法分析、制定推理规则等方法实现从自由文本数据到药物不良反应智慧的数据价值升华过程。[结果 /结论]通过实证研究验证提出的知识发现策略和知识发现模型的有效性和可操作性,为后续虚拟健康社区文本数据知识发现的相关理论与实证研究提供参考。(本文来源于《图书情报工作》期刊2018年05期)

王先传[6](2017)在《面向事件的文本知识发现与表示》一文中研究指出事件是人类认识和理解现实世界的基本单元,人们是以事件为单元进行思维活动的这一观点,已经被越来越多的研究人员所认可。自MUC(Message Understanding Conference)提出文本事件抽取任务以来,已经受到越来越多的关注,尤其最近几年,文本事件抽取已成为NLP(Natural Language Processing)领域的研究热点之一,深受学术界与实业界的高度重视。目前,在文本知识发现领域,传统的方法主要是以词汇、概念或短语为单元表示文本知识。这种方法存在语义信息缺失、网球问题、不能表达高层次语义以及语义推理欠缺等不足。从事件角度来看,一篇文本,特别是记叙类文本,一定程度上是人们对客观世界中一系列事件以及事件关系认知的文字表达。以事件作为文本语义知识的表示单元可以解决上述传统文本挖掘方法存在的不足,有助于文本中高层次语义信息的表示与推理。近些年来,关于文本事件的研究主要集中于事件抽取和基于事件的一些应用,文本中的事件知识是这些应用的基础。因此,本文针对互联网上的新闻文本,以事件作为文本中语义信息表示的基本单元,研究面向事件的文本知识发现和表示方法,实现对文本的语义理解,为事件本体构建和面向事件的应用提供支持。本文主要工作及创新点包括以下叁个方面。(1)面向事件的文本优化标注与统计分析:在CEC(Chinese Event Corpus)1.0语料库的基础上,优化和补充了基于事件的文本标注规范,包括意念事件、事件关系与事件发生所使用的工具或方式方法等,并依照规范补充标注了这些语义信息,形成了CEC2.0语料库。从文本篇幅、事件要素与标注效果等方面对CEC 2.0进行了统计分析,结果表明CEC 2.0不仅将标注的文本篇数从200篇增加到333篇,而且其中标注的文本语义信息更丰富,CEC 2.0语料库比CEC 1.0有较大的提高。(2)事件语言表现核心词关联规则与搭配模式发现:提出了基于Apriori算法的核心词关联规则发现方法,该方法将CEC 2.0中的每一个已标注事件作为事务,核心词及其位置特征、词性特征作为事务的项,用Apriori算法进行关联规则挖掘。提出了基于语义依存分析的核心词搭配模式发现方法,该方法首先对CEC 2.0语料库中的事件进行语义依存分析,然后对语义依存树进行处理,再用PETreeMiner算法进行核心词搭配模式挖掘,最后实例验证了可以用发现的关联规则和搭配模式引导自动生成描述事件的句子,表明提出的发现方法有效。(3)事件与事件类语义表示与推理:提出了结合新戴维森方法与六要素事件模型形式化表示事件与事件类语义的方法,将事件谓词表示为仅含有事件论元的一元谓词,通过逻辑合取将其与事件六要素连接在一起表示事件与事件类语义。扩展相应的算子,给出了事件的动作、对象、环境、时态以及事件(类)关系的形式化方法,使用描述逻辑方法描述了对象要素中的概念。提出了基于事件类的事件要素缺省推理方法和基于事件类关系的后续事件推理方法,将形式化表示的事件类、事件类关系与规则作为知识库,使用规则进行缺省推理和后续事件推理,并进行了实例验证,表明所提出的事件(类)语义形式化表示和推理方法有效。(本文来源于《上海大学》期刊2017-01-01)

黄丽丽[7](2016)在《社交媒体文本数据的知识发现模型与实证研究》一文中研究指出目前,随着大数据(Big Data)概念的提出及大数据时代的到来,社交媒体以其数据传输速度快、应用范围广、更新频率快等特征,已经成为大数据时代数据仓库的重要组成部分,蕴含大量数据、形式复杂多样、价值深埋有待挖掘的社交媒体数据,为数据挖掘及知识发现奠定坚实的数据基础,吸引了众多的数学、计算机、图书情报领域的科研工作者的充分关注。对由用户生成的、数量众多的社交媒体数据进行采集、清洗和结构化,进而进行统计、信息分析与数据挖据,探寻领域的研究热点、研究前沿和研究趋势,发现某一领域的特殊个案,揭示事件的相关性等等,能够为科学研究与实践应用提供新信息、新线索、新知识,因而成为当前具有一定现实意义的工作。而且与文献数据、科研数据等结构化数据相比,社交媒体文本数据具有不规范特性,主要表现在:数据在社交媒体上以自由的、非结构化的文本数据的形式展现;文本中概念描述用词口语化、习惯用语程度高、存在大量字符缺失、单复数混用等现象;数据中实体语义关系通过语境来体现,并未给予直观的抽象文本;社交媒体作为表达个人感受的平台,文本数据中客观事件的描述夹杂着情感表达,使得事件陈述更加模糊;与此同时大量的知识隐含在事件中也未显现。这些社交媒体文本数据的不规范化特点为对社交媒体数据进行数据规范、概念提取、语义关系表达、事件探测和知识发现带来巨大困难。况且,目前对社交媒体数据进行数据挖掘与知识发现的技术和理念不足以圆满地完成对此类数据的处理,尚缺乏对其系统理论、方法和技术研究。DIKW(Data-Information-Knowledge-Wisdom)体系呈现了从数据到信息、再到知识的层层沉淀凝练最终到智慧的转化过程。因此基于DIKW体系从数据-信息-知识的转换过程可抽象出一个通用方法模型,为领域用户对社交媒体文本数据进行知识发现研究提供指导。此外,句子的句法结构和语义关系是文本内容分析中的关键问题,能否正确地识别并抽取出文本中实体关系是社交媒体文本数据中隐含知识发现得以实现的重要前提。而传统的实体关系抽取大多仅考虑了词法信息,而没有考虑语义信息对实体语义关系的影响,鲜有将实体的词序加入到实体语义关系抽取当中。因此,本研究依据句法分析理论并综合考虑实体的词序对句子语义的影响制定具有较高鉴别能力的抽取实体关系的推理规则,以此来实现文本中实体语义关系的抽取。此外,由于通过将社交媒体文本数据知识发现理论模型应用于具体的社交媒体数据分析中,并从中发现隐含的领域知识,能够验证提出的知识发现模型的可行性,同时也能够表明社交媒体文本数据知识发现模型的研究有助于实现大规模文本数据资源中隐含知识的发现。因此本文将在构建社交媒体文本数据知识发现模型后,将其应用于虚拟健康社区数据的知识发现研究。鉴于此,本文综述了国内外相关研究的成果,针对社交媒体文本数据不规范问题剖析社交媒体数据挖掘可能遇到的问题和困难,在语言学、信息组织、实体识别与关系抽取等理论的指导下,提出社交媒体文本数据挖掘与知识发现策略,从而指导社交媒体文本数据中的知识发现问题的分析与解决。此外,由于社交媒体数据具有数据量大、内容表述不规范、且知识复杂性等特点增大了对社交媒体文本数据抽取之后进行语义分析、语义描述的难度,使得领域用户难以从中发现领域新知识。鉴于目前没有针对社交媒体文本数据的知识发现并广泛认可的挖掘方法或知识发现模型,本研究以DIKW体系为理论指导进行社交媒体文本数据中领域知识发现过程的研究,在DIKW体系从数据到智慧转化的启示下,构建社交媒体文本数据知识发现模型,制定基于语法规则的数据抽取和语义标注的推理规则,以实现语义的自动分析,提高数据的语义标注和语义描述的效率,并由虚拟健康社区数据为例验证所构建模型的科学性和有效性。本文的主要内容包括:(1)提出社交媒体文本数据知识发现策略总结了社交媒体数据挖掘与知识发现的困难,针对社交媒体数据载体的文本化特征,和文本数据中概念描述的口语化、关系表达的自由化、文本中事件阐述的模糊化及知识蕴含的隐蔽化特点,在语言学、信息组织、本体映射、实体识别与关系抽取等理论的指导下,制定社交媒体资源命名实体识别策略、实体语义关系抽取策略和事件探测策略,在此基础上最终形成较为完整的社交媒体数据挖掘与知识发现策略,从而指导社交媒体文本数据中的知识发现问题的分析与解决。(2)构建社交媒体文本数据的知识发现模型在社交媒体知识发现策略的指导下,以DIKW为体系,构建了面向社交媒体文本数据的数据挖掘与知识发现概要模型,并分别细化了模型的数据层、自然语言处理层、语义分析层、关系抽取层和事件探测层,详述各个层的职能,形成详细模型。(3)基于社交媒体文本数据知识发现模型的子系统运行机制以提出的社交媒体文本数据知识发现概要模型和详细模型的基础,完成社交媒体文本数据知识发现子系统中各个模块的搭建,并详细阐述模型中各个模块的不同功能和彼此间的相互关联。从子系统的外部催生条件/需求拉动机制、社交媒体文本数据知识发现子系统内部的语义映射机制、基于规则的推理机制及事件探测反馈机制几方面对知识发现模型的运行机制展开讨论。子系统内部的每种机制在各自的模块内部由各模块组成要素相互作用实现各自功能,各个模块结合在一起组成社交媒体知识发现模型,各种运行机制协同工作,共同完成社交媒体知识发现任务。(4)社交媒体文本数据知识发现实证验证以美国虚拟健康社区MedHelp作为实证研究的数据来源,应用所构建的社交媒体文本数据知识发现子系统从社区中获取由用户生成的文本内容并从中挖掘出潜在的、可能的药物不良反应信息。利用数据库技术和Java编程技术获取虚拟健康社区中自由文本数据构建本地文本库;在实体语义关系提取与分析阶段,本研究编写7条推理规则,利用医学领域本体UMLS、CHV、和SIDER实现与虚拟健康社区自由文本数据中医学健康领域相关概念间的语义映射,最后实现知识发现。实证通过挖掘虚拟健康社区数据中潜在的药物不良反应,验证提出的理论模型的可操作性。数据挖掘发现的药物不良反应信息通过领域专家验证,最终提供给领域用户。本文的研究意义在于:(1)本研究将来自社交媒体的自由文本数据作为研究对象,有别于传统的对结构化数据的研究,也与对科研文献或机构知识库的研究不同,是对学科科研数据进行知识发现研究的补充。(2)结合DIKW理论构建社交媒体知识发现模型,为最终发现社交媒体中有价值的信息提供良好的数据分析环境。对于虚拟健康社区中药物不良反应的挖掘,是对我国药物不良反应监测具有参考价值,有助于药品安全及疾病防治发现,能够从数据方向出发为实际临床验证提供补充。(3)提出通过使用制定推理规则的方法对以自由文本形式呈现的虚拟健康社区数据进行数据抽取、语义分析、语义互联以及知识发现,有助于推进医学信息学和情报学界的数据整合与知识发现理论与方法的研究。(本文来源于《吉林大学》期刊2016-12-01)

曹四华[8](2016)在《基于LDA主题模型上市公司年报文本知识发现》一文中研究指出数据挖掘解决了从大量数据中发现有用信息的问题。对于一些文本、WEB页面、电子邮件等非结构化或半结构化的数据传统的数据挖掘算法难以处理。文本挖掘可以对多个不同的文档进行搜索排序、信息提取,信息过滤以及自然语言理解等,具有很好的研究意义和商业价值。年报是投资者最容易得到的企业资料之一,它能够为投资者做出决策提供参考信息,是利益相关者了解各个公司的盈利能力、运营能力以及公司未来发展情况的一个很重要的途径。因此,上市公司年报的文本挖掘成为人们了解上市公司运营情况的重要手段。本文针对上市公司年报的文本挖掘方法及年报发现所呈现的企业发展趋势问题展开研究。研究参考Loughran and Mcdonald(2011)提出的金融语义词库,对语义词进行了汉化调整,在此基础上建立了一种中文年报挖掘的语义词典。开发了基于语义词词典的年报文本信息分词处理程序,在此基础上构建了上市公司年报关键词LDA主题模型。研究发现,通过分析年报中的语义关键词与年报中相关财务指标的关联关系,年报中不同语义的关键词与上市公司经营状况密切相关,肯定词与否定词会随着公司经营状况发生改变,而不确定性词的增加与未来公司的经营具有负相关关系,并采用多样本对研究结果进行了验证。(本文来源于《中国地质大学(北京)》期刊2016-05-01)

焦潞林,彭岩,林云[9](2014)在《面向网络舆情的文本知识发现算法对比研究》一文中研究指出针对网络舆情分析领域,研究了系统聚类、String Kernels、K最近邻算法(K-nearest neighbor,KNN)、SVM(support vector machine)算法以及主题模型5种聚类算法。以网络舆情数据为对象集,以R语言环境为实验工具,比较了这5种算法的优势与劣势,同时进行了仿真实验。实验结果表明,主题模型相对于其他算法在文本聚类方面具有更好的适用性,其中,主题模型中的CTM(correlated topic model)方法更适合于类别关系的探索与发现,而Gibbs抽样方法则在文本聚类上的表现优于CTM方法。(本文来源于《山东大学学报(理学版)》期刊2014年09期)

赵一鸣,程斌,王显斌[10](2014)在《面向特定领域的文本知识发现研究——上市公司的风险分类体系及关联识别》一文中研究指出文本知识发现的方法可以很好地解决上市公司风险分类体系缺失、识别主次要风险、风险的关联发现等问题。以计算机应用服务业招股说明书中描述风险的文本内容为对象,通过编码,建立了面向上市公司的风险分类体系;根据上市公司自身对各类风险的排序,识别出计算机应用服务业上市公司面临的主要风险;使用多维尺度分析和社会网络分析方法,对各类风险之间的关联进行了挖掘和可视化展示。(本文来源于《情报杂志》期刊2014年03期)

文本知识发现论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着生物医学的相关研究迅速发展,大量的领域数据及知识被发现与记录。构造生物信息知识图谱能够有效组织丰富多样的领域知识,从而进行信息检索、数据挖掘与知识发现,为生物学、病理学和药理学提供支持。生物知识图谱的构建过程需要知识提取、知识表示,知识融合以及知识发现等步骤。本文研究这一系列技术步骤中的两个关键问题,分别是面向生物医学文献的信息提取,和面向基因-疾病网络的关联预测,针对这些问题给出了专用的机器学习模型。本文完成的主要工作有:(1)为提取生物医学文献中的事件,提出一种基于混合神经网络的新型组合策略。海量的生物医学以献以非结构化的文本格式记录了大量知识,而事件是一种描述这些知识的有效结构。本文使用了混合深度神经网络模型提取事件相关信息,以消除对人工特征工程的依赖;并使用了一种组合策略作为后处理过程,来改善提取过程中的误差积累。在多个BioNLP公开事件数据集上的实验结果表面本方法的取得了良好的性能表现。(2)为预测基因-疾病关联,给出一个基于关联知识图谱的图卷积模型。众多的数据库记录了的大量的基因和疾病的关联信息,将其组织为知识图谱可以挖掘其中的隐藏知识。本研究使用基于图卷积网络的方法预测其中未知基因-疾病关联,描述了一种邻接矩阵Dropout技术并定义了一个新型的聚簇损失函数,用来增强模型的泛化能力。在DisGeNet数据集上的实验说明了本方法的预测性能达到了已有工作的最佳水平。(3)为解决文献挖掘和关联预测中标注数据不足的问题,给出了基于自训练的半监督学习方法。生物医学数据普遍存在的标记样本数量不足的问题,使得监督学习性能受限。本研究在文本挖掘和基因-疾病关联预测任务上应用了自训练方法,借助已有的标注数据和大量的无标注数据,按照预测结果可信度指标筛选样本,用来扩充标注数据集并迭代训练。对比实验的结果证明了原始模型加入自训练后取得了积极的作用。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本知识发现论文参考文献

[1].黄丽丽,杨鑫禹,厚继承,刘万钊,邹元君.社交媒体文本数据知识发现系统运行机制研究[J].情报科学.2019

[2].朱吕行.面向生物医学文本及图谱的知识挖掘与知识发现[D].中国科学技术大学.2019

[3].丁永健.《数字时代知识发现海牙宣言》的版权立场及其评述——以图书馆从事文本与数据挖掘服务的版权问题为视角[J].河南图书馆学刊.2018

[4].范馨月,崔雷.基于文本挖掘的药物副作用知识发现研究[J].数据分析与知识发现.2018

[5].牟冬梅,琚沅红,戴文浩,黄丽丽.虚拟健康社区文本数据知识发现策略与模型[J].图书情报工作.2018

[6].王先传.面向事件的文本知识发现与表示[D].上海大学.2017

[7].黄丽丽.社交媒体文本数据的知识发现模型与实证研究[D].吉林大学.2016

[8].曹四华.基于LDA主题模型上市公司年报文本知识发现[D].中国地质大学(北京).2016

[9].焦潞林,彭岩,林云.面向网络舆情的文本知识发现算法对比研究[J].山东大学学报(理学版).2014

[10].赵一鸣,程斌,王显斌.面向特定领域的文本知识发现研究——上市公司的风险分类体系及关联识别[J].情报杂志.2014

标签:;  ;  ;  ;  

文本知识发现论文-黄丽丽,杨鑫禹,厚继承,刘万钊,邹元君
下载Doc文档

猜你喜欢