导读:本文包含了分类抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:实体分类,关系抽取,参数共享,联合学习
分类抽取论文文献综述
张玉坤,刘茂福,胡慧君[1](2019)在《基于联合神经网络模型的中文医疗实体分类与关系抽取》一文中研究指出近年来,医疗健康领域的实体分类与关系抽取引起了广泛关注。以往工作大多采用流水线模型,此类模型容易忽略任务间联系并造成错误传播,而联合学习则能够很好地避免这2个问题。为此,把卷积神经网络与支持向量机、条件随机场相结合,构建了联合神经网络模型。在此模型基础上,以参数共享的方式,分别通过任务联合、模型联合以及特征联合对实体分类与关系抽取2个任务进行联合学习,在药品说明书语料库中取得了非常不错的效果,实体分类和关系抽取的F值分别达到了98.0%和98.3%。实验表明,联合神经网络模型对于实体分类和关系抽取是非常有效的。(本文来源于《计算机工程与科学》期刊2019年06期)
张泽亚[2](2019)在《基于NLP的金融公告分类与抽取系统的设计与实现》一文中研究指出随着国家经济活力的进一步增强,上市公司总数不断增多,金融公告数据分析的难度进一步加大。为了更快速、准确地为风投公司、资金托管机构提供分析数据,金融公告分类与抽取平台使用了大数据加自然语言处理技术,使得每天全国上万家上市公司的公告都能即时得到分析处理。为了提高公告的分类以及抽取准确性,系统中使用二级改进文本抽取方法,先分类出含有属性值的文本行或段(潜在标签),再进行属性值抽取,大大提高了数据平台的核心竞争力。本文首先阐述了项目背景、相关产品的国内外现状以及关键技术与理论,对整个系统进行了功能性和非功能性需求分析。根据需求分析进行了系统的整体架构设计、划分各个模块的主要功能点与数据库设计,然后着重对系统进行了详细设计与实现。笔者完整参与了整个研发过程,独自完成了公告分类模块、公告标注模块、公告属性值抽取模块的主要开发工作,并参与了朴素贝叶斯、潜在标签分类、NER命名实体识别算法的调研与实现工作。在基本需求完成的基础上,笔者针对不同的分词方法、文本分类模型进行了大量的对比实验,开发了分词、数据预处理、调参模块对模型进行了性能优化;并通过语法规则、正则表达式、NER命名实体识别相组合的实验方法提高了系统的文本抽取准确率;对公告的标注与评估等功能进行了可视化处理,提升了系统中模型训练数据的数量和质量;加入了角色和权限模块,实现了对用户的统一管理;入库系统各个模块日志信息,实现了对模型各项指标的统一监控。最后对整个系统进行了功能测试、压力测试等,保证了系统稳定正常运行。目前该系统已经上线运作,针对重要公告类别的抽取准确率和召回率均能达到80%以上,每天对大量的金融公告进行智能结构化处理,抽取出关键信息入库,覆盖全维度的金融市场相关信息。用户可通过该系统使用金融信息查询、债券违约预警、信贷风险监控等功能,为个人和投资机构提供了重要参考。(本文来源于《北京交通大学》期刊2019-05-01)
方芳,王亚,王石,符建辉,曹存根[3](2019)在《基于语义分类和描述框架的网络攻击知识抽取研究及其应用》一文中研究指出随着计算机技术的迅猛发展,自然语言处理成为计算机科学领域与人工智能领域中的一个重要方向,且文本知识获取(knowledge acquisition from text,KAT)是人工智能的重要研究内容。当前对于文本研究,大多采用关键字以及机器学习方法,准确率并不高。该文提出了一种基于语义文法的中文网络攻击事件知识获取方法。首先介绍参考FrameNet构建的语义分类和描述框架,它在现代汉语基本句模分类的基础上进行了扩充和改进。其次,重点介绍了攻击文本中最常见的遭受类语义类的设计和形成过程。然后将语义分类和描述框架应用在"网络安全"领域,形成"网络攻击语义类",并介绍在建立"网络攻击语义类"时遇到的难题,包括文法的设计中对事元的确定、复合句的处理、"的是"结构句型的分析设计、谓词设计等。最后,使用国家某安全部门提供的真实数据进行网络攻击知识抽取,实验表明该方法具有较高的准确率。(本文来源于《中文信息学报》期刊2019年04期)
潮旭[4](2019)在《酒店领域文本情感分类和情感元素抽取研究》一文中研究指出伴随着互联网的普及和电子商务的快速发展,越来越多的人们愿意在网络上分享自己的生活经历,对自己感兴趣的话题发表观点和见解。大量的文本信息由此产生,而为了获取这海量文本中有价值的数据,文本的情感分析工作应运而生。情感分析工作能够挖掘出用户在文本中的情感表达信息,此类信息可应用于社会舆情分析、商品推荐、产品调研以及人机交互等方面。本文研究的主要课题是情感分类,即判断用户对调研目标的情感倾向,是持赞成态度,亦或是反对态度。同时,本文还判断了在特定领域下同一情感词对于不同评价对象的情感倾向,并将其运用于情感分类,从而判断情感词细粒度量化对情感分类的影响。本文具体工作内容如下:(1)详细的介绍了情感分类工作和情感元素抽取工作的原理以及应用的方法,并对文本特征选择方法、文本特征表示方法、经典的文本分类算法以及文本预处理流程进行了描述,同时还提出了目前情感分类工作遇到的难题,为后续工作奠定了基础。(2)为了充分利用短文本中的情感值和语义信息,本文提出结合句法规则、情感值和词向量的中文文本情感分类方法。首先,利用Word2vec训练语料集,将词汇转化成语义向量形式。然后,结合句法规则和词向量,得出评论文本的向量表示。由于通用的中文情感词典对于特定领域的情感分类效果不佳,本文提出了特定领域情感词典创建方法。该方法能够创建出适用于酒店领域文本情感分类的情感词典,利用该词典结合句法规则,得到各文本情感值,继而构建短文本向量和情感值相结合的情感模型VWEV(Vector with Emotional Value)来进行文本情感分类。最后,本文利用SVM(Support Vector Machine)算法构造分类器模型,并通过实验得出最佳的特征选择方法以及最佳的特征数量。(3)同一情感词对于不同的评价对象表达的情感倾向可能是不同的,因此本文试图找出情感词对于不同评价对象的情感倾向,并利用该信息重新对文本进行情感分类实验。本文基于句法规则模板对情感元素进行联合抽取,同时利用Word2vec计算词向量的余弦相似度,将同义的评价对象特征进行聚类,并统一评价对象名称。然后记录各评价对象和各评价词分别在正负类文本中联合出现的次数,并利用其得出各评价词对于各评价对象的情感倾向,再结合构建的情感词典生成联合情感词典。最后利用该词典在原数据集上重新进行情感分类实验,发现该方法提高了情感分类的结果,验证了方法的有效性。(本文来源于《安徽大学》期刊2019-03-01)
程南昌,邹煜,滕永林,侯敏[5](2019)在《篇章知识与逐级分类相结合的人物属性抽取方法研究》一文中研究指出人物属性抽取主要包括两个问题:属性识别和属性归属判定。属性识别主要是命名实体的识别,本文通过对分词软件的调整来完成;在属性归属判定中,本文突破目前主要在句子范围内进行统计操作的方式,提出以篇章知识为指导,从文本到句子逐级分类的人物属性抽取方法,该方法在CIPS-SIGHAN2014评测中F1值宽、严结果分别为0. 51与0. 49,为本次评测最好成绩。事实证明了该方法的有效性。(本文来源于《语言文字应用》期刊2019年01期)
朱惠,王昊,苏新宁,邓叁鸿[6](2018)在《汉语领域术语非分类关系抽取方法研究》一文中研究指出本体是知识组织的有效方式,也是构建语义网的重要环节,而概念非分类关系又是本体的重要组成部分。由于术语是概念的外在表达,因此本文在深入分析当前国内外术语非分类关系抽取研究的基础上,引入共现分析、结构分析、模板构建、逻辑推理等方法和技术构建了面向汉语领域非结构化文本的术语非分类关系抽取模型,分别从内容和结构两个不同的角度抽取术语非分类关系。论文提出了模型的主要运行流程以及各功能模块的主要组成部件,对主要组成部件的具体实现进行了探讨,并对相关方法的局限性进行了论述。本文的研究为术语非分类关系抽取提供了新的思路,丰富了知识发现方法,同时也能为实现可行有效的知识组织提供参考。(本文来源于《情报学报》期刊2018年12期)
郑诚,钱改林,章金平[7](2019)在《Title加TextRank抽取关键句的情感分类研究》一文中研究指出考虑到不同句子对判断文档情感倾向的重要程度不同,因而区分文档的关键句和细节句将有助于提高情感分类的性能。同时,考虑到Title和上下文信息,提出了一种基于Title和加权TextRank抽取关键句的情感分析方法SKTT,实现了高效的情感分析。根据文档Title的情感权重计算Title贡献度,考虑到标点和语义规则对情感倾向的影响;根据加权TextRank算法思想,在文档正文中构建了一个情感句有向图来提取关键句;计算所有关键句的情感倾向进行情感分类。在4个领域上进行实验,实验结果表明,该SKTT方法性能明显优于Baseline,具有高效性。(本文来源于《计算机工程与应用》期刊2019年20期)
侯庆霖[8](2018)在《基于词向量及术语关系抽取方法的文本分类方法》一文中研究指出针对当前中文文本特征词提取不完备以及由于互联网海量文本呈现新特征而导致文本分类不准确的问题,提出基于词向量及术语关系抽取方法的文本分类方法。考虑了词语之间的语义关联关系,将神经网络训练得到的向量空间模型与卡方检验算法结合,形成基于词向量的文本特征选择方法,扩充特征词集合,构成候选术语网络;然后根据特征词之间的位置关系、词汇信息特征考察特征词之间的内部结合紧密度;再次,采用词语的左熵或右熵规则实现术语抽取,形成特定学科领域内能够反映文本表示的特征词抽取方法;最后通过卷积神经网络来判断文本的类别。实验表明,对特征词按照一定规则的扩充,能够使扩充后的特征词集合更具有表征能力,在分类过程中提供更准确的信息;按照特征词内部结合紧密度进行术语的抽取,能够更有效表达文本的主题,提高分类的精度。(本文来源于《移动通信》期刊2018年07期)
钟世敏[9](2018)在《基于信息抽取的英文问句意图分类》一文中研究指出近年来随着AI技术的发展,问答系统技术也逐渐走向了成熟。问答系统可通过信息抽取技术来准确的理解分析自然语言问题,并返回较为准确的问题答案。根据答案的来源不同,问答系统可分为生成式问答系统和检索式问答系统。其中根据信息提供方式的不同,检索式问答系统又可分为基于搜索引擎的web信息检索与基于知识库的信息检索。随着开放知识库以及知识图谱技术的发展,知识库的检索式问答系统被广泛关注。基于知识库的问答系统主要解决由叁元组(实体,关系,实体)构成的事实类问题。在信息抽取阶段,通过抽取问句中的叁元组成分来理解问句。实体,关系作为我们叁元组的重要组成单元,准确的抽取问句中的相关实体和关系不仅有利于更好的理解分析问句同时能够提供更加准确的问句意图领域类别。本文主要研究方向为通过抽取问句中的实体和关系信息,分析实体和关系与问句中其它关键词的潜在含义,实现问句的意图分类。本文的主要研究内容包括以下部分:实体和关系抽取的模型。本文提出了一个新的实体和关系抽取模型,该模型将整个实体和关系的抽取任务化分为两个子任务:实体和关系关键词抽取、关系映射。在实体和关系关键词抽取任务中,设计了一个新的序列标注模式和一个端到端的实体和关系关键词抽取的序列标注模型(BI-LSTM-LSTM)。在关系映射任务中,借助知识库wikidata中的信息,提取关系特征得到特征向量,并构建了特征匹配函数得到关系与关系关键词映射。问句意图分类。利用问句中的实体和关系信息构建了问句意图分类模型。根据问句中实体和关系的抽取结果将问句分成两部分:已提取出完整叁元组关系的问句,未提取出完整叁元组关系的问句。对于前者本文给出了基于答案实体类别路径树的问句意图分类方法。对于后者本文建立了基于KNN算法的问句意图分类算法,通过提取句子级别的特征构建句子级别的特征向量来衡量问句间的距离。为了验证上述两个模型的有效性,在Webquestion,Graph Question等相关数据集上进行了实验与分析。实验结果表明本文提出实体和关系抽取模型,同等条件下,分别在实体抽取、关系抽取、以及实体和关系综合抽取任务中都获得了高于其它模型的F1值。在问句意图分类任务方面,实验分析得出本文模型能够较好的完成英文问句意图分类任务。(本文来源于《西华大学》期刊2018-04-01)
郭勃[10](2018)在《自动问答系统中问题文本分类、答案抽取技术研究》一文中研究指出客服服务作为各个企业和公司产品售后服务和公司业务咨询服务的重要组成部分,有着广泛的应用。随着互联网的快速发展,各种依靠网络的即时通讯软件极大地方便了人们的日常生活,微信作为如今用户最多的通讯软件,用户群体广大且微信公众号提供了二次开发的接口,因此基于微信构建客服系统在开发成本,推广成本,用户体验上具有较大的优势。微信客服系统中的自动问答功能是一个十分重要的模块,一方面减轻了客服人员的工作量,另一方面使用户得到更加快捷有效的客服服务。自动问答系统可以很好的应用到客服系统中去,提升客服系统的服务质量和效率。论文基于微信客服系统的自动问答模块,具体研究了其中两个重要的技术,一个是问题文本分类技术,另外一个是答案抽取技术。本文的整体内容安排按照如下顺序所述:本文首先对微信客服系统的整体构架进行了介绍,对其如何工作,运行的相关步骤进行了说明。并且对主要研究的问答模型进行了细致的说明,介绍了微信客服系统中问答模块中的问题分析模块,候选答案检索模块和答案抽取模块。上述功能模块都在系统中进行了相应的实现。接着本文对问题分析模块中的问题文本分类技术和答案抽取技术进行了详细阐述。在问题文本分类中,传统机器学习方法存在的问题如深层句法语法特征的提取困难,特征稀疏等问题,使用深度学习的方法可以自动提取文本特征但是需要相对较多的训练数据,而浅层线性模型具有较强的记忆能力。因此本文结合组合的深度模型与线性模型提出了改进的问题分类模型。在答案抽取模块中,本文将其同样看作一个分类问题,针对传统机器学习方法特征提取的相关问题,提出了改进模型,首先利用深度神经网络框架提取原始文本特征,然后提取文本浅层句法特征,将其输入到普通神经网络,最后分别得到了问题答案文本的特征,构建问答匹配框架,完成答案抽取模块的功能。本文通过与现有不同方法的对比实验证明了本文的文本分类方法和答案抽取方法的有效性,并展示了实验的结果。最后本文实现了基于微信的客服系统,将所研究的问题分类技术和答案抽取技术应用到了系统的自动问答模块,使得整个客服系统更加高效,智能。(本文来源于《昆明理工大学》期刊2018-03-01)
分类抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着国家经济活力的进一步增强,上市公司总数不断增多,金融公告数据分析的难度进一步加大。为了更快速、准确地为风投公司、资金托管机构提供分析数据,金融公告分类与抽取平台使用了大数据加自然语言处理技术,使得每天全国上万家上市公司的公告都能即时得到分析处理。为了提高公告的分类以及抽取准确性,系统中使用二级改进文本抽取方法,先分类出含有属性值的文本行或段(潜在标签),再进行属性值抽取,大大提高了数据平台的核心竞争力。本文首先阐述了项目背景、相关产品的国内外现状以及关键技术与理论,对整个系统进行了功能性和非功能性需求分析。根据需求分析进行了系统的整体架构设计、划分各个模块的主要功能点与数据库设计,然后着重对系统进行了详细设计与实现。笔者完整参与了整个研发过程,独自完成了公告分类模块、公告标注模块、公告属性值抽取模块的主要开发工作,并参与了朴素贝叶斯、潜在标签分类、NER命名实体识别算法的调研与实现工作。在基本需求完成的基础上,笔者针对不同的分词方法、文本分类模型进行了大量的对比实验,开发了分词、数据预处理、调参模块对模型进行了性能优化;并通过语法规则、正则表达式、NER命名实体识别相组合的实验方法提高了系统的文本抽取准确率;对公告的标注与评估等功能进行了可视化处理,提升了系统中模型训练数据的数量和质量;加入了角色和权限模块,实现了对用户的统一管理;入库系统各个模块日志信息,实现了对模型各项指标的统一监控。最后对整个系统进行了功能测试、压力测试等,保证了系统稳定正常运行。目前该系统已经上线运作,针对重要公告类别的抽取准确率和召回率均能达到80%以上,每天对大量的金融公告进行智能结构化处理,抽取出关键信息入库,覆盖全维度的金融市场相关信息。用户可通过该系统使用金融信息查询、债券违约预警、信贷风险监控等功能,为个人和投资机构提供了重要参考。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
分类抽取论文参考文献
[1].张玉坤,刘茂福,胡慧君.基于联合神经网络模型的中文医疗实体分类与关系抽取[J].计算机工程与科学.2019
[2].张泽亚.基于NLP的金融公告分类与抽取系统的设计与实现[D].北京交通大学.2019
[3].方芳,王亚,王石,符建辉,曹存根.基于语义分类和描述框架的网络攻击知识抽取研究及其应用[J].中文信息学报.2019
[4].潮旭.酒店领域文本情感分类和情感元素抽取研究[D].安徽大学.2019
[5].程南昌,邹煜,滕永林,侯敏.篇章知识与逐级分类相结合的人物属性抽取方法研究[J].语言文字应用.2019
[6].朱惠,王昊,苏新宁,邓叁鸿.汉语领域术语非分类关系抽取方法研究[J].情报学报.2018
[7].郑诚,钱改林,章金平.Title加TextRank抽取关键句的情感分类研究[J].计算机工程与应用.2019
[8].侯庆霖.基于词向量及术语关系抽取方法的文本分类方法[J].移动通信.2018
[9].钟世敏.基于信息抽取的英文问句意图分类[D].西华大学.2018
[10].郭勃.自动问答系统中问题文本分类、答案抽取技术研究[D].昆明理工大学.2018