实体识别与分类论文-徐亚渤

实体识别与分类论文-徐亚渤

导读:本文包含了实体识别与分类论文开题报告文献综述及选题提纲参考文献,主要关键词:网络衍生实体,深度学习,实体识别,词向量

实体识别与分类论文文献综述

徐亚渤[1](2017)在《基于深度学习的中文网络衍生实体的识别与分类》一文中研究指出随着互联网信息内容的爆炸,网络上充斥着大量的近音词、缩略语、同义词等非规范的中文表达。由于中文在组织与使用上的灵活性,大量的文本主体词采用这些形式的衍生词进行表达,这类主体词被称为网络衍生实体。由于中文网络衍生实体复杂多变,难以识别,并且常常被用来替换原词语以规避政府的网络舆情监管,因此给自然语言处理及舆情监控带来了诸多困难。针对特定类别的衍生实体识别,虽然国内外学者已有广泛的探讨和研究,却至今没有对网络衍生实体的整体数据分布进行研究;并且,大量的新的衍生实体不断出现,对网络衍生实体的识别技术提出了新的要求。本文的主要工作如下:1)分别针对各类衍生实体的识别,对国内外的解决方法进行了研究和对比,分析了近年来主流识别模型的方法和技术的发展趋势;通过对各方法的分析与总结,指出各方法在实际应用中的优劣之处;同时,结合本文所研究的问题的特点,提出采用基于深度学习的方法进行中文网络衍生实体识别的新思路。2)提出了两种用于中文网络衍生实体识别的神经网络架构:滑动窗口法和句子卷积法,从而解决了文本中句子长度不统一、无法输入神经网络的问题;采用word2vec技术获取模型输入向量;同时,采用栈式自编码器编码人工特征向量,组成复合输入以进一步提高模型的识别效果;通过采用特殊的激活函数和训练算法,加速了模型的训练过程,进一步优化了模型的结构。3)在构建的语料库基础上,进行了大量的对比实验。由于缺少开放语料库,本文采用Scrapy爬虫框架进行语料的抓取(语料大小为252.3MB),并且通过人工标注,完成了语料库的构建;针对该语料库,进行了大量的衍生实体识别测试,并比较了模型在各类实体识别上的结果差异;实验结果表明,本文所提出的两种模型框架,均能够有效地应对网络衍生实体识别的问题,其性能指标F1值分别为78.6%和76.9%,并在各类实体的识别上各有所长,其结果均优于采用传统模型在该语料集上的识别效果;同时,通过研究不同参数、不同方法对实验结果的影响,得到了关于该模型的更一般的调参经验,为其他研究人员提供了参考。实践表明,本文所提出的基于深度学习的神经网络实体识别模型,可以很好地应用于中文网络衍生实体的识别任务上来。该模型可以同时对各类衍生实体得到较好的识别性能,能够满足大数据背景下中文网络衍生实体识别的新需求。(本文来源于《武汉大学》期刊2017-05-01)

念沛豪,蔡玉梅,张文新,马世发,庄立[2](2014)在《面向综合区划的国土空间地理实体分类与功能识别》一文中研究指出综合区划是统筹区域各类要素,优化国土空间开发和生态环境保护格局的重要手段,也是空间政策制定的依据。本文首先应用本体分类法,将国土空间划分为农地、水域、森林、草原、矿产、城镇、交通、自然保留8类地理实体,实现对国土空间产生重大影响的各类多主题和多尺度要素的认知和表达。其次,从生产、生活、生态的叁生角度将各类地理实体发挥的功能归纳为14类,构建国土空间地理实体与功能之间的多对多网络关系:同一个地理实体发挥着多种功能,同一种功能可被不同的地理实体所体现。在解读地理实体在空间中功能发挥机制的基础上,探讨了国土规划中功能调整与优化的基本思路。最后,从区划对象与评价单元、功能评价指标体系构建、区划方法探索、与部门区划衔接四个方面提出对未来综合区划技术框架的初步设想。(本文来源于《经济地理》期刊2014年12期)

豆增发[3](2013)在《生物命名实体识别及生物文本分类》一文中研究指出近年来,随着生物医学文本的大规模出现,对文本进行自动化处理的文本挖掘技术变得越来越重要,如对海量生物医学文本数据进行自动分类,从文本中挖掘感兴趣的生物命名实体,研究这些生物命名实体之间的内在关系等。生物医学文本中生物命名实体的识别是所有生物数据挖掘的最基础部分,也是将非结构化数据转换为结构化数据的关键步骤。本文主要研究生物医学文本中命名实体的识别和生物文本自动分类的关键技术,所取得的主要研究成果为:1、研究了基于改进二进制粒子群优化的特征选择算法。二进制粒子群优化是离散粒子群优化的一个变种,不同与传统的实数粒子群优化,二进制粒子群优化的每个变量取值非0即1。基于改进二进制粒子群优化的特征选择算法用翻转角度来控制粒子群进化,在多维空间搜索目标函数的最优二进制解,求出最佳特征权重向量,权重为0的特征是冗余特征,权重为1的特征为有效特征。2、研究了基于膜粒子群优化的特征选择算法。膜粒子群优化算法利用了膜系统的分层结构和消息传递机制,将粒子群优化算法作为区域子算法部署到各个区域中。不同于传统粒子群优化算法,本文将粒子群优化的搜索速率分解为局部搜索速率和全局搜索速率。膜系统的所有外层区域采用局部搜索速率,搜索局部最优解,最内层区域采用全局搜索速率,搜索全局最优解。所有外部区域将最优解传递给相邻内部区域,内部区域将最差解传递给相邻外部区域,最内层区域向相邻外部区域传递最差解。当各个区域之间的解传递在一段时间内停止,或者算法迭代次数达到限定次数,算法收敛,取最内层区域的最优解为最终解。利用膜粒子群优化算法在多维空间搜索目标函数的最优解,求出最佳特征权重向量,选取权重系数大于阈值的特征,去除权重系数小于阈值的特征,达到清除冗余特征的目的。3、研究了条件随机场模型的参数估计问题。针对传统的条件随机域模型参数估计算法过度拟合的问题,提出了改进粒子群优化算法并将该算法应用到条件随机域的参数估计中。改进的粒子群优化算法引入粒子群聚集度来防止粒子群过早的陷入局部收敛,用迭代间对数似然相对变化率来控制算法的收敛,用线性变化的惯性因子和学习因子来控制搜索范围。该算法在搜索初期具有较好的全局搜索能力,在搜索后期具有较好的局部搜索能力。当迭代间的对数似然相对变化率小于门限值时,或者迭代次数达到限定次数,算法终止。本文用条件随机域模型的对数似然估计作为目标函数,用改进粒子群优化算法来训练条件随机域,寻找使目标函数最大的参数向量作为条件随机域的最佳参数。4、研究了利用条件随机域模型从生物医学文本中识别生物命名实体的方法。针对马尔科夫等模型在命名实体识别中的标签倾向问题,提出了用富特征的条件随机域识别生物命名实体的方法。首先利用改进二进制粒子群优化方法对条件随机域的特征进行选择,然后利用改进粒子群优化算法对条件随机域模型进行训练,接下来基于各种辅助的特征集,用训练好的条件随机域模型进行生物命名实体的识别,标注出生物文本中存在的表示生物命名实体的名词和各种短语。5、研究了基于可拓分类器的生物医学文本分类方法。为了对海量生物医学文本进行自动分类,本文提出了一种新的基于可拓分类器的文本分类方法。可拓分类器用空间向量模型来表示单个生物医学文本,用可拓矩阵表示每个类型模板,通过计算文本与各个类型模板之间的可拓相关度,来判定文本与类型之间的相似程度,选择可拓相关度最大的类型为最终归档类型。为了使可拓矩阵保持最佳分类效果,本文采用改进粒子群优化算法来训练不同类别的文本特征的权重系数,使不同文本类别之间的距离和最大化。(本文来源于《西安电子科技大学》期刊2013-04-01)

马瑞民,马民艳,王浩畅[4](2011)在《基于分类器串联融合的生物医学命名实体识别》一文中研究指出鉴于生物医学命名实体识别的多数模型使用单机器学习算法时识别效果不好,提出一种基于条件随机域(CRFs)与最大熵(Maxent)分类器融合的方法,利用基分类器之间的相关性和互补性,结合有效的特征集合,进行再学习,得到融合模型.实验表明,该模型的识别性能与单一分类器和JNLPBA专题会议相关的系统比较,取得很好成绩,F测度达到70.7%,证明该融合方法有效.(本文来源于《大庆石油学院学报》期刊2011年02期)

马民艳[5](2011)在《基于分类器融合的生物医学命名实体与关系识别研究》一文中研究指出生物医学命名实体识别与关系识别是生物医学文本挖掘的基本任务。目前,国内外用于该方面研究的大部分识别模型是建立在单个机器学习算法的基础上,没有一种算法能够取得非常好的效果,这就说明单一算法不能够达到高效率识别的目的。通过对各种统计学习方法的分析可以发现,不同的学习模型之间存在着互补性和相关性,所以分类器融合是一种改进的新思路。本文主要从两个方面进行了深入研究:1、基于单分类器和多分类器融合的生物医学命名实体识别研究。首先研究了基于单分类器的生物医学命名实体识别,采用最大熵算法和条件随机域算法,对Yapex语料中的蛋白质名称进行了识别。系统中结合了丰富的特征集,我们引入缩写词识别模块、边界扩展模块和过滤器模块进行后处理。接着,针对存在的问题,我们研究了基于多分类器融合的生物医学命名实体识别,提出了一种融合方法,即把条件随机域算法与最大熵算法进行有机融合,利用不同学习模型之间存在的互补性和相关性,进一步提高了生物医学命名实体识别的性能。2、基于单分类器和多分类器融合的生物医学命名实体关系识别研究。我们主要研究了蛋白质相互作用关系识别,着重分析蛋白质相互作用关系的特点,抽取出各种浅层语言学特征,包括交互蛋白质实体对特征、关键词特征、语块特征、上下文环境特征等。基于有效的浅层语言学特征,先采用单分类器方法进行识别,针对单分类器方法存在的片面性,考虑到不同分类模型的分类结果之间具有的互补性和相关性,采用同样的融合方法,对蛋白质相互作用关系进行识别,取得了较好的识别性能。(本文来源于《东北石油大学》期刊2011-03-14)

孙静[6](2010)在《基于组合分类器的生物命名实体识别》一文中研究指出生物命名实体识别是一项非常重要和基础的生物医学文本挖掘技术,也是很关键的一个步骤,只有正确地识别出生物命名实体,才能有效地完成基因标准化、生物事件抽取以及蛋白质-蛋白质交互关系抽取等更加复杂的工作。生物医学命名实体包括蛋白质、基因、DNA、RNA等,通常有着复杂的结构,对于这些实体的鉴别和分类是非常富有挑战性的。机器学习方法例如CRF、MEMM和SVM已经广泛的应用于从已标注的语料中学习识别出生物医学命名实体。然而,生物命名实体识别系统的性能仍然没有普通命名实体识别系统的好。为了进一步提高生物命名实体识别的性能,研究者提出了合并多个分类器结果的多分类器方法。本文主要研究基于组合分类器的生物命名实体识别方法,实验是在BioCreAtIvE 2GM的训练语料和测试语料上进行的。本文主要工作包括以下两点:(1)构建单一分类器模型本文利用不同的分类模型、不同的分类方法和特征集构建了六个不同的机器学习模型,并对每种模型采用的特征集,特征抽取方法,以及训练过程进行了详细介绍。为了进一步提高最大熵方法的识别性能,本文采用TBL方法对最大熵的标注结果进行了纠错处理。实验结果显示纠错处理在很大程度上提高了最大熵方法的识别性能。(2)基于组合分类器的生物命名实体识别分别采用了简单集合运算(如并集、交集等)、投票和迭加归纳叁种策略对六个模型的识别结果进行组合。实验结果表明:组合分类器方法的识别性能好于单个分类器的识别性能;并不是参与组合的分类器的个数越多越好,组合分类器的识别性能依赖于单个分类器的性能和参与组合的分类器之间的差异性;基于两层迭加式的组合分类器的方法比集合运算以及投票法的性能好,最终获得了88.14%的F值,性能超过了当时参加BioCreAtIvE 2 GM比赛任务第一名的系统。(本文来源于《大连理工大学》期刊2010-11-14)

付瑞吉,车万翔,刘挺[7](2010)在《一种基于分类方法的音乐命名实体识别技术》一文中研究指出针对音乐命名实体的特点,提出了一个基于分类的命名实体(NE)识别方法。识别过程分为两个步骤,首先基于音乐专业词典和简单规则从原始文本中匹配找出NE的候选,然后利用最大熵模型(Maximum Entropy,ME)对候选进行分类。实验表明,本系统音乐命名实体识别总的精确率、召回率和F值分别达到了89.89%,81.01%,87.93%,高于常用的基于序列标注的方法,同时系统的效率有很大的提高。(本文来源于《黑龙江省计算机学会2009年学术交流年会论文集》期刊2010-04-03)

万鑫[8](2009)在《基于文本分类的命名实体识别系统》一文中研究指出自然语言处理作为人工智能的重要研究领域之一,是利用计算机进行语言知识的获取、表示以及应用的技术,为人与计算机之间的信息交流提供了更加高效、便捷的方法。随着社会发展,人们越来越依赖来自网络的信息与知识,因此自动化的理解计算机内容成为发展的趋势。目前,国内外主要采用的命名实体识别技术分为专家规则和统计知识两种方法。由于无法全部包含所有语言规则,因此由专家知识构成的命名实体识别系统往往不能达到令人满意的效果。统计知识虽然能够得到较好的结果,但统计的方法计算代价较高,同时对特殊情况(小概率)的覆盖不好。因此,统计与专家知识结合的方法已成为命名实体识别的主流方法。本文在统计与专家知识结合的基础上,主要目标为提高命名实体识别系统的运行效率。由于主流的命名实体识别系统大部分采用规则与统计相结合的方法,而为了保证系统的准确率与召回率,往往采用较为复杂的统计模块进行上下文间的概率计算,这就造成了实体识别系统整体运行效率较低的现状。为解决上述问题,本文以自然语言处理的相关技术为基础,充分利用专家知识与统计学知识保证了实体识别的准确率与召回率,同时采用文本处理中的文本分类技术,利用结合文本实际内容的方法,将文本内容特点与实体识别技术有机结合起来,达到了事半功倍的效果。本文所采用的实验针对命名实体识别系统的处理流程进行了新的设计与实现,新方法主要包括以下内容:1.利用新闻抓取爬虫完整获取互联网新闻站点中的即时新闻,作为实验的测试数据。2.自动化的页面抽取功能主要负责将页面中的新闻数据完整解析,同时对编码、乱码等进行相关处理。汇总所得到的全部新闻数据。3.利用文本分类技术将粗切分后的新闻文本进行分类处理,分类依据根据文本内容与实体识别间的调研结果确定。每一分类结果对应于一种特殊的实体识别处理逻辑。4.利用不同的实体识别处理分类后的新闻文本。为保证实验的通用性及实验数据的真实有效性,我们所采用的实际测试新闻语料全部来自于互联网各大新闻站点每日更新的新闻数据。通过实验我们发现,这一实体识别模型的处理结果在准确率与召回率没有大幅下降的基础上,处理时间有了明显提高,更接近一个实际应用的命名实体识别应用。因此,本文所提出的实体识别模型具有一定的实用价值和意义。(本文来源于《北京邮电大学》期刊2009-03-02)

周波[9](2009)在《面向问答系统的实体识别与分类研究》一文中研究指出问答系统是信息检索的高级形式,也是该领域的研究重点和热点。它是综合的技术处理系统,其设计与开发需要分词、词法分析、检索、实体识别、答案抽取等几个方面的技术支撑。其中,实体的识别与标注是问答系统的关键技术之一,直接关系到问句类型的判定和答案的抽取。问答系统中问句类型的判定与实体的识别紧密相关。根据具体的需要,问题的类型有不同的分法,一般情况下,事实类型问题总是涉及人、时间、地点、数量等项,而对于某一种类型还可以分为不同的层次,如地点下可以细分为国家、省、市、山、河、湖泊等。本文面向问答系统,针对其涉及实体的层次性和多类性,研究实体识别与分类方法,主要工作为:1.通过对通用领域问答系统的问题分类和实体分类体系的研究,本文在此基础上提出一种基于规则和统计的实体识别与分类方法,主要结合了实体分类词典和条件随机场算法。2.本文进行了基于实体分类词典的已登录词识别研究,通过中文Wiki百科开放数据库等途径得到包含近叁十万词条的面向QA的实体分类词典,词典在内存中采用索引树的形式存放,并利用该词典进行已登录词的识别和分类,提高了实体识别与分类的效果。3.本文提出一种基于条件随机场的两阶段命名实体识别方法,在封闭测试中,两阶段F-值为86.30%,与一阶段的F-值88.01%相比,在结果上相差1.5个百分点,但在时间复杂度上可以降低80%左右。4.本文对基于条件随机场的中文组织机构名识别的进行了进一步的研究,在特征选取方面,将语言学特征与词语概念特征进行了有效的融合,同时,对字模型和词模型在选取不同特征情况下分别进行比较实验,对各方法的结果分析表明,结果之间存在互补差异性,融合模型将取得比单一模型更好的结果。本文的方法为多类性和层次性实体的识别做了初步的尝试,取得了一定的结果。相信随着中文命名实体识别技术的不断发展,实体识别的分类效果将会获得更大的提高。(本文来源于《沈阳航空工业学院》期刊2009-02-20)

陈锦,常致全,许军[10](2006)在《基于HMM的生物医学命名实体的识别与分类》一文中研究指出为了解决从MEDLINE摘要里抽取出生物医学命名实体并加以归类,提出了一种基于隐马尔可夫模型(HMM)的信息抽取方法。结合若干单词特征,用语料库GENIAcorpus3.02训练和测试后,系统的F值达到62.6。(本文来源于《计算机时代》期刊2006年10期)

实体识别与分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

综合区划是统筹区域各类要素,优化国土空间开发和生态环境保护格局的重要手段,也是空间政策制定的依据。本文首先应用本体分类法,将国土空间划分为农地、水域、森林、草原、矿产、城镇、交通、自然保留8类地理实体,实现对国土空间产生重大影响的各类多主题和多尺度要素的认知和表达。其次,从生产、生活、生态的叁生角度将各类地理实体发挥的功能归纳为14类,构建国土空间地理实体与功能之间的多对多网络关系:同一个地理实体发挥着多种功能,同一种功能可被不同的地理实体所体现。在解读地理实体在空间中功能发挥机制的基础上,探讨了国土规划中功能调整与优化的基本思路。最后,从区划对象与评价单元、功能评价指标体系构建、区划方法探索、与部门区划衔接四个方面提出对未来综合区划技术框架的初步设想。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

实体识别与分类论文参考文献

[1].徐亚渤.基于深度学习的中文网络衍生实体的识别与分类[D].武汉大学.2017

[2].念沛豪,蔡玉梅,张文新,马世发,庄立.面向综合区划的国土空间地理实体分类与功能识别[J].经济地理.2014

[3].豆增发.生物命名实体识别及生物文本分类[D].西安电子科技大学.2013

[4].马瑞民,马民艳,王浩畅.基于分类器串联融合的生物医学命名实体识别[J].大庆石油学院学报.2011

[5].马民艳.基于分类器融合的生物医学命名实体与关系识别研究[D].东北石油大学.2011

[6].孙静.基于组合分类器的生物命名实体识别[D].大连理工大学.2010

[7].付瑞吉,车万翔,刘挺.一种基于分类方法的音乐命名实体识别技术[C].黑龙江省计算机学会2009年学术交流年会论文集.2010

[8].万鑫.基于文本分类的命名实体识别系统[D].北京邮电大学.2009

[9].周波.面向问答系统的实体识别与分类研究[D].沈阳航空工业学院.2009

[10].陈锦,常致全,许军.基于HMM的生物医学命名实体的识别与分类[J].计算机时代.2006

标签:;  ;  ;  ;  

实体识别与分类论文-徐亚渤
下载Doc文档

猜你喜欢