生物命名实体识别论文-高冰涛

生物命名实体识别论文-高冰涛

导读:本文包含了生物命名实体识别论文开题报告文献综述及选题提纲参考文献,主要关键词:命名实体识别,迁移学习,PU学习,生物医学

生物命名实体识别论文文献综述

高冰涛[1](2018)在《基于文本挖掘的生物命名实体识别算法研究》一文中研究指出近年来,研究者为了从海量生物医学文献中快速有效地获取所需要的生物医学知识,使用文本挖掘技术已成为生物医学和生物信息学领域的研究热点。由于生物命名实体是生物医学文本的基本元素,所以生物医学命名实体识别是对生物医学文本进行信息抽取、信息检索、机器翻译以及自然语言处理等工作的前提。据此,使用文本挖掘的方法对生物医学文本中的命名实体进行有效的识别,对更好地进行下一步工作具有重要的意义。特别是蛋白质的角色和功能是生命科学的重要研究项目,因此对生物医学蛋白质命名实体进行识别对生物医学研究具有重要的作用。但是现有研究所使用的文本挖掘方法通常是有监督学习方法,该类研究方法往往需要大量目标领域的标注数据进行模型训练,进而保证模型的分类预测性能。而在生物医学领域中,人工标注数据需要耗费昂贵的人力物力成本以及时间代价,为了降低分类模型对目标领域标注数据的需求量,进而减少人力物力和时间开销,节约资源,本文主要从以下两个方面进行研究:(1)基于迁移学习的生物医学蛋白质命名实体识别为了降低生物医学文本中命名实体识别对目标领域标注数据的需求,本研究将生物医学文本中的蛋白质命名实体识别问题化为基于迁移学习的隐马尔科夫模型问题,提出BioTrHMM算法。对要进行蛋白质命名实体识别的目标领域数据集无需进行大量数据标注,通过迁移学习的方法实现对目标领域的识别分类。以相关领域数据为辅助数据集,利用数据引力的方法评估辅助数据集的样本在目标领域学习中的贡献程度,在辅助数据集和目标领域数据集上计算权值进行迁移学习。基于权值学习模型,构建基于迁移学习的隐马尔科夫模型算法BioTrHMM。在GENIA语料库数据集上的实验表明,BioTrHMM算法比传统的隐马尔科夫模型算法具有更好的性能;仅需要少量的目标领域标注数据,即可具有较好的命名实体识别性能,大大减少了人工标注数据所需要花费的开销。(2)基于PU学习的生物医学蛋白质命名实体识别在实际研究当中,往往存在标注数据较少或者没有的情况,由于标注数据较少,使用传统的有监督学习方法无法构建有效的分类模型进行生物医学蛋白质命名实体识别。针对这种情况下的生物医学命名实体识别问题,本研究将该问题转化为PU情况下的生物医学蛋白质命名实体识别问题。通过使用PU学习中的两步法方法,在第一步中分别使用1-DNF、Spy、NB和Rocchio方法在未标注数据中抽取强负例,然后在已有的正例数据和强负例数据的基础上构建隐马尔可夫模型,最后对待分类数据进行命名实体识别。实验结果显示,在标注数据较少的的情况下,通过使用PU学习方法的两步法构建分类模型,模型的性能显着优于直接使用标注数据构建的分类模型的性能。在标注数据较少的情况下,本研究通过PU学习方法构建的分类模型不仅显示了良好的分类性能,同时没有额外的人工标注数据的开销。(本文来源于《西北农林科技大学》期刊2018-05-01)

豆增发[2](2013)在《生物命名实体识别及生物文本分类》一文中研究指出近年来,随着生物医学文本的大规模出现,对文本进行自动化处理的文本挖掘技术变得越来越重要,如对海量生物医学文本数据进行自动分类,从文本中挖掘感兴趣的生物命名实体,研究这些生物命名实体之间的内在关系等。生物医学文本中生物命名实体的识别是所有生物数据挖掘的最基础部分,也是将非结构化数据转换为结构化数据的关键步骤。本文主要研究生物医学文本中命名实体的识别和生物文本自动分类的关键技术,所取得的主要研究成果为:1、研究了基于改进二进制粒子群优化的特征选择算法。二进制粒子群优化是离散粒子群优化的一个变种,不同与传统的实数粒子群优化,二进制粒子群优化的每个变量取值非0即1。基于改进二进制粒子群优化的特征选择算法用翻转角度来控制粒子群进化,在多维空间搜索目标函数的最优二进制解,求出最佳特征权重向量,权重为0的特征是冗余特征,权重为1的特征为有效特征。2、研究了基于膜粒子群优化的特征选择算法。膜粒子群优化算法利用了膜系统的分层结构和消息传递机制,将粒子群优化算法作为区域子算法部署到各个区域中。不同于传统粒子群优化算法,本文将粒子群优化的搜索速率分解为局部搜索速率和全局搜索速率。膜系统的所有外层区域采用局部搜索速率,搜索局部最优解,最内层区域采用全局搜索速率,搜索全局最优解。所有外部区域将最优解传递给相邻内部区域,内部区域将最差解传递给相邻外部区域,最内层区域向相邻外部区域传递最差解。当各个区域之间的解传递在一段时间内停止,或者算法迭代次数达到限定次数,算法收敛,取最内层区域的最优解为最终解。利用膜粒子群优化算法在多维空间搜索目标函数的最优解,求出最佳特征权重向量,选取权重系数大于阈值的特征,去除权重系数小于阈值的特征,达到清除冗余特征的目的。3、研究了条件随机场模型的参数估计问题。针对传统的条件随机域模型参数估计算法过度拟合的问题,提出了改进粒子群优化算法并将该算法应用到条件随机域的参数估计中。改进的粒子群优化算法引入粒子群聚集度来防止粒子群过早的陷入局部收敛,用迭代间对数似然相对变化率来控制算法的收敛,用线性变化的惯性因子和学习因子来控制搜索范围。该算法在搜索初期具有较好的全局搜索能力,在搜索后期具有较好的局部搜索能力。当迭代间的对数似然相对变化率小于门限值时,或者迭代次数达到限定次数,算法终止。本文用条件随机域模型的对数似然估计作为目标函数,用改进粒子群优化算法来训练条件随机域,寻找使目标函数最大的参数向量作为条件随机域的最佳参数。4、研究了利用条件随机域模型从生物医学文本中识别生物命名实体的方法。针对马尔科夫等模型在命名实体识别中的标签倾向问题,提出了用富特征的条件随机域识别生物命名实体的方法。首先利用改进二进制粒子群优化方法对条件随机域的特征进行选择,然后利用改进粒子群优化算法对条件随机域模型进行训练,接下来基于各种辅助的特征集,用训练好的条件随机域模型进行生物命名实体的识别,标注出生物文本中存在的表示生物命名实体的名词和各种短语。5、研究了基于可拓分类器的生物医学文本分类方法。为了对海量生物医学文本进行自动分类,本文提出了一种新的基于可拓分类器的文本分类方法。可拓分类器用空间向量模型来表示单个生物医学文本,用可拓矩阵表示每个类型模板,通过计算文本与各个类型模板之间的可拓相关度,来判定文本与类型之间的相似程度,选择可拓相关度最大的类型为最终归档类型。为了使可拓矩阵保持最佳分类效果,本文采用改进粒子群优化算法来训练不同类别的文本特征的权重系数,使不同文本类别之间的距离和最大化。(本文来源于《西安电子科技大学》期刊2013-04-01)

孙静[3](2010)在《基于组合分类器的生物命名实体识别》一文中研究指出生物命名实体识别是一项非常重要和基础的生物医学文本挖掘技术,也是很关键的一个步骤,只有正确地识别出生物命名实体,才能有效地完成基因标准化、生物事件抽取以及蛋白质-蛋白质交互关系抽取等更加复杂的工作。生物医学命名实体包括蛋白质、基因、DNA、RNA等,通常有着复杂的结构,对于这些实体的鉴别和分类是非常富有挑战性的。机器学习方法例如CRF、MEMM和SVM已经广泛的应用于从已标注的语料中学习识别出生物医学命名实体。然而,生物命名实体识别系统的性能仍然没有普通命名实体识别系统的好。为了进一步提高生物命名实体识别的性能,研究者提出了合并多个分类器结果的多分类器方法。本文主要研究基于组合分类器的生物命名实体识别方法,实验是在BioCreAtIvE 2GM的训练语料和测试语料上进行的。本文主要工作包括以下两点:(1)构建单一分类器模型本文利用不同的分类模型、不同的分类方法和特征集构建了六个不同的机器学习模型,并对每种模型采用的特征集,特征抽取方法,以及训练过程进行了详细介绍。为了进一步提高最大熵方法的识别性能,本文采用TBL方法对最大熵的标注结果进行了纠错处理。实验结果显示纠错处理在很大程度上提高了最大熵方法的识别性能。(2)基于组合分类器的生物命名实体识别分别采用了简单集合运算(如并集、交集等)、投票和迭加归纳叁种策略对六个模型的识别结果进行组合。实验结果表明:组合分类器方法的识别性能好于单个分类器的识别性能;并不是参与组合的分类器的个数越多越好,组合分类器的识别性能依赖于单个分类器的性能和参与组合的分类器之间的差异性;基于两层迭加式的组合分类器的方法比集合运算以及投票法的性能好,最终获得了88.14%的F值,性能超过了当时参加BioCreAtIvE 2 GM比赛任务第一名的系统。(本文来源于《大连理工大学》期刊2010-11-14)

彭春艳,张晖,包玲玉,陈昌平[4](2009)在《基于条件随机域的生物命名实体识别》一文中研究指出提出一种基于条件随机域模型的生物命名实体识别方法,结合单词构词特性以及距离依赖特性,在JNLPBA的GENIAV3.02数据上进行实验,测试结果表明,引入距离依赖后,系统的识别性能比只利用单特性的条件随机域方法提高2.54%,可获得较好的识别效果,提高了系统的识别效率。(本文来源于《计算机工程》期刊2009年22期)

王琦[5](2009)在《词典和机器学习相结合的生物命名实体识别》一文中研究指出生物命名实体识别(Biomedical name entity recognition,Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置,如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之地,可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物实体之间的联系,首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计机器学习叁种方法。基于词典的方法简单实用,但是性能却限制于词典的规模与质量。基于规则的方法取决于规则的完备性和合理性,缺乏一定的适应性。基于统计机器学习的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言文本时可以不做或只做较少的改动,已成为现阶段研究的主流方法。为了弥补单纯基于词典的方法的缺陷,并结合统计机器学习方法的优势,本文提出了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和条件随机域(Conditional random fields,CRFs)训练获得“实体词性”(Part OfSpeech-Entity,POS-Entity)标注模型,对未知语料进行标注获得“实体词性”特征。同时根据生物命名实体的特点提取词形等特征,结合上述“实体词性”特征基于CRFs训练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性”标注阶段采取将生物实体分成不同组别,分别进行“实体词性”标注的分组策略。基于JNLPBA2004语料集进行实验,实验结果表明本文提出的基于词典和机器学习相结合的方法取得了较好的结果,在“实体标记”阶段应用分组策略后综合分类率72.83%。对实验结果进行错误分析,针对典型错误进行后续处理后综合分类率达到73.39%。(本文来源于《大连理工大学》期刊2009-11-14)

邱莎[6](2007)在《几种基于机器学习的生物命名实体识别模型比较》一文中研究指出已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。(本文来源于《电脑知识与技术(学术交流)》期刊2007年05期)

邱莎[7](2006)在《基于统计的生物命名实体识别研究》一文中研究指出生物医学文献中的命名实体识别是目前被国际广为关注的自然语言处理研究问题之一。虽然自然语言处理在某些领域已经获得了很好的效果,但在生物医学领域却还有不小的差距。由于生物医学的蓬勃发展,新的命名实体层出不穷,其不规则的命名,以及旧词新用,使生物命名实体识别成为一项艰巨的任务,也在一定程度上影响着生物医学领域的研究进展。目前的研究方法很多,其中,统计自然语言处理由于其基于统计的学习方法不需要研究者具有太多生物医学专业知以,从而成为生物命名实体识别研究中常用的方法。隐马尔可夫模型是现代语音识别系统中构建统计模型的重要于段。它可以在只有少量训练数据的情况下学习规则。目前国际上有不少研究者采用了隐马尔可夫模型及其变形来解决生物命名实体识别问题,虽然取得了不错的进展,但都没有达到“近乎人类”的程度,还有许多问题有待解决,而国内的研究也才刚刚起步。所以本文的研究主要采用隐马尔可夫模型,对生物命名实体识别问题进行初步的研究。进行的工作如下:1、从已标注语料库中用统计的方法训练隐马尔可夫模型。通过对已标注语料进行统计得到隐马尔可夫模型的参数:状态集、发射符号集、初始状态概率、状态转移概率、符号发射概率。在不同的试验中用不同的方法来发现发射符号(命名实体名)的一些命名规律,对其进行归并,形成发射符号集,并掘此进行各项概率的统计。在计算概率时,为了解决数据稀疏问题,采用了线性插值的方法进行平滑。在实现过程中提出了词结构相似度的概念,为符号归并提供一个量化标准。2、在未标注语料上测试训练好的隐马尔可夫模型。以未标注语料的一个自然句作为隐马尔可夫模型的输入序列,用Viterbi算法获得输出状态序列,从而得到识别出的生物命名实体。形成输入序列时,在不同的试验中采用了不同的分词方法。通过计算自然句中一组词与发射符号集中各项的相似度,确定把自然句划分为词序列的边界,并辅以简单的词性分析。3、计算测试结果的召回率和精确率,通过比较,对隐马尔可夫模型进行改进,并重复以上过程直到获得一个可以有效识别生物命名实体的隐马尔可夫模型。通过上述的研究工作,实现了在生物医学文本中对命名实体的识别,并通过实验初步验证了所设计算法的有效性。(本文来源于《四川大学》期刊2006-10-10)

生物命名实体识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近年来,随着生物医学文本的大规模出现,对文本进行自动化处理的文本挖掘技术变得越来越重要,如对海量生物医学文本数据进行自动分类,从文本中挖掘感兴趣的生物命名实体,研究这些生物命名实体之间的内在关系等。生物医学文本中生物命名实体的识别是所有生物数据挖掘的最基础部分,也是将非结构化数据转换为结构化数据的关键步骤。本文主要研究生物医学文本中命名实体的识别和生物文本自动分类的关键技术,所取得的主要研究成果为:1、研究了基于改进二进制粒子群优化的特征选择算法。二进制粒子群优化是离散粒子群优化的一个变种,不同与传统的实数粒子群优化,二进制粒子群优化的每个变量取值非0即1。基于改进二进制粒子群优化的特征选择算法用翻转角度来控制粒子群进化,在多维空间搜索目标函数的最优二进制解,求出最佳特征权重向量,权重为0的特征是冗余特征,权重为1的特征为有效特征。2、研究了基于膜粒子群优化的特征选择算法。膜粒子群优化算法利用了膜系统的分层结构和消息传递机制,将粒子群优化算法作为区域子算法部署到各个区域中。不同于传统粒子群优化算法,本文将粒子群优化的搜索速率分解为局部搜索速率和全局搜索速率。膜系统的所有外层区域采用局部搜索速率,搜索局部最优解,最内层区域采用全局搜索速率,搜索全局最优解。所有外部区域将最优解传递给相邻内部区域,内部区域将最差解传递给相邻外部区域,最内层区域向相邻外部区域传递最差解。当各个区域之间的解传递在一段时间内停止,或者算法迭代次数达到限定次数,算法收敛,取最内层区域的最优解为最终解。利用膜粒子群优化算法在多维空间搜索目标函数的最优解,求出最佳特征权重向量,选取权重系数大于阈值的特征,去除权重系数小于阈值的特征,达到清除冗余特征的目的。3、研究了条件随机场模型的参数估计问题。针对传统的条件随机域模型参数估计算法过度拟合的问题,提出了改进粒子群优化算法并将该算法应用到条件随机域的参数估计中。改进的粒子群优化算法引入粒子群聚集度来防止粒子群过早的陷入局部收敛,用迭代间对数似然相对变化率来控制算法的收敛,用线性变化的惯性因子和学习因子来控制搜索范围。该算法在搜索初期具有较好的全局搜索能力,在搜索后期具有较好的局部搜索能力。当迭代间的对数似然相对变化率小于门限值时,或者迭代次数达到限定次数,算法终止。本文用条件随机域模型的对数似然估计作为目标函数,用改进粒子群优化算法来训练条件随机域,寻找使目标函数最大的参数向量作为条件随机域的最佳参数。4、研究了利用条件随机域模型从生物医学文本中识别生物命名实体的方法。针对马尔科夫等模型在命名实体识别中的标签倾向问题,提出了用富特征的条件随机域识别生物命名实体的方法。首先利用改进二进制粒子群优化方法对条件随机域的特征进行选择,然后利用改进粒子群优化算法对条件随机域模型进行训练,接下来基于各种辅助的特征集,用训练好的条件随机域模型进行生物命名实体的识别,标注出生物文本中存在的表示生物命名实体的名词和各种短语。5、研究了基于可拓分类器的生物医学文本分类方法。为了对海量生物医学文本进行自动分类,本文提出了一种新的基于可拓分类器的文本分类方法。可拓分类器用空间向量模型来表示单个生物医学文本,用可拓矩阵表示每个类型模板,通过计算文本与各个类型模板之间的可拓相关度,来判定文本与类型之间的相似程度,选择可拓相关度最大的类型为最终归档类型。为了使可拓矩阵保持最佳分类效果,本文采用改进粒子群优化算法来训练不同类别的文本特征的权重系数,使不同文本类别之间的距离和最大化。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

生物命名实体识别论文参考文献

[1].高冰涛.基于文本挖掘的生物命名实体识别算法研究[D].西北农林科技大学.2018

[2].豆增发.生物命名实体识别及生物文本分类[D].西安电子科技大学.2013

[3].孙静.基于组合分类器的生物命名实体识别[D].大连理工大学.2010

[4].彭春艳,张晖,包玲玉,陈昌平.基于条件随机域的生物命名实体识别[J].计算机工程.2009

[5].王琦.词典和机器学习相结合的生物命名实体识别[D].大连理工大学.2009

[6].邱莎.几种基于机器学习的生物命名实体识别模型比较[J].电脑知识与技术(学术交流).2007

[7].邱莎.基于统计的生物命名实体识别研究[D].四川大学.2006

标签:;  ;  ;  ;  

生物命名实体识别论文-高冰涛
下载Doc文档

猜你喜欢