生物实体识别论文-杨培

生物实体识别论文-杨培

导读:本文包含了生物实体识别论文开题报告文献综述及选题提纲参考文献,主要关键词:实体识别,条件随机场,注意力,关系抽取

生物实体识别论文文献综述

杨培[1](2018)在《基于深度学习的生物实体识别和关系抽取》一文中研究指出生物医学相关的研究与人们的生活息息相互。由于生物相关研究的特殊性,研究者通常需要查阅大量文献以获取足够多的知识。但是,在数据呈爆炸性增长的今天,人工阅读文献来获取知识已经无法满足相关研究者的需求,因而生物医学领域的信息抽取技术的研究受到了广泛的研究和关。首先,在生物医学信息抽取领域,命名实体识别通常是进行信息抽取中一项基础的任务。本文提出一种基于注意力(Attention)机制的BiLSTM-CRF模型来识别化学药名。该模型有效的缓解了普通模型所难以解决的实体标签非一致性问题,同时在性能(F1值)上优于目前的主流方法。该方法首先利用预训练的词向量来表示每个Token的词级别的表示,同时利用Bi LSTM来学习其字符级别的表示,并将词级别的表示和字符级别的表示作为输入,然后再次使用另一个BiLSTM来学习当前Token的邻近上下文表示,在Attention机制的帮助下,获得当前Token的全局上下文表示,最后通过CRF层解码出类别标签。其次,在生物信息抽取领域,蛋白质-蛋白质交互关系(PPI)的识别具有重要意义。然而由于受限于有限的标注数据,通常方法的性能较低,为了解决该问题,本文提出一种基于对抗训练来扩充训练集的PPI识别模型。该模型主要利用对抗训练能够提取不同数据集中的公共特征的能力,从而达到融合不同数据集,进而扩大训练集、增强模型学习能力的目的,同时避免不同数据集之间存在差异的干扰。最后,由于结构化的生物医学命名实体识别和生物医学关系结果不能很好的展现其中的实体和关系,同时也不便于相关研究者的分析数据。本文利用Web技术,将命名实体识别和关系抽取的结果进行可视化,使得相关研究者可以利用本文提出的模型进行相关的研究。(本文来源于《大连理工大学》期刊2018-04-24)

赖鸿昌,朱礼军,徐硕[2](2015)在《面向专利的化合物和生物实体识别系统》一文中研究指出探索专利文献中的化合物和生物知识变得至关重要。为了识别化合物实体和生物实体,开发了面向专利的化合物和生物实体识别系统。系统基于开源的机器学习和自然语言工具进行开发。系统按照流水线模式进行,本文将详细阐述其叁个主要过程:预处理(句子分割、词条化),识别(基于条件随机场的方法),后处理(基于规则的方法)。最后,利用系统在已标注的化合物专利语料库进行大量实验,进行十折交叉验证,得到了69.20%的F值。但是,从结果可以看到,在专利文献上的实验表现,要低于论文和新闻语料库中的表现。(本文来源于《情报工程》期刊2015年04期)

吴晓洲[3](2012)在《基于词缀及特征单词等级的生物实体名称识别方法》一文中研究指出随着分子生物学、基因组学和蛋白质组学的发展,出版的生物医学文献呈指数级增长,从海量的文献中利用计算机算法获取信息成了必然的发展趋势。生物信息学领域中对于基因、蛋白质等实体没有统一的命名标准,因此从文献中识别实体名称是获取信息的首要步骤。机器学习方法在解决生物实体识别问题中表现出较高的精度,因此被越来越多的研究者采用并不断改进。本文详细介绍了机器学习中在文本挖掘领域常用的隐马尔可夫模型HMM(Hidden Markov Models)、最大熵马尔可夫模型MEMMs(MaximumEntropy Markov Models)和条件随机域CRFs(Conditions Random Fields),分析叁种算法的特征及优劣性,并使用这叁种算法对英文文献进行词性标注,而后识别蛋白质和DNA等实体名称。在算法设计过程中,本文结合英文构词特征和语法知识,引入了前缀后缀和单词固定搭配对词性的影响,以句子为单位对英文单词进行词性标注。英文单词中,介词、代词等单词通过前缀后缀无法判断词性,统计其在训练样本中的词频,将高频单词按照词性分为不同的高频词集合,在词性标注时通过字符串匹配的方法标记词性。在识别生物实体名称过程中,本文首先在训练样本中统计各种实体名称中出现频率较高的单词,作为特征单词集。之后根据词性标注的结果,通过前后文单词词性确定词组边界,在名词词组中使用字符串匹配的方法查找是否出现表示实体名称的特征单词,以此判断此词组是否为实体名称。通过观察训练样本中已标记实体类型的语句,发现不同类型的实体会出现同名的情况,同时不同类型的实体名称中会出现相同的特征单词。为了解决这两个问题,本文使用了特征单词等级策略,当实体名重名或特征单词重复出现时,根据特征单词的等级区分实体类别。本文以GENIA Project上提供的语料库GENIA Corpus作为主要数据集,使用隐马尔可夫模型、最大熵马尔可夫模型和条件随机域对语料库中的语句标注词性,再根据词性序列识别语句中的蛋白质、DNA、RNA、细胞系和细胞类型名称。通过比较实验结果,可以看出CRFs在词性标注准确率和生物实体名称识别中的性能强于HMM和MEMMs。为了评价本文提出的特征单词等级策略,对使用策略前后的两次实验结果进行了比较,可以看出使用了特征单词等级策略后,在识别到的各种实体名称中,错误的数目均有所减少。算法召回率略低于未使用特征单词等级策略的实验结果,但算法在准确率上的提升幅度明显。通过比较召回率和准确率的综合评价指标F值,可以看出特征单词等级策略对算法的性能有明显提高。通过对改进的CRFs与GENIAtagger在识别生物实体时的性能比较,根据实验结果可以看出,本文使用的基于词缀及特征单词等级的生物实体名称识别方法性能略强于GENIA tagger,其中识别DNA和RNA的优势最明显,在准确率、召回率两方面均高于GENIA tagger,F值分别提高6.29%和4.56%。(本文来源于《吉林大学》期刊2012-04-01)

姜俊[4](2012)在《基于生物实体语境的语音识别后文本纠错算法研究》一文中研究指出语音识别技术是人机交互的重要手段,但由于环境噪音、话语人口音等因素,在实际应用环境中的语音识别正确率并不高。如何提高语音识别正确率是一个亟待解决的问题。本文从语音识别后文本处理角度对语音识别结果进行检错纠错,以达到优化语音识别的目的。本文将自然语言理解的方法应用于基于生物实体语境的语音识别后文本处理上,通过识别待纠错实例中的命名实体作为划分语境的标准,对语音识别后文本进行检错和纠错。在特定领域(生物医学领域)中的实验结果表明,本文算法在语音识别后文本纠错的正确率上比王兴建等基于词境的混淆词网纠错方式的正确率提高了42.4%。对于语音识别的鲁棒性研究具有一定的借鉴,本文的主要工作有:1.搭建网络爬虫,从相关网站获取原始语料,为实体语境库的建立提供相应的语料环境。2.应用命名实体识别技术,对特定领域(生物医学)进行实体词识别,从而建立相应的具有同一实体词的实体语境。3.通过对语音识别技术的研究,把音素这一语音识别过程中的关键声学建模因素加入到语音识别后文本纠错中,增加了语音识别后纠错的原始信息输入。4.研究相应的应用场景,通过改进型句子相似度计算方法,将其应用于本文的纠错框架中,取得了比较好的纠错效果。最终将上述的研究成果应用于完整的语音识别后文本纠错系统中,设计实现了纠错算法框架和实现步骤,进行对比实验,结果表明纠错效果比前人有一定提高。(本文来源于《北京邮电大学》期刊2012-01-16)

豆增发,高琳[5](2010)在《应用粒子群优化-条件随机域的文本生物实体识别》一文中研究指出针对生物医学文本中传统生物实体识别算法的精确度不高的问题,提出了一种新的基于粒子群优化-条件随机域的生物实体识别算法.新算法利用改进的粒子群优化算法训练条件随机域模型,并将训练后的条件随机域模型应用到生物实体的识别上.改进的粒子群优化算法引入粒子群聚集度来防止粒子群过早地陷入局部收敛,用迭代间对数似然相对变化率来控制算法的收敛,用线性变化的惯性因子和学习因子来控制搜索范围.实验结果表明,基于改进粒子群优化的条件随机域模型较隐马尔科夫模型、最大熵马尔科夫模型、支持向量机以及传统条件随机域模型等方法具有更高的精确率和召回率.(本文来源于《西安交通大学学报》期刊2010年12期)

杨志豪,林鸿飞,李彦鹏[6](2008)在《基于编辑距离和多种后处理的生物实体名识别》一文中研究指出基于编辑距离和多种后处理的生物医学文献实体名识别方法通过"全称缩写对识别算法"扩充词典,利用编辑距离算法提高识别召回率。在后处理阶段,使用前后缀词扩展、POS扩展、合并邻近实体及利用上下文线索等方法进一步提高性能。实验结果表明,使用该方法即使利用内部词典也可以获得较好的识别效果。(本文来源于《计算机工程》期刊2008年17期)

杨志豪,林鸿飞,李彦鹏[7](2008)在《条件随机域与上下文线索结合的生物实体识别》一文中研究指出介绍一个用于在生物医学文献中识别基因、蛋白质等生物实体的识别方法。该方法基于条件随机域方法,选取适当特征进行实体识别,利用上下文线索进一步提高识别性能。实验结果表明上下文线索的引入使识别性能在条件随机域方法基础上提高了近3%,从而获得了较好的最终识别效果。(本文来源于《计算机工程》期刊2008年07期)

黄浩炜[8](2007)在《SVM与基于转换的错误驱动学习方法相结合的生物实体识别》一文中研究指出本文将基于统计的机器学习方法和基于规则的方法有效的结合起来并应用于生物实体识别领域,运用SVM这一统计学习理论的典型代表作为机器学习方法的具体实现,并运用基于转换的错误驱动学习方法对SVM测试得到的结果修正,提高了生物实体识别的准确率和召回率。本文方法首先通过抽取较为丰富的特征集合如单词特征、上下文特征、词性特征、词形特征、核心词特征和停用词特征等,使用JNLPBA发布的训练语料对SVM分类器进行训练,然后使用训练后的SVM模型对JNLPBA公布的测试语料进行生物实体识别。通过对训练语料和测试语料的统计与分析,研究了基于统计的机器学习方法应用于生物实体识别领域所存在的一些问题,如学习器的泛化能力,特征选择问题,外部资源引入问题和数据不均匀现象等等。为进一步提高识别的效果,本文实验利用基于转换的错误驱动学习方法对SVM的标注结果进行校正,转换规则较好地挖掘出生物学文本中的语言现象,进一步提高SVM方法得到的准确率和召回率。通过与其他研究者的比较,本文所采用的方法取得了与很多成熟应用相当的结果。(本文来源于《国防科学技术大学》期刊2007-11-01)

黄浩炜,王挺,陈火旺[9](2007)在《SVM与错误驱动学习相结合的生物实体识别方法》一文中研究指出本文介绍了一种 SVM 和基于转换的错误驱动学习相结合的生物实体识别方法。该方法首先通过抽取较为丰富的特征集合如单词特征、词性特征和词形特征等,使用 GENIA 语料对 SVM 分类器进行训练,然后使用训练后的 SVM 分类器进行生物文本中命名实体的识别。为进一步提高识别的效果,该方法利用基于转换的错误驱动学习方法对 SVM 的标注结果进行校正,转换规则较好地挖掘出生物学文本中的语言现象,进一步提高运用 SVM 方法得到的结果。(本文来源于《内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集》期刊2007-08-01)

生物实体识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

探索专利文献中的化合物和生物知识变得至关重要。为了识别化合物实体和生物实体,开发了面向专利的化合物和生物实体识别系统。系统基于开源的机器学习和自然语言工具进行开发。系统按照流水线模式进行,本文将详细阐述其叁个主要过程:预处理(句子分割、词条化),识别(基于条件随机场的方法),后处理(基于规则的方法)。最后,利用系统在已标注的化合物专利语料库进行大量实验,进行十折交叉验证,得到了69.20%的F值。但是,从结果可以看到,在专利文献上的实验表现,要低于论文和新闻语料库中的表现。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

生物实体识别论文参考文献

[1].杨培.基于深度学习的生物实体识别和关系抽取[D].大连理工大学.2018

[2].赖鸿昌,朱礼军,徐硕.面向专利的化合物和生物实体识别系统[J].情报工程.2015

[3].吴晓洲.基于词缀及特征单词等级的生物实体名称识别方法[D].吉林大学.2012

[4].姜俊.基于生物实体语境的语音识别后文本纠错算法研究[D].北京邮电大学.2012

[5].豆增发,高琳.应用粒子群优化-条件随机域的文本生物实体识别[J].西安交通大学学报.2010

[6].杨志豪,林鸿飞,李彦鹏.基于编辑距离和多种后处理的生物实体名识别[J].计算机工程.2008

[7].杨志豪,林鸿飞,李彦鹏.条件随机域与上下文线索结合的生物实体识别[J].计算机工程.2008

[8].黄浩炜.SVM与基于转换的错误驱动学习方法相结合的生物实体识别[D].国防科学技术大学.2007

[9].黄浩炜,王挺,陈火旺.SVM与错误驱动学习相结合的生物实体识别方法[C].内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集.2007

标签:;  ;  ;  ;  

生物实体识别论文-杨培
下载Doc文档

猜你喜欢