导读:本文包含了中文病历论文开题报告文献综述及选题提纲参考文献,主要关键词:医疗实体识别,深度学习,电子病历,人工神经网络
中文病历论文文献综述
韩普,刘亦卓,李晓艳[1](2019)在《基于深度学习和多特征融合的中文电子病历实体识别研究》一文中研究指出电子病历实体识别是医疗领域人工智能和医疗信息服务中非常关键的基础任务.为了更充分地挖掘电子病历中的实体语义知识以提升中文医疗实体识别效果,提出融入外部语义特征的中文电子病历实体识别模型.该模型首先利用语言模型word2vec将大规模的未标记文本生成具有语义特征的字符级向量,接着通过医疗语义资源的整合以及实体边界特征分析构建了医疗实体及特征库,将其与字符级向量相拼接以更好地挖掘序列信息,最后采用改进的Voting算法将深度学习结果与条件随机场(Conditional Random Fields,CRF)的结果加以整合来纠正标签偏置.实验表明,融入外部语义特征的改进模型的F值达到94. 06%,较CRF高出1. 55%.此外,还给出了模型最佳效果的各项参数.(本文来源于《南京大学学报(自然科学)》期刊2019年06期)
王阳阳,郑西川[2](2019)在《基于规则和机器学习的中文电子病历患者隐私保护算法》一文中研究指出目的针对医疗数据发布和共享中患者隐私泄露风险以及人工去标识效率低的问题,本文提出了一种基于规则和机器学习结合的算法,以有效去除电子病历中的患者隐私信息。方法根据美国健康可携行与责任性法案和中文电子病历的表达习惯,将隐私数据分为数字、日期及命名实体叁大类,利用正则表达式识别数字以及日期隐私数据,引入隐马尔科夫模型识别命名实体。最后使用上海市第六人民医院的出院小结作为测试数据,利用留出法测试了隐私数据识别的召回率和精确率。结果该模型总体得到了超过90%的召回率,其中数字和日期类型的隐私数据召回率都超过96%,中文人名的识别效果也超过了单人识别的效果。结论规则和机器学习结合的模型有效地识别了患者的隐私数据,有助于医疗数据的共享。(本文来源于《北京生物医学工程》期刊2019年05期)
胡佳慧,方安,赵琬清,杨晨柳,任慧玲[3](2019)在《面向知识发现的中文电子病历标注方法研究》一文中研究指出【目的】研究基于中文电子病历的标注方法,提升临床文本分析与处理能力,促进临床知识发现。【方法】提出中文电子病历标注思路,并构建可视化交互平台,基于电子病历文本的字与词特征,综合利用自然语言处理和机器学习方法开展临床命名实体识别实证研究。【结果】获得700份标注病历语料,基于Pipeline的标注方法总体F值达0.8772,较基于原始标注病历数据集的命名实体识别效果提升32.9%。【局限】由于电子病历包含与隐私相关的敏感信息,本研究基于开放评测数据开展实验研究,语料库大小受限。【结论】本研究所提出的中文电子病历标注方法和所构建的标注平台适用于临床文本处理,能够促进医学临床文本资源的知识关联化。(本文来源于《数据分析与知识发现》期刊2019年07期)
张公涛[4](2019)在《中文电子病历信息抽取系统的设计与实现》一文中研究指出在计算机技术与信息科学发展浪潮中,医疗信息化建设已经成为医疗行业发展的趋势。电子病历是医疗信息化的载体,包含了患者从入院就诊到出院医疗活动的详细记录,蕴藏着丰富的医学知识,电子病历信息抽取对临床诊断与医学研究都有重要的意义。因此,探索对医学文本抽取准确率高的信息抽取算法成为了重要任务。此外,在医疗大数据的趋势下,近年来电子病历数量急剧增长。而我国目前的医疗信息化水平不高,难以满足大规模数据处理的需要,海量电子病历数据未得到有效的管理和利用,在这样的背景下,本文设计实现了支持大数据处理的中文电子病历信息抽取系统,对医疗信息化建设具有重要的意义。本文的主要工作包括以下几个部分:(1)结合课题背景和研究现状对电子病历信息抽取系统进行了需求分析,设计了系统的整体框架和具体功能,将系统分为存储端、接口层和服务端叁个模块。(2)在存储端,设计、部署了HDFS-Redis+MySQL-HBase“叁级缓存”结构的存储体系,并对HBase进行了性能优化。满足海量数据存储管理的需求,实现了大规模数据的高效增删改查功能,并方便在本地机器上使用SQL进行数据处理。针对专业性的医学文本数据,对数据库各字段进行了标准化定义,实现了元数据的规范化管理,为各系统间的数据互通打下了基础。(3)在接口层,搭建了两种基于RESTful的http服务,实现了远程实时调用信息抽取服务的需求,使大规模数据的更新、增删、查询工作可以通过调用接口实时完成。并通过压力测试验证了接口的稳定高效性。(4)在服务端,设计、实现了基于Hadoop的信息抽取与大数据处理,满足系统对海量电子病历数据高效信息抽取的需求。并对于Hadoop任务中时常出现的“长尾问题”提出了长尾task识别算法,通过对比测试验证了该算法有效提高了系统性能与稳定性。(5)在NLP信息抽取模块中,在CRF+Bi-LSTM基础上提出了Medical Improved Bi-LSTM+CRF算法模型,通过交叉实验验证了该模型在医学文本信息抽取方面取得了更好的效果。此外,通过信息抽取对医学词典和标注语料库进行了补充,目前已经构建了多种专业医学词典和中文标注语料库,为信息抽取和进一步知识挖掘打下了基础。(本文来源于《北京邮电大学》期刊2019-06-12)
孟捷[5](2019)在《基于中文电子病历文本的医学语义网络构建方法研究》一文中研究指出随着医疗信息化以及计算机硬件的发展,电子病历在我国得到了极大的普及,因此每天产生的电子病历数据爆发式增长,但是电子病历中的文本数据难以结构化从而得到二次利用,电子病历文本挖掘是现在很多学者的研究点,主要集中在电子病历命名实体识别和电子病历实体关系抽取这两个研究任务。英文领域的电子病历文本挖掘已经有了丰硕的成果,国内的研究还处于起步阶段。这是因为(1)缺乏规范统一的专业术语库,电子病历文本中的术语没有标准化,国外成熟的知识库无法对中文领域电子病历文本研究做直接指导;(2)语料匮乏,缺少公开的标注语料以及标注规范,并且电子病历文本具有高度专业性特点,普通人难以识别其中的实体及关系,严重限制了中文电子病历文本挖掘的研究。基于此,文本研究基于中文电子病历文本的命名实体识别和实体关系抽取的方法,从而构建基于中文电子病历文本的医学语义网络。主要工作包括以下几个方面:本文首先分析中文电子病历的数据结构特点和语言特点,提出基于元数据的数据清洗模型。针对电子病历中术语不统一问题,自行标注特定疾病的小部分语料,使用条件随机域(Conditional random fields,CRFs)模型并引入词典实现特定疾病中小语料库识别多术语任务。扩充电子病历命名实体识别标注语料,并为后续实体关系抽取和语义网络构建奠定基础。针对实体关系抽取任务,本文参照统一医学语言系统(Unified Medical Language System,UMLS)语义网络结构,明确本文的实体关系抽取类型。利用长短时记忆模型(Long-Short Term Memory,LSTM)在文本实体关系抽取任务上的优势,将Att_BiLSTM模型移植到医疗领域中来,抽取电子病历文本中句子级别实体与实体之间的功能上相关的语义关系,实验结果证明在TrCP(治疗导致了医疗问题)、TrIP(治疗改善了医疗问题)和TrAP(治疗施加于医疗问题)叁种关系的识别上具有良好表现,F值分别达到0.862、0.861和0.862。引入领域知识库UMLS的工具MetaMap获取中文实体在UMLS中的概念形成IS-A关系,不仅与国际知识库建立关系促进中文医学文本挖掘研究发展,还进一步补充了国际知识库的中文语义网络部分。最后本文结合中文电子病历案例数据集,实现电子病历命名实体识别以及两类实体关系抽取的算法实现,构建特定疾病肾癌的医学语义网络,并通过工具Gephi实现语义网络可视化。该语义网络可以促进后续进一步研究如药物推荐、疾病预测、智能医疗问答系统等,具有重要意义。(本文来源于《北京交通大学》期刊2019-06-01)
杨晓辉[6](2019)在《基于中文电子病历的冠心病危险因素抽取方法研究》一文中研究指出冠心病是危害人类健康的重要疾病,患者的电子病历中蕴含着大量如高血压、糖尿病等危险因素的描述信息,准确抽取这些描述信息对临床研究和辅助临床诊断具有重要意义。目前,基于英文电子病历的冠心病危险因素抽取已经开展了大量工作,而基于中文电子病历的抽取研究则相对较少,因而研究中文电子病历的冠心病危险因素抽取十分必要。本文综合运用自然语言处理的多种技术,在构建语料库的基础上,研究冠心病危险因素的抽取方法,为临床实验提供参考。本文的主要贡献有:(1)制定了适用于中文电子病历的冠心病危险因素语料库的标注指南,完成了语料库的构建。在对新疆某叁甲医院提供的500名冠心病患者的出院小结预处理的基础上,参照2014年美国临床信息学研究中心I2B2发布的冠心病危险因素标注语料库,制定了标注指南并开发了危险因素语料库标注工具;由两名临床医生完成了预标注和正式标注工作。经过叁轮预标注和一轮正式标注后,标注一致性IAA达到了0.95,结果表明标注具备可靠性。(2)提出了一种混合式冠心病危险因素抽取方法。针对所构建语料库中危险因素标识数据存在不平衡问题,分别采用基于规则和机器学习的方法实现抽取。对标识数据分布较多的危险因素,运用条件随机场CRF与双向长短时记忆神经网络Bi-LSTM结合的模型进行抽取;对标识数据分布较少的,则借助基于规则的方法完成。分组抽取有助于克服描述信息不平衡导致的模型泛化能力差、容易发生过拟合的缺点,实验表明混合式抽取方法的F值为0.882,高于单一方法、单一分组抽取结果。(3)为进一步提高准确率,针对标识数据较多的危险因素,提出一种改进的多任务Bi-LSTM-CRF的抽取方法。使用分词数据构建词向量,将抽取任务与分词任务相结合,在抽取过程中共享分词中所获取的词边界信息,为抽取提供更多的特征集。两种任务均采用Bi-LSTM-CRF模型对危险因素进行了抽取,实验表明F值为0.885,远优于单独使用Bi-LSTM-CRF模型抽取结果0.865。(本文来源于《新疆大学》期刊2019-05-27)
潘璀然,王青华,汤步洲,姜磊,黄勋[7](2019)在《基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别》一文中研究指出目的提出一种基于Re-entity新分词方法的条件随机场(CRF)模型,并与双向长短记忆神经网络(BiLSTM)-CRF和Lattice-长短记忆神经网络(LSTM)进行比较。方法比较了现有实体识别方法和模型后,针对2018年全国知识图谱与语义计算大会(CCKS2018)任务一"电子病历命名实体识别",提出基于Re-entity的CRF、BiLSTM-CRF、Lattice-LSTM方法,并在不同语料库训练不同参数级别的字符向量集。分别将各方法引入神经网络模型中进行模型性能对比实验,最后分别基于句子级和篇级输入句长进行对比研究。结果 CRF模型在最优特征工程的结果下引入Re-entity方法后性能得到提高,句子级的Lattice-LSTM模型在该任务上取得了89.75%的严格F1-measure,优于CCKS2018任务一的最高结果(89.25%)。结论基于Re-entity新分词方法的CRF模型可利用中文临床药物知识库有效提高电子病历中药物的识别率,Re-entity方法可改善数据预处理阶段分词导致的错误累加,Lattice结构可以更好地结合字符和词序列的潜在语义信息,同时句子级输入能有效提高神经网络模型的识别准确率。(本文来源于《第二军医大学学报》期刊2019年05期)
陈梁[8](2019)在《运用自然语言处理技术从中文电子化病历系统中提取临床有用信息》一文中研究指出目的:设计一种基于自然语言处理(natural language processing,NLP)技术的算法,用以从中文电子化病历(electronic medical records,EMRs)中提取肝细胞肝癌(hepatocellular carcinoma,HCC)患者的临床有用信息;并运用这些信息对患者进行HCC分期。材料与方法:从中文EMRs系统中收集92例HCC患者的临床资料,包括手术记录、影像学报告和病理报告。我们将这些患者随机分为训练集(n=60)和测试集(n=32)。以人工注释的结果作为金标准,使用手术记录的训练集开发基于规则的算法和混合型算法。性能较优的算法将用于处理其他临床资料。通过计算精确匹配和部分匹配两种策略的准确度(precision,P)、召回率(recall,R)和F-score来评估算法性能。通过与人工分期结果相比较,对分期算法进行性能评估。结果:当基于规则和混合型两种算法处理手术记录的测试集数据时,其精确匹配和部分匹配两种策略的P、R和F-score均≥80%。基于规则的算法(其性能优于混合型算法)在处理其他叁种类型的文档时,也均表现出良好的提取性能。当提取的临床有用信息用于HCC分期时,分期算法与人工分期结果的一致率可达75%。结论:基于EMRs成功开发出NLP算法用于临床信息提取和HCC分期,结果表明中文NLP技术在临床研究中具有潜在的应用价值。(本文来源于《重庆医科大学》期刊2019-05-01)
张昱[9](2019)在《基于深度学习的中文电子病历实体及其修饰识别技术研究》一文中研究指出智慧医疗是当前人工智能领域的研究热点,而在各种医疗数据中,电子病历具有重要价值。电子病历是医务人员通过电子病历系统在医疗活动过程中产生的一种临床文本信息,是一种记录患者信息的数字化信息。通过对电子病历的分析与挖掘,可以得到大量的与患者密切相关的医疗信息,这对临床决策能起到很大的帮助。自然语言处理技术可以帮助我们实现对电子病历文本信息的挖掘,如命名实体识别、实体修饰识别等技术。其中实体识别旨在识别出病历中不同实体的实体边界与类别,实体修饰旨在识别出特定实体与患者之间的修饰关系。但是与其他文本相比,中文电子病历存在大量包括书写不规范、专业术语较多、特殊字符频繁、句子结构不完整等问题。同时,由于涉及到患者的隐私,导致目前开源的电子病历数据不多。这些问题加大了对电子病历的信息进行挖掘和识别的难度。因此为了更好地对电子病历信息进行抽取,本文利用深度学习方法在自主标注的数据集上对中文电子病历的医疗实体与修饰识别及其联合识别技术进行了研究:(1)基于知识注意力机制增强的实体识别。虽然以往的相关工作都取得了较好的成果,但是却忽略了能够提供丰富实体信息的外部医疗知识,因此本文提出了基于医疗知识注意力增强的CNN-BLSTM-CRF方法。通过使用注意力机制,对医疗词典中的医疗实体的定义与边界信息进行编码,来增强神经网络模型的性能。其中,在BLSTM对文本信息编码前,先用CNN预先提取了文本的字级别表示并作为文本信息的补充信息,有效地解决了上文中提出的电子病历存在的书写不规范和特殊词频繁等问题。(2)基于CNN-GRU神经网络的实体修饰识别。使用了 GRU网络对电子病历文本信息进行了编码,并使用Softmax进行解码。其中,GRU网络是循环神经网络(RNN)一个变体,与之相比GRU更好地解决了远距离依赖的问题且计算方式更简单。同时使用了 CNN网络预先提取了字符级表示以解决书写不规范和特殊字符频繁等问题。(3)实体及其修饰联合识别。在联合识别任务中本文提出了一种基于多标签方案的联合识别方法,并使用BLSTM-LSTM模型进行识别。与传统的串联式识别方法相比,基于多标签方案的方法,可以成功的将两个步骤转换为一个步骤:通过多标签方案,使用端到端模型一步识别。实验结果表明,在相同的数据集上,本文的方法相较于其他方法取得了较好的性能。(本文来源于《西北师范大学》期刊2019-05-01)
修晓蕾[10](2019)在《基于中文电子病历的肿瘤知识图谱构建研究》一文中研究指出近年来,全球恶性肿瘤发病率和死亡率持续升高,如何利用已有的诊疗经验进行归纳总结,挖掘潜在的、有效的诊疗关系,以加强恶性肿瘤防治工作,成为医务工作者迫切需要解决的问题。随着我国医药卫生信息化的发展,各大医院已经积累了丰富的中文肿瘤电子病历。电子病历中蕴含着丰富的医学事实,然而其非结构化的文本结构,包含大量的医学专业术语、缩略语等特点,给大数据环境下电子病历的组织和利用带来极大的挑战。知识图谱作为人工智能的重要组成部分,具有强大的信息处理和知识组织能力,为该问题的解决提供了新途径。针对中文电子病历肿瘤知识图谱构建需求,本研究结合肿瘤疾病和中文肿瘤电子病历的结构、语言特点,提出一套完整的基于中文电子病历的肿瘤知识图谱构建框架,为肿瘤知识图谱构建提供思路。论文以消化系统肿瘤为例,设计并构建了消化系统肿瘤知识图谱,采用定量评估和专家评估相结合的方式,对消化系统肿瘤知识图谱进行了质量评估。具体来说,本研究的主要工作包括以下四部分:(1)系统梳理了国内外知识图谱研究现状,借鉴已有研究思路和相关技术,总结现有研究的局限性,包括:①在数据源上,较少使用医院实际临床文本数据;②多关注于数据层面,对图谱模式构建研究不足;③在语义关系上,定义的语义关系较为简单,无法准确表达疾病诊疗过程中医疗事实之间的复杂关联关系;④在自然语言处理工具上,缺乏高效的中文医学文本自然语言处理工具。(2)提出一套完整的基于中文电子病历的肿瘤知识图谱构建框架。详细分析了肿瘤疾病和中文肿瘤电子病历的结构、语言特点,在定义肿瘤知识图谱设计原则、明确设计思路的基础上,针对现有研究的不足,聚焦于肿瘤知识图谱模式构建研究不足和缺乏语义考虑的问题,结合肿瘤疾病和中文肿瘤电子病历的特点,提出一套完整的基于中文电子病历的肿瘤知识图谱构建框架。(3)构建了一个包含丰富语义关系的消化系统肿瘤知识图谱。为验证基于中文电子病历的肿瘤知识图谱构建框架的可行性和科学性,本研究采用实证研究的方法,以消化系统肿瘤为例,构建了消化系统肿瘤知识图谱。首先,结合消化系统肿瘤疾病特点,如消化系统肿瘤的病理分期和组织学分型标准,利用斯坦福大学提出的模式构建“七步法”,通过参考i2b2 2010,复用SNOMEDCT、NCI叙词表、ICD-10、消化系统肿瘤WHO分类等资源,构建了包含7类实体和15种语义关系的消化系统肿瘤知识图谱模式;然后,结合肿瘤电子病历中包含大量的习惯用语、具有固定的文法和句法、肿瘤疾病相同类型的实体成对出现等特点,引入实体组的概念,分别采用基于规则和BiLSTM-CRF模型相结合的方式及BiGRU-Attention模型对消化系统肿瘤电子病历进行命名实体识别和语义关系抽取;最后,采用分层、分批实体对齐的策略实现图谱数据对齐,并将数据存储在Neo4j图形数据库中,完成对基于中文电子病历的消化系统肿瘤知识图谱构建。(4)开展了消化系统肿瘤知识图谱质量评估。采用定量评估和专家评估相结合的方式,从数据层、模式层和应用层叁个方面对消化系统肿瘤知识图谱进行质量评估。评估结果表明,本研究构建的消化系统肿瘤知识图谱数据较为全面、可靠,图谱模式结构合理,能够全面、清晰地展示电子病历文本内容,便于用户进行语义搜索,研究构建的基于中文电子病历的肿瘤知识图谱构建框架具有一定的科学性和实用性。(本文来源于《北京协和医学院》期刊2019-05-01)
中文病历论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
目的针对医疗数据发布和共享中患者隐私泄露风险以及人工去标识效率低的问题,本文提出了一种基于规则和机器学习结合的算法,以有效去除电子病历中的患者隐私信息。方法根据美国健康可携行与责任性法案和中文电子病历的表达习惯,将隐私数据分为数字、日期及命名实体叁大类,利用正则表达式识别数字以及日期隐私数据,引入隐马尔科夫模型识别命名实体。最后使用上海市第六人民医院的出院小结作为测试数据,利用留出法测试了隐私数据识别的召回率和精确率。结果该模型总体得到了超过90%的召回率,其中数字和日期类型的隐私数据召回率都超过96%,中文人名的识别效果也超过了单人识别的效果。结论规则和机器学习结合的模型有效地识别了患者的隐私数据,有助于医疗数据的共享。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
中文病历论文参考文献
[1].韩普,刘亦卓,李晓艳.基于深度学习和多特征融合的中文电子病历实体识别研究[J].南京大学学报(自然科学).2019
[2].王阳阳,郑西川.基于规则和机器学习的中文电子病历患者隐私保护算法[J].北京生物医学工程.2019
[3].胡佳慧,方安,赵琬清,杨晨柳,任慧玲.面向知识发现的中文电子病历标注方法研究[J].数据分析与知识发现.2019
[4].张公涛.中文电子病历信息抽取系统的设计与实现[D].北京邮电大学.2019
[5].孟捷.基于中文电子病历文本的医学语义网络构建方法研究[D].北京交通大学.2019
[6].杨晓辉.基于中文电子病历的冠心病危险因素抽取方法研究[D].新疆大学.2019
[7].潘璀然,王青华,汤步洲,姜磊,黄勋.基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别[J].第二军医大学学报.2019
[8].陈梁.运用自然语言处理技术从中文电子化病历系统中提取临床有用信息[D].重庆医科大学.2019
[9].张昱.基于深度学习的中文电子病历实体及其修饰识别技术研究[D].西北师范大学.2019
[10].修晓蕾.基于中文电子病历的肿瘤知识图谱构建研究[D].北京协和医学院.2019