导读:本文包含了结构化信息抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:结构化信息抽取,文本聚类,关键词提取,语义依存
结构化信息抽取论文文献综述
杨兵,聂铁铮,申德荣,寇月,于戈[1](2019)在《一种面向医学文本数据的结构化信息抽取方法》一文中研究指出医学文本作为医疗领域重要的信息载体,为临床诊断和病理学研究提供了重要的数据支持,然而使用自然语言编写的文本数据往往是非结构化的,不便于机器理解和自动化处理.对于中文的医学文本数据而言,由于专业性强,需要丰富的领域知识,并且语法上多采用短句形式,这给结构化信息的抽取带来了巨大的挑战.为此,本文设计了一种针对医学领域的文本数据进行结构化信息抽取的方法,该方法首先通过文本聚类和关键词提取来获得医学描述语言中常用的表达术语,然后使用生成的医学术语库辅助中文分词处理,以提高中文医学文本的分词质量.然后,分析词与词之间的语义依存关系并随之构建依存句法树.最后,从该句法树中识别和抽取医学文本描述中的关键指标及其对应的指标值,最终得到结构化的键值对数据.本文采用真实的医学影像报告文本作为实验数据,实验结果表明该方法有效提高了中文医学文本的分词质量,准确率最高可达98. 24%,并在结构化的信息抽取中效果显着,具有最高83. 76%的准确率和88. 09%的召回率.本文提出的方法能覆盖多种依存语法,且有很好的适用性.(本文来源于《小型微型计算机系统》期刊2019年07期)
晏文坛[2](2018)在《半结构化中文简历的信息抽取》一文中研究指出简历是一种常见的半结构化文本,是求职者向用人单位介绍自身基本信息和过去经历的重要载体。随着互联网技术的广泛应用,企业招聘时会收到种类繁多,数量巨大的简历电子文档,依靠人工筛选和储存简历需要花费大量的时间和精力,并且效率低下。因此,研究如何使用计算机快速、准确地从简历中自动抽取出主要的字段内容,并且按照企业需求对抽取结果进行统一结构化是很有必要的。本文从分析半结构化中文简历的结构特征出发,提出中文简历内容按结构层次划分及按内容类划分的思路,给出了简历内容结构描述方法。建立信息抽取词典时,为了解决传统的单独依靠人工建立词典时的繁琐及耗时等问题,研究了基于词法分析的简历关键字提取算法,提出合并简历文本处理的思路,基于N-Gram模型对合并后的简历文本进行全切分,并计算切分所得词条的词内凝固度、词外自由度及词频指标,再根据半结构化简历的特点制定筛选条件及阈值,之后使用基于字符串编辑距离和基于N-Gram模型的字符串相似度计算方法对词典进行扩充。在信息抽取过程中,结合文本信息抽取通用流程和半结构化简历文本的特点,制定了适用于半结构化中文简历的信息抽取方案,研究了基于标题关键字匹配和按文本格式匹配的文本分割算法。在内容识别与抽取时,根据简历内容的强规则性和内容之间的相关性特点,采用基于词典匹配、基于规则和基于统计模型相结合的思路,针对简历中基本信息部分通过建立详细抽取规则进行抽取,针对简历中复杂项信息的抽取,归纳提出了简历复杂项的叁条主要特征,按照这些特征使用基于词典匹配和基于文本分块的隐马尔科夫模型相结合的方法对简历内容进行识别和提取,并且对模型训练过程中存在的数据稀疏问题进行数据平滑处理。在前文工作的基础上,本文使用Java编程语言实现了一套中文简历信息抽取系统,该系统有友好的人机交互界面,可以动态管理抽取词典、抽取规则及简历信息,实现了对word、PDF及HTML格式中文简历的自动信息抽取,另外系统还实现了跟随网页简历信息更新本地库的功能。最后,本文利用大量样本对模型参数进行了训练,通过该系统对待抽取简历进行抽取测试,并对准确率和召回率进行了统计汇总,抽取结果令人满意。(本文来源于《华南理工大学》期刊2018-04-23)
包小源,黄婉晶,张凯,金梦,李岩[3](2018)在《非结构化电子病历中信息抽取的定制化方法》一文中研究指出目的:电子病历数据中的主诉、现病史、既往史、鉴别诊断、影像诊断、手术记录等主体内主要采用中文自然语言文字描述,是临床医生实际诊疗细节的具体体现,包含了诊疗细节的大量、丰富信息。本研究目的在于建立一种从中进行有效信息提取并组织成可分析利用的形式,供目前医学数据处理、医学研究之用。方法:基于医院的真实电子病历数据,设计定制化的基于规则学习及信息抽取方法,采用叁个步骤实现中文信息的抽取:(1)抽样标注,随机抽取600份电子病历的病史信息(包括现病史、既往史、个人史、家族史等),采用本研究开发的标注平台,对其中需要抽取的信息(以糖尿病史为实例)进行标注;(2)根据标注结果,进行抽取模版归纳,并将抽取模版进行重写,生成可以直接用于抽取的Perl语言正则表达式抽取规则,并利用这些规则进行实际信息抽取;(3)对抽取结果进行人工验证与自动化验证相结合的方法,对方法的有效性进行验证。结果:所设计方法已在国家医疗数据中心平台上实现,并针对糖尿病病史抽取在医院进行了单个科室的现场验证,2015年1 436份糖尿病患者病历的病史抽取结果为召回率87.6%、准确率99.5%、F分数(F-Score)0.93;全体糖尿病患者10%抽样病历共1 223份的抽取结果为召回率89.2%、准确率99.2%、F-Score 0.94,效果较好。结论:主要采用自然语言处理与基于规则的信息抽取相结合的方法,设计并实现了从非结构化的中文电子病历文本数据中抽取定制化信息的算法,与已有工作比对效果较好。(本文来源于《北京大学学报(医学版)》期刊2018年02期)
杜秋霞[4](2017)在《无结构化文本中事件的时空信息抽取方法研究》一文中研究指出随着网络信息时代的高速发展,文本信息在网络上的数量越来越多,并且其数量正在以不可估计的速度增加。面对数量如此巨大的网络文本信息,如何从中获得对用户有用的信息是当今社会研究的一个热门话题。为了方便用户从大量的信息源中快速的获取用户所需要的信息,获取信息的各种方法正逐渐被人们探究出来。通常,提到信息抽取就会说到信息检索,两者相互联系、相互补充。信息检索所包含的范围比较大,主要包括文档的搜索、辨别、聚类等各种技术,利用这些技术可以方便用户在大量的文本集中找到所需的文档。但是,信息抽取技术与信息检索不同,它是为方便用户从某类相关的文档中寻找更加细致的信息,如,命名实体、事件信息、时间信息等,这些精细信息使用户对信息抽取的需求越来越高,同时这些精细信息的显性化、格式化,大大方便了专家学者对于某领域内的研究和应用。信息抽取是将自然语言文本中无序的信息通过一定的技术和方法,条理的输出具有一定格式的信息。近几年,信息抽取的范围不断扩大,关于事件的信息抽取研究也越来越被关注,技术上也多种多样,总体而言,基于统计的技术和机器学习的方法在信息抽取方面发挥着重要的作用。本文研究了混合双向隐马尔科夫模型以及与其相关的主要算法;评估中的向前算法;模型的学习中用来对训练样本进行标记的极大似然算法和用来对训练样本进行部分标记的算法;解码中的Viterbi算法。重点讨论了HMM在无结构化文本中信息抽取中的应用,建立了基于混合双向HMM的时空抽取模型。通过封闭测试和开放测试对抽取后的数据进行对比和分析,证明对HMM模型的改进方法是有效的。本文的主要研究内容包含下列四个方面:1)事件时空信息的结构化表达。概括分析中文文本中事件的时空信息的语言特点和语义构成之后,建立了事件的时空信息标注体系和识别模型;以鸟类分布特征的研究为例,以CNKI中的文献元数据为主要数据源,建立了无结构化文本中时空信息的标记方法,为接下来的时空信息的研究提供相对标准化的训练文本和测试文本。2)时空信息抽取。通过剖析汉语文本中时间信息表述的一般特点,采用了时间字典和自定义规则相结合的时间实体推测和标准化表示,利用基于混合隐马尔科夫模型的标注方法,实现了某特定事件的时空信息识别。3)事件时空信息匹配与可视化。以识别出的时空信息为研究对象,讨论了特定事件的时空信息的配对方法并将时空对进行直观表示,通过聚类分析将特定事件的时空过程进行重构,将事件的时空信息有机、直观的展现在地图上。4)时空信息的应用。将鸟类的分布特征及时空变化展现在地图上,为鸟类爱好着和鸟类专家提供有价值的信息,实现科学预测,为社会提供鸟情方面的有力信息支持。时空信息的研究也可在其他领域运用,如:地籍管理、智能交通和国防军事等领域。(本文来源于《山东师范大学》期刊2017-06-02)
孙玉玺[5](2016)在《基于反馈学习的半结构化信息抽取方法研究》一文中研究指出随着互联网的快速发展,海量的信息以可读性良好的网页形式展示在人们面前。很多的网页以结构相似的形式展示记录列表,比如电商的商品信息列表。为处理这类网页并将网页中的记录以规整的形式格式化到数据库中,出现了很多信息抽取算法。算法主要是从分析网页源码结构或者利用网页提供的视觉信息来进行信息抽取。目前,大多数算法都将网页源码结构和视觉信息分开进行考虑,同时,算法本身自学习能力较差。因此,本文主要研究基于视觉信息和网页层次结构的信息抽取算法,同时利用反馈学习机制扩展算法,提高算法的抽取效果和学习能力。针对视觉信息和网页层次结构相结合的问题,本文提出了通过借助网页渲染过程中生成的渲染树来达到将两者结合的目的。该算法通过视觉属性对数据区域进行识别,利用网页层次结构计算记录之间的相似性并对记录进行聚类以进行记录提取,紧接着利用加权的树匹配算法进行记录项对齐。最后,实验结果表明将视觉信息和网页层次结构相结合,可以一定程度上提高算法的抽取效果。针对提高算法的自学习以及应对复杂网页结构的能力,本文提出将反馈学习框架和信息抽取算法相结合。通过借助用户反馈的信息来提高算法的抽取效果。算法利用用户标注信息来进行多模型学习,提高算法的抽取效果。实验结果表明基于反馈学习的信息抽取算法比现有算法有更强的应对复杂网页结构的能力和更好的抽取效果。为了帮助算法在工业生产中实际落地以及降低用户的使用门槛,本文设计并实现了一个界面化的信息抽取系统。本文详细介绍了算法执行流程中各个模块的功能设计和实现,并介绍了该系统对已有信息采集项目的帮助和改善。(本文来源于《哈尔滨工业大学》期刊2016-12-01)
张盈利[6](2016)在《基于模式匹配的非结构化病理报告的信息抽取方法》一文中研究指出随着互联网信息技术的快速发展,国内各大医院的信息化建设取得长足进步。同时,也为医院积累了丰富的非结构化临床文档数据。其中,病理报告就是一类非常重要的非结构化临床文档,其主要内容是由病理科医生采用自然语言记录的文本格式数据,其内容包括病人基本信息、肉眼可见标本信息、镜下可见标本信息等。传统对病理报告的处理方法主要是依赖于主治医生凭借其经验对病理报告进行人工处理,其实质就是通过人工干预对病理报告数据进行结构化处理。但是,在当前大数据背景下,呈几何级数增长的病理报告数据使得人工结构化病理文本数据面临巨大困难,不仅耗时耗力,且正确率不能保证。本文结合病理文本的结构特点和病理报告的书写规范,借助规则提取、模式匹配、泛化等技术手段,设计并实现了一个完整的病理文本数据的结构化处理系统,以支持病理文本数据的结构化信息抽取。本文的具体内容主要包括:1)本文首先介绍了病理报告结构化处理相关技术,包括中文分词技术、信息抽取方法、模式匹配算法以及逆向最短编辑距离泛化方法等。2)分析了病理文本数据的结构特点,建立了一个病理样本名词库,提出一种基于规则的标本名提取算法,通过词库、词性以及字词在文本数据中的位置等信息综合筛选出病理文本的标本名。3)通过人工干预的学习方式抽取病理样本信息建立初始模式库。在此基础上,结合病理报告的文本结构特征,通过自定义的模式匹配算法,最终得出病理样本模式。4)根据逆向最短编辑距离泛化方法,提出基于正向最短编辑距离的模式泛化方法,最终得到通用性较强的抽取模式。5)对新录入的病理文本数据,套用现有模式抽取信息,达到即时结构化的目的。本文采用了真实数据进行测试,结果表明本系统在保证召回率92%的基础上正确率达到88%,病理报告的结构化结果能够满足预期要求。因此,该系统的实现不仅可以辅助医生提高诊断效率,而且能够为将来疾病的病理诊断提供数据支持。(本文来源于《东华大学》期刊2016-12-01)
张盈利,夏小玲[7](2016)在《非结构化病理文本的结构化信息抽取方法》一文中研究指出介绍病理文本数据结构和概念层次结构,以非结构化的病理文本为对象,首先对非序病理文本的结构进行分析,其次利用模式匹配对病理文本予以模式提取和泛化,最后从分词序列中抽取结构化信息,实验表明该方法能够获得较高的准确率和召回率。(本文来源于《医学信息学杂志》期刊2016年04期)
孙师尧,妙全兴[8](2014)在《基于改进HMM的半结构化文本信息抽取算法研究》一文中研究指出在分析半结构化文本特点与隐马尔可夫模型的基础上,提出了一种新的基于隐马尔可夫模型的信息抽取算法,并与传统的基于单一隐马尔可夫模型的信息抽取算法进行了比较分析。实验结果表明,所提算法在精确度上有明显优化,特别在状态特征不明显的情况下仍能保持良好的精确度。将该算法应用于半结构化文本的信息抽取中,具有较好的可行性和有效性。(本文来源于《电子科技》期刊2014年10期)
邵堃,杨春磊,钱立宾,方帅[9](2014)在《基于模式匹配的结构化信息抽取》一文中研究指出针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相应领域词库.根据模式中各个角色的词性实现模式角色到分词序列词语的映射,从分词序列中抽取出结构化信息,为准确的语义分析提供支持.实验表明该方法能获得更准确的抽取结果.(本文来源于《模式识别与人工智能》期刊2014年08期)
王允富[10](2014)在《半结构化文本信息抽取方法研究及应用》一文中研究指出随着办公自动化的快速发展,使得企事业单位及国家政府机关的数据存储及表示形式呈现出分布性、异构性的特点。不仅包括企事业单位及国家政府机关内使用的关系数据库、面向对象数据库等传统结构化数据,还包括Excel、Xml、Html等不具有像数据库那样有明确结构的半结构化数据,以及音频、图像、视频、原始的文本文件等具有无模式及自描述特点的非结构化数据。每个公司及政府部门都会有大量的、不同结构形式的数据,他们会根据不同类型数据对应的数据结构选择不同的存储方式。因此,为了实现公司及政府部门不同结构数据之间的查询和共享,不同结构形式的数据集成问题已成为网络应用、数据库应用研究和解决实际需求的一个重要研究课题。本文主要研究的是半结构化数据与结构化数据的集成问题,选择了一种典型的半结构化数据Excel表单,对不同行业、不同形式的数百张Excel表单从结构上进行了总结、分析、归纳和分类。在手工和编程实现对这种半结构化数据进行数据抽取的基础上,总结了一些对这种典型的半结构化数据的抽取规则,将这些规则形式化地描述为不同的指令,形成一套半结构化Excel表单数据抽取指令系统。最后,提出了一个具有通用性的基于指令系统的Excel表单数据抽取模型。本文的基于指令系统的Excel表单数据抽取模型不仅能够快速、准确地对一个特定的Excel表单数据进行抽取和加载,还能通过修改指令配置文件对不同样式的Excel表单数据灵活地进行自动抽取和加载;该模型可以通过指令解释器中的解释器规则库实现指令的可扩展性,使其具有更强的通用性;该模型已经在某公司的几个项目中使用,并封装成了WebService服务放在公司的服务器上,可以供不同的项目方便地调用,证明了其良好的通用性及实际价值。(本文来源于《江苏科技大学》期刊2014-03-10)
结构化信息抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
简历是一种常见的半结构化文本,是求职者向用人单位介绍自身基本信息和过去经历的重要载体。随着互联网技术的广泛应用,企业招聘时会收到种类繁多,数量巨大的简历电子文档,依靠人工筛选和储存简历需要花费大量的时间和精力,并且效率低下。因此,研究如何使用计算机快速、准确地从简历中自动抽取出主要的字段内容,并且按照企业需求对抽取结果进行统一结构化是很有必要的。本文从分析半结构化中文简历的结构特征出发,提出中文简历内容按结构层次划分及按内容类划分的思路,给出了简历内容结构描述方法。建立信息抽取词典时,为了解决传统的单独依靠人工建立词典时的繁琐及耗时等问题,研究了基于词法分析的简历关键字提取算法,提出合并简历文本处理的思路,基于N-Gram模型对合并后的简历文本进行全切分,并计算切分所得词条的词内凝固度、词外自由度及词频指标,再根据半结构化简历的特点制定筛选条件及阈值,之后使用基于字符串编辑距离和基于N-Gram模型的字符串相似度计算方法对词典进行扩充。在信息抽取过程中,结合文本信息抽取通用流程和半结构化简历文本的特点,制定了适用于半结构化中文简历的信息抽取方案,研究了基于标题关键字匹配和按文本格式匹配的文本分割算法。在内容识别与抽取时,根据简历内容的强规则性和内容之间的相关性特点,采用基于词典匹配、基于规则和基于统计模型相结合的思路,针对简历中基本信息部分通过建立详细抽取规则进行抽取,针对简历中复杂项信息的抽取,归纳提出了简历复杂项的叁条主要特征,按照这些特征使用基于词典匹配和基于文本分块的隐马尔科夫模型相结合的方法对简历内容进行识别和提取,并且对模型训练过程中存在的数据稀疏问题进行数据平滑处理。在前文工作的基础上,本文使用Java编程语言实现了一套中文简历信息抽取系统,该系统有友好的人机交互界面,可以动态管理抽取词典、抽取规则及简历信息,实现了对word、PDF及HTML格式中文简历的自动信息抽取,另外系统还实现了跟随网页简历信息更新本地库的功能。最后,本文利用大量样本对模型参数进行了训练,通过该系统对待抽取简历进行抽取测试,并对准确率和召回率进行了统计汇总,抽取结果令人满意。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
结构化信息抽取论文参考文献
[1].杨兵,聂铁铮,申德荣,寇月,于戈.一种面向医学文本数据的结构化信息抽取方法[J].小型微型计算机系统.2019
[2].晏文坛.半结构化中文简历的信息抽取[D].华南理工大学.2018
[3].包小源,黄婉晶,张凯,金梦,李岩.非结构化电子病历中信息抽取的定制化方法[J].北京大学学报(医学版).2018
[4].杜秋霞.无结构化文本中事件的时空信息抽取方法研究[D].山东师范大学.2017
[5].孙玉玺.基于反馈学习的半结构化信息抽取方法研究[D].哈尔滨工业大学.2016
[6].张盈利.基于模式匹配的非结构化病理报告的信息抽取方法[D].东华大学.2016
[7].张盈利,夏小玲.非结构化病理文本的结构化信息抽取方法[J].医学信息学杂志.2016
[8].孙师尧,妙全兴.基于改进HMM的半结构化文本信息抽取算法研究[J].电子科技.2014
[9].邵堃,杨春磊,钱立宾,方帅.基于模式匹配的结构化信息抽取[J].模式识别与人工智能.2014
[10].王允富.半结构化文本信息抽取方法研究及应用[D].江苏科技大学.2014