导读:本文包含了表格提取论文开题报告文献综述及选题提纲参考文献,主要关键词:表格识别,模板提取,表格框线检测,感知哈希
表格提取论文文献综述
杨靖民[1](2019)在《复杂表格文档图像的模板识别与提取》一文中研究指出随着互联网信息技术的发展,越来越多的组织机构开始构建信息化系统以实现业务流程的无纸化处理,但涉及跨机构的协同业务时,由于保密等因素的限制,跨机构的信息化系统构建困难,所以目前协同业务基本仍在使用纸质表格文档作为业务载体。机构收到业务表格后,需要将表格信息录入内部信息化系统,录入工作以往由人工进行,而由于近些年业务数量持续增加,人工录入无法满足业务时效性要求,所以纸质表格文档的自动录入愈发重要。自动录入主要包括文本识别和版式提取,目前文本识别技术已经成熟,所以重点在于提取表格的版式,表格根据版式可分为有框线表格与无框线表格。通过影印扫描后得到表格图像,本文的目的就是从表格图像中提取出表格的版式。为提取出表格版式,本文定义了表格模板,通过提取模板实现表格结构与内容的自动化识别。其中,有框线表格图像的模板提取分为叁步,检测表格框线、还原表格结构、提取标题域,提取出的模板可用于对单张有框线表格图像进行分类;无框线表格图像的模板提取也分为叁步,提取表格文字块、标注训练语料、训练构词模型,提取出的模板可用于验证单张无框线表格图像识别结果并纠正文字块划分错误。本文设计并实现了复杂表格文档图像模板识别与提取系统。首先,论文阐述了研究背景及研究意义,给出了论文的研究内容、主要工作及章节安排。其次,对表格识别及图像相似度分析的相关技术进行了调研。然后,分析了系统的需求、设计了系统的总体架构,根据功能划分将系统拆分为模板提取与管理子系统和表格识别与分类子系统,分别给出了两个子系统的系统框架图,对两个子系统进行了模块划分。接着分别对两个子系统进行了详细的设计与实现,其中对检测表格框线以及还原表格结构的算法进行了改进,并提出利用空间位置信息还原表格行列的渐进式投影法和对齐特征查找法。最后,分别对两个子系统进行了功能测试和效果展示,验证整体系统符合设计原则并达到预期效果。(本文来源于《北京邮电大学》期刊2019-06-06)
郑培寅,曹艳杰,余志远[2](2019)在《Excel VBA技术在批量提取Word表格信息中的应用》一文中研究指出Excel和Word为Office办公软件的两种组件,在文字处理、数据统计分析方面有着强大的功能。在具体工作中,两者的数据交互极为常见。本文主要介绍在大批量数据背景下,通过VBA技术实现从Word文档中提取信息到Excel表格,实现数据的快速、准确、自动转换。(本文来源于《河南科技》期刊2019年16期)
张昊玥[3](2019)在《非结构化文档的版面分析及表格提取》一文中研究指出现实生活中有大量的文档数据是以图像的形式存在的,如何将这些非结构化的图像数据进行结构化转换是对非结构化文档进行自动分析的初始步骤和关键技术。以此为目的,本论文采用基于改进的区域卷积神经网络(region-based convolutional neural network,R-CNN),即 Faster R-CNN 结构的深度学习网络模型并使用基于图像处理中投影计算的算法,对非结构化的文档图像进行了版面内容的自动分类与定位,并且对非结构化文档图像中的表格进行了识别、提取与转换,实现了对非结构化文档图像完成结构化转换的目的。本论文的主要内容包括非结构化文档图像的版面分析和文档图像中表格识别两部分。具体工作内容如下:在非结构化文档图像的版面分析部分,先对非结构化的文档进行半结构化图片的转换,再对转换了的图片进行投影计算,使用图像处理算法和模式识别方法对图片中的各版面组成部分进行分类和初步定位。对于图像处理后的结果不确定的情况,再采用Faster R-CNN的方法进行判断并得出结论,进而实现非结构化文档版面的结构化。这种方法在有效控制计算量的同时也降低了对深度学习所需要的数据集规模的要求,能够准确地对版面结构进行分类并精确定位非结构化文档中的表格部分。在非结构化文档的表格识别部分,着重对图像中出现的噪声影响严重、表格倾斜及有遮挡情况进行了处理,并对非结构化文档中提取出的表格进行类型细化,对全线表格、纯横线表格、色彩相间表格以及无线表格分别进行处理和算法设计,具体问题具体分析,使得表格结构识别的精度更高。最后对识别后表格中的每一个单元格进行切分,分别进行字符识别,完成Excel格式下表格内容的结构化复现。采用平均精度均值(Mean Average Precision,mAP)为指标,衡量了 Faster R-CNN网络对非结构化文档的分类及定位效果,并通过对表格识别算法的识别及转换率(识别并转换完成的表格数量与实验总样本数量的比值)的统计,对表格识别算法的效果进行的评估。本论文中所采取方法所得到的结果中mAP指数为71.3%,表格的识别转换率总体为81%。经过研究,本论文实现了对较常见非结构化文档版面内容的分类和定位功能;同时实现了将非结构化文档版面中表格部分的识别、提取以及复现为Excel格式表格的功能。测试结果表明,论文实现的方法能够比较准确地完成非结构化文档中文字、图片和表格的识别和定位功能;同时能够比较准确地将非结构化的表格复现为Excel格式的电子表格,为非结构化文档的进一步自动化处理奠定了良好的基础。(本文来源于《北京交通大学》期刊2019-06-03)
陆锦鹤[4](2018)在《Excel软件VBA功能使用案例一则——从PDF文件中提取出的信息中挑选需要的信息并重新排版形成可用的Excel表格文件》一文中研究指出Excel电子表格软件是应用最广泛的办公软件之一,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经等众多领域。Excel的强大优势还在于它支持VBA编程。VBA是Visual Basic For Application的简称,使用它可以达成执行特定功能或是重复性高的操作,从而大大提高使用者的工作效率。本文以笔者在本部门工作中遇到的一个实际问题为例,描述如何使用Excel中的VBA编程功能在从PDF文件里提取出的杂乱信息中二次筛选所需信息,并自动排版,然后生成可用表格文件的一种方法。使用该方法,可以提高工作效率,实现办公自动化。(本文来源于《智库时代》期刊2018年39期)
王殿佑,王艳[5](2018)在《应用Excel VBA批量提取Word表格中的数据》一文中研究指出由于现在办公报表的多样化、复杂化和变化性,单靠人工填写完表格后再逐一录入汇总到Excel表中,造成工作量大,且当表格数量巨大时,还容易造成录入错误,快速便捷地实现报表文件的自动提取与汇总就显得尤为关键。结合实际办公中遇到的困难,根据Excel VBA程序开发的特点,精心设计开发出了这款报表自动提取汇总程序。实际工作中,将这套程序应用在当年学术研究课题上报计划中,取得了很好的应用效果,数百份文件在很短的时间内提取汇总完毕,效率惊人。该程序如果进行适当改变的话,还可以用在职称评审材料上报汇总、学术研究计划上报、年终经费预算申请以及学生档案信息统计等,可极大地节约工作量,且准确可靠,自动化程度高。(本文来源于《电脑编程技巧与维护》期刊2018年05期)
潘军[6](2017)在《复杂表格文档预处理与文本提取算法研究》一文中研究指出文档分析与理解在内容分析与识别、以及基于内容的检索等领域具有重要意义,一直以来受到极大关注。从图像文档中自动获取信息可以大幅度提高信息处理效率,并具有重要的应用价值。包含表格的复杂文档存在于生活的方方面面,针对这些文档的文本信息自动提取和识别具有很大的应用前景。本文以病历表图像和快递单图像为研究对象,对包含表格的复杂文档图像预处理、表格检测、文本提取等内容进行了较为深入的研究。论文的主要工作如下:(1)表格区域定位及矫正。给出了基于直线交点交角的区域定位算法,把图像中表格区域从原图像中定位分离出来,很大程度提高了后续处理的准确性和效率。之后采用透视变换算法实现图像矫正处理,克服了图像畸变对图像处理的影响。实验结果表明,该方法能较好地从复杂图像中定位并矫正表格区域。(2)表格检测。首先改进基于边缘图像的局部自适应二值化算法,使之对本文研究处理的表格图像具有良好的二值化效果。然后改进邻接图算法(Block Adjacency Graph,BAG),增强了该算法表格线检测的有效性。检测表格线之后,通过分析直线结构、表格特点,最大限度地修补缺失的表格线。实验证明该算法能够有效实现表格区域图的表格检测。(3)文本提取。完成表格检测后,改进邻接向量连接算法,补全字符的断裂笔画,从而保证了文本信息的完整性。接着根据表格线进行文本段落定位处理,最后通过分析联通部件的特征实现文本行的分割。实验表明该方法能够较好完成表格文档的文本分割、提取工作。为测试算法的有效性,本文对300幅快递单以及40幅病历文档图像进行了实验,实验结果表明了论文方法的有效性。(本文来源于《北京交通大学》期刊2017-04-01)
罗锦才[7](2017)在《网页信息表格化提取程序》一文中研究指出本文介绍了基于MSHTML设计开发的网页信息表格化提取程序的原理、程序结构和工作流程,使用网页信息提取、网页元素解析、采集配置管理叁大功能模块,实现对网页及其内部关联信息的提取、解析、整理和表格化显示,创新使用了对网页属性值和树路径值进行确认的二元检查机制,能够实现对指定信息的准确提取。本文还举例说明了程序的操作步骤和实际效果。(本文来源于《课程教育研究》期刊2017年10期)
曹贞兴[8](2016)在《Web表格数据提取与分析系统的设计与实现》一文中研究指出数据表格作为网页数据展示的一种形式,开始越来越多的出现在各种领域的web页面中,因其具有简洁的展示方式以及显而易见地描述数据关系的优势而被越来越多的人应用到网页中并成为Web信息抽取中的热点。然而人们往往忽略表格数据自有的不足,通常表头(下文称属性名)决定一切,而现实中,Web上的表格经常出现无属性名或属性名难以理解的情况。因此,在自动分析修复表格的表头信息方面的研究将在Web挖掘、数据理解及决策支持方面提供极大的帮助,同时也将会被越来越多的研究者重视。论文开始讲述了本课题的研究背景、目的、意义及相关领域的研究现状,并对本文的主要研究内容进行了阐述。之后详细描述了本课题的需求分析、系统的总体设计、系统各功能模块的详细设计与实现及系统的功能测试与非功能性测试,最后对本文进行了总结及展望。本文的主要研究内容主要有以下叁个方面:Web表格数据提取与存储、表格数据分析和属性名自动标注。Web表格数据提取主要实现了对HTML网页的解析、数据表格的识别和表格内数据的提取存储等功能。表格数据分析主要实现对数据的深度分析,由于不同类型的数据具有不同的特征,因此首先对表格数据进行简单分类,不同类型的数据运用不同的处理方法提取特定的特征。本文以数据的结构特征与统计特征作为研究对象,分别利用正则表达式表示数据的结构特征,利用统计分布均值和方差两个参数表示数据的统计特征,并利用大量训练数据建立“属性名-特征值”特征库。在属性名自动标注的研究中,主要完成对特定数据列匹配属性名。本文针对不同数据特征提出了不同的特征匹配策略并建立匹配模型,对于正则表达式表示的结构特征,运用编辑距离算法进行表达式串相似性比较,同时结合简单字符串匹配提高准确性;对于统计分布参数表示的统计特征则利用假设检验知识中的样本均值的检验方法比较两样本间的差异性。最后对于匹配出的候选属性名进行优化,得到最佳属性名。本文实验环节通过利用实验室现有的大量表格数据建立特征库,利用交叉验证的方式优化匹配模型参数(阀值和检验水平),通过多次迭代试验,证明了综合运用正则表达式、统计分布的策略能够很好的解决数据表格属性名修复问题。(本文来源于《哈尔滨工业大学》期刊2016-06-01)
周凤香[9](2016)在《表格字符识别系统的分层特征提取算法》一文中研究指出带表格的字符图像,在识别过程中存在特征提取较为单一,从而导致效率低,特别是表格字符中遮挡字符和相近字符识别效率低的问题。针对这一情况,本文设计一种分层特征提取的算法。该算法共分为叁层对字符进行特征提取:第一层,提取字符孔洞特征,用于对字符进行粗分类;第二层,提取字符的混合特征,包括统计特征,结构特征和基于Gabor变换的纹理特征,用于对字符进行细分类;第叁层,提取字符的笔画特征,包括字符的端点、交叉点、精细笔画和遮挡字符的轮廓特征,用于对相近字符及表格遮挡字符补充分类。实验结果表明,该算法能够很好的应用于表格字符识别系统,满足系统对识别效率和稳定性的要求。(本文来源于《智慧工厂》期刊2016年02期)
王志军[10](2016)在《利用Word自身功能提取表格数据》一文中研究指出我们经常会遇到一些合并之后的表格式混合文档,如图1所示,但有时会需要对其中的数据进行还原,也就是将这些表格中的信息还原回类似于数据库形式的表格,由于文档中有很多这样的表格,表格与表格之间有许多文字,拖拽滚动条很难定位。在不借助VBA代码也不借助其他程序(例如Excel)的前提下,可否利用Word本身的功能实现上述要求呢?我们可以利用Word的查找和替换解决这一问题:(本文来源于《电脑知识与技术(经验技巧)》期刊2016年01期)
表格提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
Excel和Word为Office办公软件的两种组件,在文字处理、数据统计分析方面有着强大的功能。在具体工作中,两者的数据交互极为常见。本文主要介绍在大批量数据背景下,通过VBA技术实现从Word文档中提取信息到Excel表格,实现数据的快速、准确、自动转换。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
表格提取论文参考文献
[1].杨靖民.复杂表格文档图像的模板识别与提取[D].北京邮电大学.2019
[2].郑培寅,曹艳杰,余志远.ExcelVBA技术在批量提取Word表格信息中的应用[J].河南科技.2019
[3].张昊玥.非结构化文档的版面分析及表格提取[D].北京交通大学.2019
[4].陆锦鹤.Excel软件VBA功能使用案例一则——从PDF文件中提取出的信息中挑选需要的信息并重新排版形成可用的Excel表格文件[J].智库时代.2018
[5].王殿佑,王艳.应用ExcelVBA批量提取Word表格中的数据[J].电脑编程技巧与维护.2018
[6].潘军.复杂表格文档预处理与文本提取算法研究[D].北京交通大学.2017
[7].罗锦才.网页信息表格化提取程序[J].课程教育研究.2017
[8].曹贞兴.Web表格数据提取与分析系统的设计与实现[D].哈尔滨工业大学.2016
[9].周凤香.表格字符识别系统的分层特征提取算法[J].智慧工厂.2016
[10].王志军.利用Word自身功能提取表格数据[J].电脑知识与技术(经验技巧).2016