文档提取论文-王兆星,王丽敏

文档提取论文-王兆星,王丽敏

导读:本文包含了文档提取论文开题报告文献综述及选题提纲参考文献,主要关键词:Word,Excel,VBA,数据提取

文档提取论文文献综述

王兆星,王丽敏[1](2019)在《应用VBA批量提取整理文档数据》一文中研究指出Word文档广泛应用于编写报告、排版文章,在文字处理方面有很强大的功能,缺点是数据、表格较为分散,不便于查看和分析统计。因此将Word文档中结构或内容上有规律的数据提取出来,进行展示、分析,具有重要的实用价值。本文给出了从Word文档中对标题数据、表格数据、图形数据进行提取的方法,并进行了相应的理论分析。(本文来源于《电子技术与软件工程》期刊2019年15期)

杨靖民[2](2019)在《复杂表格文档图像的模板识别与提取》一文中研究指出随着互联网信息技术的发展,越来越多的组织机构开始构建信息化系统以实现业务流程的无纸化处理,但涉及跨机构的协同业务时,由于保密等因素的限制,跨机构的信息化系统构建困难,所以目前协同业务基本仍在使用纸质表格文档作为业务载体。机构收到业务表格后,需要将表格信息录入内部信息化系统,录入工作以往由人工进行,而由于近些年业务数量持续增加,人工录入无法满足业务时效性要求,所以纸质表格文档的自动录入愈发重要。自动录入主要包括文本识别和版式提取,目前文本识别技术已经成熟,所以重点在于提取表格的版式,表格根据版式可分为有框线表格与无框线表格。通过影印扫描后得到表格图像,本文的目的就是从表格图像中提取出表格的版式。为提取出表格版式,本文定义了表格模板,通过提取模板实现表格结构与内容的自动化识别。其中,有框线表格图像的模板提取分为叁步,检测表格框线、还原表格结构、提取标题域,提取出的模板可用于对单张有框线表格图像进行分类;无框线表格图像的模板提取也分为叁步,提取表格文字块、标注训练语料、训练构词模型,提取出的模板可用于验证单张无框线表格图像识别结果并纠正文字块划分错误。本文设计并实现了复杂表格文档图像模板识别与提取系统。首先,论文阐述了研究背景及研究意义,给出了论文的研究内容、主要工作及章节安排。其次,对表格识别及图像相似度分析的相关技术进行了调研。然后,分析了系统的需求、设计了系统的总体架构,根据功能划分将系统拆分为模板提取与管理子系统和表格识别与分类子系统,分别给出了两个子系统的系统框架图,对两个子系统进行了模块划分。接着分别对两个子系统进行了详细的设计与实现,其中对检测表格框线以及还原表格结构的算法进行了改进,并提出利用空间位置信息还原表格行列的渐进式投影法和对齐特征查找法。最后,分别对两个子系统进行了功能测试和效果展示,验证整体系统符合设计原则并达到预期效果。(本文来源于《北京邮电大学》期刊2019-06-06)

李翌昕,邹亚君,马尽文[3](2019)在《基于特征提取和机器学习的文档区块图像分类算法》一文中研究指出文档区块图像分类对于文档版面图像的理解和分析至关重要。在传统机器学习分类模型中,直接使用图像作为输入会导致学习模型参数量过大而无法进行有效的训练。为了克服这个困难,我们针对文档区块图像设计了一组有效的特征,并提出了基于这些特征和机器学习的文档区块分类算法。在特征设计上,我们提取了几何、灰度、区域、纹理和内容五方面在内的32种特征,以增强特征针对区块类别的分辨能力。在分类器方面,我们在所提出的特征上对传统机器学习分类模型、自动机器学习方法以及深度学习均进行了实验。在公开数据集上的实验结果表明,我们提出的文档版面区块分类算法具有很高的分类准确率,并且效率很高。另外,我们实现了一个简单的分步文档版面分析算法,以展示所提出的区块分类算法的推广能力。(本文来源于《信号处理》期刊2019年05期)

孙龙,李彦[4](2019)在《基于功能结构元组的技术文档的特征提取研究》一文中研究指出词汇模型在表征工程技术知识文档特征时,将文档切分为一个个相互不关联的词,较难提取出文档的语义特征。如果考虑到一条语句中词之间的关联性,根据工程技术知识文档的语义结构信息,提取出功能结构元组作为文档特征,则可以进一步提高分类效果。文中从工程技术知识文档的特点出发,在归纳总结现有提取文本功能结构元组方法的基础上,探索将基于统计的方法和基于规则的方法相结合。首先通过统计方法提取文档特征词来过滤掉文档中的噪声和无意义的语句,再从过滤后的语句中按照语法分析树的层次,以递归方式提取文档中的功能结构元组。为更有效地提取语句中的功能结构元组,对语句的词法分析树中规律性的规则进行了总结。经验证,该方法可有效提升工程技术知识文档的特征提取效果。(本文来源于《计算机技术与发展》期刊2019年05期)

王兴强,孟娜[5](2018)在《基于电子病历文档自动提取合理用药监测信息的方法研究》一文中研究指出目的设计一种基于电子病历文档自动提取合理用药监测信息的方法,解决电子病历中的信息无法用于合理用药监测的问题。方法创建特征码字典、语义倾向词字典,提取病历文书特征码并进行语义倾向处理。结果根据语义倾向值为零的特征码进行合理用药监测。结论该方法实现了从病历文书中提取与用药决策高度相关的特征码信息,是一种有效的合理用药监测信息提取方法。(本文来源于《中国卫生信息管理杂志》期刊2018年06期)

张青[6](2018)在《文档图像的版面分析与文本行提取算法研究》一文中研究指出纸质文档数字化有着广阔的应用前景。利用光学字符识别技术,可以直接从图像中提取我们所需要的数据,会极大方便信息的存储、处理和检索,也将会减轻人手工录入信息的负担。准确的文本行提取是顺利完成文本识别的重要前提保证。当前基于CNN+LSTM+CTC等深度学习模型不断提出,有效地解决了端到端不定长文本字符的识别问题,但对行提取的性能远未令人满意。所以本文主要将研究如何从原始图片更有效而准确的实现页面中文本行的提取。由于图片文档存在图片倾斜和背景复杂的问题,可能会含有大量噪声或者无效信息,将会影响最终的识别结果。故首先介绍了对复杂背景的文档进行倾斜矫正和图像去噪增强的预处理的方法。本文研究的重点是文档对象的检测与识别,准确的文档对象识别是顺利实现文本行提取的前提。本文提出了基于深度学习的目标检测和语义分割算法实现文本对象识别与检测的方法,有效解决了传统方法较难提取页面特征、方法通用性差的问题。同时针对文档对象检测的特点,本文在通用的算法上修改锚框机制、修改损失函数、修改感兴趣区域层映射和归一化方式,并采用多尺度特征融合等方法,使得算法在检测结果上有了进一步提高,该算法在ICDAR 2017页面文档对象评测集上将交并比指标为0.6和0.8上的平均精度均值从0.787和0.637提升到了0.865和0.752。根据文档对象检测的结果,在不同的文档区域做相应的处理以减少对整个文档造成的信息损失,如表格区域进行去线处理,印章区域分离颜色通道进行移除处理。同时针对纯文本页面和含有表格页面的文本分布的不同特点,本文分别设计了不同的文本行提取算法。其中纯文本页面的文本行提取本文采用了基于深度学习的自然场景文本检测算法CTPN和投影法相结合的方法提取文本行区域,有效解决了页面背景复杂下的文本行提取问题。本文通过设计针对页面特点的文本行提取算法,实现了较好的文本行提取。将上述工作后得到的文本行区域记录位置提取,送到识别引擎进行识别,就完整的构成了一整套文档识别系统。整个系统选择本地文档图像后,会依次进行文档的倾斜矫正、去噪、文档对象识别与检测、表格线去除、去印章等步骤,并将文本行区域提取传递给后端识别引擎。经过测试,系统在在图像去噪、文档对象检测、文本行提取上都取得了良好的效果,整个系统具有较好的实用价值。(本文来源于《哈尔滨工业大学》期刊2018-12-01)

孙龙,李彦[7](2018)在《基于MapReduce并行计算提取文档特征Textrank算法研究》一文中研究指出Textrank相比词袋模型有独特的优势,但需要进行多轮迭代和递归运算,常规串行化算法无法满足大数据环境下文档处理的需求。必须借助大数据的分布式处理、并行化计算技术来应对这一挑战。本文学习研究了大数据平台Hadoop的分布式处理方式,并在MapReduce框架下实现并行了Textrank并行提取文档特征的算法。同时,本文就Textrank中关键的投票算法提出了MapReduce迭代实现。经在Hadoop集群上验证,在计算节点增加的情况下,该模式可有效提升Textrank算法效率。(本文来源于《现代信息科技》期刊2018年10期)

王燊,施运梅[8](2018)在《基于用户行为的文档关键词提取方法》一文中研究指出对文档提取关键词时忽略在文档中出现频率不高但对文章具有关键意义的词语的问题,提出一种基于用户行为的文档关键词提取方法。利用结构熵权法为用户对文档的用户行为建模,在提取关键词时,考虑用户行为的影响和文档关键词的位置,并通过实验验证了提出的方法所提取出的关键词具有更高的准确性。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2018年05期)

黄骏[9](2018)在《基于文本特征提取的相似科研项目文档检索系统研究》一文中研究指出随着互联网的高速发展,各领域的信息化产生了大量数据,如何将这些数据充分利用起来,是目前亟待解决的问题。传统数据库技术可有效组织、管理和利用结构化数据,但是对于非结构化的文档数据却无法充分利用。在我国高校科研管理信息化建设中同样产生了大量的非结构化文档数据,当下这些文档数据并没有得到充分利用。为解决该问题,本课题提出了一种优化的特征提取方法,可有效地从文档集中提取文档的特征向量,并结合向量最近邻索引技术构建了一个适用于海量文档场景的文档相似检索系统。本文主要完成了以下几项工作:(1)本文针对传统文本特征提取算法的不足,提出了一种优化的文本特征提取方法。该方法在融合同义词的基础上,创新性地提出TF-IDF-ICD算法,分别从词语的词频类别分布(ICDT)和词语的文档频率类别分布(ICDD)两个方面,进行词语与文本类别的关联关系的考虑。同时引入了基于TF-IDF-ICD的特征降维(DR)方法,该方法通过保留具有高TF-IDF-ICD值的词语来限制特征向量空间的维度。最后通过实验证明了本文方法能够在保证分类准确率的前提下,减少特征空间维度,从而降低文本特征向量的存储空间,十分适合科研项目文档的应用场景。(2)利用特征提取方法将科研项目文档转换成特性向量后,结合向量最近邻索引技术构建了基于科研项目文档特征向量的最近邻索引结构,该索引结构为二叉树,并且以文档特征向量之间的距离作为索引依据,其核心思想是科研项目文档特征向量在索引树中的距离越接近表示两个文档越相似。系统可以通过该索引结构提供科研项目文档的相似检索功能。系统同时设计了合适的存储方式,将文档特征向量和文档向量最近邻索引结构存储在数据库中,可以为多个节点提供相似检索服务,从而有效解决了高并发的问题。本系统为科研人员提供了快速、准确定位相似科研项目文档的功能,极大地提高了科研项目文档的利用价值,同时也为科研管理工作带来了方便。(本文来源于《华中科技大学》期刊2018-08-01)

王永志,金梁,朱月琴,白明,包晓栋[10](2018)在《基于大数据技术的地学文档关键词提取算法研发》一文中研究指出地学文档中蕴含了丰富的信息与专家知识,缺少关键词支持的地学文档给分类管理、信息检索与共享带来不便.为了发挥大数据技术处理非结构化地学数据优势,本文基于Hadoop平台设计并开发了一款地学文档关键词自动提取算法软件,将各类Word、PDF格式地学文档资料分布式存储在HDFS和HBase中,可对非结构化数据进行自动地读取、解析、处理、计算等.研发了大数据环境下的基于加权、词频的关键词提取算法,以及融合加权与词频两套方法的组合关键词提取算法.使用100余篇期刊论文对算法进行测试并与作者关键词对比,结果表明组合算法提取的复合关键词具有较高的地学类关键词命中率,有的甚至可达100%,其计算效率大大优于单机运行,可为地学文档在线查阅与检索等提供有效的辅助支持.(本文来源于《地球物理学进展》期刊2018年03期)

文档提取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网信息技术的发展,越来越多的组织机构开始构建信息化系统以实现业务流程的无纸化处理,但涉及跨机构的协同业务时,由于保密等因素的限制,跨机构的信息化系统构建困难,所以目前协同业务基本仍在使用纸质表格文档作为业务载体。机构收到业务表格后,需要将表格信息录入内部信息化系统,录入工作以往由人工进行,而由于近些年业务数量持续增加,人工录入无法满足业务时效性要求,所以纸质表格文档的自动录入愈发重要。自动录入主要包括文本识别和版式提取,目前文本识别技术已经成熟,所以重点在于提取表格的版式,表格根据版式可分为有框线表格与无框线表格。通过影印扫描后得到表格图像,本文的目的就是从表格图像中提取出表格的版式。为提取出表格版式,本文定义了表格模板,通过提取模板实现表格结构与内容的自动化识别。其中,有框线表格图像的模板提取分为叁步,检测表格框线、还原表格结构、提取标题域,提取出的模板可用于对单张有框线表格图像进行分类;无框线表格图像的模板提取也分为叁步,提取表格文字块、标注训练语料、训练构词模型,提取出的模板可用于验证单张无框线表格图像识别结果并纠正文字块划分错误。本文设计并实现了复杂表格文档图像模板识别与提取系统。首先,论文阐述了研究背景及研究意义,给出了论文的研究内容、主要工作及章节安排。其次,对表格识别及图像相似度分析的相关技术进行了调研。然后,分析了系统的需求、设计了系统的总体架构,根据功能划分将系统拆分为模板提取与管理子系统和表格识别与分类子系统,分别给出了两个子系统的系统框架图,对两个子系统进行了模块划分。接着分别对两个子系统进行了详细的设计与实现,其中对检测表格框线以及还原表格结构的算法进行了改进,并提出利用空间位置信息还原表格行列的渐进式投影法和对齐特征查找法。最后,分别对两个子系统进行了功能测试和效果展示,验证整体系统符合设计原则并达到预期效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文档提取论文参考文献

[1].王兆星,王丽敏.应用VBA批量提取整理文档数据[J].电子技术与软件工程.2019

[2].杨靖民.复杂表格文档图像的模板识别与提取[D].北京邮电大学.2019

[3].李翌昕,邹亚君,马尽文.基于特征提取和机器学习的文档区块图像分类算法[J].信号处理.2019

[4].孙龙,李彦.基于功能结构元组的技术文档的特征提取研究[J].计算机技术与发展.2019

[5].王兴强,孟娜.基于电子病历文档自动提取合理用药监测信息的方法研究[J].中国卫生信息管理杂志.2018

[6].张青.文档图像的版面分析与文本行提取算法研究[D].哈尔滨工业大学.2018

[7].孙龙,李彦.基于MapReduce并行计算提取文档特征Textrank算法研究[J].现代信息科技.2018

[8].王燊,施运梅.基于用户行为的文档关键词提取方法[J].北京信息科技大学学报(自然科学版).2018

[9].黄骏.基于文本特征提取的相似科研项目文档检索系统研究[D].华中科技大学.2018

[10].王永志,金梁,朱月琴,白明,包晓栋.基于大数据技术的地学文档关键词提取算法研发[J].地球物理学进展.2018

标签:;  ;  ;  ;  

文档提取论文-王兆星,王丽敏
下载Doc文档

猜你喜欢