文本行论文-王馨悦,董兰芳

文本行论文-王馨悦,董兰芳

导读:本文包含了文本行论文开题报告文献综述及选题提纲参考文献,主要关键词:文本行识别,脱机中文手写体,Attention机制,LSTM

文本行论文文献综述

王馨悦,董兰芳[1](2019)在《Attention机制在脱机中文手写体文本行识别中的应用》一文中研究指出脱机中文手写体识别技术可以将人工书写在纸上的汉字转换为电子文档中可编辑的中文格式.由于每个人的书写习惯不同,所以手写体随意性较大、字符之间可能存在粘连,给字符分割增加了难度.为了避免单个字符的分割,本文采用基于Attention的方法实现脱机中文手写体文本行的识别.该方法基于encoder-decoder框架,首先用CNN提取特征,然后通过BLSTM进行编码,最后将BLSTM的输出结果再结合Attention,输入到LSTM进行解码.该方法在针对具有语义信息的CASIA-HWDB2. 0-2. 2数据集上字符准确率达到了95. 76%,比传统的encoder-decoder框架提升了12. 83%.(本文来源于《小型微型计算机系统》期刊2019年09期)

张青[2](2018)在《文档图像的版面分析与文本行提取算法研究》一文中研究指出纸质文档数字化有着广阔的应用前景。利用光学字符识别技术,可以直接从图像中提取我们所需要的数据,会极大方便信息的存储、处理和检索,也将会减轻人手工录入信息的负担。准确的文本行提取是顺利完成文本识别的重要前提保证。当前基于CNN+LSTM+CTC等深度学习模型不断提出,有效地解决了端到端不定长文本字符的识别问题,但对行提取的性能远未令人满意。所以本文主要将研究如何从原始图片更有效而准确的实现页面中文本行的提取。由于图片文档存在图片倾斜和背景复杂的问题,可能会含有大量噪声或者无效信息,将会影响最终的识别结果。故首先介绍了对复杂背景的文档进行倾斜矫正和图像去噪增强的预处理的方法。本文研究的重点是文档对象的检测与识别,准确的文档对象识别是顺利实现文本行提取的前提。本文提出了基于深度学习的目标检测和语义分割算法实现文本对象识别与检测的方法,有效解决了传统方法较难提取页面特征、方法通用性差的问题。同时针对文档对象检测的特点,本文在通用的算法上修改锚框机制、修改损失函数、修改感兴趣区域层映射和归一化方式,并采用多尺度特征融合等方法,使得算法在检测结果上有了进一步提高,该算法在ICDAR 2017页面文档对象评测集上将交并比指标为0.6和0.8上的平均精度均值从0.787和0.637提升到了0.865和0.752。根据文档对象检测的结果,在不同的文档区域做相应的处理以减少对整个文档造成的信息损失,如表格区域进行去线处理,印章区域分离颜色通道进行移除处理。同时针对纯文本页面和含有表格页面的文本分布的不同特点,本文分别设计了不同的文本行提取算法。其中纯文本页面的文本行提取本文采用了基于深度学习的自然场景文本检测算法CTPN和投影法相结合的方法提取文本行区域,有效解决了页面背景复杂下的文本行提取问题。本文通过设计针对页面特点的文本行提取算法,实现了较好的文本行提取。将上述工作后得到的文本行区域记录位置提取,送到识别引擎进行识别,就完整的构成了一整套文档识别系统。整个系统选择本地文档图像后,会依次进行文档的倾斜矫正、去噪、文档对象识别与检测、表格线去除、去印章等步骤,并将文本行区域提取传递给后端识别引擎。经过测试,系统在在图像去噪、文档对象检测、文本行提取上都取得了良好的效果,整个系统具有较好的实用价值。(本文来源于《哈尔滨工业大学》期刊2018-12-01)

朱健菲,应自炉,陈鹏飞[3](2018)在《回归——聚类联合框架下的手写文本行提取》一文中研究指出目的手写文本行提取是文档图像处理中的重要基础步骤,对于无约束手写文本图像,文本行都会有不同程度的倾斜、弯曲、交叉、粘连等问题。利用传统的几何分割或聚类的方法往往无法保证文本行边缘的精确分割。针对这些问题提出一种基于文本行回归-聚类联合框架的手写文本行提取方法。方法首先,采用各向异性高斯滤波器组对图像进行多尺度、多方向分析,利用拖尾效应检测脊形结构提取文本行主体区域,并对其骨架化得到文本行回归模型。然后,以连通域为基本图像单元建立超像素表示,为实现超像素的聚类,建立了像素-超像素-文本行关联层级随机场模型,利用能量函数优化的方法实现超像素的聚类与所属文本行标注。在此基础上,检测出所有的行间粘连字符块,采用基于回归线的k-means聚类算法由回归模型引导粘连字符像素聚类,实现粘连字符分割与所属文本行标注。最后,利用文本行标签开关实现了文本行像素的操控显示与定向提取,而不再需要几何分割。结果在HIT-MW脱机手写中文文档数据集上进行文本行提取测试,检测率DR为99.83%,识别准确率RA为99.92%。结论实验表明,提出的文本行回归-聚类联合分析框架相比于传统的分段投影分析、最小生成树聚类、Seam Carving等方法提高了文本行边缘的可控性与分割精度。在高效手写文本行提取的同时,最大程度地避免了相邻文本行的干扰,具有较高的准确率和鲁棒性。(本文来源于《中国图象图形学报》期刊2018年08期)

李颜兴[4](2018)在《基于规则和学习的藏文历史文献的文本行分割方法研究》一文中研究指出庞大的历史文献典籍是现代社会中不可多得的财富,为人们了解古人的生活方式、各朝代的科技水平以及风俗文化提供了重要的参考依据。在浩瀚的历史文献中,藏文历史文献是藏族人民创造的一套珍贵的历史文化遗产。然而,由于近些年来对该类文献图像的研究相对较少,藏文历史文献在数字化过程中遇到了极大的困难。文本行分割作为历史文献数字化的重要的一部分,对随后的字符识别的准确性有着至关重要的影响。但是,现有的文本行切分研究成果中,大多是面向中文、英语及其他拉丁语言,真正用于藏文历史文献分割的研究十分有限。为了解决上述问题,本文针对藏文历史文献文本行切分方法及应用进行了研究,提出了两种切分方法,不仅可以切分弯曲、倾斜的文本行,也可以对文本行之间存在的重迭、粘连现象做出有效处理。本文的主要研究内容如下:首先,本文概述了历史文献图像文本行分割技术的研究背景,简要总结了历史文献文本行切分的方法。针对藏文图像中的藏文文本,本文简要介绍了藏文的组成解构,分析了影响切分的藏文笔画以及主要因素,并参考其他文献,给出算法评价标准。其次,本文提出了两种基于基线的藏文历史文献文本行切分方法,一种方法通过模板匹配的方式计算图像前半部分,估算文本行的个数以及基线的起始位置,然后通过动态追踪点的方法构建基线;另一种则是使用Sobel算子,提取每个藏文音节中的基线,自左向右连接基线构成文本行的基线。最后通过分析基线之间的连通部件,进一步确定文本行切分位置。实验结果显示,与基于投影的切分方法比较,该方法在切分准确度方面明显提高。再次,本文提出一种基于图模型的藏文历史文献文本行切分方法。该方法将藏文文档骨架化,并以此构建图模型。从图模型中计算每一行的起始节点以及结束节点。然后使用A*算法在起始节点与结束节点之间寻找最短路径,以其作为文本行切分路径。实验表明,与基于投影的方法比较,该方法不仅大幅提高了切分准确度,而且更加准确地处理了藏文弯曲、文本行倾斜,也可以对某些粘连笔画进行切分。最后,本文开发了一套端到端的藏文文档图像数字化系统,该系统采用深度学习的方法训练识别模型,将采集到的藏文文献图像直接转化成藏文文本,在转换过程中,该系统也提供了用户可以手动修改的交互界面。(本文来源于《北京工业大学》期刊2018-06-01)

王诗源[5](2018)在《矩形交通标志文本行检测算法研究》一文中研究指出无人驾驶系统和先进辅助驾驶系统是智能交通的重要组成部分。道路交通标志自动检测与识别是无人驾驶系统和先进辅助驾驶系统的关键问题之一。在交通标志中,矩形交通标志上包含丰富的道路交通信息,如文本、符号等内容,这些信息对于提高交通安全和通行效率起到重要作用。因此快速检测并提取矩形交通标志中包含的文本信息具有重要的研究价值和应用前景。本论文以中国矩形交通标志内的中文文本为研究对象,对矩形交通标志内的中文文本进行检测并提取文本行。本文的工作主要包括以下几个方面:(1)矩形交通标志中文本区域的粗检测。首先采用了 RGB和HSV颜色空间相结合的方法对图像进行预处理以减少颜色失真和光照变化等因素对文本检测的影响。之后改进了基于八叉树颜色量化的多分层算法实现文本区域的粗检测。(2)矩形交通标志中文本区域的精确检测。在文本粗检测的基础上,给出了一种基于学习的多级联过滤算法实现文本区域的精确检测。具体而言,使用几何特征和HOG特征结合Adaboost分类器构成检测过滤系统,去除非文本区域。最后设计了丢失文本区域召回算法,提高文本区域的查全率。并采用非极大值抑制算法提高文本检测的精确度。(3)矩形交通标志中文本行的检测。针对精确检测的文本区域,改进了基于核逻辑回归的度量学习实现文本行的检测。该方法对矩形交通标志中文本区域大小不一,分布错乱和间距不等具有较好的鲁棒性。为了测试本论文提出算法的性能,本文建立1509幅中国矩形交通标志数据库,从中随机选择436幅图像作为测试图像、其余的1073幅作为训练图像。测试结果为单个文本的召回率在88.63%,精确度95.81%。文本行的召回率在89.94%,精确度在93.26%,实验结果表明了本论文算法的有效性。(本文来源于《北京交通大学》期刊2018-03-01)

钟巧[6](2017)在《基于图论的扫描图像文本行分割与矫正》一文中研究指出近年来,数字化图书馆越来越广泛地使用光学字符识别技术(OCR),将纸质材料转换成电子文档。其中,文本行分割与矫正是OCR系统的关键步骤。然而在对文档图像进行数字化操作时,由于扭曲文本行的分割错误,导致OCR字符识别率降低,从而影响数字化图书馆的进程。因此,如何准确有效地进行扭曲文本行分割与矫正成了 OCR系统必须要解决的问题,本文围绕发生扭曲、倾斜的扫描图像文本行分割与矫正展开研究。论文介绍了国内外文本行分割与矫正技术的研究现状,在现有文本行分割与矫正技术的基础上,提出了一种针对扭曲、倾斜的扫描图像文本行分割与矫正算法。本文的主要内容如下:1.在文本图像单字符检测定位方面,对现有的平滑去噪、二值形态学、连通域分析等预处理步骤进行比较分析。选取均值滤波器对文本图像进行平滑去噪,利用线性结构元素使单个字符各笔画之间连接成一个连通域整体,设定阈值条件筛掉不满足一定面积和高度的小面积干扰连通区域。2.在文本行分割方面,针对扭曲、倾斜的扫描图像文本行分割,并考虑算法的运算复杂度,本文提出了一种将单个字符连通单元作为单个字符节点,在构建文档图模型的基础上,将文本行分割的问题转换成搜寻最短路径问题。利用Dijkstra最短路径算法提取属于同一行的节点序列,分割文本行。该算法能够在扭曲的文档图像中进行文本行分割,并获得较好的效果。3.在文本行矫正方面,本文提出的方法是在连通域层面上进行的。以文本行首字符连通域为基准,根据同一行后面字符与其坐标的位置差,进行上下平移。4.在算法评估方面,根据正确检测率和错误检测率两个性能指标,对本文的文本行分割方法进行评估;用投影直方图对矫正进行评估,具有较好的效果。本文在多幅测试图像上验证了提出的文本行分割与矫正算法并完成了软件系统设计,都具有较好的效果,实验结果表明了本文算法的有效性。(本文来源于《湖南大学》期刊2017-04-20)

巨志勇,何晓蕾,王超男[7](2016)在《基于文本行基线的倾斜角检测算法》一文中研究指出针对文本图像倾斜检测问题,提出了一种新的基于文本行基线的倾斜角检测算法。该算法用边界标记自动机对一组同行的字符进行轮廓(外边界)跟踪,并标记出字符的最小外接矩形(MER)和字符的边框。在此基础上通过相邻字符间的行高差和字符区域的面积来剔除字符的冗余部分,最后用剩余部分的字符边框底边中点来拟合一条直线,即行文本的基线,并确定文本的倾斜角度。实验结果表明,该方法有效,同时倾斜角检测的精确性得到了优化。(本文来源于《电子科技》期刊2016年10期)

郝建元[8](2016)在《基于文本行几何失真的打印文档来源取证技术》一文中研究指出数字化已经渗透到我们生活的每一个角落。在数字世界中,保护不同形式内容版权和验证其真实性是非常重要的。本文研究的保护对象是我们日常工作和学习中经常接触的打印文档。由于打印文档相关的违法犯罪活动逐年增多,司法部门和情报机关迫切需要打印文档取证技术。近年来只利用扫描仪和计算机的数字被动无损取证技术应运而生,成为国际上备受关注的多媒体信息安全前沿领域。设备来源取证是数字被动无损取证技术中的一个主要问题,不依赖于专业设备和人员的打印文档来源取证(打印机识别)方法可以提高取证效率、降低取证成本且对原始文档不会造成破坏。针对目前打印文档来源取证领域存在的技术难题,本文重点研究对墨粉浓度和噪声变化鲁棒的文档检测方法,提出的方法不需要人工通过OCR软件恢复待测文档的理想图像,并且对于局部打印文档也具有较高取证准确率、可以识别相同品牌、相同型号、不同个体打印机。针对打印文本的分析,提出页面文本行几何失真特征。理想文档中文本行是平行的,但由于打印机存在机械装置缺陷,导致打印文档存在页面几何失真。通过实验发现在一个打印文档中,每个文本行存在一个微小的倾斜角度,各文本行间不再平行。页面文本行斜率沿着打印方向以特定模式变化,这种变化模式是独特的,随着打印机品牌、型号和打印机个体不同而变化,因而提出页面文本行几何失真特征。这是一种在打印中不可避免地被引入的特征,所以可作为打印机的固有特征。针对特定局部区域打印文档的取证,提出页面文本行斜率序列(PTLS)和页面文本行间隔序列(PTLI)以描述页面水平方向和垂直方向几何失真特征;针对任意局部区域打印文档的取证,提出虚拟页面文本行间隔序列(VPTLI)特征。然后根据提出的序列匹配距离分别度量两个长度不同的序列的相似度,最后提出相应的打印文档来源取证算法来判定文档页面来源。本文的取证算法对来自3个品牌,8个型号的10台打印机(其中3台为同一型号)的打印文档进行了满页和非满页文档的取证,表现最好的算法的平均准确率在92.82%到94.51%之间。提出的方法不仅克服取证中对墨粉浓度和噪声的敏感,同时避免了已有几何失真取证中必须获得理想样本的局限性,能够识别个体打印机,并且在非满页局部打印的情况下也获得了较高准确率。(本文来源于《大连理工大学》期刊2016-05-04)

曹卫,薛煜阳[9](2015)在《基于曲线拟合和对象选择的脱机手写维吾尔文本行切分算法》一文中研究指出针对传统的手写维吾尔文本的行切分方法中,倾斜行、疏离笔迹等造成的切分不准确问题,提出了基于曲线拟合和对象选择的投影切分方法。基于曲线拟合和对象选择的手写维吾尔文本行切分方法在投影切分方法的基础上结合了曲线拟合和对象选择的处理手段,实验结果表明:对行倾斜较严重的手写维吾尔文本的行切分是有效的,从而使手写维吾尔文本的行切分准确率有较大提高。(本文来源于《计算机与数字工程》期刊2015年08期)

姜志威,丁晓青,彭良瑞[10](2015)在《针对无切分维吾尔文文本行识别的字符模型优化》一文中研究指出基于隐含Markov模型(hidden Markov model,HMM)的无切分文本行识别方法能够利用概率图的思想,同步完成文本行图像的切分与识别,避免因字符预切分失败而导致的识别错误,但对字符模型的设计与训练要求很高,并且在多字体融合问题中难以提高模型泛化性能。该文通过分析模型状态在图像层面的聚类意义,先提出基于观测合理聚类的模型结构优化方法,再提出结构与参数相结合的字符模型优化策略,最后将其应用于多字体维吾尔文文本行的无切分识别系统。实验结果表明,该方法能够改善模型的状态分配合理性,并且在多字体融合问题中提高了模型泛化性能和状态利用效率。(本文来源于《清华大学学报(自然科学版)》期刊2015年08期)

文本行论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

纸质文档数字化有着广阔的应用前景。利用光学字符识别技术,可以直接从图像中提取我们所需要的数据,会极大方便信息的存储、处理和检索,也将会减轻人手工录入信息的负担。准确的文本行提取是顺利完成文本识别的重要前提保证。当前基于CNN+LSTM+CTC等深度学习模型不断提出,有效地解决了端到端不定长文本字符的识别问题,但对行提取的性能远未令人满意。所以本文主要将研究如何从原始图片更有效而准确的实现页面中文本行的提取。由于图片文档存在图片倾斜和背景复杂的问题,可能会含有大量噪声或者无效信息,将会影响最终的识别结果。故首先介绍了对复杂背景的文档进行倾斜矫正和图像去噪增强的预处理的方法。本文研究的重点是文档对象的检测与识别,准确的文档对象识别是顺利实现文本行提取的前提。本文提出了基于深度学习的目标检测和语义分割算法实现文本对象识别与检测的方法,有效解决了传统方法较难提取页面特征、方法通用性差的问题。同时针对文档对象检测的特点,本文在通用的算法上修改锚框机制、修改损失函数、修改感兴趣区域层映射和归一化方式,并采用多尺度特征融合等方法,使得算法在检测结果上有了进一步提高,该算法在ICDAR 2017页面文档对象评测集上将交并比指标为0.6和0.8上的平均精度均值从0.787和0.637提升到了0.865和0.752。根据文档对象检测的结果,在不同的文档区域做相应的处理以减少对整个文档造成的信息损失,如表格区域进行去线处理,印章区域分离颜色通道进行移除处理。同时针对纯文本页面和含有表格页面的文本分布的不同特点,本文分别设计了不同的文本行提取算法。其中纯文本页面的文本行提取本文采用了基于深度学习的自然场景文本检测算法CTPN和投影法相结合的方法提取文本行区域,有效解决了页面背景复杂下的文本行提取问题。本文通过设计针对页面特点的文本行提取算法,实现了较好的文本行提取。将上述工作后得到的文本行区域记录位置提取,送到识别引擎进行识别,就完整的构成了一整套文档识别系统。整个系统选择本地文档图像后,会依次进行文档的倾斜矫正、去噪、文档对象识别与检测、表格线去除、去印章等步骤,并将文本行区域提取传递给后端识别引擎。经过测试,系统在在图像去噪、文档对象检测、文本行提取上都取得了良好的效果,整个系统具有较好的实用价值。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本行论文参考文献

[1].王馨悦,董兰芳.Attention机制在脱机中文手写体文本行识别中的应用[J].小型微型计算机系统.2019

[2].张青.文档图像的版面分析与文本行提取算法研究[D].哈尔滨工业大学.2018

[3].朱健菲,应自炉,陈鹏飞.回归——聚类联合框架下的手写文本行提取[J].中国图象图形学报.2018

[4].李颜兴.基于规则和学习的藏文历史文献的文本行分割方法研究[D].北京工业大学.2018

[5].王诗源.矩形交通标志文本行检测算法研究[D].北京交通大学.2018

[6].钟巧.基于图论的扫描图像文本行分割与矫正[D].湖南大学.2017

[7].巨志勇,何晓蕾,王超男.基于文本行基线的倾斜角检测算法[J].电子科技.2016

[8].郝建元.基于文本行几何失真的打印文档来源取证技术[D].大连理工大学.2016

[9].曹卫,薛煜阳.基于曲线拟合和对象选择的脱机手写维吾尔文本行切分算法[J].计算机与数字工程.2015

[10].姜志威,丁晓青,彭良瑞.针对无切分维吾尔文文本行识别的字符模型优化[J].清华大学学报(自然科学版).2015

标签:;  ;  ;  ;  

文本行论文-王馨悦,董兰芳
下载Doc文档

猜你喜欢