视频文本检测论文-刘钰涛

视频文本检测论文-刘钰涛

导读:本文包含了视频文本检测论文开题报告文献综述及选题提纲参考文献,主要关键词:深度学习,场景文本检测模型,坐标点集合,非极大值抑制

视频文本检测论文文献综述

刘钰涛[1](2018)在《文本检测模型在视频场景中的字幕召回问题研究》一文中研究指出随着信息时代的发展,网络中各类信息的丰富,越来越多的视频信息在互联网中广泛传播,面对日益增长的视频和图像资源数据,如何更高效,更快速地在繁多的资源中检索和访问到所需信息变得非常有意义。利用深度学习提取特征的方法广泛应用在今天高维度的海量数据处理中,论文对近年来影响力较大的基于神经网络的检测与分类模型做了充分论述,对物体检测模型与文本检测模型做了广泛分析,总结了基于深度学习中物体检测的单步骤模型与多步骤模型的特点,对文本检测中的单步骤与多步骤模型做了分析,对文本检测模型的评价标准做了详尽讨论。论文从场景文本检测模型入手,在深入研究场景文本检测网络模型,熟悉视频图像中字幕文本的特点之后,针对视频场景下文本检测模型对长字幕检测效果差的问题,改进了场景文本检测基础网络模型中的残差块结构,加入空洞卷积以及长卷积核,并对其在原文本检测模型基础上改进的网络做了实验分析。后在详尽分析场景文本检测模型中的针对所检测文本框的融合方法后,针对关于置信度加权平均方法在视频场景下长文本检测的弱点,将其改进为取坐标点集合的第二级值操作,将不放回操作改进放回操作,并去除标准非极大值抑制。论文以tensorflow为开发平台,针对场景文本检测模型的的弱点在网络结构以及后处理做了相应的改进。经改进的残差网络与原残差网络进行效果对比,精准率与召回率效果提升不明显。经改进的文本框融合方法与原方法对比,实验验证在精准阈值较小的情况下实现召回率极大提升,在精准阈值较高的情况下在以损失部分准确率的代价下实现召回率的较大提升。(本文来源于《华中科技大学》期刊2018-12-01)

赵静[2](2018)在《基于多特征融合的视频文本检测》一文中研究指出近年来,伴随着国家的不断进步以及科学技术的快速发展,视频的数量时刻以闪电般的速度在增长。视频在教育教学、航天航空、智能交通、生物医学等领域都被广泛应用,视频在人类获取信息的途径中扮演着十分重要的角色。过去基于简单的关键字检索技术已经无法满足人类对于海量视频数据的查询,人们想要在如此庞大的视频数据库中查找自己所需的或者有兴趣的视频信息变得越来越艰难。相对于颜色、边缘等底层信息来说,视频中的文本包含着大量有用的内容并且可以很好地概括视频信息。伴随着支持向量机(SVM,Support Vector Machine)的出现与兴起,许多学者提出了采用SVM的方法实现对视频文本的检测。针对这些方法特征单一、特征维数过大、时间耗费过长、检测效果不理想,即无法兼顾时间复杂度与检测效果等不足,本论文对其进行了深入研究和改进并且提出了两种新的利用SVM对视频文本进行检测的方法以提高文本的检测效果。最终通过对结果的分析与对比证实了本论文所提出的改进算法在实现效果上确实是行之有效的。本文首先综述并分析了有关视频文本检索技术的相关背景及研究意义,分析且总结了国内外学者对于视频中的文本进行检测的研究现状。在研究了相关理论知识以及特征提取方法的基础上提出了两种结合SVM对视频文本进行检测的算法。具体研究工作如下:(1)提出了通过提取文本的颜色、边缘和纹理的综合特征并且结合SVM对视频文本进行检测的方法。首先从视频中截取一定数量的正负样本,即包含非文本区和文本区域;对所选样本进行基于颜色、纹理和边缘特征的提取;然后根据提取到的正负样本的特征数据进行训练并且得到对应的SVM分类模型;最后根据得到的分类模型进行相应的视频文本检测。(2)目前,有很多文献都采用HOG结合SVM的方法进行行人的检测,并且取得了较好的效果。基于此,文本尝试提取文本的HOG特征,并结合颜色、边缘特征,将其特征进行训练后根据训练模型进行检测,最终得到视频中的文本区域。同样,经过样本选取、提取特征、训练模型和文本检测等步骤。最终,通过分析实验结果以及对照算法评价标准证实了该算法可以有效提高文本检测的准确率并且降低误检率。(3)基于现有文献大多对视频文本的检测都是基于单帧的,当其动态背景较复杂,边缘性较强的情况下,其误检率较高。因此,本文通过分析基于单帧检测出现的不足,在该算法基础上将其改进为基于相邻叁帧的检测,以此来降低文本的误检率从而来提高文本的检测效果。实验结果表明该方法有效降低了文本的误检率而且相应地提高了视频中文本的检测效果。(本文来源于《陕西师范大学》期刊2018-05-01)

裴唯一[3](2018)在《图像和视频中场景文本检测方法研究》一文中研究指出计算机视觉是近年来非常热门的研究领域,其中图像语义分析更是重中之重。研究表明,在有文字的图像中,文字所包含的语义信息占整张图像的70%以上,因此对图像中的文本进行提取和识别是分析图像语义信息的重要组成部分。人们对于印刷文本的提取和识别(OCR)可以说已经研究得非常透彻,但是在自然场景中,文本通常不会以非常标准的形式(白底黑字、标准字体)出现,而是掺杂大量噪声或形变,这使得传统的OCR技术的文本提取和识别效果急剧下降。另一方面,随着近年来网络技术,特别是移动互联技术的发展,人们不再满足于对简单的印刷文本的提取和识别,而是将目光投向更为复杂的自然场景。就目前绝大多数图像文本识别方法而言,对图像中的文本进行检测和定位是必要的,在自然场景图像文本检测这个特定领域,人们提出了许多新奇的方法,但是到目前为止在自然场景多方向文本检测领域仍然存在不少问题,主要包括:第一,字符分割不准确。由于自然场景的复杂性,图像中的字符形态上可能多种多样,存在很多难以检出的字符或文本部件;第二,文本噪声难以滤除。在自然场景中,诸如“门窗”、“砖块”之类的“类文本”区域有很多,字符和文本判别器对于这些区域的辨识能力较弱。第叁,文本方向难以确定;自然场景中的文本可能以任何方式排列,同时,中文、日文等字符可能有笔画分离的情况,这些都会对文本的方向检测带来难度。针对这些问题,本文从水平方向文本检测入手,面向多方向文本场景检测进行了一系列关键技术的创新研究。首先,在水平方向文本检测任务中,针对字符检测和文本判别等难点问题,本课题提出了基于多信息融合的字符提取和多分类器集成的文本判别的场景文本检测方法。其中,基于多信息融合的字符提取通过层次型聚类算法对提取的连通域特征进行聚类,然后利用聚类中连通域的整体特征将多个通道的连通域融合,最大限度地保留字符区域。在ICDAR数据集上的实验结果表明,经过融合的字符区域相比原始灰度通道字符级召回率从92%提高到98%。而多分类器集成的文本判别则通过融合多个侧重点不同的文本判别器达到以较高精度对文本候选判别,其中基于CNN滑动窗口的判别器对类文本区域的过滤作用明显。第二,面向多方向文本检测,针对字符聚合和多方向分析问题,提出了基于自适应聚类和多方向文本行构建的多方向场景文本检测方法。其中,提出了一个基于尺度学习框架的自适应聚类算法,并利用这个算法设计出了一个由粗到精的多方向文本行构建算法。将这个尺度学习的方法应用的单链接聚类以及文中提出的二分层次型聚类算法,都得到了较好的结果。在多方向文本行构建的过程中,提出通过依次使用形态特征聚类、方向聚类和截距聚类的方法,确定文本行的方向,该方法在ICDAR15、MSRA-TD500、USTB-SV1K等多个数据库评测,均达到了当时最高水平。在真实的自然场景中,除了上述技术难点以外,对于被遮挡的文本进行定位在单一图像的情况下是难以克服的问题。对于这个问题,本文将研究载体从静态的图像转向动态的视频,以期利用视频中目标的时空连续性尽可能地对这类文本的检出率,同时进一步提高对一般文本的检测效果。所以,本课题的第叁项工作是基于视频时空连续性特性和文本二阶特征,提出了基于能量最小化优化算法的视频文本跟踪检测方法。通过加入互斥能量模型,利用目标与目标的相互关系提取文本的二阶特征,增强了模型对相似文本的判别能力,同时利用跟踪信息提高整体的文本检测效果。这个方法在多个公开数据集上验证,MOTA(Multiple Object Tracking Accuracy)值较其他跟踪方法有明显提高,说明该方法在防止目标编号跳变(对不同文本的辨识能力)方面有很好的效果。同时,相比于单纯的检测方法,结合本文跟踪技术的检测系统在不同场景下显示出更强的鲁棒性。(本文来源于《北京科技大学》期刊2018-03-25)

单苏苏[4](2017)在《视频文本显着性分析与文本检测方法研究》一文中研究指出随着智能手机等数码产品的应用普及和各类如Youtube、Facebook等支持上传和分享个人拍摄视频的在线社交网站的增多,视频也日渐成为常见的信息传递载体。对当下基于内容的很多视频应用(如视频的检索、摘要、分类和视频分析等)来说,可靠提取视频中包含丰富语义信息的文本对象具有重要的实际价值。然而由于图像采集条件的差异、文本形式和内容的多样性以及视频图像场景和文字背景的复杂性,使得针对视频中文本的可靠提取具有相当大的难度,同时也得到了模式识别、计算机视觉、图像处理、多媒体技术等众多研究领域的广泛关注。作为视频中文本信息提取的关键环节,本文针对视频中的文本显着性分析和文本检测问题开展了深入的研究并提出了相应的有效算法。针对视频图像的文本显着性分析,本文提出基于时-空文本特征的视频文本显着性分析算法。通过采用结合随机森林和卷积神经网络的级联预测模型,本方法首先在视频帧中计算能有效反映像素级别文本特征的文本置信度值,然后将视频帧分割为大小一致的区域块(patch)并提取反映文本置信度统计和空间分布的区域块特征。在其基础上,本方法提出了基于重启概率随机游走的时-空文本显着性分析模型,该模型将视频帧表示为以区域块为图节点的全连接有向图,进而在图上基于文本置信度和相关视觉特征计算文本的空间显着性,另一方面基于文本对象在连续多帧视频图像间的稳定性计算文本的时间显着性,最后使用重启概率随机游走算法将空间和时间文本显着性有效结合在一起。针对自然场景视频中的文本检测,本文提出结合文本与背景信息的视频文本检测方法。本方法将自然场景中文本与其附属的背景信息之间的共生关系作为视频图像文本检测的核心特征,用以提高传统方法中单纯依靠文本组件特征来检测文本的准确性。具体来说,为了找出视频图像中的文字组件前景,本方法提供了一种文本字符种子的定位和生长策略,同时将视频图像中提取到的一致性区域作为潜在字符背景的候选区域,然后通过有效洞检测、边缘一致性等约束条件得到字符背景区域。在得到字符前景和背景后,分别将两者作为二分有向图模型中的两个不相交的节点集合,并在此二分图模型(Bipartite Graph Model)上应用随机游走算法。然后应用组串策略进一步将该模型输出的字符结果组成文本字符串。为验证上述方法的有效性,本文在ICDAR2013、ICDAR2015等广泛采用的自然场景视频数据集上对论文方法进行了实验测试。实验结果表明,相对于已有方法,本文提出的基于时-空文本特征的视频文本显着性分析方法和结合文本与背景信息的视频文本检测方法有效提高了处理的精度,达到了预期的算法设计目标,同时具有在后续工作中进一步改进的潜力。(本文来源于《南京大学》期刊2017-05-01)

朱志坚[5](2015)在《基于Laplace变换的视频文本检测》一文中研究指出本文提出了一种基于Laplace变换的视频图像水平文本检测算法。首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几何特性,进行文本验证。本文算法在公共数据库上的测试结果表明了算法的可行性和有效性。(本文来源于《广播与电视技术》期刊2015年05期)

高荣[6](2013)在《基于小波变换的视频文本检测》一文中研究指出本文提出了一种基于小波变换的视频水平文本检测算法。首先根据小波变换提取视频帧图像的不同频率信息,并从这些信息中将高频信息提取出来,这些高频信息即为文本候选区。然后对文本候选区进行边缘定位,分为水平边缘定位和垂直边缘定位。边缘定位提取出来的文本区,包括真实文本区和误分的非文本区。最后通过检测出的文本区的几何特性,验证文本区的真实性,得出最后文本检测结果。通过对60幅图像的算法测试,实验结果表明了本文算法的可行性和有效性。(本文来源于《中国广电技术文萃》期刊2013年02期)

王文震[7](2012)在《基于流形学习的视频中文文本检测算法》一文中研究指出提出了一种基于流形学习的视频中文文本检测算法。算法重点针对文本图像和非文本图像的特征提取、流形降维、分类器训练等关键部分进行了改进,对人为收集的文本图像样本与非文本图像样本进行特征提取,并使用等距离映射的流形学习算法来完成特征降维,最后使用支持向量机来完成分类器训练,获取文本与非文本检测分类器,完成视频中文文本检测。实验结果表明,算法具有明显优越性,在检测可靠性和准确度上有较大提高,具有一定的实用意义。(本文来源于《科技通报》期刊2012年10期)

陈丽娇[8](2012)在《基于极大稳定极值区的视频文本检测算法研究》一文中研究指出随着网络与多媒体技术的发展,大量的网络资源以媒体的方式存在,这就使视频检索成为人类生活中不可或缺的一部分。到目前为止,视频的检索还是以人工标记为主,如我们所知,这种人工标记的方法是不准确的,而视频中字幕和场景中的文字能够很好的表达视频的主要内容,因此,基于视频内容的语义分析成为一个热门领域。一般情况下,视频的背景都比较复杂,而且由于视频的有损压缩或视频质量不高,视频的字幕经常会出现颜色渗透、边缘模糊和对比度低的现象,这就给视频文本检测带来了挑战,在本文中提出了一个鲁棒的文本检测框架来解决这些问题。首先,我们使用梯度幅度图(GAM)来增强输入图像的文本边界,克服了文本边界模糊和颜色渗透的问题;其次,使用两个方向的形态滤波滤除部分背景干扰并增强了文本与背景的对比度;再次,使用最稳定极值(MSER)区域检测器来检测视频文本的连通区域,以MSER检测到文本区域的亮度均值作为Graph Cuts的标签集,HSI颜色空间的H、S、I叁通道的欧式距离作为平滑项得到文本的最佳分割;最后利用文本的几何分布特性将文本连成文本行,并用多帧确认和一些启发教育的方法去除非文本区域。为了验证本文算法的有效性,我们对一系列具有挑战的视频进行测试,实验证明本文提出的文本检测框架具有很好的鲁棒性。(本文来源于《大连理工大学》期刊2012-05-11)

赵妍[9](2012)在《视频文本检测研究》一文中研究指出图像中的文字包含着丰富的语义信息,对于理解图像的内容具有重要意义。有了文字信息的帮助,可以方便地进行图片的分类、索引与检索,并进而设计各类应用。因此,图像文字区域检测已成为近期视觉内容理解的一个重要途径和研究热点之一,具有重要的理论研究价值和实际应用前景。现有图像文字区域的检测算法往往局限于特定的图像类型,并对字符区域的上下文信息有着较多的先验假设(如颜色一致、语言相关、无干扰元素或噪音等)。但由于在不同类型图像中,文字区域表现的形式不尽相同;且考虑到实际图像中大多可能存在复杂的背景、退化与干扰噪音,加之语言的多样性和字体的多样性,使得从多类广泛应用的图像类型中准确、鲁棒地检测字符区域仍十分困难。本文主要针对视频中的字符检测问题进行研究。对视频中字符检测和识别研究进展进行了综述,给出了在文本检测过程中广为使用的代表性方法;针对自然场景中出现的文本的表示特点,提出了一种颜色无关的复杂自然场景图像中字符区域检测算法,该算法通过所提出的SOIC算子来描述字符笔划分布规律,并借助支持向量机(SVM)技术训练得到字符的单元种子,然后使用笔划追踪方法计算字线,最后获得场景图像中文本区域。实验表明,这种算法可实现颜色及语言无关的、且对光照干扰有一定的鲁棒性的文本检测。在此基础上,本文还进一步针对视频文本检测进行了初步探索,针对视频字幕通常会在多帧间连续出现的特点,设计了基于光流算法的视频字幕检测方法,以进行实时的视频字幕检测。(本文来源于《南京大学》期刊2012-05-01)

马丽娜[10](2012)在《基于LVQ的视频文本检测方法研究》一文中研究指出视频文本的定位、识别与提取作为视频检索技术中重要的组成部分已经成为目前研究人员所研究的热点。由于视频文本与视频内容密切相关,可以利用视频文本对视频建立索引,从而可以更快速的了解视频的内容,定位所感兴趣的视频位置。因此,本文以研究视频文本检测方法为重点,用来准确的检索并定位视频中的文本,最终用于基于内容的视频检索技术。本文在对现有文本检测方法研究的基础上,针对解决视频帧图像低分辨率、复杂背景、多表现形式、视频文本位置与视频文本语种的限制问题,给出一种基于LVQ网络的视频文本检测方法----MLVQ网络。论文主要围绕以下几方面的问题进行了研究:通过研究特征的特性以及提取特征的方法,选取灰度特征、方向特征、中值特征和Kirsch算子作为特征向量。通过对方向特征、中值特征与Kirsch算子进行加权处理,使具有更强的去噪能力与鉴别能力;MLVQ网络中具有最小马氏距离的竞争层神经元为获胜神经元。对MLVQ网络分类后的视频帧像素点即对视频文本初步定位后的区域进行形态学处理,处理后得到的二值图像送入OCR软件,进行字符识别,识别效果较好。实验结果表明,MLVQ网络可以很好的解决非凸区域和凸区域不连接类不能正确分类的问题,且具有较高的分类准确率与较快的网络收敛速度。(本文来源于《哈尔滨工程大学》期刊2012-03-01)

视频文本检测论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近年来,伴随着国家的不断进步以及科学技术的快速发展,视频的数量时刻以闪电般的速度在增长。视频在教育教学、航天航空、智能交通、生物医学等领域都被广泛应用,视频在人类获取信息的途径中扮演着十分重要的角色。过去基于简单的关键字检索技术已经无法满足人类对于海量视频数据的查询,人们想要在如此庞大的视频数据库中查找自己所需的或者有兴趣的视频信息变得越来越艰难。相对于颜色、边缘等底层信息来说,视频中的文本包含着大量有用的内容并且可以很好地概括视频信息。伴随着支持向量机(SVM,Support Vector Machine)的出现与兴起,许多学者提出了采用SVM的方法实现对视频文本的检测。针对这些方法特征单一、特征维数过大、时间耗费过长、检测效果不理想,即无法兼顾时间复杂度与检测效果等不足,本论文对其进行了深入研究和改进并且提出了两种新的利用SVM对视频文本进行检测的方法以提高文本的检测效果。最终通过对结果的分析与对比证实了本论文所提出的改进算法在实现效果上确实是行之有效的。本文首先综述并分析了有关视频文本检索技术的相关背景及研究意义,分析且总结了国内外学者对于视频中的文本进行检测的研究现状。在研究了相关理论知识以及特征提取方法的基础上提出了两种结合SVM对视频文本进行检测的算法。具体研究工作如下:(1)提出了通过提取文本的颜色、边缘和纹理的综合特征并且结合SVM对视频文本进行检测的方法。首先从视频中截取一定数量的正负样本,即包含非文本区和文本区域;对所选样本进行基于颜色、纹理和边缘特征的提取;然后根据提取到的正负样本的特征数据进行训练并且得到对应的SVM分类模型;最后根据得到的分类模型进行相应的视频文本检测。(2)目前,有很多文献都采用HOG结合SVM的方法进行行人的检测,并且取得了较好的效果。基于此,文本尝试提取文本的HOG特征,并结合颜色、边缘特征,将其特征进行训练后根据训练模型进行检测,最终得到视频中的文本区域。同样,经过样本选取、提取特征、训练模型和文本检测等步骤。最终,通过分析实验结果以及对照算法评价标准证实了该算法可以有效提高文本检测的准确率并且降低误检率。(3)基于现有文献大多对视频文本的检测都是基于单帧的,当其动态背景较复杂,边缘性较强的情况下,其误检率较高。因此,本文通过分析基于单帧检测出现的不足,在该算法基础上将其改进为基于相邻叁帧的检测,以此来降低文本的误检率从而来提高文本的检测效果。实验结果表明该方法有效降低了文本的误检率而且相应地提高了视频中文本的检测效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

视频文本检测论文参考文献

[1].刘钰涛.文本检测模型在视频场景中的字幕召回问题研究[D].华中科技大学.2018

[2].赵静.基于多特征融合的视频文本检测[D].陕西师范大学.2018

[3].裴唯一.图像和视频中场景文本检测方法研究[D].北京科技大学.2018

[4].单苏苏.视频文本显着性分析与文本检测方法研究[D].南京大学.2017

[5].朱志坚.基于Laplace变换的视频文本检测[J].广播与电视技术.2015

[6].高荣.基于小波变换的视频文本检测[J].中国广电技术文萃.2013

[7].王文震.基于流形学习的视频中文文本检测算法[J].科技通报.2012

[8].陈丽娇.基于极大稳定极值区的视频文本检测算法研究[D].大连理工大学.2012

[9].赵妍.视频文本检测研究[D].南京大学.2012

[10].马丽娜.基于LVQ的视频文本检测方法研究[D].哈尔滨工程大学.2012

标签:;  ;  ;  ;  

视频文本检测论文-刘钰涛
下载Doc文档

猜你喜欢