视频文字检测论文-赵星驰

视频文字检测论文-赵星驰

导读:本文包含了视频文字检测论文开题报告文献综述及选题提纲参考文献,主要关键词:目标检测,视频关键帧,文字识别,深度学习

视频文字检测论文文献综述

赵星驰[1](2019)在《基于深度学习的视频文字检测技术》一文中研究指出随着互联网技术的飞速发展,计算机视觉内各个分支领域获得突破性进展,特别在图像检测,目标跟踪方向,结合卷积神经网络的图像特征提取能力,已经获得了优异的成绩,在文字识别提取方向,深度学习与传统图像分析的结合使用使得图像语义分析方向也有很大进展。本论文中设计了一套完整的视频文字识别的架构,结合图像文字检测技术,视频关键帧提取技术以及多语言文字识别技术,实现了视频内部自然场景及人工添加文本的提取与识别。其中,文字检测技术采用了YOLO与PixelLink相结合的方法,两者原理可以互补,对检测性能略有提升,另外,视频关键帧处理技术中使用了文字区域作为关注重点,结合聚类算法与像素点等逻辑对帧画面的重复信息进行压缩筛选。最终,利用卷积循环神经网络实现对中文,英文,数字等字符的识别功能。在分别验证完各个模块的功能以后,结合了叁个模块,实现了视频内文字的识别功能。(本文来源于《北京邮电大学》期刊2019-06-03)

杨洋[2](2018)在《时域信息辅助的视频文字检测技术研究》一文中研究指出随着移动智能设备的迅速普及、社交网络和视频网站的大规模兴起并日益深入生活,视频已经成为了一种重要的信息载体,对于视频数据的智能分析与智能处理需求也愈来愈迫切。视频中的文字作为一种高级特征,直接包含了语义信息,往往准确表达了视频关键内容,它不仅是一种重要的获取视频内容的途径,而且也是视频检索和视频内容理解的重要依据。因此视频文字检测技术对于视频数据的智能分析和处理具有重要的研究意义,在智能驾驶、地理定位、网络安全等方面拥有广阔的应用前景。传统的文字检测算法都是针对单个图像,由于视频普遍存在数据量大、光照不均、低分辨率、复杂背景、文字多方向等情况,直接应用已有的图像文字检测算法往往检测效果不佳、检测速度较慢。视频的突出特点是它包含时域冗余信息,本文通过挖掘时域冗余信息应对以上挑战,提出了有效的视频文字检测方案,提高了检测的精度和速度,本文的主要工作和贡献有:1、针对视频帧文字检测任务设计了一种全卷积神经网络检测模型,该模型通过多层的网络结构能够提取丰富的特征信息,不仅能检测水平方向的文字,而且能检测多方向的文字,本文的实验结果也证明了该检测模型的有效性和通用性。2、视频数据量较大,使用单帧文字检测模型进行逐帧检测时计算效率低,本文根据相邻视频帧内容变化小的特点,将光流信息加入检测网络,从而只需要对关键帧进行直接的特征图提取,然后利用光流信息将关键帧的特征图传播到相邻视频帧,极大的节约了特征提取时间。加入光流后的检测网络经过充分的端到端训练后,能够在基本保持性能的同时加快检测速度。3、在文字背景复杂、光照不均、视频模糊等情况下,单视频帧的文字检测模型不可避免的存在着局限性,会出现漏检、误检等。针对这一问题,本文利用相邻帧存在互补信息的特点,进一步挖掘时域冗余信息,对单帧的检测结果进行融合,从而对误检、漏检进行修正,提高检测的精度。本文在Minetto和ICDAR2015两个公开的视频文字数据集上对提出的算法进行了实验验证,实验结果表明本文提出的检测方案在检测速度和检测精度上都取得了良好的结果。(本文来源于《华中科技大学》期刊2018-05-01)

周东傲,林嘉宇[3](2015)在《视频图像文字检测综述》一文中研究指出自动从视频图像中提取文字信息,对于监控视频图像内容、添加视频标签和建立视频图像检索系统,有重要的意义。文字检测是文字信息提取系统的前端,是文字信息提取中最关键的一步。近年来,视频图像文字信息检测领域有了新的重要的发展,综述从基于区域和基于纹理的文字检测方法进行归纳、比较和分析,概括了近年来文字检测技术的主要进展。此外,为了突出综合性方法的重要性,对其专门进行了总结。最后对视频图像中的文字检测技术的难点进行总结,并对其发展趋势进行展望。(本文来源于《计算机工程与科学》期刊2015年04期)

倪翠竹[4](2015)在《基于视频的交通标志文字检测与识别算法研究》一文中研究指出随着科技的进步和社会城市化的发展,智能交通系统已经成为解决城市道路交通的重要手段,其中基于视觉信息的车载智能安全辅助驾驶系统的研究更是成为近来研究的热门话题。这些研究主要集中在交通标志的检测与多种交通标志的分类识别上,对于含有文字(尤其是中文的)交通标志检测与识别的研究相对较少。但是在各种交通标志中,含有文字的交通标志可以为驾驶员提供丰富且重要的道路信息,这些信息的提取和应用对车载智能安全辅助驾驶、汽车无人驾驶等至关重要。特别是基于视频的交通标志文字检测与识别具有广阔的应用前景。本文的研究目标是将静态图像中交通标志文字检测与识别技术应用于视频中,并设计一个基于视频的交通标志内部文字检测与识别的系统。论文的主要工作包含以下几个方面:1.利用交通标志特有的颜色与形状信息以及前后帧之间的关系,提出了一种基于内容的视频关键帧提取方法,并利用该方法提取出适合后续交通标志文字检测与分割的视频关键帧。2.在对字符型交通标志的检测中,利用DfC (Distance from Center,外边缘到中心的距离)和DtB (Distance to Border,外边缘到边框的距离)的融合特征作为交通标志的形状描述因子,结合线性支持向量机(Support Vector Machine, SVM)对矩形交通标志进行检测,再通过利用交通标志内部黑白点对和在垂直方向上投影曲线拟合的方法对字符型交通标志和指示型交通标志进行分类,该方法能准确地实现对字符型交通标志的检测。3.利用文字与背景颜色特征的强烈对比度,对图像进行K-means颜色聚类处理将交通标志分成不同图层,获取含有文字的图层并对其进行连通域分析获取文字候选区域,最后将分割提取出的文字图像作为OCR (Optical Character Recognition,光学字符识别)模块的输入,实现对文字的识别。(本文来源于《北京交通大学》期刊2015-03-01)

颜建强[5](2014)在《图像视频复杂场景中文字检测识别方法研究》一文中研究指出近年来,随着计算机技术、多媒体技术和网络技术的不断发展,图像和视频资源日益丰富,从这些海量图像、视频中获取感兴趣的信息已经成为当前多媒体信息技术研究的热点。图像、视频中的文字包含丰富的语义信息,是理解图像、视频内容的重要线索,提取和识别这种图像、视频中的文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。由于图像、视频中的文字通常迭加在复杂的背景之上,背景的干扰使得现有OCR(Optical CharacterRecognition)技术难以获得较好的识别结果,因而如何从图像、视频复杂场景中检测识别文字成为一个重要的研究课题。本文以图像、视频复杂场景为研究背景,围绕在复杂场景中文字检测和识别进行研究,根据文字纹理特征,研究了复杂背景中文字的检测、复杂场景中重迭文本的检测和识别、OCR识别结果的校对以及海量视频文本检测识别等问题。概括起来,本文所取得的主要研究成果包括:首先提出了一种基于Gabor和SVM的复杂背景中文字检测方法,通过不同方向尺度的Gabor滤波器得到表示中文字符横、竖、撇、捺四个方向的纹理图像,使用SVM分类器对纹理图像进行训练,通过构建一个SVM分类网络来得到最终的文字区域。实验结果表明,该方法对复杂背景下中文字符的检测具有较好的效果。其次提出了一种利用深度学习算法进行文字区域定位的方法,利用Gabor滤波器提取文字区域的纹理特征,然后使用DBN网络进行分类,由于DBN网络对高维特征向量具有很强的提取特征和分类能力,因此能够用来区分文字区域和背景区域。实验结果表明,深度学习网络具有较高的分类准确性,效果要好于传统的神经网络、SVM等方法。接着针对前面所提出的方法在检测复杂场景中重迭文本时受背景干扰比较大的问题,提出了一种复杂场景中重迭文本检测和识别的方法。首先利用聚类的方法将复杂场景图像转换成多个具有单一背景的层图像,在每一个层图像中使用连通分量分析方法,得到该层图像中的候选文本连通分量,采用级联Adaboost分类器根据文本区域的特征剔除非文本连通分量,再用OCR包对文本连通分量进行识别,最后利用图像层之间的关系对识别结果进行验证。对于复杂场景下重迭文本的识别,该方法明显优于其他方法。然后提出了一种基于Google的文字识别结果校对方法,由于很多字符、文字具有相似性,OCR软件识别过程会产生一些错误,现有的OCR识别结果校对方法主要是利用自然语言规律统计大量的语料库进行语法判断。本文提出了一种基于Google的OCR识别结果校对方法,将传统的基于N-Gram语料库的方法和Google知识库相结合,利用Google知识库来不断的丰富传统的语料库,有效地解决了传统N-Gram方法在字典词汇量有限,对新词、专有名词无法校对的问题。该方法实用性比较强,有效地提高了自然场景图像中OCR的识别率。最后实现了一个基于云计算架构的视频文本检测和识别系统平台,随着大数据时代的到来,现有的文字识别方法遇到了很大的挑战,很难快速的应用到大数据中进行视频文本内容的识别。本文通过连接大量的计算机搭建一个云计算网络,使用MapReduce分布模型实现了视频关键帧的提取,文本检测与识别,识别结果的校对等功能,构建了一个基于云的海量视频文本识别平台,解决了海量视频的文本内容识别问题。另外,本文还分析了当前图像视频复杂场景中文字识别研究中存在的问题,指出了进一步的研究方向。(本文来源于《西安电子科技大学》期刊2014-05-30)

马珂[6](2014)在《监控视频中的文字检测》一文中研究指出视频监控已经覆盖了很多城市的大街小巷,构成了完整和立体的视频监控系统。视频监控技术对于打击违法犯罪,建设智慧城市,提升人们的生活质量都发挥着至关重要的作用。利用计算机视觉和机器学习技术解决长时间监控和海量监控数据处理问题成为智能处理监控视频数据的必然发展方向。文字,作为人类语言一种重要的表现形式,在人们的日常生活中扮演着重要的角色。监控视频中往往也会包含有重要的文字信息,可以帮助人们寻找或者跟踪目标。但是,监控视频拍摄到的视频或图像基本都是自然场景,其中的文字颜色,字体,方向等有多个不确定的变化因素,给检测和识别带来巨大困难。同时,这也成为当前的一个研究热点。本文着眼于识别之前的自然图像中的文字检测技术,主要工作包括以下叁个方面:本文首先对近年来提出的多个自然图像中的文字检测技术进行了综述,分析了各个方法的具体实现和优缺点。文字检测的整体框架大体上可分为两个部分,即单字检测和文字行的构建。在单字级别的检测技术上,本文将最近两年内提出的高效的单字检测方法综合起来,提出了一种更加高速有效的单字级别的检测算法。其核心思想依然是基于连通区域分割。本文使用基于叁层高斯金字塔的MSER(Maximally Stable Extremal Regions的简称)进行层次化分割,利用SFT(Stroke Feature Transform的简称)和TCD(Text CovarianceDescriptor的简称)提取连通区域特征,通过随机森林分类器加以判别。该方法在ICDAR2013数据集上达到了0.75的单字召回率。在文字行的构建上,本文创新性地提出稳定文字行(Stable Text Line,简称STL)的概念。该方法将检测到的单字作为图模型的节点,图模型边的权重为单字特征的距离,然后用多重阈值分割此图模型,得到一系列备选的文字行,再从中根据文字行内单字特征相近的原则选择最优的备选文字行作为最终结果,避免了一次性判断带来的误差。并且该方法能够自然地扩展到多方向文字行的检测。实验结果表明,本文提出的方法在ICDAR2013数据集上能够达到0.6860的F measure,接近国内先进水平。(本文来源于《华南理工大学》期刊2014-05-25)

魏福泉[7](2014)在《视频文字检测与去除的GPU优化设计与实现》一文中研究指出视频文字的检测与去除属于数字图像的研究范畴,对于复兴固化了字幕的经典老电影有重要的意义。其次,文字检测与去除对于图片搜索引擎、无人驾驶、去除视频中的广告等具有很强的现实意义与广泛的应用前景。目前,各类文字检测与去除的算法比比皆是,都能达到很好的检测与去除效果,但都存在执行效率低的问题。本文主要解决文字检测与去除的算法设计及其执行效率低的问题。首先,介绍了文字检测及去除的国内外发展情况,分析了当前各种文字检测及去除技术的优点与不足。此外,还对当前热门并行工具之一的GPU进行了详细的介绍与分析。在此基础上,分析了文字检测及去除的GPU并行优化的必要性及可行性。其次,本文给出了一种基于CPU平台的视频文字检测及去除的串行方案。由于文字检测与去除的串行方案执行效率过低,还远不能达到实时处理的目标。因此,在串行方案的基础上,研究了如何将GPU融入到文字检测及去除中,给出了文字检测及去除的GPU并行优化方案。最后,对基于GPU的文字检测及去除方案进行了实验验证与分析。通过大量的实验结果表明,文字检测及去除的GPU并行优化方案的执行效率比CPU的提升了10倍左右。(本文来源于《华中科技大学》期刊2014-05-01)

黄同,邵思飞[8](2014)在《基于LBP和变异直方图的视频文字检测方法》一文中研究指出视频中的文字包含视频高层语义信息,对其定位和识别在视频信息检索中具有重要的作用,据此提出了一种基于局部二值模式和变异直方图的由粗到精的视频文字检测算法。首先采用边缘检测和形态学分析粗略进行文字定位,然后经局部二值模式进行纹理分析,最后利用变异直方图特征对候选的文字区域精确定位。上述检测方法全部在MATLAB7.0下编程实现,可以精确定位出绝大多数文字的坐标,并用红色矩形框自动标注。实验结果表明,该方法简单,效果良好,特别是经过局部二值模式纹理分析后,文字检测的查全率有所提高,且受文字语种、颜色、字体字号的影响相对较小。(本文来源于《电子测试》期刊2014年02期)

李林[9](2013)在《基于CUDA的视频图像文字检测与去除研究》一文中研究指出视频图像是人们日常生活中信息获取和交流的主要媒体,视频文字检测与去除作为一种视频图像修复技术,是实现视频图像资源再利用的有效手段。随着高清视频图像的出现,视频图像具有数据量大、信息丰富的特点,研究视频图像的实时处理方法已成为视频图像应用的迫切需求。本文提出借助GPU的运算能力来提升视频图像文字检测及去除的处理速度。目前,GPU的计算能力越来越受到重视,其中NVIDIA公司的CUDA技术拥有较好的可编程性和图像实时处理能力。本文对CUDA的并行计算工作原理进行了研究,分析了CUDA的体系结构和并行处理机制。图像的文字检测与去除是数字图像处理中的经典内容,本文首先综合传统算法的特点提出了一种针对单幅图像的文字检测及去除算法,在此基础上根据视频中文字以及视频内容具有一定的连续性的特点,提出基于视频前后帧之间的文字检测及修复的算法,用来提高视频中的文字检测的精度以及图像修复的效果。为了减少程序运行时间,本文结合CUDA对算法中可以进行并行计算的模块进行了GPU并行加速处理,并根据相应模块的数据特点进行程序优化设计。本文设计的视频图像的文字检测与去除系统对具体的视频图像进行处理,取得了较好的视频图像修复效果。同时比较程序在GPU与CPU上的运行时间,对比试验表明在CUDA优化后有较好的时间加速效果。(本文来源于《华中科技大学》期刊2013-05-01)

孙福生[10](2012)在《视频图像文字检测研究》一文中研究指出随着当今数字化进程的推进,多媒体以及通信行业在日常生活中的应用都有着飞速的发展,数字视频、图像逐渐成为信息交互的主流媒体,各种数字化视频与图像无处不在,对应的数据量不断增加。为了满足人们日益增长的不同需求,对数字视频图像进行处理的各种技术也有了长足的进步。当前的数字视频图像源主要是数字电影、网络视频、医学图像以及用于其他用途的监控视频,对这些多媒体数据的各种处理技术正受到广泛的重视,并且有着巨大的商业潜力。视频图像中文字检测与分割是近年来图像分析与处理领域倍受关注的研究热点。本文主要围绕视频图像中文字的检测与分割问题开展研究。主要工作包括以下叁个方面:(1)论文首先对目前各种常用的文字检测算法进行了综述,比较和分析了各种方法的优缺点。(2)在视频文字检测和定位方面,本文提出依据视频图像背景的复杂度对视频图像进行归类,对视频图像文字区域进行自适应的检测和定位方法,不但保证了检测结果的精度,而且提高了算法的效率,并降低了算法的复杂度。尤其是对于复杂的背景的视频,本文进行了深入的分析和研究,根据其特点提出了基于时间域的视频帧的文字检测和定位算法,有效的排除了一些单纯依据特征无法排除的虚警区域,提高了算法检测的精度。(3)在视频文字分割方面,首先分析总结了各种常用方法的主要适用范围以及优缺点;在此基础上,本文提出了一套系统的文字分割算法,包括:投影分析缩小定位区域,判断文字块的极性,多帧融合和基于笔画滤波的分割等。论文对于上述算法经过了大量视频图像数据的测试,测试结果表明,所提方法无论在效率还是在效果方面,均取得了较好的效果。(本文来源于《华中科技大学》期刊2012-05-01)

视频文字检测论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着移动智能设备的迅速普及、社交网络和视频网站的大规模兴起并日益深入生活,视频已经成为了一种重要的信息载体,对于视频数据的智能分析与智能处理需求也愈来愈迫切。视频中的文字作为一种高级特征,直接包含了语义信息,往往准确表达了视频关键内容,它不仅是一种重要的获取视频内容的途径,而且也是视频检索和视频内容理解的重要依据。因此视频文字检测技术对于视频数据的智能分析和处理具有重要的研究意义,在智能驾驶、地理定位、网络安全等方面拥有广阔的应用前景。传统的文字检测算法都是针对单个图像,由于视频普遍存在数据量大、光照不均、低分辨率、复杂背景、文字多方向等情况,直接应用已有的图像文字检测算法往往检测效果不佳、检测速度较慢。视频的突出特点是它包含时域冗余信息,本文通过挖掘时域冗余信息应对以上挑战,提出了有效的视频文字检测方案,提高了检测的精度和速度,本文的主要工作和贡献有:1、针对视频帧文字检测任务设计了一种全卷积神经网络检测模型,该模型通过多层的网络结构能够提取丰富的特征信息,不仅能检测水平方向的文字,而且能检测多方向的文字,本文的实验结果也证明了该检测模型的有效性和通用性。2、视频数据量较大,使用单帧文字检测模型进行逐帧检测时计算效率低,本文根据相邻视频帧内容变化小的特点,将光流信息加入检测网络,从而只需要对关键帧进行直接的特征图提取,然后利用光流信息将关键帧的特征图传播到相邻视频帧,极大的节约了特征提取时间。加入光流后的检测网络经过充分的端到端训练后,能够在基本保持性能的同时加快检测速度。3、在文字背景复杂、光照不均、视频模糊等情况下,单视频帧的文字检测模型不可避免的存在着局限性,会出现漏检、误检等。针对这一问题,本文利用相邻帧存在互补信息的特点,进一步挖掘时域冗余信息,对单帧的检测结果进行融合,从而对误检、漏检进行修正,提高检测的精度。本文在Minetto和ICDAR2015两个公开的视频文字数据集上对提出的算法进行了实验验证,实验结果表明本文提出的检测方案在检测速度和检测精度上都取得了良好的结果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

视频文字检测论文参考文献

[1].赵星驰.基于深度学习的视频文字检测技术[D].北京邮电大学.2019

[2].杨洋.时域信息辅助的视频文字检测技术研究[D].华中科技大学.2018

[3].周东傲,林嘉宇.视频图像文字检测综述[J].计算机工程与科学.2015

[4].倪翠竹.基于视频的交通标志文字检测与识别算法研究[D].北京交通大学.2015

[5].颜建强.图像视频复杂场景中文字检测识别方法研究[D].西安电子科技大学.2014

[6].马珂.监控视频中的文字检测[D].华南理工大学.2014

[7].魏福泉.视频文字检测与去除的GPU优化设计与实现[D].华中科技大学.2014

[8].黄同,邵思飞.基于LBP和变异直方图的视频文字检测方法[J].电子测试.2014

[9].李林.基于CUDA的视频图像文字检测与去除研究[D].华中科技大学.2013

[10].孙福生.视频图像文字检测研究[D].华中科技大学.2012

标签:;  ;  ;  ;  

视频文字检测论文-赵星驰
下载Doc文档

猜你喜欢