视频字幕识别论文-上官珺

导读:本文包含了视频字幕识别论文开题报告文献综述及选题提纲参考文献，主要关键词:镜头分割,字幕定位,灰度直方图差值,连通域分析

视频字幕识别论文文献综述

上官珺^[1]（2017）在《视频字幕的定位与识别》一文中研究指出随着计算机技术、通信技术及多媒体技术的快速发展,移动互联网进一步普及,网络信息化不断升温,数字化进程被快速推进,使得网络视频的内容越来越丰富,包涵着越来越多的重要信息,大量的视频图像在网络上快速传播,网络视频的服务更快、更便捷,但也增加了新的安全隐患,对视频内容进行检索与安全监控变得更加必要。传统的基于关键词、标题的方法,一般采用人工方式进行编写,不仅效率低而且并不能准确的反映视频内容,要从海量的视频数据中快速、准确地查找和监控所需要的视频信息,需要理解视频的内容。视频字幕包含了丰富的高层语义信息,与视频语义有很强的相关性,是理解视频内容的重要线索。通常网络视频的分辨率较低,视频字幕嵌入在复杂图像背景中,成像存在噪声、模糊、透视、字体格式种类繁多等不利因素,由于背景的干扰,无法直接进行OCR识别,因此,从网络视频的复杂场景中自动检测、提取视频字幕能够对视频进行更深入的检索与安全监控,也可对视频字幕进行高效率的翻译,大大提升工作效率,节省人力。基于这个需求,本文设计实现了一个视频字幕定位识别系统,包含了视频字幕关键帧检测提取子系统和视频字幕提取子系统。先通过帧间直方图差值进行镜头分割,并综合考虑文字的各种统计特征,利用边缘密度特征从视频中检测、提取字幕帧,从而减少需要进行字幕定位的图像帧数。然后,利用Sobel边缘检测进行字幕区域的粗定位,再用形态学操作及连通域分析精确定位字幕区域。最后,利用NiBlack算法进行分割,提取出二值化后视频字幕,结合OCR软件进行识别,以便将这些视频字幕文本用于视频的检索和监控、视频字幕翻译等应用中。通过实验验证,系统能有效地提取出具有代表性的字幕关键帧,而且能够较准确的定位提取视频字幕,从而提高了 OCR字幕识别效率,本系统的开发对视频检索、视频编辑具有潜在的应用价值。(本文来源于《厦门大学》期刊2017-06-30）

王瑞^[2]（2016）在《超低质量视频字幕识别方法研究》一文中研究指出当下,海量视频数据中包含着丰富的信息,对于这些视频进行分析处理的需求也越来越多。有的视频其视频质量非常低,其中字符大小极小,而且受到噪声的干扰,本文中称为“超低质量视频”。传统的视频字符识别技术对于此类视频难以适用,因此亟需针对超低质量视频的字符识别方法进行研究。本文中识别的视频字符为固定位置的字幕文本,且字幕没有复杂的背景。本文的最终目标是构建一个高性能和高可靠性的视频字符识别系统。基于上述目标,本文首先提出了基于模板的字符匹配识别算法,直接使用图像的灰度值特征计算待识别字符与模板的相似度。取相似度最高的模板的类标签作为待识别字符的识别结果。使用视频多帧融合方法作为识别预处理过程,实验表明预处理过程有效减少了视频中冗余帧。其次,为了提高识别自动化程度,提出了基于可信度的视频字符区域自动匹配算法。视频字符区域匹配算法对于每一帧进行处理,分别使用各个已定义的字符区域识别同一帧后,计算识别结果的平均可信度,选择可信度最高的字符区域作为最终结果。为了减少用户建立模板库时的工作量,本文提出了基于半监督学习思想的模板库自动生成算法。通过借鉴自学习方法,我们首先生成已知标签的标准字模,接着用标准字模对于视频中待识别字符进行相似度分布的统计。挑选各个字模相似度分布中的最大的个字符加入模板库。从而达到完全自动生成识别模板库的目的。模板库自动生成算法在未知字体的情况下,由于先验知识过少,模板库会有错误产生,导致识别准确率下降。针对此问题,我们提出了后处理纠错算法。包括基于自回归模型的自动纠错算法和人工反馈纠错算法。自回归模型可以对于连续平稳变化的时间序列进行预测。我们使用自回归模型检测识别数值型变量中的突变,并进行纠错。而人工反馈纠错则是用户直接对于识别错误进行纠正,将纠错的图片与标签直接加入模板库,同时纠正模板库中的错误。在纠错后使用新的模板库更新识别结果,迭代纠错多次使得识别准确率越来越高。经过实验,使用上述提出的一整套识别算法,在经过3轮迭代纠错后,对于测试视频的平均识别准确率达到了98%以上。最后本文设计并实现了一套视频字符识别系统,系统集成了我们上述提出的算法,具有友好的人机交互界面和高可靠性。(本文来源于《哈尔滨工业大学》期刊2016-06-01）

刁月华^[3]（2015）在《网络视频字幕提取识别系统的设计与实现》一文中研究指出随着互联网服务和网络基础设施的飞速发展,网络视频服务越来越便利,网络上的视频内容越来越丰富,对这些视频进行监控和检索变的更加必要。在传统的基于标题和标签的方法并不能准确的反映视频内容的情况下,理解视频内容成为了更好的选择。其中视频字幕与视频语义有着较强的相关性,获取视频字幕能够对视频内容进行更加深入的检索与监控。视频字幕指视频中出现的人工添加的文字信息,这些文字通常包含了视频中的人物对话,内容总结等重要内容,能够准确的反映视频的含义。但是,网络视频中的分辨率通常较低,字幕文本都嵌入在杂乱的背景中,无法直接进行OCR识别。为解决这一问题,作者独立设计并实现了网络视频的字幕提取与识别系统,利用计算机图像处理的知识,将嵌入视频的字幕提取并转化成文本格式。系统主要包含字幕的定位与追踪、字幕的增强与二值化、文字识别叁个模块。字幕的提取模块将提取过程分解为定位与追踪两个步骤。其中定位步骤用以确定字幕在视频中首次出现,系统利用文本独特的几何特征,采用了基于笔画宽度变换的文本检测方法确定字幕在图像帧中的位置。追踪过程则通过对比两帧字幕区域图像的相似度,跟踪字幕在视频中的停留与消失,追踪的过程有效的减少了字幕定位的次数,并提高了字幕提取的精确度。字幕的增强与二值化模块充分利用了字幕在时间上的冗余性,将追踪后得到的字幕图像进行多帧融合,以达到增强文本,弱化背景的目的。然后系统利用Otsu算法对融合后得到图像进行二值化,将文字从背景中提取出来,得到可以通过OCR技术识别的二值化图像。文字识别模块设计并实现了汉字的识别功能,系统提取了汉字的多种特征,并将这些特征综合利用,融合各个特征的特点,设计并实现了一个多级的分类系统用以汉字识别。经过验证,文字识别模块取得了较好的效果。最终经过实验验证,系统能够较为准确的将视频中的字幕提取并转化为文本文件,并达到了令人满意的识别率。(本文来源于《北京交通大学》期刊2015-06-01）

张斌^[4]（2015）在《基于DM8168的视频字幕文字识别》一文中研究指出现代社会已经进入数据时代,随着视频数据的爆炸式增长,人们渴望快速的找到自己感兴趣的视频内容；另一方面对电视视频等视频内容的有效监管也成为监管部门一块很重要的工作。视频字幕与视频内容有着重要的语义相关性。如果能够自动识别视频中字幕文字,那么很大程度可以解决基于视频内容的内容监管和内容检索。本文开展的研究工作是基于嵌入式平台实现的,采用的是市场上性能最好的DSP处理器DM8168。嵌入式平台与PC端相比具有更加便捷、成本更低等优点,同时开发难度也更大。本文的研究工作主要分为两块：一块是硬件平台的熟悉和视频数据链路的搭建；另一大块是字幕识别算法的开发和移植优化。字幕识别算法主要分为字幕提取和字符识别两部分。本文在分析了视频中字幕文字特点后提出了基于图像对比度的字幕提取算法,并用卷积投影法定位字幕区域。在字符识别算法中本文提取字符的线素统计特征,并用基于二元词组的后处理方式优化识别结果,提高字符识别准确率。实验证明,本文所提出的字幕识别算法可以在嵌入式平台下长时间、实时稳定的运行,并能够处理多种样式的字幕文字,具有一定的鲁棒性和适应性。在数据指标上取得了高于百分之九十的字幕检测率和高于百分之八十的字符识别率,取得了较好的实验结果。(本文来源于《北京邮电大学》期刊2015-03-11）

查涛涛^[5]（2015）在《基于蚁群算法的新闻视频字幕识别》一文中研究指出随着信息化技术的飞速发展，人们的生活几乎时刻都离不开互联网。在工作、娱乐、交流中每时每刻都在产生大量的视频，图像等多媒体信息，如何快速高效的存储并且检索这些信息，已经成为当今科学研究的一大热点。新闻类节目是人们获取外界信息的主要途径，研究新闻类视频信息的检索具有重要应用价值和代表意义。新闻视频中的字幕，尤其是主题字幕，往往反映了新闻故事的语义内容，能够给视频检索和索引提供重要的辅助信息，我们可以利用视频文本信息直接判断视频所讲诉的内容，然后可以进行后续许多深化应用。因此，如何准确、快速地获取视频字幕文本信息，成了视频检索的关键。利用人工来获取视频中的文本，在视频数据泛滥的今天已经变得不现实。因此，提出一种正确有效的方法，利用计算机自动识别视频中的文字已经是一种迫切需要。本文首先对一个新闻视频先采用自适应双阈值方法对其进行镜头分割，根据镜头内相邻帧差出现峰值来判断文字的出现与消失，提取每个镜头的关键帧。根据已经获得的字幕起始帧与结束帧，通过多帧融合技术，提高字幕与背景之间的对比度，降低背景的干扰因素。然后经过分析和比较各种纹理特征，针对新闻视频字幕，提取了以下3个特征作为文字与非文字区域的辨别：1.灰度共生矩阵和方差(在比较了灰度共生矩阵其余10个特征后选取)。2.图像小波变换LH子带、HL子带以及HH子带的系数方差(考虑文字纹理特征，选取系数方差最大的)。3.角点密度(利用了文字多笔划特点)。接着将视频帧分块，利用提取的特征对文字块与非文字块进行分类。在分类器中做得比较好的有svm(支持向量机)和BP神经网络，但这些方法的一个通用的缺点就是必须要有一个预先的训练样本集，不同的样本类型和不同的样本容量结果可能完全不同。本文采用了蚁群算法的自适应性和反馈机制，创造性提出一个启发式引导函数，巧妙地将3个特征融入为蚁群算法的启发引导因子。最后利用形态学处理确定一个最终的文字区域。对于输入OCR识别的文字图片，需要先进行二值化处理，本文比较了传统的二值算法——otsu算法，提出一种迭代二值化算法，提高了OCR软件的识别准确率。(本文来源于《杭州电子科技大学》期刊2015-03-01）

朱燕敏^[6]（2014）在《基于OpenCV的视频字幕识别系统研究与实现》一文中研究指出视频字幕识别是指利用计算机将视频中的图像文字识别为纯文本文字的技术，是模式识别应用的一个重要领域。发达国家由于计算机视觉及相关产业发展的非常好，视频字幕识别技术已经比较成熟。然而国内的字幕识别技术发展较晚，目前的字幕识别软件中，要么只能针对图像，要么就是不能适用于复杂背景的视频。因此开发出能够识别具有复杂背景的视频字幕的识别系统，应用于网络视频检索有很大助益，也将提高用户的视频检索速度和满意程度。针对这种情况，开发了基于OpenCV的视频字幕识别系统。OpenCV是由Intel公司发行的跨平台的计算机视觉库，同时提供了Python、Ruby、Matlab等语言接口，能方便的实现图像显示与处理，因此成为首选开发框架。采用C++语言在Visual Studio2008平台下完成本系统的开发，该系统自动完成字幕帧检测、字幕识别、结果存储等任务，从而提高网络视频检索速度和精确度。本论文严格按照字幕识别流程进行组织、分析和功能实现。第一章介绍了视频字幕识别系统的研究现状和本课题的研究内容。第二章阐述了现有的字幕帧检测技术，在现有方法的基础上，提出一种新的字幕检测算法。第叁章分析和比较了各种字幕提取算法。第四章先介绍了字符分割算法和字符归一化方法，然后针对现有基于特征提取的识别方法的不足，提出了一种特征融合的字幕识别方法。第五章对系统实现的关键技术进行了归纳整理，通过对网络视频的字幕识别，证实了识别系统的有效性。论文的最后对本研究工作进行了总结，并对该系统的应用意义和前景进行了展望。本系统的成功开发可以提高视频字幕识别准确率，大量节省网络视频检索中的人力、物力、财力。因此，研究本系统的设计与实现具有一定的理论意义和实际应用价值。(本文来源于《吉林大学》期刊2014-05-01）

施银宝^[7]（2014）在《面向新闻字幕识别的视频文本定位与切分方法研究》一文中研究指出随着新闻视频的爆发式增长,对海量新闻视频进行分类、检索和管理的工作变得越来越重要。新闻视频中的文本字幕提供了极其丰富的高层语义信息,能够帮助用户更容易地理解视频内容,所以对视频中的字幕进行准确识别是对视频内容分析和理解的一种有效的方法。考虑新闻视频中的文本字幕背景复杂多变,全局干扰噪音强等特性,为了准确定位新闻视频文本字幕区域,本文采用了一种基于边缘检测和投影的字幕定位方法。针对整幅字幕图片二值化效果差、识别率低的问题,本文采用了一种基于梯度投影的字符切分方法。针对目前还没有新闻视频字幕领域专用的OCR语言库,导致不理想的字幕识别效果的问题,本文利用开源OCR引擎Tesseract训练字符图片样本集,得到用于新闻视频字幕识别的OCR语言库。实验结果表明,本文采用的方法可有效地定位新闻视频中的字幕区域,可以准确地将字幕区域内的字符进行切分,在训练出的语言库上对新闻视频字幕进行识别能有效地提高字幕的识别率,具有良好的实用价值。(本文来源于《北京邮电大学》期刊2014-01-08）

颜开^[8]（2012）在《通过图像识别技术提取视频中的字幕信息》一文中研究指出笔者采用Easy Realmedia Producer V1.94方法对数字视频进行帧内压缩编码,利用Adobe Premiere Pro2.0提取视频图像中具有字幕的帧,通过边缘检测算子检测出图像的边缘,将边缘进行过滤或对边缘聚集生成候选文字区域,再对区域内的文字进行灰度化和二值化处理,从视频中成功提取出了字幕文件。(本文来源于《中国传媒科技》期刊2012年04期）

梁松涛,吕学强,施水才,王涛^[9]（2010）在《基于特征补偿的视频字幕识别研究》一文中研究指出视频中的字幕对多媒体检索技术提供了重要的信息,主要介绍视频字幕识别技术中的特征提取方法。根据字幕不同于印刷体和手写体中常出现的问题,提出了字符位置特征和字符区域笔画分布特征、字符笔画密度特征两种修改过的特征提取方法与传统的字符外围特征结合使用,并进行了实验测试,结果表明这些方法对字幕识别是可行的。(本文来源于《计算机应用与软件》期刊2010年11期）

王刚^[10]（2010）在《新闻视频字幕的自动提取和识别》一文中研究指出新闻视频中的字幕文字通常含有新闻人物人名,新闻事件主题等很重要的信息。新闻视频字幕文字作为一种高级语义信息,对新闻视频内容的理解、索引具有重要作用。本文研究的是新闻视频字幕文字的提取和识别,主要包括新闻视频字幕文字定位、跟踪、分割和识别四部分算法及关键技术的研究。在新闻视频字幕文字定位方面,本文在定位和验证的两级框架下,采用了一种基于边缘的字幕文字检测定位算法。检测定位阶段充分利用字幕文字的边缘信息,经视频帧边缘提取,区域过滤等步骤获得候选字幕文本行;验证阶段采用基于区域边缘相似度的方法,对当前帧和其相邻帧相应字幕文字行区域计算边缘相似度,检测确认定位的字幕文字行。在新闻视频文字跟踪增强方面,考虑到我们针对的都是新闻视频中的静态的字幕文本,本文采用了一种基于块匹配和区域边缘相似度的跟踪算法。为了提高跟踪速度,本文应用了二分查找的方法对字幕文本进行跟踪,跟踪过程可以大大减少定位的代价。在跟踪过程中,本文还利用多帧融合进行图像增强。在新闻视频文字分割方面,本文先利用大津法对跟踪得到的增强图进行二值化,然后采用了一种基于水平,垂直投影直方图的文字分割算法,可以快速准确地从背景相对简单的新闻视频字幕帧的字幕区域中分割出文字。最后,在以上工作的基础上,本文实现了一个简单的识别系统。系统是一个分为粗分类,细分类和识别叁个阶段的叁级识别系统,采用了相关匹配方法作为识别方法。选择了粗网格特征,粗外围特征和局部笔划方向密度特征作为分类特征。(本文来源于《哈尔滨工业大学》期刊2010-06-01）

视频字幕识别论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

当下,海量视频数据中包含着丰富的信息,对于这些视频进行分析处理的需求也越来越多。有的视频其视频质量非常低,其中字符大小极小,而且受到噪声的干扰,本文中称为“超低质量视频”。传统的视频字符识别技术对于此类视频难以适用,因此亟需针对超低质量视频的字符识别方法进行研究。本文中识别的视频字符为固定位置的字幕文本,且字幕没有复杂的背景。本文的最终目标是构建一个高性能和高可靠性的视频字符识别系统。基于上述目标,本文首先提出了基于模板的字符匹配识别算法,直接使用图像的灰度值特征计算待识别字符与模板的相似度。取相似度最高的模板的类标签作为待识别字符的识别结果。使用视频多帧融合方法作为识别预处理过程,实验表明预处理过程有效减少了视频中冗余帧。其次,为了提高识别自动化程度,提出了基于可信度的视频字符区域自动匹配算法。视频字符区域匹配算法对于每一帧进行处理,分别使用各个已定义的字符区域识别同一帧后,计算识别结果的平均可信度,选择可信度最高的字符区域作为最终结果。为了减少用户建立模板库时的工作量,本文提出了基于半监督学习思想的模板库自动生成算法。通过借鉴自学习方法,我们首先生成已知标签的标准字模,接着用标准字模对于视频中待识别字符进行相似度分布的统计。挑选各个字模相似度分布中的最大的个字符加入模板库。从而达到完全自动生成识别模板库的目的。模板库自动生成算法在未知字体的情况下,由于先验知识过少,模板库会有错误产生,导致识别准确率下降。针对此问题,我们提出了后处理纠错算法。包括基于自回归模型的自动纠错算法和人工反馈纠错算法。自回归模型可以对于连续平稳变化的时间序列进行预测。我们使用自回归模型检测识别数值型变量中的突变,并进行纠错。而人工反馈纠错则是用户直接对于识别错误进行纠正,将纠错的图片与标签直接加入模板库,同时纠正模板库中的错误。在纠错后使用新的模板库更新识别结果,迭代纠错多次使得识别准确率越来越高。经过实验,使用上述提出的一整套识别算法,在经过3轮迭代纠错后,对于测试视频的平均识别准确率达到了98%以上。最后本文设计并实现了一套视频字符识别系统,系统集成了我们上述提出的算法,具有友好的人机交互界面和高可靠性。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

视频字幕识别论文参考文献

[1].上官珺.视频字幕的定位与识别[D].厦门大学.2017

[2].王瑞.超低质量视频字幕识别方法研究[D].哈尔滨工业大学.2016

[3].刁月华.网络视频字幕提取识别系统的设计与实现[D].北京交通大学.2015

[4].张斌.基于DM8168的视频字幕文字识别[D].北京邮电大学.2015

[5].查涛涛.基于蚁群算法的新闻视频字幕识别[D].杭州电子科技大学.2015

[6].朱燕敏.基于OpenCV的视频字幕识别系统研究与实现[D].吉林大学.2014

[7].施银宝.面向新闻字幕识别的视频文本定位与切分方法研究[D].北京邮电大学.2014

[8].颜开.通过图像识别技术提取视频中的字幕信息[J].中国传媒科技.2012

[9].梁松涛,吕学强,施水才,王涛.基于特征补偿的视频字幕识别研究[J].计算机应用与软件.2010

[10].王刚.新闻视频字幕的自动提取和识别[D].哈尔滨工业大学.2010

标签：镜头分割; 字幕定位; 灰度直方图差值; 连通域分析;

视频字幕识别论文-上官珺

视频字幕识别论文文献综述

视频字幕识别论文开题报告

视频字幕识别论文参考文献

猜你喜欢