导读:本文包含了音视频特征论文开题报告文献综述及选题提纲参考文献,主要关键词:镜头分割,音视频特征融合,卷积神经网络,长短时记忆网络
音视频特征论文文献综述
邵晨智[1](2019)在《基于音视频特征融合的暴力镜头识别方法研究》一文中研究指出暴力镜头检测是多媒体视频领域一项极其重要的任务,具有较高的研究价值和现实意义。目前多媒体视频的数量与日俱增,这给暴力镜头检测的速度带来了更高的要求。而且暴力镜头涉及的语义类型众多,包括打斗、尖叫、爆炸等,这也给暴力镜头检测任务带来了极大的挑战。当下绝大多数研究只涉及到某一种暴力类型,检测的种类相对单一,而且准确率较低,因而亟需面向多种语义类型的暴力镜头快速检测技术。首先,本文基于暴力的出现一般以镜头为最基本单位的原则,对多媒体视频进行了镜头分割,然后对单个镜头进行暴力识别。视频序列的镜头分割是视频检索中的关键技术之一。针对传统镜头分割方法在单一场景下分割效果差、对于渐变镜头检测准确率低等问题,本文出了一种基于视觉认知机理的视频镜头分割方法。该方法利用分块颜色直方图强化视觉显着区域,突出前后帧之间的差异特征,进一步高在单一场景下检测镜头切换的准确率。此外,基于人类对于视频图像亮度的视觉感知规律,利用滑动窗内相邻多帧之间的差异来捕捉镜头渐变时亮度的变化规律。与传统方法相比,本文所出的算法取得了较好的分割效果,具有较高的查准率和查全率。其次,本文分别从视觉通道、听觉通道、视听双通道对于单个镜头的暴力成分进行了深入分析。在视觉通道上,本文比较了视频行为分析领域效果最好的密集轨迹特征方法和目前业界使用较广泛的深度学习方法。在深度学习方法中,本文将相邻两帧图像的帧间差分图作为卷积神经网络(Convolutional Neural Network,CNN)的输入,之后将CNN学习到的每个帧间差分图的特征送入长短时记忆(Long Short-Term Memory,LSTM)网络中,对时序信号进行建模。本文在LSTM结构中,使用卷积操作进行了改进,改进后的ConvLSTM网络取到了更高层的空间特征。在听觉通道上,本文针对目前暴力音频数据集稀缺问题,基于MediaEval电影数据构建了一个VioAudio数据集,然后比较了传统的声学特征方法和分别用原始音频波形图和音频语谱图作为网络输入的深度学习方法。最后,本文基于视觉通道和听觉通道上结果最好的深度学习模型进行了融合实验。我们将视频中相邻图像帧的帧间差分图及其对应的音频波形图分别送入两个CNN网络中进行特征的取,之后对特征进行融合送入LSTM网络中,利用长短时记忆网络对时序信息进行建模与分类。实验表明了该音视频融合方法的有效性。本文的研究工作为目前的镜头分割任务和多媒体视频中暴力镜头检测供了有效的解决方案,在多个数据集上的实验表明,本文出的方法具有一定的可行性和现实意义。同时音视频融合方案也为目前多模态信息融合供了新的思路和方向。(本文来源于《哈尔滨工业大学》期刊2019-06-01)
李晨杰,朱允斌[2](2018)在《基于音视频特征的新闻拆条算法》一文中研究指出随着人们生活节奏的加快和网络信息技术的迅猛发展,对新闻视频节目的存储和再利用需求日益剧增,如何将较长的新闻视频节目按其内容拆分成多个新闻条目成为了一个有意义的课题。提出了一种基于音视频特征的新闻拆条算法,仅提取了新闻视频在视觉、音频上的基本特征即主持人特征和音频静音段特征进行分析。通过人脸识别提取主持人特征,使用短时能量和过零率提取静音特征,并对其加以条件筛选,结合这两个特征完成拆条工作。针对总计时长3 000分钟的新闻联播节目进行实验,得到较好的实验结果:召回率0.856 3,准确率0.932 6和F1值0.892 8。且视频边界的准确度精确到帧。同时分析了静音段长度阈值、限制条件和毛刺现象对于新闻拆条结果的影响。(本文来源于《微型电脑应用》期刊2018年02期)
岳占峰[3](2016)在《融合音视频上下文时序特征的视频片段检测》一文中研究指出视频片段的自动检测是智能广告管理系统的重要组成部分。相比于之前的广告视频检测方法只使用音视频特征,我们提出了一种利用SVM-DP融合音视频全局时序特征来自动检测疑似广告视频片段的方法。首先,视频被分割为以镜头为单元的视频序列,然后在以镜头起始点为中心的多维特征窗中提取具有上下文信息的音视频特征,结合支持向量机进行融合,获取当前镜头分别作为广告和节目的概率值。将这些概率值作为观察值构建一条以镜头为单元、以广告和节目为两个状态的马尔科夫链。最后分别根据最小持续时长和最大分割数目约束作为搜索的约束条件,利用动态规划算法进行最优路径的选择。以我国电视节目的真实视频数据进行实验,证明了这种方法的有效性。(本文来源于《中国传媒科技》期刊2016年10期)
陈雪峰[4](2015)在《应急广播自然灾害预警信息音视频呈现的特征分析》一文中研究指出预警信息发布是国家应急管理系统的一个必要组成部分,预警信息发布非常关键的一点就是遵循受众的心理及认知规律。人们的行为在很大程度上是由预警信息发布是否符合人的心理行为规律这个前提所决定的,预警信息发布的标准是提高我们国家形象和应急管理水平的重要内容。(本文来源于《中国广播》期刊2015年12期)
汪玉山,史萍[5](2012)在《基于音视频特征的电视广告单元分割技术》一文中研究指出研究了电视广告音视频特征,利用镜头检测和静音检测,实现了电视广告段落中的广告单元分割。其中,镜头检测采用了改进的基于直方图的镜头检测方法,并且利用自适应阈值和滑动窗口的方法检测出切变镜头帧,然后利用短时音频能量和短时过零率检测出静音帧,最后通过匹配切变镜头帧和静音帧得到广告单元切换帧。实验结果表明,这种方法对于广告段落中的广告单元分割有较好的效果。(本文来源于《电视技术》期刊2012年16期)
丁辉,安今朝[6](2012)在《基于SVM和归一化技术的音视频特征融合身份识别》一文中研究指出针对噪声环境下人脸识别率和说话人识别率低的问题,在研究特征层融合的基础上,结合归一化技术和SVM理论,提出了一种融合人脸和语音的多生物特征识别模型。首先采用离散余弦变换和局部保持投影算法提取人脸特征及SVM方法提取语音特征,在特征层进行融合得到融合特征后,计算测试身份与模板间的距离,为了减少计算量和提高识别性能,对匹配距离进行归一化处理,最后输入到SVM进行识别。仿真结果表明,在噪声环境下,当信噪比降低时,融合识别率要明显高于单个系统的识别率,达到了身份识别的目的。(本文来源于《电气自动化》期刊2012年03期)
吴鹏,蒋冬梅,王风娜,Hichem,SAHLI,Werner,VERHELST[7](2011)在《基于发音特征的音视频融合语音识别模型》一文中研究指出构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得到比基于状态的同步和异步DBN模型以及音频单流模型更高的识别率,对噪声也具有较好的鲁棒性。(本文来源于《计算机工程》期刊2011年22期)
陈雁翔,刘鸣[8](2010)在《基于发音特征的音视频说话人识别鲁棒性的研究》一文中研究指出人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了一个基于动态贝叶斯网络的语音与唇动联合模型,并通过音视频双模态的多层次融合,实现了说话人识别系统鲁棒性的提高.音视频双模态数据库上的实验表明了,在不同语音信噪比的条件下多层次融合均达到了更好的性能.(本文来源于《电子学报》期刊2010年12期)
卜庆凯,胡爱群,刘威[9](2009)在《基于音/视频特征的足球视频体育事件交互式检索方法》一文中研究指出本文提出了一种交互式足球体育视频事件检索方法。在该方法中,首先从音频和视频中提取四种类型的特征,计算出它们的均值和标准差,并把这八个数据编码成一个染色体,建立与视频文件的索引。然后,利用交互式遗传算法实现足球体育视频事件的检索。首先,系统从数据库中随机地选取N个视频文件供用户观看与选择;然后,系统根据用户所选视频提取相应的染色体,并对这些染色体进行重组操作得到目标染色体;其次,把目标染色体与数据库中的所有染色体进行比较,利用欧式距离计算出它们的相似度,从中选取N个最相似的染色体对应的视频为下一代视频;最后,不断迭代上面的过程,直到得到用户想要的视频。通过对包含有400个视频事件的数据库的实验,证明该方法能够有效地检索足球视频数据库中的视频文件,准确率达到89%。(本文来源于《信号处理》期刊2009年07期)
宋培岩,蒋冬梅,王风娜[10](2009)在《基于发音特征的音/视频双流语音识别模型》一文中研究指出构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、视频单流DBN模型比较了在不同信噪比情况下的识别效果。结果表明,在低信噪比情况下,基于发音特征的音/视频双流语音识别模型表现出最好的识别性能,而且随着噪声的增加,其识别率下降的趋势比较平缓,表明该模型对噪声具有很强的鲁棒性,更适用于低信噪比环境下的语音识别。(本文来源于《计算机应用研究》期刊2009年07期)
音视频特征论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着人们生活节奏的加快和网络信息技术的迅猛发展,对新闻视频节目的存储和再利用需求日益剧增,如何将较长的新闻视频节目按其内容拆分成多个新闻条目成为了一个有意义的课题。提出了一种基于音视频特征的新闻拆条算法,仅提取了新闻视频在视觉、音频上的基本特征即主持人特征和音频静音段特征进行分析。通过人脸识别提取主持人特征,使用短时能量和过零率提取静音特征,并对其加以条件筛选,结合这两个特征完成拆条工作。针对总计时长3 000分钟的新闻联播节目进行实验,得到较好的实验结果:召回率0.856 3,准确率0.932 6和F1值0.892 8。且视频边界的准确度精确到帧。同时分析了静音段长度阈值、限制条件和毛刺现象对于新闻拆条结果的影响。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
音视频特征论文参考文献
[1].邵晨智.基于音视频特征融合的暴力镜头识别方法研究[D].哈尔滨工业大学.2019
[2].李晨杰,朱允斌.基于音视频特征的新闻拆条算法[J].微型电脑应用.2018
[3].岳占峰.融合音视频上下文时序特征的视频片段检测[J].中国传媒科技.2016
[4].陈雪峰.应急广播自然灾害预警信息音视频呈现的特征分析[J].中国广播.2015
[5].汪玉山,史萍.基于音视频特征的电视广告单元分割技术[J].电视技术.2012
[6].丁辉,安今朝.基于SVM和归一化技术的音视频特征融合身份识别[J].电气自动化.2012
[7].吴鹏,蒋冬梅,王风娜,Hichem,SAHLI,Werner,VERHELST.基于发音特征的音视频融合语音识别模型[J].计算机工程.2011
[8].陈雁翔,刘鸣.基于发音特征的音视频说话人识别鲁棒性的研究[J].电子学报.2010
[9].卜庆凯,胡爱群,刘威.基于音/视频特征的足球视频体育事件交互式检索方法[J].信号处理.2009
[10].宋培岩,蒋冬梅,王风娜.基于发音特征的音/视频双流语音识别模型[J].计算机应用研究.2009