视频理解论文-吕秀娜,王海红,陈双

导读:本文包含了视频理解论文开题报告文献综述及选题提纲参考文献，主要关键词:词汇学习,视频缺陷,双重表征,快速映射

视频理解论文文献综述

吕秀娜,王海红,陈双^[1]（2019）在《幼儿对视频和现实联系的理解促进视频词汇学习》一文中研究指出大量有关幼儿视频词汇学习的研究发现,幼儿在视频中词汇学习的效果没有在现实中学习的效果好,这种现象被称为"视频缺陷"(Video deficit)。对于视频缺陷存在的原因,双重表征理论认为是由于幼儿不能理解符号物体的双重属性,不能将符号本身与符号代表的物体进行联系。那么通过引导幼儿对视频中的物体与现实中的物体进行联系,是否能改善他们的视频词汇学习?本研究采用经典的词汇学习范式——快速映射(Fast mapping)范式,通过叁个实验,来考察这一问题。实验1采用经典的快速映射范式考察幼儿是否存在视频缺陷。一组幼儿在实物条件下学习新词语,另一组幼儿在视频条件下学习,测量幼儿的快速映射能力和对新词语的保持能力。结果表明,不管是快速映射能力还是对新词的保持能力,幼儿在视频学习条件下的正确率都差于实物学习条件下的正确率。实验2采用调整后的快速映射范式,探讨引导幼儿建立视频中物体与实际物体的联系是否可以提高他们的视频学习效果。让幼儿每次在学习新词语前接触物体,并用语言引导其关注到这个实际物体与视频中出现的物体相同(相同条件);或者让幼儿手上拿着和快速映射范式中出现的不同的熟悉物体(不同条件)。结果表明,在视频学习条件下,幼儿在相同条件下的正确率高于不同条件。说明引导幼儿对现实与视频进行联系可以提高幼儿的视频词汇学习效果。但是,幼儿在实物学习条件下对新词语的回忆正确率仍旧高于视频学习条件,表明虽然实验操作提高了视频学习的效果,但无法完全消除幼儿的视频缺陷。实验3考察在没有语言提示的条件下,通过让幼儿接触一个与视频中物体相同的物体,幼儿是否会主动关注实物和视频中物体的关系,从而提高在视频词汇学习任务中的表现。结果表明,在对新词的即时保持方面,相同条件下的正确率高于不同条件。说明幼儿都会主动的将视频与现实进行联系。本研究发现:2-5岁幼儿的快速映射能力很好,但是保持能力较差;引导幼儿建立视频与现实的联系可以帮助幼儿理解视频中物体的双重表征,从而促进对新词的记忆保持。(本文来源于《第二十二届全国心理学学术会议摘要集》期刊2019-10-19）

曾雨桐^[2]（2019）在《含字幕的英语视频对英语听力理解的影响》一文中研究指出本文研究了用于英语听力活动的视频字幕的影响。作为最重要的沟通技巧之一,听力在英语学习和教学中起着至关重要的作用。此外,多媒体技术和计算机科学的快速发展为我们提供了改变英语学习和教学方式的机会。英语学习者会接触到所有不同格式的视频资料。论文中的研究问题为:用于英语听力的字幕视频对英语学习者有积极或消极的影响吗?这种影响是否因不同层次的学习者而异?(本文来源于《北方文学》期刊2019年29期）

孙田琳子,沈书生^[3]（2019）在《面向理解的视频学习资源内容设计框架》一文中研究指出视频是在线课程的主要呈现形式,如何设计出更易于学生理解的视频学习资源是互联网时代提出的新需求。文章分析了当下视频学习资源的理解需求与现实困境,并借助解释学理解理论建构出面向理解的视频学习资源内容设计框架。研究提出资源设计者应关注视频的中介价值,立足过程设计视角,通过"预理解""多理解"和"融理解"叁个理解阶段,以及知识铺垫、情境导入、问题展开、知识应用和协作互评五个内容环节,逐步促进学生对视频学习资源内容的理解;最后,通过具体的教学案例解释该设计框架的运用路径。研究表明,该设计框架有助于学生对视频内容的理解,教学者应意识到如今视频学习资源的角色转换,挖掘其中的中介文本价值,以促进在线学习的理解效果。(本文来源于《电化教育研究》期刊2019年09期）

王丽婷^[4]（2019）在《图像与视频的有趣性理解和预测方法研究》一文中研究指出随着计算机视觉与人工智能的快速发展,数字多媒体的日益普及,人们对生活追求的不断提升,带来了数据的海量激增,但现存数据的质量良莠不齐,通过对有趣性的研究与预测,能够帮助人们高效地完成相关信息的检索,对于广告推广、视频摘要与点播等方面具有积极的作用。本文基于机器学习方法,从图像与视频有趣性的二分类预测角度出发,构建了相应的预测模型,使得计算机能够模仿人类的感知方式,自动地完成图像和视频的有趣性二分类任务。对于图像有趣性二分类任务,为了能够描述有趣性这个概念,使其转化为可计算的问题,本文构建了一个图像有趣性预测框架。该框架首先确定了不寻常、美学和一般偏好叁个描述有趣性的重要线索,每个线索由不同类型的特征构成,其中不寻常由离群系数和熟悉度构成,美学由激励、纹理、颜色、复杂度和形状特征构成,一般偏好由局部特征和场景描述符构成;其次,使用判别相关分析或多集判别相关分析对同类型特征进行融合;最后,采用简单多核学习方法对图像有趣性进行分类。实验结果表明本文构建的有趣性预测框架,能够较全面地捕获图像的有趣性信息,取得较高地分类准确率,具有良好的预测性能。对于视频有趣性二分类任务,为了解决静态特征忽略视频动态信息,无法全面表述视频视觉信息的问题,本文采用静态特征与动态特征相结合的方式来表征有趣性,并采用AdaBoost分类器对视频有趣性进行分类。其中,基于视频帧提取颜色直方图、SIFT、HOG、Gist和LBP特征作为静态特征;基于视频帧在XY、XT和YT叁个正交平面上建模,分别提取叁个平面上的LBP特征,并将其串联作为动态特征来描述视频的时空信息。实验结果表明本文采用的动静结合方式弥补了视频动态信息缺失的不足,对于视频有趣性具有较好的分类效果。(本文来源于《西安理工大学》期刊2019-06-30）

韩婷婷^[5]（2019）在《视频理解中人体动作的细粒度表示与应用》一文中研究指出计算机视觉的终极目标是使机器能够理解视觉媒体,包括绘画、照片和视频等。由于深度学习技术的高速发展,我们目前几乎可以很好地解决静态图像的理解任务,如图像分类、目标检测、甚至图像的语义分割。然而,视频的理解却是最复杂且富有挑战的,其关键原因在于额外的时间维度的信息,尤其是当涉及到非常相似的类别的区分时,问题则变得更加困难。这属于细粒度动作分析的问题,通常要求模型能够捕获相似的动作之间在局部表观和运动上的微小差异。细粒度动作的分析有许多潜在的应用,例如,精确的动作分类与检测,智能体育分析,行人重识别,智能的人机交互等。在对相关研究现状的分析基础上发现细粒度动作分析的发展主要受到叁方面挑战的制约:一个难点来自于底层动作特征到高层语义之间的语义鸿沟;另一个是如何刻画整体上高度相似的动作间的局部微小差异;最后是特征学习时时域信息建模的缺失。对于细粒度动作进行分析,时空上下文的建模比以往显得更为重要。本文针对细粒度动作分析中的上述问题,分别从特征选择和特征学习的推理层面进行研究,期望挖掘能够有效捕捉高层语义概念的中层动作模式;提取对于局部差异更加敏感细粒度动作表示;对时序信息进行有效建模进一步提高对细粒度动作的理解能力;具体地,本文的主要研究内容和主要贡献分为以下叁个方面:首先,本文以舞蹈动作为例,挖掘其隐含的细粒度“风格”语义。为了建立底层动作特征到高层语义之间的桥梁,本文提出自动挖掘一组有意义的中层动作模式来构成一个全新的中层表示,舞蹈元(Dancelets)。为了保证构建的中层表示的有效性,在舞蹈元挖掘过程中,依次利用Normalized Cut和线性判别分析方法来约束舞蹈元的代表性和判别性。最终,本文设计了一个基于自动挖掘的舞蹈风格的视频推荐方法。为了验证所提出的细粒度语义挖掘方法的有效性,本文构建了一个细粒度动作分析数据集,HIT Dances。在该数据集上的大量实验结果证明了所提出的基于风格的舞蹈视频推荐方法的有效性。其次,为了定位细粒度动作间的局部差异,本文提出一个全新的细粒度动作表示,动作显着约束的深度卷积描述子(ADD)。由于细粒度动作通常在表观和运动模式上共享了非常高的相似性,仅在局部区域存在微小的差异,受到人类视觉系统的启发,本文提出将视觉关注机制整合到细粒度动作特征提取过程中,以actionness(一种动作显着性估计)为线索提取特征。不同于以往的动作表示模型全局地、一致地从整个视频内容中抽取特征,本文提出结合深度卷积神经网络中间层特征,从更有可能包含动作的子区域进行特征抽取,从而使得ADD能够捕获细粒度动作间的微小差异,具有更强的表示能力。在HIT Dances数据集上量化的实验结果表明ADD显着地超越了传统的基于CNN的动作表示方法。在JHMDB和UCF101两个一般动作识别数据集上的大量的实验还表明,将ADD与传统的动作表示相结合后,对于一般动作的识别任务也能产生明显的促进作用,提高了识别的性能。此外,利用ADD描述子,本文验证了动作数据中存在的稀疏特性。最后,本文提出利用卷积神经网络(CNN)来端到端地学习细粒度动作表示。为此,叁元组约束被整合到模型的训练过程中。叁元组损失允许我们通过训练将输入动作映射到期望的嵌入空间,以使得在嵌入空间中的L2距离与动作之间的相似性相对应,保证相同类别的动作的距离更小,不同类别的动作具有更大的距离。此外,鉴于不同的动作可能共享相同的动作模式,但动作模式往往出现在不同动作的不同时间位置的事实,本文将这种能够促进细粒度动作识别的时序差异嵌入到特征学习中。具体地,本文提出时序叁元组损失,并与分类约束相结合,联合地对网络进行训练,最终使得网络的输出有效地嵌入时间上下文信息。本文提出了一个大规模可用于端到端网络训练的细粒度动作数据集,Figure Skating,并设计了多组实验来验证所提出的特征表示。实验结果表明,利用时序叁元组进行联合学习得到的细粒度动作表示能够精确地区分细粒度动作,并且能够在相似动作干扰的情况下有效地发现相同类别的动作。通过上述研究,本文对细粒度动作的表示和相关应用进行了深入地探索,为细粒度动作分析所面临的关键问题提供了切实可行和有效的解决方案。结果表明:自动挖掘的中层表示能够有效地捕获高层的语义概念,基于细粒度风格语义的舞蹈匹配能够产生更具有个性化的视频推荐结果;通过引入视觉关注机制,可以提取更具有判别性的细粒度动作特征,从而提升细粒度动作识别的性能;联合地优化分类和叁元组约束有效增强了细粒度动作嵌入表示的判别性,嵌入时空上下文差异进一步提升了动作表示的性能。此外,本文实现了在细粒度视频推荐、细粒度动作识别以及智能教练系统中细粒度动作搜索的应用。(本文来源于《哈尔滨工业大学》期刊2019-06-01）

王涛^[6]（2019）在《视频内容理解研究与应用》一文中研究指出随着互联网的广泛应用和现代信息处理技术的发展,视频数据呈现出爆炸式的增长趋势。由于视频数据具有结构复杂、内容丰富、非结构化等特点,人们对海量视频数据处理能力有限,其中潜在的信息没有被充分挖掘,因此需要采用更加智能化的技术对其进行处理。视频内容理解是智能化处理视频的主要手段,也是计算机视觉领域的一个研究热点和难点,涉及到的学科包括模式识别、图像处理、计算机视觉、人工智能等,在军用、民用及医学等方面有着重要意义,广泛的应用前景和潜在的经济价值。本文主要基于视频关键帧提取和目标检测实现视频内容理解,并通过视频内容理解在自动驾驶中的实际应用为例,阐述视频内容理解技术和应用。本文工作由以下五个部分组成:(1)针对视频数据非结构性、难以处理的特点,利用HSV直方图法将抽象复杂的高维数据转换为可以量化的低维数据,从而减少了数据量。(2)结合视频数据相邻帧具有相似度高的特性,将关键帧提取转换为聚类问题,分别设计了K-Means、凝聚层次聚类和密度峰值聚类算法来提取视频关键帧,并分析了它们的聚类效果,同时对比了压缩域关键帧提取算法和非压缩域关键帧提取算法的结果,最终得到了一种综合性能较好的视频关键帧提取算法。(3)为了保证聚类的质量,利用轮廓系数SC(Silhouette Coefficient)计算最佳聚类簇数,以确定初始的聚类中心和簇的数量。(4)为了提高目标检测模型的准确率,对数据集进行了剪枝,使得模型能够更好地适应特定应用场景,实验表明,改进后的模型在识别准确率上有所提升。(5)结合关键帧提取和目标检测算法构建了一套完整的视频理解实验流程,以自动驾驶系统为背景对实验数据进行了分析,展示了视频内容理解在自动驾驶中的实际应用。(本文来源于《兰州理工大学》期刊2019-05-20）

万晶^[7]（2019）在《Meta分析:字幕视频能否促进听力理解》一文中研究指出本研究对国内外关于字幕视频对二语/外语听力理解的影响作用的13个研究进行了Meta分析。应用亚组分析和Meta回归分析的方法,分析了语言水平、任务类型、年龄和材料语速4个变量对综合效应的调节作用。结果显示,综合效应量大,表明字幕视频对二语/外语听力理解的促进作用是显着的。但字幕视频在显着促进中级学习者的听力理解的同时,却会阻碍初级学习者的听力理解。而在特定范围内,字幕视频对听力理解的促进作用随着年龄的增长而增强。(本文来源于《语言教育》期刊2019年02期）

王海红^[8]（2019）在《幼儿对视频和现实联系的理解促进视频词汇学习》一文中研究指出大量有关幼儿视频词汇学习的研究发现,幼儿在视频中词汇学习的效果没有在现实中学习的效果好,这种现象被称为“视频缺陷”(Video deficit)。对于视频缺陷存在的原因,双重表征理论认为是由于幼儿不能理解符号物体的双重属性,不能将符号本身与符号代表的物体进行联系。那么通过在词汇学习过程中,引导幼儿对视频中的物体与现实中的物体进行联系,是否能改善他们的视频词汇学习?本研究采用经典的词汇学习范式——快速映射(Fast mapping)范式,通过叁个实验,来考察这一问题。在快速映射范式中,被试会同时看到两个物体,一个是熟悉的物体,另一个是不认识的,同时听到一个新词语。被试可以推断新词语指的是这个不认识的物体,建立新词语和陌生物体的映射关系。实验一采用经典的快速映射范式考察幼儿是否存在视频缺陷。一组幼儿在实物条件下学习新词语,另一组幼儿在视频条件下学习,测量幼儿的快速映射能力和对新词语的保持能力。结果表明,不管是快速映射能力还是对新词的保持能力,幼儿在视频学习条件下的正确率都差于实物学习条件下的正确率。实验一的结果表明,在快速映射学习范式下,幼儿同样存在视频缺陷。实验二采用调整后的快速映射范式,探讨引导幼儿建立视频中物体与实际物体的联系,是否可以提高他们的视频学习效果。实验者让幼儿每次在学习新词语前,接触快速映射范式中将出现的熟悉物体,并用语言引导被试关注到这个实际的物体与视频中出现的物体相同(相同条件),通过这样的操纵方式引导幼儿建立视频中物体与实际物体的联系。为了和这个实验组进行匹配,对照组是幼儿手上拿着和快速映射范式中出现的熟悉物体不同的熟悉物体(不同条件)。结果表明,在视频学习条件下,幼儿在对新词的即时保持方面,相同条件下的正确率高于不同条件。说明引导幼儿对现实与视频进行联系可以提高幼儿的视频词汇学习效果。但是,幼儿在实物学习条件下对新词语的回忆正确率仍旧高于视频学习条件,表明虽然实验操作提高了视频学习的效果,但无法完全消除幼儿的视频缺陷。实验叁考察在没有语言提示的条件下,通过让幼儿接触一个与视频中物体相同的物体,幼儿是否会主动关注实物和视频中的物体的关系,从而提高在视频词汇学习任务中的表现。结果表明,在对新词的即时保持方面,在相同条件下的正确率高于不同条件。说明幼儿都会主动的将视频与现实进行联系。通过叁个实验,本研究发现:首先,2-5岁幼儿的快速映射能力很好,但是保持能力较差;其次,引导幼儿理解视频与现实的联系可以帮助幼儿对视频中物体的双重表征,从而促进对新词的记忆保持。(本文来源于《浙江师范大学》期刊2019-05-06）

刘京京^[9]（2019）在《视频模态对初中生英语听力理解的影响研究》一文中研究指出听力作为一种输入技能,在学生的语言发展过程中起着至关重要的作用,并且学生的听力理解能力与他们所采用的听力材料有着密切的关系。视频教学材料融合图、文、声、像等要素为一体,能够充分调动学习者的多种感官。视频模态辅助下的听力材料成为许多英语教师常用的听力教学工具。近年来,视频模态听力教学的研究受到广泛关注。有学者指出视频模态听力教学能使学习者得到更好的理解。但也有学者指出,视频模态并不能对听力理解起到积极作用,有时它会妨碍学习者的听力理解。本研究以输入假说理论、建构主义学习理论为指导,并借鉴国内外相关研究,旨在研究在初中英语听力教学中进行视频模态听力教学的可行性,并回答以下叁个问题:1.初中生对视听材料的认知水平如何?2.以音频模态和视频模态教学,初中生的听力理解成绩是否具有显着性差异?3.初中生对视频模态听力教学的态度如何?本研究采取了问卷调查,实验和访谈的研究方法,以伊宁市十九中初叁两个班级的100名学生为研究对象,其中50名学生为实验组,50名学生为控制组。首先对两个班的学生进行问卷调查,目的在于了解学生们对视听材料的认知水平如何。实验前对两个班的学生进行听力的前测,其结果显示两组学生的听力水平相当。其次,对实验班和控制班的学生分别进行为期10周的视频模态听力教学和常规听力教学。实验后对两个班进行听力后测,并从实验班选取了6名学生进行访谈,了解学生们对视频模态听力教学的态度如何。最后,通过统计两个班的问卷,听力前后测试和访谈的结果,并采用SPSS软件对所收集来的问卷和前后测试数据进行统计分析,从而得出结论。研究结果发现:从多元识读能力来看,初中生已具备一定的视听材料理解和判断能力,这为视频模态听力教学提供了基础。以音频模态和视频模态教学,初中生的听力理解能力具有显着性差异,运用视频模态教学能够提高初中生的英语听力成绩,并且初中生对视频模态听力教学持肯定态度,证明视频模态对初中生听力水平的提高有促进作用。因此,我们能从本实验中总结出视频模态应用于初中听力教学对教与学的启示,让后来研究者可以更好地深入探讨和研究,也能为广大的英语教师在英语听力中遇到的困难提供合理的解决方法及参考意见。在教学中,教师要创新外语教学手段,改进教学方法,根据学生的认知发展的规律有针对性的进行教学设计,安排教学内容,从而给学生创造出一个适当的英语学习的环境,使他们取得更佳的学习效果。(本文来源于《伊犁师范大学》期刊2019-05-01）

黄思羽^[10]（2019）在《面向视频监控语义理解的神经网络结构设计》一文中研究指出视频监控系统在公共安全、城市管理等领域发挥着重要的作用。近些年来,深度学习技术迅猛发展,深度神经网络强大的特征表达能力和端到端的训练方式成为了智能视频监控系统的极大助力。在深度学习与智能视频监控技术的结合中,如何设计有效、鲁棒和可靠的神经网络结构是其中亟待解决的核心问题。论文对监控视频中神经网络结构设计的各个方面进行了系统性的研究,涵盖对于视频中的时空语义信息和多模态语义信息进行有针对性的网络结构设计,充分挖掘、建模和融合监控视频中的丰富语义信息。论文还进一步探索了自动化的神经网络结构设计方法。在研究过程中,论文提出了一系列创新性的解决方案,通过实验验证了这些方案的有效性。论文的主要工作和贡献包括以下几个方面:1.深入研究了监控视频中时序和空间语义信息的建模和融合问题。论文研究了时空语义信息的针对性建模,分别针对目标的时序语义信息和场景的空间语义信息提出新的神经网络模型,并应用于目标轨迹预测任务上。论文进一步研究了视频中时序和空间语义信息的联合学习,提出了一种时空网络的多层次级联模型,在视频摘要任务上验证了模型的高层语义理解能力;2.深入研究了监控视频中多模态语义信息的挖掘和联合学习,在行人语义分析的上下文里提出了两个新的多模态场景语义模型,从而从监控场景图像中挖掘丰富的语义信息。论文进一步将多模态场景模型应用在人群计数任务上,以多任务联合学习的方式将这些多模态语义信息融合到深度神经网络模型里,实现密集人群数量的鲁棒估计;3.深入研究了智能视频监控的神经网络结构的自动化设计,提出一种树型神经网络结构的高效搜索方法,通过贪心策略将全局网络结构的搜索分解为局部结构的搜索问题并以迭代更新的方式高效地解决,算法搜索得到的树型结构有效地建模了属性间的相关性,适用于各类多属性预测问题。(本文来源于《浙江大学》期刊2019-04-09）

视频理解论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文研究了用于英语听力活动的视频字幕的影响。作为最重要的沟通技巧之一,听力在英语学习和教学中起着至关重要的作用。此外,多媒体技术和计算机科学的快速发展为我们提供了改变英语学习和教学方式的机会。英语学习者会接触到所有不同格式的视频资料。论文中的研究问题为:用于英语听力的字幕视频对英语学习者有积极或消极的影响吗?这种影响是否因不同层次的学习者而异?

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

视频理解论文参考文献

[1].吕秀娜,王海红,陈双.幼儿对视频和现实联系的理解促进视频词汇学习[C].第二十二届全国心理学学术会议摘要集.2019

[2].曾雨桐.含字幕的英语视频对英语听力理解的影响[J].北方文学.2019

[3].孙田琳子,沈书生.面向理解的视频学习资源内容设计框架[J].电化教育研究.2019

[4].王丽婷.图像与视频的有趣性理解和预测方法研究[D].西安理工大学.2019

[5].韩婷婷.视频理解中人体动作的细粒度表示与应用[D].哈尔滨工业大学.2019

[6].王涛.视频内容理解研究与应用[D].兰州理工大学.2019

[7].万晶.Meta分析:字幕视频能否促进听力理解[J].语言教育.2019

[8].王海红.幼儿对视频和现实联系的理解促进视频词汇学习[D].浙江师范大学.2019

[9].刘京京.视频模态对初中生英语听力理解的影响研究[D].伊犁师范大学.2019

[10].黄思羽.面向视频监控语义理解的神经网络结构设计[D].浙江大学.2019

标签：词汇学习; 视频缺陷; 双重表征; 快速映射;

视频理解论文-吕秀娜,王海红,陈双

视频理解论文文献综述

视频理解论文开题报告

视频理解论文参考文献

猜你喜欢