场景理解论文-张相怡

场景理解论文-张相怡

导读:本文包含了场景理解论文开题报告文献综述及选题提纲参考文献,主要关键词:图像分割,细粒度,特征金字塔注意力,场景理解

场景理解论文文献综述

张相怡[1](2019)在《面向场景理解的细粒度图像分割算法研究》一文中研究指出随着人工智能的蓬勃发展,无人驾驶汽车等一系列新兴产品开始问世,相关应用对图像分析及场景理解的需求也日益增加。图像分割相关研究在各个领域起着重要作用,其分割结果有助于后续的场景理解与分析,相关研究具有重要的研究意义和广泛的应用场景。本文研究的细粒度图像分割算法不仅要为图片中每一实例生成掩模,而且需要区分图片中各实例的细粒度类别信息。这就需要算法在完成细粒度分类的基础上对其进行有效分割,以辅助后续场景理解与分析,例如可以作为场景分析的注意力引入相关端到端模型。相关研究相较于传统图像分割更具挑战性。本文主要工作包括:(1)研究及对比分析了四种基于深度学习的主流分割算法:FCN、SegNet、FCIS和Mask R-CNN。其中FCN首次将全卷积网络结构应用到语义分割任务中,是一个端到端、像素到像素的分割方法;SegNet网络类似于FCN网络,其编码和解码的网络与FCN不同;FCIS采用了物体和背景位置敏感的特征提取方法,物体特征用于分割,背景特征用于分类;Mask R-CNN则在同一网络中同时完成目标检测和实例分割两个任务。复现结果表明,Mask R-CNN网络的图像分割结果较好,因此本文后续的相关研究以其作为骨架网络模型。(2)提出了一种基于特征金字塔注意力(Feature Pyramid Attention,FPA)的图像分割算法。由第二章的研究分析可知,目前的分割方法对像素位置信息的学习能力不足。本文所提算法通过金字塔结构使网络将注意力集中于Mask,直接对Mask学习,而非对特征图进行学习,最大程度地保留像素级的位置信息,从而充分利用学习到的上下文信息,提高生成Mask的质量。实验结果表明,本文所提基于特征金字塔注意力机制的算法对于图像中小尺度目标的分割结果较好。(3)提出了一种基于全局特征金字塔注意力(Global Feature Pyramid Attention,GFPA)的细粒度图像分割算法。传统图像分割算法只能对粗粒度实例类别加以区分并生成Mask,而对于同一大类的细粒度类别信息不能加以区分。为了实现细粒度图像分割,我们改进了第叁章所提的FPA注意力模型,通过在FPA模型中增加全局池化模块,构建了全局特征金字塔注意力。基于偏监督学习训练模式,我们采用Open Images V4数据集对所提网络的分类分支单独训练,以得到细粒度的类别信息。而Open Images V4数据集只对物体的类别和边界框进行了标注,所以在训练Mask分支时我们仍采用COCO数据集对网络进行训练,最后通过两路网络的协同和知识迁移,实现细粒度的像素级分割。实验结果表明,与Mask R-CNN相比,本文所提算法可在实现细粒度分类的同时对其进行像素级分割。(本文来源于《北京交通大学》期刊2019-09-22)

胡彧璇[2](2019)在《关联生活场景,理解运用词语》一文中研究指出语文课堂上,教师力求将词语的理解和运用跟学生的生活关联起来,在《语文课程标准》的指导下,遵循儿童身心发展规律,努力使枯燥的词语理解与运用变得生动有趣。学生学习语文,获得词语,获得语言,获得自己,激荡生命。(本文来源于《天天爱科学(教育前沿)》期刊2019年08期)

陈航艇[3](2019)在《中科院语言声学与内容理解重点实验室团队获得DCASE2019音频场景比赛第一名》一文中研究指出7月1日,由电气和电子工程师协会(IEEE)声学信号处理技术委员会(AASP)组织的声学场景识别与事件检测(DCASE2019)比赛公布成绩,中科院语言声学与内容理解重点实验室的团队获得了音频场景识别子任务(Task 1A)的第一名。本次参赛团队的指导老师为张鹏远研究员,团队成员包括陈航艇、刘作桢、柳宗铭等人。DCASE2019挑战赛设置了声学场景检测、音频事件标记、音频事件定位和检测、室内音频事件检测、城(本文来源于《网络新媒体技术》期刊2019年04期)

高玉潼,原玥[4](2019)在《基于超像素分割的实时野外场景理解》一文中研究指出提出了一个实时野外场景理解算法,可以广泛地应用于自主野外环境探索、辅助驾驶系统等方面.为了提升分类算法的速度和精度,采用快速的超像素分割来对场景进行预处理,然后针对每个超像素区域提取HSV颜色特征、LBP纹理特征和EOH边缘梯度特征构建其多维特征向量,并采用多类Real AdaBoost算法进行特征训练得到场景分类器.实验证明,提出的算法不仅具有良好的实时性,同时由于采用超像素进行分割预处理,有效地提升了对场景中不同类别的分类精度.(本文来源于《沈阳大学学报(自然科学版)》期刊2019年03期)

刘佳媛[5](2019)在《基于场景理解的汉语词汇学习软件的设计与实现》一文中研究指出中文的全球化普及己经成为了一种必然趋势。掌握汉语词汇是学好汉语的关键因素之一。然而,市场上的词汇学习软件目前存在着许多缺点,例如学习内容与学习环境脱轨,这使得词汇含义抽象导致低效学习。为解决这一问题,提髙学习效率,本文采用基于深度学习的场景理解算法,从学习环境中自动生成汉语词汇学习列表,设计了一种新型汉语词汇学习软件。该算法首先检测并识别由摄像机捕获的场景图像中的对象,并生成包含候选汉字的词汇表,用于从所识别的对象的信息学习。此外,列表中的每个字符都与在线搜索的学习材料相关。这种方法的优点在于它建立了真实场景中词汇与对象之间的关系,从而解决了词汇学习行为与现实环境脱节的问题.最后,根据情景学习和多渠道记忆学习理论,设计并实现了第二语言汉语词汇学习的演示软件。具体的工作内容如下:1.自然场景目标对象的自动检测和识别.介绍了一种深度学习的方法,并且将它应用到自然场景目标对象的自动检测和识别中,最后实现并展示了识别效果。其核心内容是对场景的理解。具体而言,它指的是对学习者学习环境中目标的认识和理解。最终目标是提取由所理解的对象的名称和数量检测到的信息,并使用处理结果作为元数据作为对下一个中文词汇表的输入来执行适当的处理。对象识别分为以下几个步骤:1.数据集准备。2.将其输入预先训练的神经网络以获得相应的特征图。3.为特征图中的每个点设置预定的ROI以获得多个候选ROI。4.这些候选ROI被发送到RPN网络以进行二进制分类和BB回归,并且一些候选ROI被过滤掉。S.对剩余的ROI执行ROIAIign操作。6.最后,对这些ROI,BB回归和MASK生成进行分类。首先,准备数据集。本文使用MS COCO数据集将120k数据集划分为80k训练集,35k验证集和5k测试集,训练集中有82,081张图片。COCO数据库共有81个类别。接下来,将在Keras深度学习框架上构建一个神经网络。这里使用的MASK R-CNN是一个两阶段框架,第一阶段扫描图像并生成提议框,第二阶段对提议框进行分类并生成边界框和掩码。具体深度学习流程图如下:此时,我们已经有了明确定义的神经网络结构,因此我们可以将样本数据作为网络的输入进行训练。通过批量迭代训练,我们可以得到成熟的网络模型参数。训练步骤如下:1.从图像训练数据集文件夹中读取每个图像,在读取过程中保留其文件夹信息,并根据其灰度值将图像转换为张量。每个文件夹代表一个单独的类别,该文件夹中的所有图像属于同一类别。2.将所有分类保存在字典中,并按1-81对它们进行编号。使用该数字查询字典中的特定类别,并将类别的标识转换为张量。3.根据每个图片的文件夹信息,对应于类别标识符,将新的键值对插入队列中,并且训练样本中的每个图片与其类别标签正确关联。4.确定队列中的最小样本数,对队列进行分区,并确定队列中的训练样本图像按批量大小输入训练网络。5.使用Mask R-CNN进行训练。6.收敛后获得成熟的模型。当学习者将图像从终端上传到后台服务器时,服务器将图像的灰度值矩阵作为输入提交给分类器到网络。分类器通过使用已经学习的网络参数来提取和识别上载的图像,并预测分类结果。最后,输出具有图像分类预测结果的最大概率分布值的一个类别标签作为图像类别结果。我们可以看到这张照片中的一些常见物体,如床,灯,椅子.手提包等。所以经过深度学习识别.我们可以看到识别结果如下。可以看出,测试图像中的每个对象都己被识别和预测.这是基于该深度学习算法的优越性和自动分割功能,我们可以肴到侮个对象都被准确地识别和分割。2.生成词汇学习列表。经过深度学习,我们获得基于COCO数据库和预测参数的训练模型。此时,我们需要输入我们需要检测的图像,并将结果输出保存为单词列表。具体方法是:1.输入需要预测的图像大小。2.输入训练模型保存的路径和文件名。3.加载要预测的图像。4.将图像格式转换为我们需要的矩阵格式。5.将数据格式转换为可以计算的float32格式。6.转换力指定的输入格式的形状。7.将预测结果定义为具有最大logit值的分类。8.使用softmax获取概率。9.获得标签位置的最大概率。10.定义Savar类。11.加载检查点状态,这里将获得最新训练的模型。12.加载模型和训练过的参数。13.获取文件名保存模型时迭代的轮数。14.获取预测结果并获取标签名称。我们己经能够识别COCO数据集中与每个标签相对应的对象的名称。此时,我们将这81个类别存储在".name"类型列表中。目前,我们已经有了一个英文单词列表。接下来,根据81个英语词汇表的序列号,我们还创建了一个中文词汇表。两个词汇表是根据序列号对应的关系。通过这种方式,创建了基于COCO数据库的中文词汇表。3.扩充列表学习资源。但是,COCO数据库中的词库数量有限,因此为了扩展词汇量,我们使用了一个额外的子类别。获取中文词汇表与英语词汇表一致,我们可以创建一个新的".name"文件,使文件和以前的中文词汇表具有相同的序列号。通过序列号,我们可以从主类词汇表中获取子类词汇表。在识别出类别的词汇后,将显示出查询词汇表下的相应子词汇列表。另外,本文还加入了在线学习资源,即通过点击相应子词类别中显示的中文词汇来链接与中文词汇对应的图像搜索引擎搜索结果。类似地,实现过程为将每个子类词汇表及其相应的网络URL通过序其列号来链接。4.结合情景学习策略和多通道学习策略实现了演示软件.系统实现的步骤分为以下几个步骤:1。将准备好的资源文件和训练好的模型导入系统。2.创建主界面并添加“开始"按钮。3.创建主学习界面,包括打开图片,检测图片,显示图片的中文名称,文本检测和语音播放。4.创建子类词汇表接口,包括词汇表的超链接。第一个是登录模块,它只有几个文本组件和一个按钮组件。文本组件包括软件的中文名称和相应的英语解释。适合初学者熟悉界面,简单明了,不需要登录和注册,可以直接使用,非常方便。第二个是词汇学习的基本模块。该模块有六个按钮元素和叁个文本框元素和一个轴元素。按钮组件分别提供以下功能:1.打开图像,主代码实现从本地计算机文件夹打开图片的功能,并将其显示到轴组件。2.检测,主要代码实现功能是调用己经训练过的深度学习模型来识别检测到的打开图像中的对象。并根据区域的大小,选择图片中最主要的对象。3.查看单词。此组件的功能是在右侧的空白文本框中显示检测到的对象类名称。4.检测正确或错误结果,其主要功能是在右侧提供一个可编辑的空白文本框,并将文本框的输入与标识类名称进行比较。播放,通过类名的名称调用直接播放音频数据库中的音频。6.相关词汇,该组件的功能是打开扩展学习模块。此主词汇学习界面,结合了多通道学习策略,通过语音播放,文本显示和自然场景图像学习等功能,将多个学习通道结合起来。因此,使用多通道记忆方法,可以加深学习者的词汇记忆。该软件还增加了文本验证反馈功能,使学习者能够加深和巩固记忆,提升记忆效果。同时,还结合了情景学习策略,将视觉捕捉的图像信息和文本信息直接联系起来,将学习者置于学习环境之中,提升学习效果。第叁个是扩展学习模块。该模块由与主词汇列表对应的子词汇列表和对应的URL链接组成。通过这种扩展学习的方法,可以在学习者的文本词汇与图像之间建立思维联系,同时丰富词汇学习者的词汇量,加深学习者对基本词汇的理解和记忆。5.学习效果检验。首先,本文将现代汉语词典与本文所设计的词汇学习软件的学习效果进行了比较,以检测所设计的学习软件是否能提升学习效率。从图中可以看出,我们设计的软件明显优于传统的学习软件。在相同的时间内,我们可以使用我们的软件来掌握比传统软件更多的新词。关于忘记学习单词的问题,也是在相同的时间长度内,我们设计的忘记速度的软件比传统软件慢得多。换句话说,我们设计的软件具有"学得更快,记忆更久"的特点。此外,根据调查问卷,收集得到了本文设计软件的优点统计图:根据用户调查的反馈,我设计的软件的最大优点是它不仅是一个单词搜索软件,而且是一个简单易用的学习软件,可以随时随地学习汉语单词。但最大的缺点是它无法为中文相关的考试来备考。本文主要工作也是本文的创新点如下:1.将深度学习方法应用于汉语学习的词汇学习软件中,由此实现了情景学习的学习策略,将学习者置于学习环境中,将学习对象与学习环境相互联系,解决了学习与现实脱轨的问题。2.自动生成了基于自然环境的词汇学习列表,并衍生生成了子词汇学习列表,让学习者能够利用列表资源进行学习,从而加深和扩展了学习效果,丰富了学习的途径。3.结合多通道学习策略和情景学习策略,设计并实现了词汇学习演示软件,实验结果证明,本文所设计的词汇学习软件的学习效果明显优于传统学习词汇软件的学习效果。(本文来源于《华中师范大学》期刊2019-06-01)

王思强[6](2019)在《对抗场景中的意图理解与决策设计方法研究》一文中研究指出在对抗场景下,机器人自主理解敌方意图,并根据理解到的意图进行决策是实现机器人自主控制的核心技术。ICRA RoboMaster人工智能挑战赛是首次将人工智能与机器人结合起来的尝试,对未来机器人智能化有着重要的意义。本文以ICRA RoboMaster人工智能挑战赛为背景,对对抗场景下的敌方机器人意图理解和我方机器人决策算法设计进行研究。论文的主要工作如下:首先,给出坐标系的定义及坐标系间转换关系,建立轮式机器人的运动学模型,给出意图理解和决策问题的数学描述。其次,基于数据驱动的方法构建了意图理解问题框架,使用仿真环境和实验环境中采集到的数据进行了层次化数据集构建。再次,提出了基于热度地图的敌方意图抽象;设计了基于长短时记忆和基于序列相似性分析的两种意图理解算法,仿真结果说明了意图理解算法的有效性。然后,提出了基于意图理解的分层有限状态机和强化学习两种决策算法,仿真结果说明了算法的有效性和稳定性。最后,搭建了RoboMaster AI实验平台,设计实验验证了所提出的意图理解算法和决策算法的有效性,并对实验结果进行了分析。(本文来源于《哈尔滨工业大学》期刊2019-06-01)

回天[7](2019)在《场景理解神经网络模型的研究》一文中研究指出根据图像场景内容自动生成描述语句是计算机视觉领域的热点问题,对于该问题的研究可以帮助机器更好的理解图像。本文针对生成符合汉语语法规则的描述和在图像内容匮乏时利用典型文字标语生成描述两个问题,基于Faster R-CNN、CNN和LSTM分别提出:(1)结合汉语词性分类的图像场景描述:首先,收集数据并为每张图像附上一句汉语描述,以量词、动词、名词和场景四种分类方式统计字词内容,叁类词性分别对应物体的属性、状态和类别,场景类则对应图像背景,再搭建能够体现字词含义的词性类迁移学习样本和场景样本;然后,利用迁移学习样本得到词性分类的CNN,在其基础上结合Faster R-CNN训练得到相应的词性检测器,搭建CNN训练场景类样本得到场景分类器;最后,提取每个句子所包含的词性标签与场景标签,对同属性内多个标签进行全排列得到多标签-句子匹配表,利用LSTM进行匹配训练,完成语序匹配与数词、介词记忆的过程。联合上述各检测器、分类器和LSTM构成图像场景描述模型。LSTM多标签-句子匹配准确率达到100%,对比实验表明迁移学习后的各检测器准确率分别提高了2.62%、3.56%和3.16%,平均准确率提高了3.11%,经过优化后网络的场景识别率提高了5.67%。(2)结合典型文字标语的图像场景描述:首先,搭建了印刷体汉字字符数据集并训练CNN得到了字符分类网络;然后,搭建了典型文字标语数据集并对字符分类网络进行迁移学习得到了相似主题标语的分类网络;最后,搭建长短期记忆网络实现多词条到句子描述的映射。联合CNN和LSTM构成图像场景描述模型。实验结果表明具有汉字字符分类能力的CNN在典型文字标语的迁移学习上更具针对性,两个数据集上的准确率为分别提高了5.74%和3.74%,LSTM中词条到句子描述的匹配度为100%,图像场景描述模型的准确率为97.23%。论文从局部理解的角度出发,着重解决了生成符汉语合语法规则的描述问题以及在图像内容不充足时根据典型标语生成描述的问题。实验基于神经网络算法,通过小规模训练的方式对图像内容进行识别与检测,完成了字词到图像内容的具象化以及图像内容到字词的抽象化两个过程。(本文来源于《新疆大学》期刊2019-05-26)

姚拓中,左文辉,安鹏,宋加涛[8](2019)在《基于多重语义交互的递归式场景理解框架》一文中研究指出传统基于前馈设计的视觉系统已经非常普遍,但其存在的一大缺陷是某个环节出现的错误无法被及时修正,从而影响系统的最终性能。为此,提出了一种简易的交互式框架,其特点在于场景语义的不确定性能够通过不同的视觉分析过程协同工作实现求解和优化。在该框架中,分别使用了3个经典的场景理解算法作为视觉分析模块,不同模块之间利用彼此输出的表面布局、边界、深度、视点和物体类等上下文语义之间的交互以实现各自性能的渐进式提升。提出的方法不需要人为设置约束条件,可根据需求插入新的模块而无须对原有框架和算法进行大的修改,具有良好的可扩展性。基于Geometric Context数据集的实验结果表明,这种基于本征信息交互的反馈式设计通过多次递归后能够有效弥补前馈式系统存在的不足,其中表面布局、边界和视点估计的平均精度提升了5%以上,而物体类的平均检测精度也提升了6%以上,其可成为未来改进视觉系统性能的途径之一。(本文来源于《计算机科学》期刊2019年05期)

王星[9](2019)在《基于多关注度模型与拷贝机制的视觉场景理解方法研究》一文中研究指出多领域交叉学习趋势日益增强,趋向于实用化的研究日益增多。其中,最受学者关注的一项研究是在辅助医疗、辅助教育等领域存在巨大潜力的视觉场景理解技术。目前,对于视觉场景理解任务已经开展了大量研究,而基于深度学习的视觉场景理解模型是目前研究的重点。该模型引入机器翻译相关思想,并引入了编码-解码框架,它不仅改变了基于目标检测的传统模型,还将视觉场景理解任务转化为端到端的“翻译”任务;随后向视觉场景理解任务中引入机器翻译另一重要模型——注意力模型,该模型通过在不同时刻,对同一组特征图谱的不同区域进行重要程度打分,并使用打分结果的高低决定下一关注位置。但是在实际应用中系统或用户所要面对的对象和场景是变化的、不可预知的,而现有数据集纵使包含多种对象类别和应用场景也不能改变描述性能受限于数据集与语言模型的现状。若从扩充数据集入手解决这个问题不仅极为困难,而且也会带来过度的研究损耗。因此,为了提高视觉场景理解模型的泛化能力和鲁棒性,本文从多特征融合与多模型联合两种角度提出了两种视觉场景理解模型的改进方案。(1)针对传统的视觉场景理解模型在编码阶段使用最后一层卷积层特征编码上下文向量而引起的图像语义缺失,图像关注位置定位不准确等问题,提出了基于多注意力机制的视觉场景理解模型。该模型主要考虑了注意力机制在不同时刻对同一特征图谱的不同区域具有不同注意力的特性,将空间注意力模型和语义注意力模型引入视觉场景理解任务,并从隐藏层和特征通道两方面入手以提高对象定位准确度;另外,本模型借鉴目标检测中使用多层特征来提高模型性能的经验将多层特征融合技术加入到视觉场景理解模型中,并使用新生成的特征图谱编码上下文向量。实验结果表明,改进后的网络模型不仅解决了图像关注位置不准确的问题,还提高了描述准确度。(2)传统视觉场景理解模型在相继增加编码-解码框架、注意力机制后已取得突破性进展,但描述性能过分依赖于训练数据集和语言模型的问题依然没有解决。针对此问题,本文提出基于正则化与拷贝机制的视觉场景理解模型。该模型首先借鉴人们交流中往往会“拷贝”对方话语中的词汇或长短语来完成对话,因此在本模型中考虑增加一个称为拷贝机制的辅助网络来实现图像内容向描述结果的拷贝。另外,为了保证解码过程中图像信息的完整性引入正则化机制,该机制可以通过重构上一时刻的隐藏状态来激励当前隐层获得更完整的图像信息,并对LSTM网络起到正则作用。随后,通过在Flickr30K和MSCOCO数据集上的实验对该模型进行充分了验证,并证明该模型有效的解决了描述泛化能力不强等问题。(本文来源于《西安邮电大学》期刊2019-05-01)

徐俊杰[10](2019)在《基于视觉的丘陵山区田间道路场景理解和障碍物检测研究》一文中研究指出机器视觉系统是智能农业机械携带的主要环境感知装备之一,其主要功能是进行对可行驶区域、障碍物或作物的检测,进而实现智能农机自动导航和避障。在丘陵山区田间场景下,道路宽度不一,形态变化复杂、曲率大,路面起伏颠簸,路内路边杂草泥土等障碍物散布,这些特征给智能农机在田间道路上的自动导航和避障带来很大的困难。本文针对田间非结构化道路迂回多变、无车道线和显着边界的特点,提出基于空洞卷积神经网络和双目立体视觉结合的田间道路及障碍物识别方法,为丘陵山区智能农业机械的基于机器视觉的导航和避障提供实践依据。本文的主要内容和结论如下:(1)视觉系统平台搭建。以前期研制的自动行驶田间道路运输车为试验平台,安装锐尔威视公司量产的RER-1MP2CAM002平行双目立体视觉相机,使用高性能PC机作为图像处理系统,集成各类硬件和软件设备,搭建了本文的图像语义分割和障碍物检测平台。在分析丘陵山区田间道路图像特点的基础上,将田间道路场景对象分为“背景、道路、行人、植被、天空、建筑、牲畜、障碍、水塘、土壤、杆”11种类别并采集图像建立数据集,针对CNN训练中容易产生的过拟合情况,使用数据增强操作增加数据量。(2)空洞卷积神经网络构建。丘陵山区田间道路场景复杂,场景中目标种类较多,道路边缘大多覆盖有杂草和农作物的枝叶,道路上的阴影变化频繁。经典的全卷积神经网络(fully convolutional networks,FCN)是由传统的分类网络改编而来,其语义分割效果不能满足田间道路的像素级语义分割。提出使用空洞卷积神经网络(dilated convolutional neural networks,DCNN)进行丘陵山区田间场景的图像分割。以传统FCN中VGG-16网络为基础,去除分类网络中不利于像素预测的部分,修改局部卷积层后,提出预测精度更高的前端模块,并构建了2种基于空洞卷积的上下文聚合模块与前端模块相结合。(3)丘陵山区田间道路场景理解试验。在CAFFE深度学习框架搭建改进的网络和基于VGG-16的FCN-8s网络,对FCN-8s、front-end、front-end+basic和front-end+large四种网络进行对比试验,以测试构建的前端模块和上下文模块对提升预测精度的有效性。训练中采取了two-stage training方法,改善了深度学习网络训练时间长、收敛速度慢的问题。分割结果表明:改进的DCNN网络模型功能良好,其中front-end+large网络的像素准确率达到88.5%,平均IoU可以达到74.2%,分别比传统的FCN-8s网络高7.6%和8.9%;同时,front-end+large网络对田间道路阴影干扰的情况测试效果良好,说明构建的模型有较好的泛化性和鲁棒性,能完成丘陵山区田间道路图像像素级的预测。(4)基于双目立体视觉的障碍物检测。选择经典的张正友标定方法,在MATLAB的Camera Calibration工具箱内对RER-1MP双目摄像头实现标定。比照8组标定距离下的像素误差,计算并优化了摄像机的内外参数。采用Bouguet算法立体校正图像后,使用OpenCV中的半全局块匹配(semi global block matching,SGBM)算法进行双目立体匹配。使用基于视差图的障碍物检测方法排除行进道路以外的区域、道路上阴影和可通过的障碍物等干扰对象,提取了障碍物的叁维信息。经过不同距离下的障碍物检测试验和不同障碍物的检测试验后,确定了最佳的障碍物检测距离。对障碍物距离、宽度和高度的实际测量表明,其平均相对误差分别为-2.68%、-0.98%和-1.34%。(5)提取可行区域中心线。提取语义分割结果中像素准确率最高的道路部分和非道路部分,应用形态学滤波和连通域处理,获得更加完整的道路区域和平滑的道路边界;根据障碍物检测的叁维信息,判断当前道路可通过性;采用质心法获取道路可行区域的质心点,使用最小二乘法拟合导航线。在此基础上,测试丘陵山区田间不同道路形状和障碍物情况下的导航线的准确度,其相对误差在0.115~4.808%范围内,满足田间道路运输车自动行驶的导航线误差要求。本文构建的基于DCNN的田间道路场景识别模型能对田间道路进行准确的像素级识别,双目立体视觉系统对障碍物的检测可靠性较高,生成的导航路径较精确,为后续丘陵山区田间道路运输车的自动导航研究提供了基础支持。(本文来源于《西南大学》期刊2019-04-07)

场景理解论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

语文课堂上,教师力求将词语的理解和运用跟学生的生活关联起来,在《语文课程标准》的指导下,遵循儿童身心发展规律,努力使枯燥的词语理解与运用变得生动有趣。学生学习语文,获得词语,获得语言,获得自己,激荡生命。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

场景理解论文参考文献

[1].张相怡.面向场景理解的细粒度图像分割算法研究[D].北京交通大学.2019

[2].胡彧璇.关联生活场景,理解运用词语[J].天天爱科学(教育前沿).2019

[3].陈航艇.中科院语言声学与内容理解重点实验室团队获得DCASE2019音频场景比赛第一名[J].网络新媒体技术.2019

[4].高玉潼,原玥.基于超像素分割的实时野外场景理解[J].沈阳大学学报(自然科学版).2019

[5].刘佳媛.基于场景理解的汉语词汇学习软件的设计与实现[D].华中师范大学.2019

[6].王思强.对抗场景中的意图理解与决策设计方法研究[D].哈尔滨工业大学.2019

[7].回天.场景理解神经网络模型的研究[D].新疆大学.2019

[8].姚拓中,左文辉,安鹏,宋加涛.基于多重语义交互的递归式场景理解框架[J].计算机科学.2019

[9].王星.基于多关注度模型与拷贝机制的视觉场景理解方法研究[D].西安邮电大学.2019

[10].徐俊杰.基于视觉的丘陵山区田间道路场景理解和障碍物检测研究[D].西南大学.2019

标签:;  ;  ;  ;  

场景理解论文-张相怡
下载Doc文档

猜你喜欢