图像摘要论文-刘泽宇,马龙龙,吴健,孙乐

图像摘要论文-刘泽宇,马龙龙,吴健,孙乐

导读:本文包含了图像摘要论文开题报告文献综述及选题提纲参考文献,主要关键词:图像分析,image,体视学

图像摘要论文文献综述

[1](2019)在《“第十五届国际体视学与图像分析学术会议”交流论文摘要选登(一)》一文中研究指出3D image analysis in material science with particular focus on fier reinforced composites Katja Schladitz(Fraunhofer ITWM,Kaiserslautern),Dascha Dobrovolskij,Joachim Ohse,Oliver Wirjadi The development of modern high-performance materials requires a deeper understanding of the complex relations between a material’s micro-structure geometry and its macroscopic properties. Quantitative image analysis combined with stochastic micro-structure modelling is a promising approach to study these(本文来源于《中国体视学与图像分析》期刊2019年02期)

张慧明[2](2019)在《多主题的图像摘要生成方法研究》一文中研究指出图像描述生成任务(Image Caption)是一个融合了计算机视觉(CV)和自然语言处理(NLP)的综合类问题,可以简单的理解为将输入的图像翻译成关于图像内容的描述的过程。实现该任务对于机器来说具有一定的挑战性,需要将这一大问题划分为以下几个子任务:(1)识别图中目标对象;(2)找到目标对象之间的联系;(3)用自然语言陈述图像表达内容。其中理解目标对象之间的联系,并且用自然语言描述出来是实现图像描述生成任务中的重难点。该任务的应用场景非常广泛,一般是给照片匹配文字,即用户拍了一张照片,利用图像描述生成技术可以匹配到合适的文字,对于用户来说既方便检索,又省去了用户手动配文字的时间。又或者应用在帮助视觉障碍者理解图像内容等等。迄今为止,常见的图像描述生成方法大致可以分为叁大类,其中基于神经网络的是最准确,研究价值最高的图像描述生成方法。基于神经网络的图像描述生成方法一般采用编码解码结构,当利用解码器Decoder对中间编码生成词序列时,通常仅考虑训练文本的词分布,假定了在任何主题下的词分布都是一致的,并没有考虑主题对词分布的影响,导致解码器拟合了一般意义上的词分布。事实上,不同主题下的词分布的区别往往非常明显。因此如何结合图像的主题以及图像特征获得更为准确的文本描述,是本文解决的第一个问题。本文接下来的工作是将同一主题下的图像生成完整的摘要,一般生成摘要的技术主要是分为抽取式和生成式,抽取式的代表算法主要是TextRank算法,但是该算法在选择句子的时候只考虑到样本之间的相似性,却忽略了摘要生成后的多样性以及摘要的信息的完整性,生成的摘要往往与分组选择句子有关,如何结合句子的分组来获取更为准确的完整的摘要是本文解决的第二个主要问题。针对以上问题,本文提出一种基于主题的图像描述生成方法TIC(Topic based Image Caption)和基于分组的多图像摘要生成方法GIC(Group based Image Caption),主要内容包括:(1)提出一种基于主题的图像描述生成方法TIC,设计了一种多主题神经网络结构,该网络结构主要由传统的NIC模型,和基于主题图像描述生成概率模型两部分组成,通过两个模型结合图像的主题以及图像的特征分别独立训练,获得更为准确的文本描述。(2)提出一种基于分组的多图像摘要生成方法GIC,首先利用TextRank算法求出同一主题下的图像生成描述的重要程度排序的情况,再设定一个相似阈值,如果两个句子描述达到相近阈值就认为这两个句子是一组,抽取句子生成摘要时假设需要抽取40%的原文档的句子,则需要取出每组的总句子数量乘以40%作为该组抽取的句子的数量,再将句子排序后生成摘要,保证摘要生成的流畅性和可读性。(3)最后,通过在MSCOCO、Flickr8k、Flickr30k等数据集上与其他几种方法进行了大量的实验验证。实验结果表明,同传统的图像描述生成方法相比,本文所提出的方法TIC适用于图像描述生成,提出的基于分组的多图像摘要生成方法在相应的评价标准上确实有所提高。(本文来源于《辽宁大学》期刊2019-05-01)

刘泽宇,马龙龙,吴健,孙乐[3](2017)在《基于多模态神经网络的图像中文摘要生成方法》一文中研究指出图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显着成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提出了一种基于多模态神经网络的图像中文摘要生成方法。该方法由编码器和解码器组成,编码器基于卷积神经网络,包括单标签视觉特征提取网络和多标签关键词特征预测网络,解码器基于长短时记忆网络,由多模态摘要生成网络构成。在解码过程中,该文针对长短时记忆网络的特点提出了四种多模态摘要生成方法 CNIC-X、CNIC-H、CNIC-C和CNIC-HC。在中文摘要数据集Flickr8k-CN上实验,结果表明该文提出的方法优于现有的中文摘要生成模型。(本文来源于《中文信息学报》期刊2017年06期)

詹昌飞[4](2017)在《无线胶囊内窥镜图像检索及视频摘要方法研究与系统实现》一文中研究指出无线胶囊内窥镜是消化道检测技术的里程碑,它不仅克服了传统消化道检测方法对于人体的伤害,而且能够对整个消化道部位进行检测,消除了小肠的检测盲区。从无线胶囊内镜问世以来,现已有超过百万例的临床检测记录,逐渐成为消化道检测领域的首选方法。无线胶囊内镜通过人工吞服,利用人体肠道蠕动提供动力,实现整个消化道的拍摄。通常情况下,整个检查过程耗时8小时,拍摄约为30000~60000幅消化道图像。通过从这些消化道图像中筛查出病变图像进行疾病诊断对于阅片医生来说,是一项繁重枯燥的工作。因此,为了有效地降低医生劳动强度,提高诊断效率,针对无线胶囊内镜的计算机辅助诊疗技术不断发展。本文针对去除无线胶囊内镜图像冗余,从图像检索和视频摘要两个方面进行了研究。图像检索旨在从庞大的无线胶囊内镜图像数据库中快速选取出医生想要的类似图像,减少医生寻找类似图片的时间。视频摘要是为了去除内容相似、代表性弱的图像,使得无线胶囊内镜图像序列的图像总帧数大幅减少,达到缩减阅片医生的诊断时间和提高诊断效率的目的。针对图像检索技术,本文基于无线胶囊内镜图像特点,提出了基于内容的无线胶囊内镜图像检索技术。针对视频摘要技术,本文提出了两种方法,分别为基于显着图的无线胶囊内镜视频摘要方法和基于卷积神经网络的无线胶囊内镜视频摘要方法。基于内容的无线胶囊内镜图像检索方法中,本文提取了无线胶囊内镜图像的颜色特征、纹理特征和Sift特征,并对颜色特征和纹理特征进行特征融合,用于描述人眼感官特性,Sift特征用于描述图像的局部细节信息。最后,通过比值法进行相似度度量,得到相似度从高到低的检索结果。实验结果显示了基于内容的无线胶囊内镜图像检索技术,能够有效地检索出类似图像,平均检索精度达到88.3%。基于显着图的无线胶囊内镜视频摘要方法中,本文在传统Itti显着图提取方法的基础上进行改进,得到适用于无线胶囊内镜的显着图提取方法。根据得到的显着图提取颜色特征与纹理特征,并进行特征融合。帧间差检测利用了突变检测与渐变检测,有效地避免了因视频渐变而遗漏缓变的视频关键帧。最终组合关键帧得到视频摘要。实验中敏感度、特异性、准确率与压缩比指标均取得了不错的结果,证明了本方法能够为无线胶囊内镜视频摘要生成提供一条可参考的方法。基于卷积神经网络的无线胶囊内镜视频摘要方法中,本文根据无线胶囊内镜视频缓变的特点,进行时序分割操作,将视频分割成时序序列集。然后,对时序段图像进行K-means聚类,去除内容相似图像,并对剩余图像进行专业医生标定,利用Alex Net卷积神经网络进行训练,得到关键帧识别模型。最后,组合得到的关键帧形成无线胶囊内镜视频摘要。实验结果证明了本方法不仅拥有较好的实验指标,而且能够有效地保留视频中的病变信息。基于上述研究内容,本文利用MFC框架实现了无线胶囊内镜图像检索与视频摘要系统,便于使用者进行实验与操作。最后,本文对整体工作进行了总结与分析,并对后续工作进行了展望。(本文来源于《北京工业大学》期刊2017-05-01)

冉炜,刘向臻,舒大龙,郭冰[5](2017)在《计算机重建颅颌面部叁维图像经颌下及颧弓切除颅底肿瘤路径研究(摘要)》一文中研究指出[目的]采用下颌升支角部截骨翻转及颧弓入路的方法为颅底肿瘤切除术提供良好入路并评价手术效果。[方法]应用经颌下及颧弓入路对12例颅底及近颅底肿瘤进行了手术治疗。术后随访1-3.5年。总结分析了叁种不同的手术径路、方法以及治疗效果。[结果]采用叁种不同的手术径路使颅底几类肿瘤都能获得足够的暴露,术野清楚、操作方便,。术中能清晰完整地显露颅底肿瘤,同时切除瘤体再行下颌骨复位后固定。术后未出现严重并发症。本组病例随访时间为1-3.5年,所有病例均健在,至今未出现颅脑症状和神经损伤以及肿瘤复发。[结论]对于颅-颌面部及近颅底的肿瘤根据其所在部位、性质及瘤体大小采用适当的入路可获得足够的显露,并达到良好的手术效果。(本文来源于《第十一次全国口腔颌面——头颈肿瘤学术会议暨2017山东省口腔医学会口腔颌面外科分会学术年会暨山东省口腔颌面外科高层论坛暨山东省口腔医学会口腔颌面一头颈肿瘤分会成立大会论文集》期刊2017-04-27)

赵烨[6](2014)在《大规模图像集自动摘要技术研究》一文中研究指出随着网络通信的飞速发展和图片共享网站的普及,互联网上的图片数量呈现爆炸式增长。然而,这个庞大的数据集合是杂乱无章,并且含有大量冗余和噪声。如何快速准确并且自动地从这样一个大规模图片集合中浏览和获取用户所需信息,已经成为迫切需要解决并且富有挑战性的问题。图像数据集自动摘要技术能够从原始的大规模数据集合中自动选取少量具有代表性的图像数据构成视觉摘要,以引导用户快速浏览或查询。本文主要从图像集摘要的代表性、多样性和自动性的角度出发,围绕着摘要产生过程中的几个关键技术进行了深入研究,具体包括图像特征描述、特征匹配和自动聚类。本文主要的研究工作和创新之处如下:(1)针对SIFT特征描述矩阵维度过高计算复杂的问题,采用加权的同心圆邻域代替方形邻域描述特征点,简化特征描述矩阵。引入了几何校验RANSAC算法对匹配点对进一步提纯过滤。为了降低RANSAC过高的时间代价,通过最优匹配点构建小样本集拟合变换矩阵,在有效的滤除误匹配对的同时,大幅降低了RANSAC的拟合时间,提高了运算效率。(2)提出了一种基于空间约束的SURF匹配优化算法,通过最优匹配点对构成旋转坐标系构建空间矩阵,并结合简化的RANSAC实现对匹配点对的几何校验,实现了高匹配精度的快速SURF图像匹配。(3)针对ATTA蚁群聚类算法易陷于局部最优解的缺点,提出了一种基于桶的ATTA蚁群自动聚类算法,通过ATTA算法对数据进行初步自组织聚类处理,然后结合桶聚类的思想,将初步区域成簇的数据映射到桶中,通过判别目标函数实现桶的合并和分裂,最终实现全局寻优的目的。(4)提出了一种基于有效性指标的AP自动聚类算法,结合聚类分析定义和相似对象分类一致性原则,设计了一种基于AP聚类的聚类有效性指标。针对在大规模数据集时的最佳聚类数搜索方法计算量巨大以及内存消耗大的问题,提出了一种快速最佳聚类数搜索方法。在原始大数据集中抽取几何密集数据构成代表数据集,根据AP聚类自身独特的偏向参数决定聚类数的特点,在代表数据集上运行AP算法搜索最佳偏向参数,从而获得原始数据集的最佳聚类数。该方案鲁棒性强,可以结合各种有效性指标实现大规模数据集的最佳聚类数确定。结合基于空间约束的SURF算法和基于有效性指标的快速AP聚类算法,设计了一种大规模图像集自动摘要生成模型。(本文来源于《合肥工业大学》期刊2014-09-01)

黄双华,郭凯,刘峰[7](2014)在《基于缩图理论的视频图像摘要算法研究》一文中研究指出论文对基于缩图理论的视频图像提取算法做了详细深入的阐述和研究,根据采集到的实验数据具体分析了缩图理论在图像信息的高精度获取和去噪方面的应用。实验结果表明,其视频图像视觉效果较好,可以在空间时间上有较大压缩而保存了形状和外观信息,可应用于图像存储和去噪应用等。(本文来源于《舰船电子工程》期刊2014年08期)

赵梅芳[8](2013)在《数据库在图像通信领域的检索运用——全文数据库和摘要数据库》一文中研究指出通过图像通信领域的实际案例,探讨了如何针对不同的案件特点,利用全文数据库或摘要数据库或者它们的结合进行检索的思路,并将不同的检索思路进行对比,从而实现结合数据库的特点,对图像通信领域中不同案件进行有针对性、准确、快速的检索。(本文来源于《电视技术》期刊2013年S2期)

孟鹏飞[9](2013)在《移动平台上视频摘要与图像检测技术的研究与实现》一文中研究指出当今计算机技术和移动互联网迅猛发展,在移动平台上的多媒体应用已经越来越多。而移动终端具有移动带宽和屏幕尺寸有限的特点,这就要求其对图像和视频的处理要更加人性化和智能化,视频摘要的相关技术应运而生。本文研究并实现的正是一个移动终端上以关键帧为主要摘要形式并具有良好用户体验的视频摘要系统,主要内容如下:首先,本文介绍了课题相关的技术背景,包括视频摘要相关技术的简介和现状调研。主要介绍了视频摘要的两种基本形式:静态视频摘要和动态视频摘要技术,以及两种摘要之间的比较。另外,为了进一步研究关键帧这种摘要形式,需要把包含模糊的人脸的图片从关键帧序列中排除,所以介绍了两种人脸模糊检测算法:DCT(Discrete Cosine Transform)算法和边缘检测算法。然后,论文从视频摘要系统的需求分析入手,描述了视频摘要系统的总体设计、算法验证、详细实现和测试过程。在总体设计中,本文将视频摘要系统分为了摄像头及关键帧管理模块、视频文件管理模块以及用户交互模块叁大部分:在算法验证过程中,本文提出了一种基于部分上下文和运动检测的关键帧提取和更新算法,并在进一步对包含模糊人脸的关键帧图像处理的研究中,提出了针对模糊人脸检测的基于DCT方法和基于边缘检测方法,并对这两种方法的人脸模糊检测分类结果进行了测试和对比;在详细设计中,本文详细介绍了以上叁大模块的详细设计与具体实现,主要包括新的摘要的产生方式、场景边界的界定、最优摘要的判定方法以及用户交互的拍摄、播放和文件Gallery界面的设计与实现;之后,本文介绍了视频摘要系统的测试过程,验证了视频摘要系统的可用性和用户体验。最后,论文对全文做出了总结,并描述了两个系统存在的不足和仍需进一步改进的工作,同时总结了本人在硕士研究生期间的工作和学术成果。(本文来源于《北京邮电大学》期刊2013-01-10)

崔得龙,孙国玺,邵龙秋[10](2012)在《结合子采样和非负矩阵分解的稳健图像摘要》一文中研究指出提出一种新颖的基于子采样和非负矩阵分解(NMF)的稳健图像摘要算法.算法首先将原始输入图像进行子采样得到一系列子图像,其次利用子采样图像的列相似性进行非负矩阵分解,最后由分解系数得到摘要序列.实验结果表明本算法对常见图像处理操作稳健,对恶意篡改敏感,同时用户密钥的使用保证了算法的安全性.(本文来源于《小型微型计算机系统》期刊2012年07期)

图像摘要论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

图像描述生成任务(Image Caption)是一个融合了计算机视觉(CV)和自然语言处理(NLP)的综合类问题,可以简单的理解为将输入的图像翻译成关于图像内容的描述的过程。实现该任务对于机器来说具有一定的挑战性,需要将这一大问题划分为以下几个子任务:(1)识别图中目标对象;(2)找到目标对象之间的联系;(3)用自然语言陈述图像表达内容。其中理解目标对象之间的联系,并且用自然语言描述出来是实现图像描述生成任务中的重难点。该任务的应用场景非常广泛,一般是给照片匹配文字,即用户拍了一张照片,利用图像描述生成技术可以匹配到合适的文字,对于用户来说既方便检索,又省去了用户手动配文字的时间。又或者应用在帮助视觉障碍者理解图像内容等等。迄今为止,常见的图像描述生成方法大致可以分为叁大类,其中基于神经网络的是最准确,研究价值最高的图像描述生成方法。基于神经网络的图像描述生成方法一般采用编码解码结构,当利用解码器Decoder对中间编码生成词序列时,通常仅考虑训练文本的词分布,假定了在任何主题下的词分布都是一致的,并没有考虑主题对词分布的影响,导致解码器拟合了一般意义上的词分布。事实上,不同主题下的词分布的区别往往非常明显。因此如何结合图像的主题以及图像特征获得更为准确的文本描述,是本文解决的第一个问题。本文接下来的工作是将同一主题下的图像生成完整的摘要,一般生成摘要的技术主要是分为抽取式和生成式,抽取式的代表算法主要是TextRank算法,但是该算法在选择句子的时候只考虑到样本之间的相似性,却忽略了摘要生成后的多样性以及摘要的信息的完整性,生成的摘要往往与分组选择句子有关,如何结合句子的分组来获取更为准确的完整的摘要是本文解决的第二个主要问题。针对以上问题,本文提出一种基于主题的图像描述生成方法TIC(Topic based Image Caption)和基于分组的多图像摘要生成方法GIC(Group based Image Caption),主要内容包括:(1)提出一种基于主题的图像描述生成方法TIC,设计了一种多主题神经网络结构,该网络结构主要由传统的NIC模型,和基于主题图像描述生成概率模型两部分组成,通过两个模型结合图像的主题以及图像的特征分别独立训练,获得更为准确的文本描述。(2)提出一种基于分组的多图像摘要生成方法GIC,首先利用TextRank算法求出同一主题下的图像生成描述的重要程度排序的情况,再设定一个相似阈值,如果两个句子描述达到相近阈值就认为这两个句子是一组,抽取句子生成摘要时假设需要抽取40%的原文档的句子,则需要取出每组的总句子数量乘以40%作为该组抽取的句子的数量,再将句子排序后生成摘要,保证摘要生成的流畅性和可读性。(3)最后,通过在MSCOCO、Flickr8k、Flickr30k等数据集上与其他几种方法进行了大量的实验验证。实验结果表明,同传统的图像描述生成方法相比,本文所提出的方法TIC适用于图像描述生成,提出的基于分组的多图像摘要生成方法在相应的评价标准上确实有所提高。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

图像摘要论文参考文献

[1]..“第十五届国际体视学与图像分析学术会议”交流论文摘要选登(一)[J].中国体视学与图像分析.2019

[2].张慧明.多主题的图像摘要生成方法研究[D].辽宁大学.2019

[3].刘泽宇,马龙龙,吴健,孙乐.基于多模态神经网络的图像中文摘要生成方法[J].中文信息学报.2017

[4].詹昌飞.无线胶囊内窥镜图像检索及视频摘要方法研究与系统实现[D].北京工业大学.2017

[5].冉炜,刘向臻,舒大龙,郭冰.计算机重建颅颌面部叁维图像经颌下及颧弓切除颅底肿瘤路径研究(摘要)[C].第十一次全国口腔颌面——头颈肿瘤学术会议暨2017山东省口腔医学会口腔颌面外科分会学术年会暨山东省口腔颌面外科高层论坛暨山东省口腔医学会口腔颌面一头颈肿瘤分会成立大会论文集.2017

[6].赵烨.大规模图像集自动摘要技术研究[D].合肥工业大学.2014

[7].黄双华,郭凯,刘峰.基于缩图理论的视频图像摘要算法研究[J].舰船电子工程.2014

[8].赵梅芳.数据库在图像通信领域的检索运用——全文数据库和摘要数据库[J].电视技术.2013

[9].孟鹏飞.移动平台上视频摘要与图像检测技术的研究与实现[D].北京邮电大学.2013

[10].崔得龙,孙国玺,邵龙秋.结合子采样和非负矩阵分解的稳健图像摘要[J].小型微型计算机系统.2012

标签:;  ;  ;  

图像摘要论文-刘泽宇,马龙龙,吴健,孙乐
下载Doc文档

猜你喜欢