导读:本文包含了唇语识别论文开题报告文献综述及选题提纲参考文献,主要关键词:唇语识别,卷积神经网络,双向长短时记忆网络,深度学习
唇语识别论文文献综述
骆天依,刘大运,李修政,房国志,安欣[1](2019)在《基于CNN与Bi-LSTM的唇语识别研究》一文中研究指出针对唇语识别过程中唇部特征提取和时序关系存在的问题,提出一种卷积神经网络(CNN)和双向长短时记忆网络(Bi-LSTM)相结合的深度学习模型。利用CNN学习唇部特征,并将学习到的唇部特征送入Bi-LSTM进行时序编码,通过Softmax进行分类。建立NUMBER DATASET和PHRACE DATASET两个大型汉语数据集以解决汉语唇语数据缺失问题。将该模型与传统的唇语识别方法在两个数据集上进行实验对比,发现在NUMBER DATASET上识别准确率为81.3%,比传统方法提高了8.1%,在PHRACE DATASET上识别准确率为83.5%,比传统方法提高了9%。实验结果表明该模型能有效提高唇语识别的准确率。(本文来源于《软件导刊》期刊2019年10期)
蔡微微[2](2019)在《基于深度学习的中文唇语识别研究》一文中研究指出随着深度学习的迅速发展,用深度学习的方法研究唇语识别逐渐成为一个新的研究热点。唇语识别需要通过对获取到说话人的唇部运动信息,包括嘴唇与舌头牙齿的相对位置来分析判断,识别出说话人所表达内容,识别结果会受到语言、发音习惯、讲话角度等因素的影响,因此,基于唇动获得信息是一项十分具有挑战性的课题。同时,缺乏公开的中文唇语语料库开展相关研究。对此,本论文围绕基于句子级别中文唇语语料库构建和基于深度学习的中文唇语识别方法开展了以下研究工作:提出基于句子级别的中文唇语语料库NSTDB(News,Speech,Talk Show Database)的半自动构建方法。该方法首先通过人脸检测算法进行筛选,得到仅含有独立讲话者的视频片段;然后对视频片段的每帧通过人脸关键点定位算法获得连续唇部帧图像;最后使用语音识别技术对分离的语音进行处理,生成中文文本,再经分词处理,获得相应的标签数据。提出一种基于深度学习的中文唇语识别网络模型Ch-LipNet。该模型首先使用2D卷积神经网络提取每一帧唇部图像特征,并将特征进行拼接;然后接入一个双向长短时记忆网络LSTM(Long Short-Term Memory)或门控制单元GRU(Gate Recurrent Unit),用于完成图像序列到文本序列的学习;同时,训练过程中采用CTC(Connectionist Temporal Classification)损失函数,以实现不等长序列的对齐;最后,输出层采用全连接,获得对应的文本标签。提出一种基于D2D(DenseNet-2D)模型和数据拼接预处理的唇语识别方法。该方法使用LRW-1000数据集和自建中文唇语数据集NSTDB训练网络模型。实验结果表明,数据拼接方法不仅适用于词级别的中文唇语识别,也适用于句子级别的中文唇语识别,在准确率影响不大的情况下,大大提高了训练速度,并提升了空间利用率。(本文来源于《华侨大学》期刊2019-05-22)
闫捷[3](2019)在《基于深度学习的唇语识别方法研究》一文中研究指出唇语识别是指通过捕捉人在说话时的唇部运动分析出其所说的内容,其在人机交互、语音识别、视频监控等领域都具有广阔的发展前景。传统上,唇语识别系统的研究内容主要包括嘴唇的检测与定位、唇部区域特征提取和唇语识别叁个环节。但是由于前期复杂的图像预处理过程和人为设计的特征具有耗时、经验性强、不完备的特点,再加上分类器的训练难度较大,使得传统的唇语识别方法发展缓慢,并且难以满足现实的应用需求。近年来,深度学习引起了越来越多研究者的关注,并在许多领域都取得了突破性的进展,如图像识别、人体动作识别、语音识别和自然语言处理等。深度学习可以直接从原始数据中逐层学习到更加抽象的特征,避免了传统的人工特征选取和设计高性能分类器的过程,可以真正实现端到端的完整识别系统。本文重点展开利用深度学习方法应用于唇语识别的研究,提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)的混合神经网络结构。整个唇语识别的研究可以分为以下四个部分:首先对本文使用的数据库进行预处理。主要可分为两部分:首先利用随机采样法从视频中抽出固定帧数的图像。然后进行唇部区域的定位与提取,使用AdaBoost算法检测出人脸区域,利用Dlib库进一步标定出人脸68个关键点,通过提取出用于描述嘴唇的5个关键点,精确地获取本文的研究对象,即嘴唇区域。然后利用CNN直接提取静态唇部图像的空间特征。本文通过预训练Alexnet网络模型,利用其8层的网络结构将局部特征整合成全局特征,然后提取fc7层的空间特征向量用于描述嘴唇区域图像。提取到的空间特征具有鲁棒性强和容错力强的特点。由于在视频中,除了视频帧内的静态图像信息还存在帧间的时序信息。所以在CNN的基础上,本文增加RNN结构来提取序列间的时间特征。为解决传统RNN在序列较长时存在的梯度消失和梯度爆炸的问题,本文选用RNN的改进模型——长短期记忆结构(Long short-term memory,LSTM)来捕获唇动序列之间的时间特征。进一步地,本文研究了双向LSTM(Bi-directional Long Short-Term Memory,BiLSTM)在相反两个方向从唇动序列之间学习时序特征的能力。此外,加入dropout技术用于缓解网络在训练过程中出现的过拟合问题。最后将BiLSTM学习到的时序特征输入全连接层,使用softmax分类器输出每个类别的概率值,并选取概率值最大的作为最终识别结果。本文结合CNN对静态图像和RNN对序列数据的处理能力,同时捕捉空间维度和时间维度上的唇动信息。利用自制的实验数据库进行验证,实验结果表明,本文选取的混合神经网络模型应用于唇语识别系统具有较好的性能。(本文来源于《北方工业大学》期刊2019-05-06)
王丹[4](2019)在《基于3D卷积的唇语识别的研究与设计》一文中研究指出随着深度学习技术的日渐成熟,可以应用到的场景也就越来越广阔。因为唇语识别需要从讲话者运动中的唇部提取所需要的信息来获取讲话者所想要表达的内容。但是由于语言种类的多样性以及唇部运动变化的微妙性,使得唇语识别的发展一直以来都不是像有的技术那样可以飞速发展。不像其他的仅仅只是由字母组成的语言,汉字更加的复杂,汉语拼音有超过1000多个的发音,而汉字的个数也超过了9000多个,这些就使得中文唇语识别更加地困难。在本文唇语识别的研究过程中,将网络模型分解为两个部分,图像模型和语言模型,这种分解的做法有助于本文实验的进行。在图像方面本文首先采用3D卷积神经网络来提取包含有时空信息的图片特征。第二个部分本文采用基于语言模型的Encoder-Decoder神经网络模型来处理。在第一个部分当中,本文使用经过改造的3D卷积网络来提取输入图片序列的时空信息,接着本文将3D ConvNet的输出输入到一层结构的GRU当中,在拼音序列识别网络的最后本文使用CTC来作为本文网络的损失函数来对网络进行训练,上面的这一个网络的构建过程就构成了本文的汉语拼音序列识别网络PTP(Pictures to Pin Ying)网络模型。之后,本文使用Encoder-Decoder编码模块,使用这样的语言模型来处理本文上个网络所输出的数据,输入的汉语拼音序列先经过Encoder编码模块的处置,然后再是经过Decoder解码模块进行解码,最终才会输出输入图片所对应的汉字序列,上面所述的网络构建步骤就是本文网络的汉字序列识别模块PTC(Pin Yin to Chinese Characters)网络模块。在研究当中本文使用了数据较为丰富的自制中文唇语数据集,数据集的大小为20.95GB,并且对该数据集进行了处理,对其中的每一个样本都增加了其梯度图和光流图。实验结果表明本文使用3D卷积实验所得句子准确率为47.3%,而原有的基于2D卷积实验得到44.9%句子准确率,系统模型整体准确率有了较为显着的提高。根据我们的实验结果,我们的方式不仅能够加快网络的训练,也能够在一定程度上避免过拟合,并且为后续的相关研究提供了一个最基本的衡量标准。(本文来源于《电子科技大学》期刊2019-03-26)
吴伟[5](2019)在《基于深度学习的唇语识别研究》一文中研究指出随着科技的飞速发展,智能人机交互应用范围越来越广,其中语音识别又是人机交互方式中最为方便的一种,从而使得许多研究者对其进行了深入的研究。但是在一些嘈杂等复杂场景中,语音识别受到了很大的影响,很难满足人们的需求,因此唇语识别技术应运而生,该技术在辅助语音识别、公共安全分析、动画口型合成以及身份认证等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性,其主要是根据视频中人说话时嘴唇的动态变化来识别出相应的文本内容。但是又因不同人具有不同嘴唇外观,以及不同人说话唇部动态变化不一样,使得唇语视觉信息具有多样性,增加了识别难度。所以根据该问题,以及在图像识别、自然语言建模、时间序列预测等使用深度学习算法的优势,本文采用卷积神经网络与长短时记忆网络(Long Short-Term Memory,LSTM)相结合的深度学习的唇语识别方法。本文所述方法实现过程中,首先通过Faster R-CNN(Faster Regions with Convolutional Neural Network)检测出人脸,再通过人脸定位到唇部,提取嘴唇关键点,接着将提取到的关键点的特征序列输入到长短时记忆网络中提取出时序信息以及语义信息,最后再通过Softmax对结果进行预测。本文在公开的OulusVS,GRID,MIRACL-VC等数据集上对本文中方法进行了评估,结果表明,相比于传统方法,本文在GRID,MIRACL-VC等数据集上的评估结果相比于传统方法要高出至少20%,在OuluVS数据集上也比大多数已公开的方法表现要好。(本文来源于《哈尔滨理工大学》期刊2019-03-01)
杨明敏[6](2018)在《基于深度学习的唇语识别数据库构建和算法研究》一文中研究指出近年来,深度学习在包括计算机视觉在内的很多领域取得了令人瞩目的成就。唇语识别(visual speech recogniton)作为目前计算机视觉领域中最具有挑战性的研究课题之一,它旨在通过对连续的唇部图像序列进行观察,进而学习到它所对应的文本内容。但是,唇部变化的多样性和语言本身的丰富性给唇语识别任务带来的难度提升,导致了目前唇语识别的研究进展相对比较缓慢。深度学习的算法离不开大量的数据,但是目前学术界的开源数据集都是基于英语的,为了给未来中文唇语识别提供良好的基础,本课题的第一个工作即构建了第一个开源的开放场景下的中文唇语识别数据库LRW-1000,并提出了唇语识别数据库构建的完整流程和算法细节,这也是目前以分类为目标的、涵盖类别最多的、说话人对象最多的词级唇语识别数据库;同时,本课题从唇语识别任务的难点出发,提出了一个新的唇语识别算法模型结构,它通过改进现有的特征提取器DenseNet,强化模型的短时依赖的建模能力,同时学习到multi-scale的特征可以对分辨率的变化拥有更好的鲁棒性。并且考虑到不同文本内容与面部不同区域关联程度的差异性,本课题引入了一个全新的注意力机制来辅助网络学习这种相关性,让网络能够更好的关注最明显相关的区域。在仅使用图像信息的基础上,本课题提出的方法在目前主流唇语识别数据库LRW和GRID都取得了最好结果:在LRW上的分类准确率为82.73,超过当前最好的结果1.43%;在GRID上的wer为12.8%,超过当前最好的结果9.2%。同时,对于自建的中文数据集LRW-1000,本课题提出的算法在性能上也要优于当前的主流模型。(本文来源于《华中科技大学》期刊2018-12-01)
杨龙生,贾振堂[7](2018)在《用于可靠身份认证的唇语识别》一文中研究指出本文介绍了一种基于人工神经网络的唇语识别系统,可以用来提高身份识别系统的安全性。比较了基于音频和视频的视频序列分割法,并自制了一些唇语样本。为了提高对文中陌生人集团成员和自制样本的唇语识别率,采用了迁移学习的方法。结果表明,通过迁移学习后得到的网络对陌生人集团样本和自制样本有较好的唇语识别率,同时也检验了文中视频序列分割的效果。(本文来源于《电视技术》期刊2018年10期)
张亚飞,耿梦伟,尹玉倩,齐立萍[8](2018)在《基于人工智能的唇语识别技术》一文中研究指出随着人工智能的发展,人机交互技术越来越多,最近新兴的唇语识别技术便是其中的一种。唇语识别将机器视觉和自然语言处理结合起来,不需要听声音,仅仅依靠识别说话者的唇语动作即可,然后对说话者的唇形进行特征提取与分析,就能解读说话者所说的内容。笔者对唇语的分割、特征提取以及数据分析展开了论述。(本文来源于《信息与电脑(理论版)》期刊2018年10期)
蔡瀛[9](2018)在《基于隐马尔可夫模型的唇语识别方法研究》一文中研究指出随着人机交互的迅速发展,语音识别作为最高效最便捷的人机交互方式之一,受到了研究者广泛的关注。但是在复杂的环境中,语音识别受到很大干扰,无法满足人类的正常需求,因此,唇语识别技术开始兴起,该技术在智能人机交互、视频大数据的挖掘、视频监控的语音读取等领域都有不可限量的发展前景。本文将根据说话者嘴唇的视觉特征来理解话语内容,主要从唇部区域定位、唇部的特征提取和唇语识别环节进行研究。在唇部区域定位方面,本文选用AdaBoost算法用于人脸检测和定位,通过嘴唇在人脸中的固定位置,获取本文的感兴趣区域(ROI),即嘴唇区域。在唇部特征提取方面,本文获取嘴唇轮廓关键点进行曲线拟合,通过嘴唇轮廓曲线,获取曲线的参数作为嘴唇视觉的形状特征;再利用拟合曲线建立唇部轮廓模型,获取视觉几何特征,两者相结合,形成嘴唇整体视觉特征向量;通过本文优化的局部敏感判别分析(OLSDA)方法对视觉特征向量进行降维操作,保持主要特征信息,减少冗余度。在唇语识别环节,本文在隐马尔可夫模型的基础上,采用K均值聚类算法对唇动序列特征向量进行量化聚类,作为识别环节训练和识别的输入。考虑本文的需求,利用本文自制的视频数据库作为样本进行实验,实验结果表明,本文搭建的唇语识别系统有较为理想的性能,同时也验证了本文提出的唇部定位、特征提取以及唇语识别环节算法的可行性。(本文来源于《北方工业大学》期刊2018-03-28)
杨帆[10](2018)在《基于深度学习的唇语识别应用的研究与实现》一文中研究指出唇语识别是计算机视觉领域中一个富有挑战性的研究课题,其主要目的是从视频中观察人嘴唇运动识别出对应文本内容。然而,由于嘴唇变化局限性和语言内容丰富性,增加唇语识别难度,使得唇语研究课题发展缓慢。如今,深度学习在各个领域的发展,给我们足够的信心来完成唇语识别这个任务。不同于传统的唇语识别中的嘴唇特征识别,在基于深度学习的唇语识别,通常包含使用深度网络模型对图像的特征提取和理解。在本课题中,我们重点研究了唇语识别的数据获取、处理和识别网络框架的设计等内容。在唇语识别研究中,本文作为第一个基于深度学习的中文句子级别的唇语识别的研究课题,采用半自动生成方法生成一个中文唇语数据库CCTVDS,样本数量为14975,共7.25GB。并且,在研究过程中,还新增加了269558条拼音汉字样本数据集,促进网络模型的训练。在唇语识别的实现过程中,我们分别从图像和语言模型两个方面入手,一是采用基于VGG-M的卷积神经网络和循环神经网络RNN的深度网络模型,二是采用基于语言模型的Encoder-Decoder框架的深度网络模型。本文根据研究内容将中文唇语识别划分为两个不同的处理过程,分别得到不同的子网络结构。先利用改进的VGG-M的卷积神经网络ConvNet对嘴唇图片序列进行特征提取,再利用长短时记忆网络(Long Short-Term Memory,LSTM)理解图像特征并转换为对应的拼音字符序列,这个过程设计了一个P2P(Pictures to Pin Ying)网络模型;然后,使用基于语言模型的Encoder-Decoder网络将拼音序列语句转换为中文汉字序列语句,Encoder网络先对拼音字符序列进行特征编码,Decoder网络对特征再进行解码得到汉字序列,这个过程构建了P2CC(Pin Ying to Chinese Characters)网络模型;最后,根据研究内容提出了一个基于CNN和RNN的混合神经网络结构ChLipNet。在CCTVDS数据集上的实验结果表明基于深度学习的唇语识别比传统的唇语识别(采用PCA、HMM等)有明显的优势。另外,我们提出的ChLipNet网络模型降低了中文唇语的识别难度,在句子级别的中文唇语识别中达到句子准确率46.7%和准确率拼音58.5%,略微优于目前英语唇语识别的最好网络模型的实验结果。(本文来源于《电子科技大学》期刊2018-03-22)
唇语识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着深度学习的迅速发展,用深度学习的方法研究唇语识别逐渐成为一个新的研究热点。唇语识别需要通过对获取到说话人的唇部运动信息,包括嘴唇与舌头牙齿的相对位置来分析判断,识别出说话人所表达内容,识别结果会受到语言、发音习惯、讲话角度等因素的影响,因此,基于唇动获得信息是一项十分具有挑战性的课题。同时,缺乏公开的中文唇语语料库开展相关研究。对此,本论文围绕基于句子级别中文唇语语料库构建和基于深度学习的中文唇语识别方法开展了以下研究工作:提出基于句子级别的中文唇语语料库NSTDB(News,Speech,Talk Show Database)的半自动构建方法。该方法首先通过人脸检测算法进行筛选,得到仅含有独立讲话者的视频片段;然后对视频片段的每帧通过人脸关键点定位算法获得连续唇部帧图像;最后使用语音识别技术对分离的语音进行处理,生成中文文本,再经分词处理,获得相应的标签数据。提出一种基于深度学习的中文唇语识别网络模型Ch-LipNet。该模型首先使用2D卷积神经网络提取每一帧唇部图像特征,并将特征进行拼接;然后接入一个双向长短时记忆网络LSTM(Long Short-Term Memory)或门控制单元GRU(Gate Recurrent Unit),用于完成图像序列到文本序列的学习;同时,训练过程中采用CTC(Connectionist Temporal Classification)损失函数,以实现不等长序列的对齐;最后,输出层采用全连接,获得对应的文本标签。提出一种基于D2D(DenseNet-2D)模型和数据拼接预处理的唇语识别方法。该方法使用LRW-1000数据集和自建中文唇语数据集NSTDB训练网络模型。实验结果表明,数据拼接方法不仅适用于词级别的中文唇语识别,也适用于句子级别的中文唇语识别,在准确率影响不大的情况下,大大提高了训练速度,并提升了空间利用率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
唇语识别论文参考文献
[1].骆天依,刘大运,李修政,房国志,安欣.基于CNN与Bi-LSTM的唇语识别研究[J].软件导刊.2019
[2].蔡微微.基于深度学习的中文唇语识别研究[D].华侨大学.2019
[3].闫捷.基于深度学习的唇语识别方法研究[D].北方工业大学.2019
[4].王丹.基于3D卷积的唇语识别的研究与设计[D].电子科技大学.2019
[5].吴伟.基于深度学习的唇语识别研究[D].哈尔滨理工大学.2019
[6].杨明敏.基于深度学习的唇语识别数据库构建和算法研究[D].华中科技大学.2018
[7].杨龙生,贾振堂.用于可靠身份认证的唇语识别[J].电视技术.2018
[8].张亚飞,耿梦伟,尹玉倩,齐立萍.基于人工智能的唇语识别技术[J].信息与电脑(理论版).2018
[9].蔡瀛.基于隐马尔可夫模型的唇语识别方法研究[D].北方工业大学.2018
[10].杨帆.基于深度学习的唇语识别应用的研究与实现[D].电子科技大学.2018