卷积语音论文-王嘉伟

卷积语音论文-王嘉伟

导读:本文包含了卷积语音论文开题报告文献综述及选题提纲参考文献,主要关键词:神经网络,语音识别,深度自编码器,MFCC

卷积语音论文文献综述

王嘉伟[1](2019)在《基于卷积神经网络的语音识别研究》一文中研究指出近些年来,随着我国科学技术的不断深入与发展,神经网络在语音识别技术上运用的越来越广泛。在传统的语音识别技术中,语音建模方式是基于隐马尔科夫框架,采用混合高斯模型来描述语音声学特征的概率分布。而在现代的语音识别技术中,神经网络已经成为了主要趋势,神经网络技术主要是通过模拟人类的神经元活动原理,将人类所特有的自主学习、想象能力综合到语音识别系统当中,并且为了提升连续语音系统识别性能,将深度自编码器应用于语音信号特征提取中,以音素错误率大小为性能的评判标准,优化后的MFCC对于深度特征提取更具有优越性。(本文来源于《科学技术创新》期刊2019年31期)

周钧锴,毕君郁[2](2019)在《基于卷积神经网络的语音识别系统在养老软件中的实现》一文中研究指出随着人口老龄化的加剧,空巢老人精神世界贫瘠的问题引起了更多的关注。将语音识别系统应用于养老软件,为丰富老人的精神世界提供了更多的途径,该文介绍了一个基于卷积神经网络开发的语音识别系统,并将其应用于基于Android系统开发的养老软件。(本文来源于《电脑知识与技术》期刊2019年28期)

刘伟波,曾庆宁,卜玉婷,郑展恒[3](2019)在《基于双微阵列与卷积神经网络的语音识别方法》一文中研究指出为解决噪声环境下语音识别率降低以及传统波束形成算法难以处理空间噪声的问题,基于双微阵列结构提出了一种改进的最小方差无畸变响应(MVDR)波束形成方法。首先,采用对角加载提高双微阵列增益,并利用递归矩阵求逆降低计算复杂度;然后,通过后置调制域谱减法对语音作进一步处理,解决了一般谱减法容易产生音乐噪声的问题,有效减小了语音畸变,获得了良好的噪声抑制效果;最后,采用卷积神经网络(CNN)进行语音模型的训练,提取语音深层次的特征,有效地解决了语音信号多样性问题。实验结果表明,提出的方法在经CNN训练的语音识别系统模型中取得了较好的识别效果,在信噪比为10 dB的F16噪声环境下的语音识别率达到了92.3%,具有良好的稳健性。(本文来源于《计算机应用》期刊2019年11期)

姜芃旭,傅洪亮,陶华伟,雷沛之[4](2019)在《一种基于卷积神经网络特征表征的语音情感识别方法》一文中研究指出为提高智能语音情感识别系统的准确性,提出了一种基于卷积神经网络CNN(Convolution Neural Network)特征表征的语音情感识别模型。该卷积模型以Lenet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该模型中,对特征变换表征,最后利用SoftMax分类器实现情感分类。CASIA与EMO-DB公开数据库上的识别结果显示:与Lenet-5网络相比,所设计网络模型的准确率分别提升了1.3%与2%,与Softmax分类器相比,准确率分别提升了3.8%与6.1%。仿真结果验证了网络模型的有效性。(本文来源于《电子器件》期刊2019年04期)

褚伟[5](2019)在《基于条件深度卷积生成对抗网络的语音增强研究》一文中研究指出语音交互技术日益在现实生活中得到广泛的应用,由于干扰的存在,现实环境中的语音交互技术远没有达到令人满意的程度。为了提高现实环境中语音交互性能,本文提出了一种基于条件深度卷积生成对抗网络(C-DCGAN)的语音增强模型,这是在GAN的基础上加入卷积层和条件信息。C-DCGAN利用卷积层提取语音特征,同时利用条件信息,生成高质量的语音。通过TIMIT数据集、NOISEX-92噪声库、Aurora2噪声库及环境噪声数据集对所提出的语音增强模型进行验证。结果表明,与谱减法、DNN等语音增强方法相比,C-DCGAN模型在PESQ和STOI指标上均有提高,表明本文提出的模型能取得良好的语音增强效果。(本文来源于《智能计算机与应用》期刊2019年04期)

侯一民,李永平[6](2019)在《基于卷积神经网络的孤立词语音识别》一文中研究指出为有效减少模型训练参数和训练时间,提高孤立词语音识别正确率,提出将卷积神经网络应用到语音识别中的方法。该网络中的局部感知野、权值共享与池化等特殊结构,能够在保证识别性能的前提下,极大地压缩训练模型的尺寸,深入分析卷积层卷积器个数与尺寸和池化层池化参数对识别结果的影响情况;经过动态时间规整网络,将发音单元不同长度帧的特征参数规整到同一帧数,输入到网络中进行语音识别。在自建库上的实验结果表明,相比传统的深度神经网络,卷积神经网络的语音识别正确率有12%的提升,是一种优良的语音识别模型。(本文来源于《计算机工程与设计》期刊2019年06期)

刘娟宏[7](2019)在《基于深度卷积神经网络的中文语音识别》一文中研究指出语言和语音是人类交流沟通最主要、最直接的方式,在日常生活中有着不可替代的作用。随着深度学习的发展和人工智能技术的不断进步,人们对于语音识别的要求也越来越高,由此催生了一系列针对语音识别技术的研究与开发。汉语作为我们的母语,是全球使用人数最多的语言。汉语中不仅有大量的同义字和同音字,还包括声韵母及音调,识别过程复杂,难度较大,因此中文语音识别的效果不够理想。深度学习(Deep Learning,DL)作为近年来最受关注的机器学习模型,在语音识别、图像处理等多个领域取得了惊人的成果。但是,深度神经网络(Deep Neural Network,DNN)作为目前主流的声学模型,由于网络层数过深会破坏语音信号特征,因此在一定程度上影响了语音识别的效果。而卷积神经网络(Convolution Neural Network,CNN)中特有的卷积池化层能够有效地减少训练过程中的参数量,从而可以更好的应对中文的大量数据处理过程,降低模型复杂度,提高中文语音识别的准确率。为此,本文以基于深度卷积神经网络的中文语音识别系统作为研究对象,提出了一种优化的端到端深度卷积神经网络声学模型。本文完成的主要工作包括:(1)针对传统声学模型在训练过程中语音强制对齐现象,结合端到端结构,提出了端到端卷积神经网络(CTC-CNN)声学模型,实现了对输入输出序列的似然度优化,实验结果表明基于CTC-CNN声学模型的中文语音识别系统词错率达到了23.6%。相比于CNN声学模型的中文语音识别系统,正确率提高约1.2%。(2)CTC-CNN模型中,CNN为两层卷积结构,层数较浅,模型识别效果有限。为了进一步提升准确率,采用残差块结构设计了端到端深度卷积神经网络(CTC-DCNN)模型,并通过maxout函数进行优化,改善模型梯度消失现象。实验结果表明,这种新的改进的端到端深度卷积神经网络(改进CTC-DCNN)声学模型,相比于CNN模型,语音识别的词错率可降低4%-4.7%。(3)设计并构建了完整的基于深度卷积神经网络的中文语音识别系统,并将改进CTC-DCNN模型和传统的CNN模型、CTC-CNN模型以及DCNN声学模型等进行了实验及对比分析,验证了本文所提出的改进CTC-DCNN模型具有更好的鲁棒性和识别准确率。此外,还通过不同的迭代次数进一步验证模型的性能,并对一定噪声环境下CTC-DCNN模型的识别效果进行了初步探索。(本文来源于《太原理工大学》期刊2019-06-01)

缪裕青,邹巍,刘同来,周明,蔡国永[8](2019)在《基于参数迁移和卷积循环神经网络的语音情感识别》一文中研究指出在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。(本文来源于《计算机工程与应用》期刊2019年10期)

李永平[9](2019)在《基于卷积神经网络的语音识别研究》一文中研究指出最近,深度学习(Deep Learning,DL)已经被证明可以显着改善语音识别性能。卷积神经网络(Convolutional Neural Network,CNN)依靠其特殊的网络结构与强大的特征学习能力而广泛应用于语音识别任务。但是传统卷积神经网络二维模型卷积核大小通常为nn?,不能反映语音信号的一维本质特性,针对这一问题,本文提出将卷积核的一个维度设置为帧数利用卷积神经网络一维模型和二维模型进行语音识别。其分别通过卷积核在时间轴和频带上的移动,能够最大限度地适应语音信号的时变性和保存频带间的关联性,进一步使语音识别性能得到提升。同时,本文还对语音信号预处理、特征参数提取及规整算法进行了研究,主要工作包括以下内容:(1)在语音信号预处理部分,针对传统端点检测算法只适用于检测纯净语音以及能量和过零率阈值均为固定值不能随语音信号不同而变化的问题,本文提出了修改后的端点检测算法;在语音信号特征参数提取及规整部分,针对求取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)时离散余弦变换(Discrete Cosine Transformation,DCT)操作会打破特征参数频率尺度上存在的可被卷积运算使用的相关性信息的问题,本文选择梅尔频谱系数计算的对数能量(求取MFCC时去掉最后一步DCT变换)作为特征参数,将其表示为MFSC特征,并通过动态时间规整(Dynamic Time Warping,DTW)算法将特征参数规整到某一特定的帧数,特征参数对比实验结果表明,使用MFSC特征参数的语音识别分类可以获得比MFCC特征参数更好的性能。(2)在实验对比部分,首先给出卷积神经网络一维模型和二维模型,接着对本文用到的叁种卷积神经网络模型进行声学建模,其次,在相同说话人测试集上进行两个部分的对比实验,第一部分实验对比了深度神经网络(Deep Neural Network,DNN)与本文提出的卷积神经网络一维模型和二维模型的语音识别正确率,从实验结果发现,本文提出的卷积神经网络一维模型和二维模型识别性能优于深度神经网络;第二部分实验一一比较了传统卷积神经网络二维模型、本文提出的卷积神经网络一维模型和二维模型在不同规整帧数、不同卷积核形状、不同池化参数、不同输入特征参数时的语音识别正确率,同时对叁种卷积神经网络模型的收敛性进行了比较,再次,从不同卷积层+池化层层数和不同测试集(相同说话人测试集、不同说话人测试集)两个方面对叁种卷积神经网络模型的泛化性进行对比,最后,在加噪混合测试集上评价了叁种卷积神经网络模型的噪声鲁棒性,实验结果表明,本文提出的卷积神经网络一维模型和二维模型在以上不同环境下的识别性能均要优于传统卷积神经网络二维模型,且泛化能力和噪声鲁棒性更强。(3)基于上述所研究的语音识别基本理论与卷积神经网络算法,在Matlab GUI平台上设计了一个基于卷积神经网络的语音识别系统,检验了本文所提算法的实用性。(本文来源于《东北电力大学》期刊2019-05-01)

时文华,张雄伟,邹霞,孙蒙[10](2019)在《利用深度全卷积编解码网络的单通道语音增强》一文中研究指出针对传统的神经网络未能对时频域的相关性充分利用的问题,提出了一种利用深度全卷积编解码神经网络的单通道语音增强方法。在编码端,通过卷积层的卷积操作对带噪语音的时频表示逐级提取特征,在得到目标语音高级特征表示的同时逐层抑制背景噪声。解码端和编码端在结构上对称,在解码端,对编码端获得的高级特征表示进行反卷积、上采样操作,逐层恢复目标语音。跳跃连接可以很好地解决极深网络中训练时存在的梯度弥散问题,本文在编解码端的对应层之间引入跳跃连接,将编码端特征图信息传递到对应的解码端,有利于更好地恢复目标语音的细节特征。对特征融合和特征拼接两种跳跃连接方式、L_1和L_2两种训练损失函数对语音增强性能的影响进行了研究,通过实验验证所提方法的有效性。(本文来源于《信号处理》期刊2019年04期)

卷积语音论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着人口老龄化的加剧,空巢老人精神世界贫瘠的问题引起了更多的关注。将语音识别系统应用于养老软件,为丰富老人的精神世界提供了更多的途径,该文介绍了一个基于卷积神经网络开发的语音识别系统,并将其应用于基于Android系统开发的养老软件。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

卷积语音论文参考文献

[1].王嘉伟.基于卷积神经网络的语音识别研究[J].科学技术创新.2019

[2].周钧锴,毕君郁.基于卷积神经网络的语音识别系统在养老软件中的实现[J].电脑知识与技术.2019

[3].刘伟波,曾庆宁,卜玉婷,郑展恒.基于双微阵列与卷积神经网络的语音识别方法[J].计算机应用.2019

[4].姜芃旭,傅洪亮,陶华伟,雷沛之.一种基于卷积神经网络特征表征的语音情感识别方法[J].电子器件.2019

[5].褚伟.基于条件深度卷积生成对抗网络的语音增强研究[J].智能计算机与应用.2019

[6].侯一民,李永平.基于卷积神经网络的孤立词语音识别[J].计算机工程与设计.2019

[7].刘娟宏.基于深度卷积神经网络的中文语音识别[D].太原理工大学.2019

[8].缪裕青,邹巍,刘同来,周明,蔡国永.基于参数迁移和卷积循环神经网络的语音情感识别[J].计算机工程与应用.2019

[9].李永平.基于卷积神经网络的语音识别研究[D].东北电力大学.2019

[10].时文华,张雄伟,邹霞,孙蒙.利用深度全卷积编解码网络的单通道语音增强[J].信号处理.2019

标签:;  ;  ;  ;  

卷积语音论文-王嘉伟
下载Doc文档

猜你喜欢