一、MFCC特征加权应力影响下的变异语音识别(论文文献综述)
张吉[1](2020)在《基于时间卷积网络的多口音中文语音识别方法研究》文中研究说明随着计算机的广泛应用以及人工智能的不断发展,人们希望可以让计算机理解人类的语言并与之进行更好的交互,因此语音识别技术成为了语音领域中非常重要的研究课题。但是在带有多种口音(或者称为多口音)的说话人与智能语音设备交互的环境中,由于不同说话人带有的口音种类不同,给语音识别系统带来了一定的挑战。目前,随着深度学习的不断发展,一些主流的神经网络如卷积神经网络和循环神经网络等在口音识别系统中取得了不错的效果。然而卷积神经网络在序列任务中性能不及循环神经网络,而循环神经网络训练难度比较大。因此,本文采用时间卷积网络来为多口音构建声学模型,同时采用口音句子嵌入和多任务学习的方法来提高模型的准确度和泛化能力。在本文的研究与实验中,多口音主要包括北京、上海、广州和重庆四种。论文围绕多口音中文语音识别的特征提取方法、基于时间卷积网络的多口音声学模型的构建及其优化等方面进行研究。论文主要的研究工作如下:(1)为了优化多口音声学模型的语音输入,论文使用多核学习方法将梅尔倒谱系数特征和有监督的口音句子嵌入特征进行特征融合。口音句子嵌入特征是通过语音帧嵌入进行加权平均方法得到的,语音帧嵌入利用连续词袋模型的思想进行提取,通过上下文来预测目标语音帧。实验结果表明,在aishell数据集上对北京、上海、广州和重庆四种多口音分别提取两种特征联合作为声学模型的语音输入,口音识别的平均准确率达到了73.72%,比梅尔倒谱系数单输入特征平均准确率提高了5.17%。有监督的口音句子嵌入单输入特征平均准确率为72.02%,比半监督和无监督单输入特征平均准确率提高了0.98%和3.02%。(2)为了提高普通卷积神经网络处理时序任务的能力,论文使用时间卷积网络来为北京、上海、广州和重庆四种口音构建多口音声学模型。该网络在普通卷积神经网络的基础上,引入因果卷积和扩张卷积来解决序列问题。实验结果表明,在aishell数据集上对北京、上海、广州和重庆四种多口音构建基于时间卷积网络的声学模型,口音识别平均准确率达到了76.45%,比深度神经网络和隐马尔科夫混合模型平均提高了4.65%。在aidatatang数据集上该声学模型平均准确率达到了75.11%,比深度神经网络和隐马尔科夫混合模型平均提高了4.23%。(3)针对单任务口音识别泛化能力弱的问题,论文使用了多任务学习方法,即在进行口音识别单任务的基础上,加入口音分类任务,对北京、上海、广州和重庆四种多口音进行分类,通过共享参数来提高口音识别的准确率。论文使用多口音分类器作为多任务学习方法的辅助任务,并为目标任务和辅助任务设置不同的权重参数。实验结果表明,在aishell数据集上使用时间卷积网络训练的口音分类器对北京、上海、广州和重庆四种多口音进行分类,分类的平均准确率达到了84.26%,比高斯混合模型分类器、深度神经网络分类器和循环神经网络分类器平均准确率相对提高了22.06%、12.09%和3.92%。在aidatatang数据集上平均准确率达到了80.52%,分别相对提高了24.76%、14.15%和3.87%。
巫小兰[2](2018)在《对感冒语音鲁棒的语音指令识别及嵌入式实现》文中提出近几年来,语音识别技术逐渐进入人们的日常生活,而加入了语音识别技术的智能家居系统使得人们的生活更加舒适、便利。但是在实际应用场景中,语音识别准确性受许多因素的影响,例如环境噪声或者说话人本身变音(如感冒、声带发炎、咽喉炎等),从而导致语音识别系统鲁棒性不强。环境噪声的因素目前已得到研究人员广泛关注并采取各种措施来降低噪声的影响,但是对说话人本身变音的研究还十分缺乏。因此本文对说话人感冒状态下的语音识别进行了研究,其中重点研究了语音识别系统在保证正常语音识别率的同时使得感冒语音识别率尽量接近正常语音识别率,从而改善语音识别系统性能。本论文的主要研究工作和创新如下:(1)建立了感冒语音数据库。根据智能家居控制语音指令,建立了“感冒非常态及常态语音数据库”,该数据库已被中文语言资源联盟收录(No:CLDC-2018-001)。(2)对感冒语音与正常语音的特征进行差异分析和特征参数处理。采用研究对象感冒前、后的语音,对所提取的特征参数做统计分析。分析表明研究对象感冒前、后的基音频率、共振峰、Mel倒谱系数具有明显的区别。根据特征参数的差异,本文提出一种基于特征空间轨迹的时间规正方法,该方法采用段内语音信号的均值代表语音特征。实验结果表明相比Mel倒谱系数特征,经过该方法处理的特征能有效降低正常语音与感冒语音之间的特征差异。(3)考虑到感冒语音与正常语音模板的失配问题,提出了两种对感冒语音鲁棒的语音识别方案。第一种是基于决策融合的语音识别方案,该方案通过SVM分类器对输入语音进行正常语音和感冒语音的分类判别。当感冒语音与正常语音区分度较小时,经过决策融合方法得出识别结果;而区分度较大时,根据分类结果采用对应的语音模板得出识别结果。该方案弥补了语音判别过程带来的误差,提升了感冒语音在语音识别系统中的识别率。第二种是基于特征空间轨迹的时间规正的语音识别方案,该方案对感冒语音特征参数进行时间规正处理。该方案能有效提高了感冒语音的识别率和实时性。(4)实现了嵌入式语音识别系统,其中包括语音识别算法模块、人机交互界面模块及在线学习模块。最后在真实场景下对系统进行测试,系统识别率在77.52%左右。
宣传忠[3](2016)在《设施羊舍声信号的特征提取和分类识别研究》文中指出内蒙古及周边西部地区是我国养羊业的主产区,传统的放牧饲养及农户散养方式造成了草场退化、资源浪费和养殖效益低的问题,集约化设施养羊目前得到了很大的发展,是自治区及西部地区养羊业的发展趋势。但在规模化设施圈养条件下,由于羊的饲养密度大、活动范围受限和环境调控不到位等因素,羊易产生应激行为和健康问题,因此监测和评价圈养条件下羊的行为和福利化水平就显得非常必要。发声是动物交流的重要途径,羊只在不同应激行为下都会发出不同的声信号,设施羊舍声信号包含了羊只对其内部机体状况和需求的信息反馈。本文通过无线声音数据采集平台,采集设施羊舍内的打斗声、饥饿声、咳嗽声、啃咬声和寻伴声共5种声信号,并进行声信号的小波阈值去噪、特征参数提取和分类识别研究,将声信号应用于监测和评价其养殖福利水平。主要研究内容和结果如下:(1)对设施羊舍中风机、饲喂设备等产生多大噪声,采用小波阈值去噪,并对小波的阈值选择规则和阈值函数进行改进,试验表明当羊舍声信号受风机噪声干扰时,改进的小波阈值去噪算法取得了较好的去噪性能。(2)针对用传统线性预测系数算法提取羊舍声信号共振峰时,存在合并峰和虚假峰的问题,本文将羊的声道看成是若干个谐振腔串联,用改进的线性预测系数算法提取羊舍声信号共振峰,通过对5种羊舍声信号共振峰轨迹跟踪曲线的分析,得到了设施羊舍声信号特征参数。(3)对设施羊舍声信号的梅尔频率倒谱系数及其一阶差分构成的混合参数进行改进,提出基于特征相关性的Fisher准则与特征分量加权相结合的混合特征参数,该混合特征参数在低维度下也能取得较高的识别率。(4)将希尔伯特-黄变换应用到设施羊舍声信号的特征参数提取中,对其进行进行经验模态分解得到7个固有模态函数分量,对每个固有模态函数分量求其边际谱能量倒谱系数,再结合Mel尺度曲线进行频域划分,得到的子带能量倒谱系数作为特征参数,可提高羊舍声信号的识别率。(5)利用隐马尔科夫模型的动态时序建模能力和BP神经网络的分类决策能力,构建隐马尔科夫模型/BP神经网络的混合识别模型,将隐马尔科夫模型的输出状态累积概率作为BP神经网络的输入,得到了比单一识别模型更高的识别率。
林子明[4](2012)在《基于GMM和VQ的说话人识别系统的研究》文中认为说话人识别是一种生物认证技术,它是通过对说话人的语音信号进行分析,从而对说话人身份进行自动鉴别的一种技术。目前,说话人识别技术广泛用于电子商务、电话银行系统、门禁系统、计算机远程登录等领域,具有广阔的应用前景,虽然说话人识别在纯净语音环境中取得了令人满意的结果,但是在噪声环境下,说话人的识别率就会急剧地下降。这就牵涉到说话人识别系统的鲁棒性问题了。因此本文着重研究在噪声环境下的说话人识别。本文的主要工作如下:(1)分析了各种端点检测的方法,并在不同的信噪比下进行仿真,提出了一种端点检测改进算法,相对于传统的端点检测方法,本文提出的基于差分能量三级双门限的端点检测方法在低信噪比下能够得到更优的检测效果。(2)声学特征提取是说话人识别系统的主要环节,噪声环境下的说话人识别是语音识别领域的一个重要课题。为了在噪声干扰下能够进行正确的识别,在声学特征提取环节,本文提出了一种融合特征PMFPLP参数,用于低信噪比环境下的鲁棒性说话人识别。仿真实验证明,所得到的融合特征不仅在低信噪比环境下提高了识别率,而且实现简单。(3)分析了基于GMM的说话人识别系统的主要技术,研究高斯混合模型下的EM算法、初始化分析算法以及训练和识别过程,搭建了基于GMM的说话人识别系统,最后将不同的语音参数特征在不同的信噪比环境下在所搭建的系统中进行仿真和分析。(4)分析了基于VQ的说话人识别系统的主要技术,研究了LBG算法和码本设计的原理,从而搭建基于VQ的说话人识别系统,然后分别用LBG、遗传K均值聚类、遗传K均值与LBG级联三种算法进行实验,将得到了聚类中心作为初始码本,仿真实验表明,遗传K均值与LBG级联算法能够优化系统性能。同时讨论了声学特征MFCC和PLP的融合在系统中的应用,实验可知,得到的融合特征具有更好的识别性能,并且使用主成分分析方法,优化系统性能。
斯芸芸[5](2012)在《嵌入式语音识别系统的设计与实现》文中研究说明随着计算技术的不断发展,人们对语音智能产品的需求越来越强烈,这不仅促进了语音识别技术发展,而且促使了语音实用化产品的大量涌现。语音识别系统一般是在PC机或嵌入式系统上实现的,虽然PC机的存储能力大、计算能力强、运算速度快,但是基于PC机的语音识别系统因为体积大、价格高、不方便携带等缺点不适合应用于实际产品中,而嵌入式语音识别系统具有体积小、低功耗、价格低、便携性好、可靠性高等优点,因此嵌入式语音识别系统更具有使用价值和实际价值。本文详细地阐述语音识别系统的基本理论,主要包括语音识别系统的分类、基本结构、语音信号预处理、端点检测、特征参数提取和语音识别技术等。语音识别的主要过程是对采集到的语音信号进行预处理操作,通过端点检测算法准确找出有效语音信号段,采用Mel频率倒谱系数及差分系数相结合的方式来进行特征参数提取,采用隐马尔可夫模型(HMM)来实现语音信号的训练与识别。本文设计一个基于凌阳单片机SPCE061A的嵌入式语音识别系统,此系统的主要研究:(1)在预处理方面,提出一种动态的端点检测算法——动态三门限端点检测算法,此算法可以更加准确地找语音信号中的语音信息段。(2)在识别算法方面,提出一种更加有效的的训练算法——遗传连续隐马尔可夫模型(GACHMM),即用遗传算法来直接训练CHMM模型,它是通过对CHMM的参数值进行编码,根据适应度函数进行选择、交叉、变异等操作求出最优的模型,通过解码后最优的参数值所对应的就是CHMM模型,然后通过Viterbi算法进行语音识别。此算法可以节省大量的训练时间,进而提高识别率和识别速度。(3)根据语音识别和嵌入式的实际应用,设计一个有实用价值和可移植的嵌入式系统——基于SPCE061A单片机的嵌入式语音识别系统,在硬件系统设计上实现了语音信号的采集、语音信号的存储、语音信号处理、语音播报及LCD显示等功能,应用C语言编程将GACHMM算法实现,同时将其应用于硬件系统中,通过实验验证了该语音识别系统的可行性和实用性。
金玉卿[6](2012)在《情感变异语音的分类与识别的研究》文中研究表明情感变异的语音分类与识别是近些年来研究的一个新兴领域。过去的语音系统软件只侧重语音内容表达,并未将语音情感因素加入其中。通常判断情感类别可以经由面部表情、手势动作、血压、心脏跳动以及语音等方式,但语音却承担着举足轻重的作用。因此,许多研究学者把对语音的研究重心转移到情感语音上。本文主要研究两个问题:一个是情感变异语音的分类,即要分辨出待判别的语音属于哪种情感;另一个是情感变异语音的识别,即要识别出待识别的语音是哪句话。主要工作如下:(1)设计并构建了包含自然、高兴、悲伤和愤怒四种情感的情感变异的语音语料库,并用于实验研究,使得理论知识的研究更具有价值。(2)应用凯塞窗进行加窗操作,该函数可以随意选取主瓣宽度和旁瓣衰减,有效的提高了系统的识别率。(3)将情感变异语音的特征参数进行了详尽的分析,并提取了情感变异语音的能量、振幅、过零率、基音频率、共振峰、线性预测倒谱系数和美尔频率倒谱特征及其它们的衍生特征。(4)提出了用平均学习子空间法进行情感变异语音的分类,该方法有效的提高了系统分类的准确度,并且计算速度也较快。(5)应用差别子空间法来识别情感变异的语音,提出了先分类后识别的思想,先将语音进行情感分类,然后再识别出语音的内容。这样既可以判断出语音情感,又能识别出语音的内容。
赵腊生[7](2010)在《语音情感特征提取与识别方法研究》文中研究表明语音情感识别是指由计算机自动识别输入语音的情感状态,是心理学、语音学、数字信号处理、人工智能等多个学科相互渗透、交叉而产生的新兴研究领域,引起了越来越多学者的关注。该研究一方面有助于推动相关学科的发展;另一方面,随着该项技术研究的深入,在诸多领域如游戏娱乐、刑侦破案、医学领域和服务业等得到了越来越多的应用。因此,语音情感识别研究具有重要的理论意义和应用价值。目前,语音情感识别研究尽管已取得了丰富的理论和应用成果,但由于语音自身的复杂性及其相关学科发展程度的制约,该项研究依然存在许多问题亟待解决。本文以建立与文本内容无关的语音情感识别系统为目标,对情感特征提取方法和识别模型等方面进行了研究,主要工作如下:(1)提出了一种基于方差分析的语音基音周期提取方法。通过对统计学中方差分析理论的研究,给出了方差分析用于基音周期估计的原理,该方法首先将短时语音采样序列进行方差分析获得其方差分布函数,然后通过定位方差分布函数的最大值位置,实现语音基音周期检测目的。(2)提出了基于小波方差分析的鲁棒基音周期检测算法。考虑到自然环境下的语音通常带有噪声,我们在短时语音方差分析的过程中融入了小波变换方法,首先利用小波变换对语音进行分解,舍弃语音高频带小波系数,实现降噪目的,然后选取语音基频(基音周期的倒数)带的小波系数进行方差分析,进而预测带噪语音的基音周期。对比实验表明,该算法具有较高的检测精度和鲁棒性。(3)提出了基于自整定权值K最近邻模型的语音情感识别方法。针对传统K最近邻模型的缺陷,综合已有K最近邻模型的相关改进算法,给出了一种新的加权K最近邻模型,该模型同时考虑了测试样本与各类训练样本近邻距离的类内加权和类间加权,这两种权值根据近邻距离关系自适应获得,是一种权值自整定过程。以上述研究为基础,构建语音情感识别系统进行实验验证,提取语音信号的全局统计参数作为识别特征,并采用主成分分析方法实现特征向量的维数约简,仿真结果验证了该识别方法的有效性。(4)提出了一种基于多模型融合的语音情感识别方法。该方法首先根据不同语音模型分别提取表征语音情感的特征参数集,然后运用高斯混合模型对以上每个特征参数集分别设计单分类器,最后基于遗传算法融合多个单分类器对语音情感进行识别。实验结果表明,该方法可获得比单分类器更好的识别性能。(5)结合本文算法和已有方法,基于组件架构,设计开发了支持语音情感识别的原型系统,为将来研究和开发应用级语音情感处理软件系统提供了可行性分析依据及相应的算法基础。
王欢良[8](2007)在《基于混淆网络和辅助信息的语音识别技术研究》文中指出通过语音与机器进行自由交流是人们多年以来的梦想。经过几十年的不懈努力,语音识别技术已获得了巨大进步,但仍难以满足实际应用的需要。如何进一步提高语音识别性能及其稳健性(Robustness)成为当前语音识别技术发展的瓶颈。人类在语音辨识过程中潜在地利用了众多信息源,而当前基于计算机的语音识别系统通常只利用了非常有限的声学和语言学信息,如语音的谱特征和N-gram统计语言模型。对于语音识别这种复杂任务来说,这些主要信息是远远不够的。有效地建模和应用其它辅助信息将有助于提高语音识别性能。混淆网络是多候选识别结果的一种紧凑表示形式,基于混淆网络解码可以最小化词错误率。基于混淆网络来融合辅助信息进行解码是提高识别性能的一个有效途径。本论文主要从混淆网络和辅助信息两个方面研究了改善语音识别性能的方法。在混淆网络方面,主要研究了混淆网络的高效构造方法和融合辅助信息的解码方法。在辅助信息方面,主要研究了几种重要辅助信息的有效建模和应用方法。本论文的主要研究内容和创新点具体如下:1.提出了两种高质量混淆网络的快速构造方法。一种方法通过对Lattice结构进行分段来降低混淆网络构造方法的计算规模,提高了混淆网络的生成速度,而其质量只有轻微下降。另一种方法利用具有最大后验概率的转移弧来指导混淆集合的构造,使算法复杂度降为线性。为了提高了生成混淆网络的质量,提出了基于K-L散度的弧相似性测度方法。最后,针对汉语语音识别任务,给出两种新的混淆网络结构:汉字混淆网络和逻辑混淆网络。2.提出了两类辅助信息的建模方法和应用于混淆网络的解码方法。为了利用词间的长距离依赖信息,提出了基于词义类对触发式语言模型的混淆网络解码方法。为了利用更多的辅助信息源,提出了基于多系统结果融合的混淆网络解码方法。实验结果显示两种方法可以使汉字错误率分别相对下降7.9%和10.7%。3.提出了利用声调辅助信息来改善汉语音识别性能的方法。在声学解码阶段,提出采用基于多空间分布的隐马尔可夫模型来对声调进行建模,解决了其特征不连续的问题。在双数据流隐马尔可夫模型框架下,对谱特征和基频特征进行同步解码,可使汉字错误率相对下降15.9%。在第二遍解码阶段,提出基于Supra-tone单元的独立声调建模方法。利用Supra-tone声调模型进行混淆网络解码,进一步使汉字错误率相对下降8.0%。4.开发了一个具有输入错误在线快速修正功能的汉语语音输入系统。通过利用汉字混淆网络,可以把句子级候选分解为汉字级候选,从而使用户能够利用候选快捷地修正近一半的识别错误。为了快速可靠地输入新的汉字,提出手写信息辅助的孤立汉字语音输入方法。这种方法具有比手写输入更快的速度,并且比单纯的语音输入更为可靠。综上所述,本文通过对混淆网络和辅助信息的研究提高了语音识别的性能和实用性。混淆网络的高效生成方法对于其它任务(如语音文档检索等)也会有很大帮助。采用触发语言模型和多系统结果合并的混淆网络解码方法为有效利用其它类型辅助信息提供了有益借鉴。对声调辅助信息的研究是充分利用声学辅助信息(如重音、语调等)的一个很好开端。利用混淆网络和手写辅助信息使语音输入错误的修正更为快捷可靠,这是辅助信息和混淆网络在语音识别任务中的一个成功应用。
陆茵[9](2007)在《基于遗传算法和BP神经网络的汉语语音识别研究》文中进行了进一步梳理语音识别是一个复杂的非线性过程,基于线性系统理论的语音识别方法如隐马尔可夫模型(HMM)等技术的局限性逐渐凸现。随着人工神经网络的非线性理论研究和应用的逐渐深入,基于ANN的语音识别方法,逐渐成为研究的焦点。本文主要就前馈神经网络(BP神经网络)的原理及其在语音识别中的应用进行如下研究:1、如何有效的提取语音信号特征关于该问题首先从如何有效的检测语音信号的起止点进行研究,分析讨论了传统端点检测方法的优缺点,并对其进行了改进;然后,本文在研究基于线性预测倒谱和非线性MEL刻度倒谱特征的基础上,研究了LPCC和MFCC参数提取的算法原理及提取算法,并推导了一阶差分倒谱特征参数的提取算法。2、关于BP神经网络在语音识别中的应用主要研究了BP神经网络的原理,分析讨论了标准BP算法的优缺点及改进方法,并对传统的变学习率方法进行了改进。3、关于遗传算法在神经网络中的应用主要探讨了用遗传算法来优化神经网络的拓扑结构及权值的问题。该部分介绍了遗传算法的原理以及用它来优化神经网络拓扑结构、权值的步骤,同时还分析了遗传算法的主要参数对优化性能的影响。本文最终研究构造了一个基于遗传算法与BP神经网络的汉语语音识别模型,并完成了基于VC++6.0实验软件平台的程序设计与开发。针对非特定人的孤立词识别,识别率可以达到95%以上。
邱政权[10](2007)在《在噪声环境下的说话人识别》文中提出说话人识别的研究有几十年了,因此有些技术已经很成熟。尤其是与文本相关的说话人识别已经商品化。但是与文本无关的说话人识别,因为事先不知道文本的内容,所以就困难得多,但是这也是吸引人的地方,所以正是人们的研究热点。而且,虽然说话人识别在纯净语音环境中取得了令人满意的结果,但是一旦到了噪声环境下,说话人的识别率就会急剧地下降。这就牵涉到说话人识别系统的鲁棒性问题了。因此本文着重研究在噪声环境下的说话人识别。本文所做的工作主要如下:(1)针对在噪声环境下的说话人识别系统做了两点改进。第一,为了提高系统的鲁棒性,通过不同尺度的小波基,把含有噪声的信号分解于不同频段中,然后在各个频段分别通过TEO(Teager能量算子)去噪。针对说话人识别的特点,在小波重构时对各小波系数进行了加权处理。再把各个频段的输出通过小波重构恢复信号。最后通过Mel滤波器组把小波系数转换成MFCC。第二,为了进一步提高识别性能和训练速度,我们在识别阶段采用了改进的OGMM(正交高斯混合模型)即把正交变换改到EM算法之前进行,这样就不必要在EM迭代过程中每次都进行正交运算了。从实验得出,采用我们提出的DWT-TEO参数对于说话人识别的效果较好。采用改进的正交高斯混合模型进一步提高了识别性能和训练速度。(2)KLT已经成功用于与文本无关的说话人辨认的特征提取,但是对于特征矢量分解,它需要巨大的计算负担。为了减轻计算负担,把Karhunen Looeve变换(KLT)和重叠子帧合并起来用于噪声环境下的说话人辨认。基于重叠子帧的分离方法,我们提出了一种有效技术去建立特征矢量矩阵和取得KLT技术的优点的有效性。在传统的MCE方法中,对于有K个说话人的系统而言,每一类别的分类错误都需要计算K-1类的判别函数,随着K的增加,使得计算量大量增加,于是提出了一种改进的MCE模型去减少计算量,并进而提高运算速度。实验结果显示:所提出的方法确实减少了计算量,而且提高了系统的辨认率。(3)采用了改进的小波去噪方法对含噪语音进行了前端处理,并且针对说话人识别的特点,在小波重构之前对各小波系数进行了加权处理;识别过程采用了GMM识别算法。实验结果显示,本文所提出的方法对于含噪说话人识别有着比纯粹使用MFCC作为识别特征的说话人识别有明显的优越性。所提出的方法对进行实时的说话人识别有很好的指导作用。(4)高斯函数的线性组合能描述大量的采样分布,因此GMM具有计算的有效性和易于实现的优点,特别是在实时平台上。基于ML规则,模型参数不断更新,直到观察序列的概率的一些极限点。然而实际上,由于爬山特征,任意的原始模型参数估计通常将导致局部最优。遗传算法(GA)是近年来发展起来的强有力全局搜索工具,特别适合于求解复杂组合优化问题及非线性函数优化。提出了基于说话人识别的可以解决GMM局部最优问题GMM/GA新算法。实验结果显示,提出的GMM/GA新算法比纯粹的GMM算法能获得更优的效果。(5)去噪的目的是去掉噪声和保留尽量重要的特征。近来,用非线性处理的信号去噪,如小波变换已越来越普遍。对于小波阈值,使用了根据估计值变量和偏差的能显示软硬阈值的半软阈值函数。GMM普遍用于说话人识别系统中,并且在宽带语音中表现出了很好的性能。然而,在噪声环境下,性能急剧下降。GMM的另一个困难是需要至少几分钟的训练语音,这对实时应用是不适用的。另一方面,ANN需更少的训练数据。所以联合概率神经网络(PNN)和GMM去提高系统的性能。试验结果显示,所提出的方法有利于噪声环境下的说话人识别。
二、MFCC特征加权应力影响下的变异语音识别(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、MFCC特征加权应力影响下的变异语音识别(论文提纲范文)
(1)基于时间卷积网络的多口音中文语音识别方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 语音识别研究现状 |
1.2.2 口音分类与识别研究现状 |
1.2.3 多任务学习研究现状 |
1.3 论文研究内容及技术路线 |
1.4 论文组织结构 |
第2章 语音特征提取 |
2.1 语音信号预处理 |
2.1.1 预加重 |
2.1.2 分帧和加窗 |
2.2 语音特征提取 |
2.2.1 MFCC特征提取 |
2.2.2 LPC特征提取 |
2.3 嵌入模型 |
2.3.1 词嵌入 |
2.3.2 句子嵌入 |
2.4 MFCC和口音句子嵌入融合特征的提取 |
2.5 实验及结果分析 |
2.5.1 实验数据和特征 |
2.5.2 实验设置 |
2.5.3 实验评估指标 |
2.5.4 实验结果及分析 |
2.6 本章小结 |
第3章 基于时间卷积网络的声学模型 |
3.1 基于时间卷积网络的声学建模 |
3.1.1 时间卷积网络 |
3.1.2 声学建模 |
3.2 DNN-HMM基线系统 |
3.3 实验及结果分析 |
3.3.1 实验数据和特征 |
3.3.2 实验设置 |
3.3.3 实验结果及分析 |
3.4 本章小结 |
第4章 基于时间卷积网络的多任务学习方法 |
4.1 多任务学习方法 |
4.1.1 自适应任务权重 |
4.1.2 梯度重归一化 |
4.1.3 参数共享 |
4.2 基于时间卷积网络的多任务学习方法 |
4.3 口音分类 |
4.4 实验及结果分析 |
4.4.1 实验数据和特征 |
4.4.2 实验过程 |
4.4.3 实验结果及分析 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
硕士研究生期间的工作成果 |
(2)对感冒语音鲁棒的语音指令识别及嵌入式实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景与意义 |
1.2 语音识别研究状况与趋势 |
1.3 智能家居的语音交互进展 |
1.4 研究内容及章节安排 |
第二章 感冒语音与正常语音的特征差异性分析 |
2.1 实验语音数据库和实验平台 |
2.1.1 语音数据库 |
2.1.2 实验平台 |
2.2 语音信号的产生过程 |
2.3 语音基音分析 |
2.3.1 短时自相关函数的基音检测 |
2.3.2 感冒前、后基音周期对比 |
2.4 语音共振峰分析 |
2.4.1 基于倒谱法的共振峰提取 |
2.4.2 感冒前、后共振峰对比 |
2.5 语音Mel倒谱分析 |
2.6 基于特征空间轨迹的时间规正 |
2.6.1 时间规正方法 |
2.6.2 基于特征空间轨迹的时间规正算法 |
2.6.3 实验及结果分析 |
2.7 本章小结 |
第三章 对感冒语音鲁棒的语音识别方案 |
3.1 感冒语音与正常语音分类 |
3.1.1 SVM支持向量机 |
3.1.2 支持向量机参数寻优和训练 |
3.1.3 分类实验 |
3.2 基于决策融合的语音识别方案 |
3.2.1 方案框架 |
3.2.2 决策融合模块设计 |
3.2.3 阈值参数寻优 |
3.3 基于特征空间轨迹时间规正的语音识别方案 |
3.3.1 方案框架 |
3.3.2 分段参数寻优 |
3.4 语音识别方案实验设计与分析 |
3.4.1 实验数据和评价指标 |
3.4.2 实验结果分析 |
3.5 本章小结 |
第四章 嵌入式语音识别系统的实现 |
4.1 系统总体方案设计 |
4.2 软件系统设计 |
4.2.1 系统开发环境 |
4.2.2 Android端软件设计 |
4.2.3 语音识别算法设计 |
4.2.4 在线学习模块 |
4.2.5 系统人机交互界面实现 |
4.4 实验结果及分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(3)设施羊舍声信号的特征提取和分类识别研究(论文提纲范文)
摘要 |
Abstract |
1 引言 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 畜禽等动物声信号的研究 |
1.2.2 声信号去噪技术研究 |
1.2.3 声信号特征提取方法研究 |
1.2.4 声信号的识别模型研究 |
1.3 存在的问题和研究内容 |
1.3.1 存在的问题 |
1.3.2 研究的内容 |
1.4 技术路线 |
2 羊舍声信号的采集与小波去噪方法研究 |
2.1 设施羊舍的声信号采集 |
2.2 羊舍声信号的小波去噪 |
2.2.1 小波去噪流程 |
2.2.2 小波基的选择和试验 |
2.2.3 小波分解层数的选择和试验 |
2.2.4 改进的一种阈值选择规则 |
2.2.5 改进的一种阈值函数 |
2.3 羊舍声信号的分析处理软件 |
2.3.1 软件设计方案 |
2.3.2 软件程序的设计 |
2.3.3 软件界面的设计 |
2.4 小结 |
3 羊舍声信号共振峰特征参数提取研究 |
3.1 LPC法提取共振峰参数 |
3.1.1 线性预测分析 |
3.1.2 基于抛物线内插的峰值检测 |
3.2 改进的提取共振峰参数方法 |
3.2.1 第一共振峰频率的提取 |
3.2.2 第一共振峰带宽的提取 |
3.2.3 其它共振峰的提取 |
3.3 共振峰参数提取试验及结果分析 |
3.3.1 共振峰参数提取 |
3.3.2 声谱图中的共振峰 |
3.3.3 共振峰轨迹跟踪 |
3.4 小结 |
4 羊舍声信号的特征加权MFCC混合参数提取研究 |
4.1 梅尔频率与傅里叶频率的关系 |
4.2 羊舍声信号的MFCC提取 |
4.2.1 MFCC的提取流程 |
4.2.2 MFCC差分特征参数 |
4.2.3 羊舍声信号的MFCC及其差分参数 |
4.3 改进的特征分量加权MFCC特征参数 |
4.3.1 特征参数各维分量的评价方法 |
4.3.2 基于特征相关性的Fisher准则 |
4.3.3 基于CF比加权的MFCC混合特征参数 |
4.4 改进的MFCC特征参数的试验和结果分析 |
4.4.1 MFCC特征参数加权的识别性能对比 |
4.4.2 MFCC混合特征参数加权的识别性能对比 |
4.5 小结 |
5 基于希尔伯特-黄变换的羊舍声信号特征参数提取研究 |
5.1 固有模态函数和经验模态分解 |
5.1.1 瞬时频率与希尔伯特变换 |
5.1.2 固有模态函数 |
5.1.3 经验模态分解 |
5.2 希尔伯特谱及边际谱分析 |
5.2.1 希尔伯特谱 |
5.2.2 希尔伯特边际谱 |
5.3 基于希尔伯特-黄变换的羊舍声信号分析 |
5.3.1 羊舍声信号的经验模态分解 |
5.3.2 羊舍声信号的希尔伯特边际谱分析 |
5.4 基于边际谱的羊舍声信号特征参数提取 |
5.5 小结 |
6 基于HMM/ANN的羊舍声信号分类识别研究 |
6.1 隐马尔科夫模型的参数组成 |
6.2 隐马尔可夫模型的建模算法 |
6.2.1 HMM识别的前向-后向算法 |
6.2.2 HMM状态链的Viterbi算法 |
6.2.3 HMM训练的Baum-welch算法 |
6.3 羊舍声信号识别的HMM建模 |
6.3.1 隐马尔科夫链的确定 |
6.3.2 隐马尔科夫模型参数的确定 |
6.3.3 羊舍声信号识别的隐马尔科夫模型 |
6.4 羊舍声信号的HMM/ANN混合识别模型 |
6.4.1 HMM的不足及其解决方法 |
6.4.2 BP神经网络模型 |
6.4.3 HMM/ANN混合识别模型 |
6.5 羊舍声信号识别系统的试验与结果分析 |
6.5.1 不同识别模型的性能比较 |
6.5.2 不同特征参数对识别结果的影响 |
6.6 小结 |
7 结论与展望 |
7.1 结论 |
7.2 创新点 |
7.3 展望 |
致谢 |
参考文献 |
作者简介 |
(4)基于GMM和VQ的说话人识别系统的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 说话人识别的分类 |
1.3 国内外研究现状 |
1.4 论文的主要研究工作与结构安排 |
第二章 说话人识别前端处理 |
2.1 语音产生机理与模型 |
2.2 语音信号预处理 |
2.3 语音信号的端点检测方法 |
2.4 基于差分能量三级双门限的端点检测算法 |
2.5 仿真实验与分析 |
2.5.1 干净语音与低信噪比语音端点检测结果与分析 |
2.5.2 噪声环境下的端点检测仿真实验结果与分析 |
2.6 本章小结 |
第三章 语音的声学特征选择与提取 |
3.1 线性预测系数及其倒谱系数 |
3.1.1 线性预测系数 |
3.1.2 线性预测倒谱系数 |
3.2 残余信号相位 |
3.3 梅尔倒谱系数 |
3.4 感知线性预测 |
3.5 梅尔倒谱感知线性预测系数(MFPLP)特征 |
3.6 基于MFPLP与残余相位的融合声学特征(PMFPLP) |
3.7 说话人识别声学特征参数评价方法 |
3.7.1 F比 |
3.7.2 D比 |
3.8 基于主成分分析的声学特征降维 |
3.8.1 主成分分析 |
3.8.2 主成分分析在说话人识别中的应用 |
3.9 本章小结 |
第四章 基于GMM的说话人识别系统 |
4.1 基于GMM说话人识别系统概述 |
4.2 基于GMM的参数估计 |
4.2.1 最大似然估计(ML) |
4.2.2 期望最大化(EM)算法 |
4.2.3 期望最大化(EM)算法在基于GMM的说话人识别中的应用 |
4.2.4 基于GMM的说话人识别的识别问题 |
4.3 基于GMM的说话人辨认系统 |
4.3.1 基于GMM的说话人识别系统 |
4.3.2 基于GMM的线性加权系统融合 |
4.4 仿真实验与分析 |
4.5 本章小结 |
第五章 基于VQ的说话人识别 |
5.1 矢量量化的概述与应用 |
5.1.1 矢量量化的基本原理 |
5.1.2 LBG算法分析 |
5.2 基于遗传 K 均值初始化的矢量量化分析 |
5.2.1 遗传算法(GA) |
5.2.2 遗传算法 K 均值初始化的矢量量化技术 |
5.3 基于矢量量化(VQ)的说话人识别系统 |
5.4 仿真实验与分析 |
5.4.1 基于VQ的说话人识别系统实验结果分析 |
5.4.2 MFCC与PLP参数融合实验结果分析 |
5.4.3 基于GMM与VQ的说话人识别系统性能比较 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附录 |
(5)嵌入式语音识别系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外现状 |
1.2.1 国外现状 |
1.2.2 国内现状 |
1.3 论文研究内容 |
1.4 论文的组织与章节安排 |
2 语音识别的基础 |
2.1 语音识别的分类 |
2.2 语音识别系统的基本结构 |
2.3 语音信号预处理 |
2.3.1 语音信号的采集 |
2.3.2 语音信号的预加重 |
2.3.3 语音信号的加窗分帧 |
2.4 语音信号的端点检测 |
2.5 语音信号特征参数提取 |
2.5.1 线性预测系数(LPC) |
2.5.2 线性预测倒谱系数(LPCC) |
2.5.3 梅尔频率倒谱系数(MFCC) |
2.6 本章小结 |
3 语音识别技术 |
3.1 语音识别技术 |
3.1.1 动态时间规整算法(DTW) |
3.1.2 隐马尔克夫模型(HMM) |
3.1.3 人工神经网络(ANN) |
3.2 HMM 参数描述 |
3.3 HMM 的三个问题 |
3.3.1 评估问题的解决——观察序列概率的计算 |
3.3.2 解码问题的解决——最佳状态序列的确定 |
3.3.3 学习问题的解决——HMM 参数的优化问题 |
3.4 HMM 在语音识别中的应用 |
3.4.1 模型参数的确定 |
3.4.2 基于 CHMM 的语音识别系统 |
3.5 本章小结 |
4 基于 GA_CHMM 的语音识别系统 |
4.1 遗传算法 |
4.1.1 遗传算法的基本术语 |
4.1.2 遗传算法的流程 |
4.1.3 遗传算法的关键步骤 |
4.1.4 遗传算法的参数选择 |
4.2 基于 GA_CHMM 的语音识别系统 |
4.2.1 语音识别的预处理 |
4.2.2 语音识别的端点检测 |
4.2.3 语音识别的特征提取 |
4.2.4 语音识别的训练过程 |
4.2.5 语音识别的识别过程 |
4.3 实验及结果 |
4.3.1 实验结果 |
4.3.2 结果分析 |
4.4 本章小结 |
5 嵌入式系统的设计与实现 |
5.1 嵌入式语音识别系统 |
5.2 系统硬件电路的构成 |
5.2.1 电源模块 |
5.2.2 存储扩展模块 |
5.2.3 程序下载模块 |
5.2.4 语音采集模块 |
5.2.5 语音播出模块 |
5.2.6 串口通信模块 |
5.2.7 USB 模块 |
5.2.8 LCD 显示模块 |
5.2.9 系统实物图 |
5.3 系统软件的设计 |
5.4 系统测试 |
5.5 本章小结 |
6 总结和展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录 |
A 作者在攻读学位期间发表的论文目录 |
B 系统电路图 |
C 部分主要程序 |
(6)情感变异语音的分类与识别的研究(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 情感变异语音的概述 |
1.1.1 情感变异语音研究的背景及意义 |
1.1.2 情感变异语音识别技术的应用 |
1.2 情感变异语音分类与识别的发展现状 |
1.3 论文的主要工作及研究内容 |
1.4 本文的内容结构 |
第2章 情感变异的语音语料库的设计和构建 |
2.1 引言 |
2.2 情感变异的语音的分类 |
2.3 情感变异的语音语料库的建立 |
2.3.1 情感变异语句的选取 |
2.3.2 情感变异语音的采集 |
2.4 听辨实验 |
2.5 本章小结 |
第3章 情感变异语音的特征参数分析与选取 |
3.1 概述 |
3.2 语音信号的数字化与预处理 |
3.2.1 数字化 |
3.2.2 预处理 |
3.3 情感变异语音的特征 |
3.3.1 时域特征 |
3.3.2 共振峰的提取过程 |
3.3.3 倒谱特征 |
3.4 情感变异语音的特征分析 |
3.4.1 语谱图的分析 |
3.4.2 韵律学特征分析 |
3.5 本文选取的情感变异语音的特征 |
3.6 本章小结 |
第4章 基于子空间的情感变异语音的分类 |
4.1 概述 |
4.2 子空间法的基本概念介绍 |
4.2.1 子空间法的数学基础知识 |
4.2.2 统计正交展开 |
4.3 子空间方法分类 |
4.3.1 基于投影原理的判别规则 |
4.3.2 非学习的分类子空间计算方法 |
4.3.3 学习子空间法 |
4.3.4 平均学习子空间法 |
4.4 实验与分析 |
4.4.1 凯塞窗与海明窗的对比实验 |
4.4.2 不同特征的分类实验 |
4.4.3 不同子空间分类方法的实验 |
4.5 本章小结 |
第5章 基于差别子空间的情感变异语音的识别 |
5.1 概述 |
5.2 差别子空间的基本概念介绍 |
5.3 基于差别子空间的情感变异语音的识别 |
5.3.1 概述 |
5.3.2 情感变异语音识别的特征 |
5.4 实验与分析 |
5.4.1 自然情感语音识别 |
5.4.2 情感变异语音识别 |
5.4.3 综合性实验 |
5.5 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士期间发表论文 |
(7)语音情感特征提取与识别方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 情感的基础知识 |
1.2.1 情感的定义 |
1.2.2 情感的分类 |
1.3 语音情感识别研究现状 |
1.3.1 语音的主要情感特征 |
1.3.2 语音情感识别算法 |
1.4 语音情感识别存在的问题 |
1.5 语音情感识别系统评价 |
1.5.1 情感语音数据库 |
1.5.2 主要评价性能指标 |
1.6 论文的研究内容 |
1.7 本文内容安排 |
2 语音基音周期提取方法研究 |
2.1 引言 |
2.2 语音信号的产生机理 |
2.3 基于方差分析的语音基音周期提取 |
2.3.1 方差分析基础理论 |
2.3.2 基于方差分析的基音周期检测原理 |
2.3.3 基于方差分析的基音周期提取算法 |
2.3.4 实验结果与分析 |
2.4 基于小波方差分析的鲁棒语音基音周期提取 |
2.4.1 基于小波方差分析的基音周期提取算法 |
2.4.2 语音信号的小波分析 |
2.4.3 语音基频带小波系数提取 |
2.4.4 语音基频带小波系数的方差分析 |
2.4.5 实验结果与分析 |
2.5 本章小结 |
3 基于自整定权值K最近邻模型的语音情感识别 |
3.1 引言 |
3.2 KNN模型 |
3.3 加权离散KNN模型 |
3.4 自整定权值KNN模型 |
3.5 基于自整定权值KNN模型的语音情感识别 |
3.5.1 语音信号预处理 |
3.5.2 语音情感特征提取 |
3.5.3 特征向量归一化 |
3.5.4 特征向量降维 |
3.6 实验结果及分析 |
3.6.1 基于丹麦语数据库的情感识别实验 |
3.6.2 基于中文数据库的情感识别实验 |
3.6.3 实验结果分析 |
3.7 本章小结 |
4 基于多模型融合的语音情感识别 |
4.1 引言 |
4.2 特征提取 |
4.2.1 美尔频标倒谱系数 |
4.2.2 基于Teager能量算子美尔频标倒谱系数 |
4.2.3 线谱对参数 |
4.2.4 动态差分参数提取 |
4.3 情感识别 |
4.3.1 单一分类模型设计 |
4.3.2 基于遗传算法的多分类模型融合 |
4.4 实验结果及分析 |
4.4.1 基于丹麦语数据库的情感识别实验 |
4.4.2 基于中文数据库的情感识别实验 |
4.4.3 实验结果分析 |
4.5 本章小结 |
5 自动语音情感识别原型系统 |
5.1 引言 |
5.2 设计目标 |
5.3 系统架构 |
5.4 系统工作流程 |
5.5 系统开发环境 |
5.6 系统功能体系结构 |
5.6.1 语音输入模块 |
5.6.2 语音分析模块 |
5.6.3 语音端点检测模块 |
5.6.4 特征提取模块 |
5.6.5 训练模块 |
5.6.6 识别模块 |
5.7 本章小结 |
6 结论及展望 |
6.1 本文工作总结 |
6.2 未来工作展望 |
参考文献 |
攻读博士学位期间发表学术论文情况 |
致谢 |
作者简介 |
论文创新点摘要 |
(8)基于混淆网络和辅助信息的语音识别技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究目的和意义 |
1.2 国内外研究现状 |
1.2.1 声学解码后处理相关研究 |
1.2.2 辅助信息相关研究 |
1.3 本文主要研究内容 |
第2章 语音识别研究平台 |
2.1 概述 |
2.2 语料库 |
2.3 研究平台和基线性能 |
2.3.1 研究平台 |
2.3.2 基线性能 |
2.4 本章小结 |
第3章 混淆网络生成方法 |
3.1 概述 |
3.2 混淆网络质量评价指标 |
3.3 基于Lattice分段的混淆网络生成方法 |
3.3.1 基于Lattice分段的混淆网络生成 |
3.3.2 Lattice分段方法 |
3.3.3 实验与分析 |
3.4 基于K-L散度的混淆网络快速生成方法 |
3.4.1 最大后验弧主导的混淆网络快速生成算法 |
3.4.2 基于KLD的弧标号相似性测度 |
3.4.3 实验与分析 |
3.5 两种新的混淆网络结构 |
3.5.1 汉字混淆网络 |
3.5.2 逻辑混淆网络 |
3.6 本章小结 |
第4章 融合辅助信息的混淆网络解码方法 |
4.1 概述 |
4.2 基于触发式语言模型的混淆网络解码 |
4.2.1 基于词义类对的触发式语言模型 |
4.2.2 基于触发式语言模型的混淆网络解码方法 |
4.2.3 实验与分析 |
4.3 基于多系统合并的混淆网络解码 |
4.3.1 基于多系统合并的混淆网络解码 |
4.3.2 多系统合并方法 |
4.3.3 假设后验的重估 |
4.3.4 实验与分析 |
4.4 本章小结 |
第5章 基于声调辅助信息建模的语音识别方法 |
5.1 概述 |
5.2 基于声调辅助信息的声学解码 |
5.2.1 基于MSD-HMM 的声调建模 |
5.2.2 嵌入MSD-HMM声调模型的声学解码 |
5.2.3 数据流相关的状态绑定方法 |
5.2.4 实验与分析 |
5.3 基于声调辅助信息的混淆网络解码 |
5.3.1 调域的归一化 |
5.3.2 声调轮廓特征 |
5.3.3 基于Supra-tone单元的声调建模 |
5.3.4 基于Supra-tone声调模型的混淆网络解码 |
5.3.5 实验与分析 |
5.4 本章小结 |
第6章 基于混淆网络和手写辅助的汉语语音输入 |
6.1 概述 |
6.2 具有在线错误修正功能的汉语语音输入系统 |
6.3 连续语音识别结果的在线错误修正 |
6.3.1 基于混淆网络解码的识别结果组织 |
6.3.2 基于手写辅助信息的识别错误修正 |
6.3.3 实验与分析 |
6.4 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
个人简历 |
(9)基于遗传算法和BP神经网络的汉语语音识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 前言 |
1.2 语音识别发展史及现状 |
1.2.1 国外研究历史及现状 |
1.2.2 国内研究历史及现状 |
1.3 语音识别系统 |
1.3.1 语音识别基本原理 |
1.3.2 语音识别的分类 |
1.3.3 神经网络在语音识别中的应用 |
1.4 本文的主要工作和内容安排 |
1.5 小结 |
第二章 语音信号的声学基础及产生模型 |
2.1 汉语语音学基础 |
2.1.1 音素和音节 |
2.1.2 元音和辅音 |
2.1.3 声母和韵母 |
2.1.4 汉语语音的主要特点 |
2.2 语音信号的产生 |
2.2.1 语音的发音器官 |
2.2.2 语音信号的产生模型 |
2.3 语音信号的听觉特性和语音感知 |
2.3.1 听阈与听域 |
2.3.2 音调 |
2.3.3 掩蔽效应 |
2.4 小结 |
第三章 语音信号预处理与特征提取 |
3.1 语音文件的读取 |
3.1.1 WAVE 文件的存储结构 |
3.1.2 WAVE 文件的数据存储结构 |
3.1.3 WAVE 样本点和样本框架 |
3.1.4 用 C++ 语言实现对 WAVE 文件的读取 |
3.2 预加重 |
3.3 端点检测 |
3.3.1 短时能量 |
3.3.2 短时平均过零率 |
3.3.3 Lawrence Rabiner 提出的端点检测方法 |
3.3.4 本文所用的端点检测方法 |
3.3.5 端点检测实验及结论 |
3.3 分帧和加窗 |
3.4 特征参数计算 |
3.4.1 LPCC 的提取过程 |
3.4.2 MFCC 的提取过程 |
3.4.3 对特征参数进行倒谱提升 |
3.4.4 动态差分参数的提取 |
3.5 小结 |
第四章 BP 神经网络 |
4.1 人工神经网络概述 |
4.1.1 人工神经元模型 |
4.1.2 人工神经网络模型 |
4.1.3 神经网络的学习方法 |
4.2 BP 神经网络 |
4.2.1 BP 算法 |
4.2.2 BP 算法的改进 |
4.3 小结 |
第五章 遗传算法在神经网络中的应用 |
5.1 前言 |
5.2 遗传算法的基本思想和实现步骤 |
5.2.1 遗传算法的基本思想 |
5.2.2 遗传算法的实现步骤 |
5.3 用遗传算法优化神经网络 |
5.3.1 编码方案 |
5.3.2 适应度函数的确定 |
5.3.3 遗传操作 |
5.3.4 控制参数的设定 |
第六章 实验与分析 |
6.1 语音样本库的建立 |
6.2 语音特征矢量库的建立 |
6.2.1 语音信号的预处理 |
6.2.2 语音特征参数的提取 |
6.2.3 特征参数的归一化 |
6.2.4 特征矢量序列的聚类合并 |
6.2.5 语音特征资料库的程序实现 |
6.3 基于 GA-BP 的汉语语音识别仿真及性能分析 |
6.3.1 神经网络模型的建立 |
6.3.2 隐含层神经元个数对网络性能的影响 |
6.3.3 动量因子及学习率对网络性能的影响 |
6.3.4 误差极限对网络性能的影响 |
6.3.5 训练样本数目对识别性能的影响 |
6.3.6 特征参数性能对比 |
6.3.7 网络的初始权值对网络性能的影响 |
6.4 小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 将来的工作 |
参考文献 |
致谢 |
攻读学位期间发表论文情况 |
(10)在噪声环境下的说话人识别(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.1.1 选题与研究意义 |
1.1.2 说话人识别概述 |
1.2 说话人识别原理 |
1.2.1 说话人的语音参量 |
1.2.2 特征类型的优选准则 |
1.2.3 说话人识别的历史 |
1.2.4 国内外研究动态 |
1.2.5 说话人识别存在的一些问题 |
1.2.6 噪声环境 |
1.2.7 LPC 的基本原理 |
1.2.8 美尔倒谱系数MFCC |
1.3 噪音下的语音检测与噪声消减 |
1.3.1 噪音条件下的语音检测 |
1.3.2 噪声消减技术比较 |
1.3.3 谱相减算法与误差补偿 |
1.4 本文主要工作和内容安排 |
1.4.1 本文主要工作 |
1.4.2 本文的内容安排 |
第二章 基于DWT-TEO 的说话人识别 |
2.1 引言 |
2.1.1 小波变换在语音信号处理中的应用 |
2.2 小波去噪 |
2.2.1 小波变换的反演及对基本小波的要求 |
2.2.2 小波变换的噪声处理 |
2.3 TEAGER 能量算子 |
2.3.1 Teager 能量算子对噪声的影响 |
2.4 基于DWT-TEO 的说话人识别 |
2.4.1 离散小波变换 |
2.4.2 TEO |
2.4.3 小波去噪 |
2.4.4 正交高斯混合模型模型(OGMM) |
2.5 实验及结果 |
2.6 结论 |
2.7 本章小结 |
第三章 用于说话人识别的KLT |
3.1 引言 |
3.1.1 KLT 变换 |
3.2 用于说话人辨认的基于重叠子帧的有效KLT |
3.2.1 说话人特征提取 |
3.2.2 改进的MCE 模型 |
3.2.3 试验结果 |
3.2.4 结论 |
3.3 基于说话人辨认的新的语音去噪方法 |
3.3.1 小波去噪原理 |
3.3.2 自适应KLT 算法 |
3.3.3 基于DWT 和KLT 的去噪方法 |
3.3.4 试验结果 |
3.3.5 总结 |
3.4 本章小结 |
第四章 针对说话人识别的加权自适应小波去噪 |
4.1 引言 |
4.2 自适应滤波 |
4.2.1 最佳滤波准则 |
4.2.2 LMS 自适应算法 |
4.2.3 LMS 算法的性能 |
4.3 多分辨分析与MALLAT 算法 |
4.3.1 Mallat 算法的信号分解过程 |
4.3.2 Mallat 算法的信号重建过程 |
4.4 自适应小波去噪 |
4.5 针对说话人识别进行的加权小波去噪方法 |
4.5.1 离散小波变换自适应消噪系统 |
4.5.2 高斯混合模型(GMM)模型 |
4.5.3 实验 |
4.5.4 结论 |
4.6 本章小结 |
第五章 基于说话人识别的GMM/GA 算法 |
5.1 引言 |
5.2 隐马尔可夫模型(HMM) |
5.2.1 第一个问题的求解 |
5.2.2 第二个问题的求解 |
5.2.3 第三个问题的求解 |
5.3 隐马尔可夫模型在说话人识别中的应用 |
5.4 高斯混合模型(GMM)模型 |
5.4.1 EM 算法 |
5.4.2 GMM 辨认算法 |
5.4.3 GMM 确认算法 |
5.5 最大似然参数估计 |
5.6 GMM/GA 新算法 |
5.6.1 人口初始化 |
5.6.2 适应值 |
5.6.3 基因运算 |
5.7 试验结果 |
5.8 结论 |
5.9 本章小结 |
第六章 基于新的DWT-PNNGMM 去噪的说话人识别 |
6.1 引言 |
6.2 神经网络基本原理 |
6.2.1 神经元 |
6.2.2 网络拓扑 |
6.2.3 网络的训练(学习)算法 |
6.3 概率神经网络(PNN) |
6.3.1 PNN 的结构 |
6.3.2 PNN 的算法 |
6.4 基于新的DWT-PNNGMM 去噪的说话人识别 |
6.4.1 二进制小波变换 |
6.4.2 MFCC 估计 |
6.4.3 PNNGMM 分类器 |
6.4.4 说话人识别试验 |
6.4.5 结论 |
6.5 本章小结 |
第七章 性能比较 |
7.1 引言 |
7.2 三种不同去噪方法的性能比较 |
7.2.1 基于DWT-TEO 的说话人识别 |
7.2.2 用于说话人识别的KLT |
7.2.3 针对说话人识别的加权自适应小波去噪 |
7.2.4 采用其它去噪方法的性能 |
7.2.5 不同去噪方法的性能比较 |
7.3 两种GMM 最优化的性能比较 |
7.3.1 基于说话人识别的GMM/GA 算法 |
7.3.2 基于说话人识别的DWT-PNNGMM 去噪 |
7.3.3 两种GMM 最优化的性能比较 |
7.4 本章小结 |
结论 |
参考文献 |
附录 |
攻读博士学位期间取得的研究成果 |
致谢 |
四、MFCC特征加权应力影响下的变异语音识别(论文参考文献)
- [1]基于时间卷积网络的多口音中文语音识别方法研究[D]. 张吉. 武汉理工大学, 2020(08)
- [2]对感冒语音鲁棒的语音指令识别及嵌入式实现[D]. 巫小兰. 华南理工大学, 2018(01)
- [3]设施羊舍声信号的特征提取和分类识别研究[D]. 宣传忠. 内蒙古农业大学, 2016(01)
- [4]基于GMM和VQ的说话人识别系统的研究[D]. 林子明. 华南理工大学, 2012(12)
- [5]嵌入式语音识别系统的设计与实现[D]. 斯芸芸. 重庆大学, 2012(03)
- [6]情感变异语音的分类与识别的研究[D]. 金玉卿. 黑龙江大学, 2012(12)
- [7]语音情感特征提取与识别方法研究[D]. 赵腊生. 大连理工大学, 2010(05)
- [8]基于混淆网络和辅助信息的语音识别技术研究[D]. 王欢良. 哈尔滨工业大学, 2007(12)
- [9]基于遗传算法和BP神经网络的汉语语音识别研究[D]. 陆茵. 广西大学, 2007(05)
- [10]在噪声环境下的说话人识别[D]. 邱政权. 华南理工大学, 2007(06)