一、基于小波变换的汉语声调识别新方法(论文文献综述)
张婉琪[1](2018)在《北部吴语阻塞音的声学实验研究》文中研究说明本文以苏州话和常州话为代表,从声学语音学的角度对北部吴语阻塞音的性质与变异进行分析与研究。全文共分为六章。第一章为绪论部分,主要说明北部吴语的地理范围、调查点概况和阻塞音的相关概念,同时整理出前辈学者对阻塞音所做的声学研究和实验结果,最后提出了本文的研究目的及意义。第二章可分为两部分。第一部分介绍了小波变换的性质特点和算法原理,并简要介绍了小波在语音研究中的应用情况;第二部分列出了本文具体的实验方案。第三章至第五章为本文的主体部分,分别对塞音、塞擦音和擦音进行声学实验研究,提取时长、过渡音征、音轨方程、频谱能量和小波系数等参数值,并加以分析。实验的结论主要有:(1)时长方面,擦音远长于塞擦音和塞音,不同发音部位和发音方法阻塞音的时长存在差异,经检验,多数差异具有统计学上的显着性意义。(2)过渡音征和音轨方程方面,塞音与后接元音之间的关系更加密切,协同发音作用较大,但塞擦音的音轨频率普遍大于塞音。(3)频谱能量方面,不同发音部位的塞音和擦音在各频率区间内有能量差异,而浊塞音和浊擦音与相应清音的频谱差别不大。塞擦音阻塞段与对应塞音、摩擦段与对应擦音的频谱差异较大,但阻塞段与摩擦段的能量走势较为一致。(4)变异性方面,苏州话和常州话各阻塞音后接不同元音时的变异强弱具有随机性。总体来看,塞音稳定性较高,擦音变异性较强。第六章为总结部分,主要列出前几章的实验结果,并提出本文的不足之处。
刘从桂[2](2014)在《噪声环境下汉语连续语音声调识别研究》文中提出汉语不同于英语的一种语音,最显着的差别在于语调,汉语是个有调语言,而英语中并不存在调一说。因此声调成为了汉语一个非常重要的特征,并运用到许多语音研究领域,比如语音合成,语音识别,以及语音编码。本文我们研究对象是标准普通话。孤立字声调模型相对稳定,因此,孤立字的声调识别相对而言比较容易。而连续语音的声调识别却并不容易,主要原因是连续语音的声调协同作用。协同作用是导致连续语音声调模型多样性。传统的方法是对每个变调进行建模从而进行模式识别,但是,标准声调的变调模型之间往往存在重叠。这是很多连续声调识别方法难以提高识别率的根本原因。语音不可避免会被噪声污染,而噪声往往会影响声调的检测。为此,语音增强预处理是非常有必要的。本文主要研究内容和创新成果如下:1.提出新的子空间语音增强算法子空间算法主要包括信号维数估计和信号空间滤波处理过程。传统子空间算法运用噪声估计来确定信号维度,这并不合理,因为,实际噪声多数都是非稳定的。对此,本文运用基于重建误差函数的方法估计信号维数。其主要原理是基于主要成分分析方法(PCA)计算重建误差,误差越小,重建信号就是最优的,从而估计出信号维数。考虑到噪声的非稳定性,运用跟踪算法实时地估计噪声。理论上,信号子空间中减法运算是可以去噪的,这种算法类似谱减法语言增强。但是,子空间内单纯减去噪声的方法并不能有效实现去噪。为此,我们运用了维纳滤波的算法代替减法算法来去除混合子空间内的噪声。实验证明,本文提出的新的子空间算法能有效实现语音增强。2.提出了新的基于稀疏的语音增强方法语言信号是近似稀疏的,而且多数的能量都存在于低频段。本文结合这一特点设计了复合稀疏字典进行语音增强,即是运用稀疏字典来描述语音低频部分,运用固定字典描述语音高频部分。因为,高频段的语音成分也是不可忽视的,所以运用一个固定字典去描述也是非常有必要的。实验证明这种方法非常有效。然而,这种方法并不适合所有情况,当信噪比比较小或者比较大时,复合字典的性能急速下降。我们认为这种现象主要是语音和噪声之间的分类明显造成的,这种情况下,我们认为噪声也是稀疏性的,我们运用复合字典分别描述噪声和语音。实验表明,这种算法能有效改进高信噪比和低信噪比条件下的语音增强性能。3.基于相邻声调信息进行连续声调识别传统连续声调的识别算法并没有考虑这种模板重叠现象。本文的声调识别方法中,所有声调被划分为四个声调模型,运用模糊算法实现声调预识别。同时结合相邻声调相互影响规律,对已知连续声调序列进行预测,从而形成声调字典。最后结合声调识别结果和预测结果得到声调识别结果。为了验证声调识别算法对本算法的影响,本文也运用了支持向量机和时间规整化模板匹配算法进行对比分析。实验结果表明本文的声调识别算法优于传统算法,不会受到声调识别算法的影响。相对于无监督的识别算法,有监督的算法更加稳定有效。
徐郑丹[3](2013)在《基于时频分析的汉语声调识别的研究》文中提出汉语是一种带声调语言,声调是它的一个重要声学特征。声调在汉语中承担着构词辨意的重要作用,是切分连续语音的有力手段,在语音识别、语音合成和其他研究领域都具有十分重要的意义。本文研究了不同时频分布对汉语韵母的表示,提取了声调的时频特征信息,利用LP改进的Hilbert-Huang变换瞬时能量提取声调的基音周期特征,具体研究工作如下:(1)针对语音信号的非平稳时变特性,研究了不同时频分布对不同声调的汉语韵母的时频表示。讨论了语谱图和几种典型的Cohen类时频分析方法的时频分辨率、时频聚集性、交叉项抑制和运算速度,选择了能有效抑制交叉项干扰且时频聚集性较好的SPWD对语音信号进行时频分析。在SPWD时频图中,对于不同的韵母,同声调语音的时频脊线沿时间轴的变化趋势基本相同,不同声调语音的时频脊线的变化趋势不同。(2)时频矩阵很大,而声调变化的时频信息主要体现为时频脊线的变化,所以研究了提取时频脊线作为声调特征的汉语声调识别。为了得到细而清晰的时频脊,比较了SPWD和RSPWD的时频聚集性、运算时间。选择运行时间较短的SPWD、阈值和图像细化相结合的方法细化时频脊,然后利用Hough变换提取脊线线段。由于有些时频脊是曲线,将Hough变换求取的线段用最小二乘法多项式进行拟合。将脊线幅值和其一阶差分作为时频脊特征,利用GMM进行识别分类。该方法有效地识别了声调,且在不同信噪比的情况下,也取得较好的识别结果。(3)针对HHT瞬时能量受到声道共振峰频率的影响,对基音检测造成误检的问题,提出了基于LP改进的Hilbert-Huang变换的汉语声调识别。对语音信号进行线性预测分析求取线性预测残差信号,消除声道共振峰的影响,保留完整的周期激励信息,残差信号的HHT瞬时能量呈现准周期性。同时利用线性预测残差的自相关求取参考基音,用EMD进行瞬时能量包络光滑,根据参考基音搜索瞬时能量的局部极大值,相邻两个局部极大值之间的时间间隔就是一个基音周期。该方法可以有效地时刻跟踪基音周期变化,将求取的基音周期及其一阶差分作为特征向量,利用GMM进行声调识别分类,可以有效地识别汉语声调。
沈燕[4](2012)在《基于听觉感知小波包改进的语音处理方案对电子耳蜗汉语音感知的研究》文中研究说明电子耳蜗是一种利用功能性电刺激直接兴奋听神经来恢复耳聋患者的听觉感知的装置,但是目前针对汉语音声调的语音编码策略还存在不足,如声调感知发音效果较差,对旋律和音乐感知较弱。针对电子耳蜗植入者对声调感知的不足,本文研究了时域信息与频域信息的获取率对声调感知的决定性作用,并提出了基于听觉感知的小波包分解策略,采用多分辨率分析思想,非均匀划分时频空间,获取有效的时频信息,从而提高患者音调和音质的感知能力。针对耳蜗植入电极数目的限制,在保证完整获取时频域信息和避免多电极通道相互间干扰的基础上,采用通道能量最大选取准则,剔除语音信息含量较少的频率通道,即保证了有效时频信息的传递,又避免了电极通道间的相互干扰。针对基于高速脉冲调制时产生的带内噪声等对汉语声调的掩蔽干扰,提出了调制深度选择方案,极大的削弱了带内噪声的干扰,进而提高了汉语声调信息的获取率。研究结果表明,基于听觉感知的小波包分解与调制深度选择相结合的策略,能有效地抑制带内噪声,并获取更丰富的时频信息,增强患者声调感知能力。
杨丽宁[5](2008)在《汉语普通话声调识别和评估系统的设计与实现》文中研究指明声调——汉语普通话最重要的信息,随着汉语语音识别技术的进一步发展,声调识别研究成为汉语语音识别技术突破的主要方向。而体现声调的最主要的特征就是声调的基频FO,有效的利用声调信息,必须对基频FO进行准确的提取与分析。为此,本文主要从基频提取以及基频后处理、声调识别建模、声调评估三方面对汉语普通话声调识别和评估系统进行了设计。首先,本文从声调特征基频FO的提取着手,采用短时自相关法进行汉语声调基频提取,由于基频提取中不可避免的会出现错误点,对提取后的基频进行后处理是必要的。基于此,本文采用了插值平滑和重采样处理获得用于识别模型的标准基频信息,并且改进了一种归一化方法(m LD算法),以便将其更好地应用于非特定人识别。依据语料样本库,给出了算法的实验结果并验证了算法的有效性。然后,在提取基频信息的基础上,论文详细地分析了基频信息的特点以及其总体分布情况,得出其总体分布满足亚高斯性的结论。这为声调识别模型的建立提供了很好的理论基础。在这种理论基础的支持下,建立了声调识别模型——GMM模型,并将模型在标准语音库863语料样本下进行了实验分析,给出了分析结果。接下来,基于GMM模型的声调识别结果,论文建立了汉语声调评估模型——基于GMM的后验概率评估模型,并给出了几种不同的打分方法。这种评估模型的建立,很好地融合了声调基频特征和声调识别结果。并就此应用了用于衡量汉语声调评估优劣的两个指标:相关系数和分级错误率进行评判。结合100位大学生语音语料和9位语言专家的打分情况,给出了对应指标下的结果。对结果分析得出如下结论:本文采用的基频提取算法、后处理算法、声调识别模型和声调评估模型在应用到汉语普通话声调评估系统中能取得较好的效果,为汉语普通话考核的推广和普及奠定了重要基础。最后,对本文的主要工作提出了不足之处,并对其进行了总结和展望。
姚艳红[6](2008)在《基于计算机智能聋儿语音康复训练系统的语音识别研究》文中提出当今社会,聋儿的语音康复训练已经逐渐受到社会的重视。随着网络及多媒体电脑的普及,聋儿康复系统软件的需求也将越来越大,对其智能化的要求也越来越高。本课题即是来源于一套《汉语语音聋儿计算机智能语言训练系统》的开发。而我们所要开发的聋儿语音康复训练系统不同于现有的语音识别的产品,该系统根据聋儿的发音缺陷,对表示发音声调、语意、情感等信息参数分别处理,有针对性的对聋儿进行语音训练。并将提取的汉语语音参数,转化为可视化且简单易懂的图形,再与动画相结合,经视觉反馈提供给患儿准确的语音信息,使聋儿对自己的发音有个更清楚地认识,又能通过发音提示领悟到这些图形在自己的口型及发音上的实际物理意义,从而达到更好的训练效果。根据聋儿语音训练过程及其使用环境的需求,本文首先介绍了语音的预处理过程,重点研究了单音节汉语语音的声调识别和共性识别方法。从汉语语音的特点出发,提出了适合于聋儿语言康复训练的预处理和识别方法。预处理部分中,主要研究了端点检测方法。在很长一段时间里,语音端点检测算法主要是依据语音信号的时域特性,随着语音处理技术的发展,又出现了很多频域的端点检测方法。这些方法都存在各自的优缺点,根据其使用环境的不同,应该选用不同的端点检测方法。聋儿语言康复训练系统的应用环境为安静的室内,背景噪声较小。经室内环境实验,利用短时能量和短时过零率的端点检测方法即可满足系统的要求,且这种检测方法计算简单,有利于系统的实时实现。根据语音处理的需要,本文在原有算法的基础上进行改进,提取出语音的起始端、浊音段起始端以及语音的结束端三个端点,为此后的声调识别和共性识别作准备。最后,还简要介绍了存在背景噪声情况下的语音去噪方法,以提高聋儿语言康复训练系统的适用性。声调识别是聋儿语言康复训练系统的一个重要内容。由于说话的速度受情绪、形式和环境的影响,使得即使发同一个音,提取的声调轨迹也不尽相同,这种声调长度的不确定性以及个性的差异,使得声调识别变得困难。本文从汉语声调的变化规律出发,提出了基于一次曲线拟合的汉语单音节声调识别方法。该方法通过对声调轨迹进行一次曲线拟合,提取了声调轨迹方差、拟合直线斜率、拟合优度以及拟合后的残差平方和四个参数,通过对各个参数设置不同的阈值,来识别四声调。为了进一步提高识别率,还结合基于能量的预分类方法,来提高了三声声调的识别率。通过实验,这种声调识别方法,在不需要进行训练的情况下,最终达到了97.84%的正确声调识别率。语音的共性识别关系到聋儿对语意信息的理解,也是聋儿语言康复训练系统不可缺少的一个重要内容。本文从汉语音节的特点出发,提出了将音节的清音段和浊音段分别对比的语音共性识别方法。利用FFT系数对清音段识别的方法,能够让聋儿清楚的理解清音的发音方式,达到更好的语言训练效果;通过对LPCC参数、MFCC参数和共振峰参数的分析和对比,浊音段的共性识别采用了与发音器官联系密切的共振峰参数,并与短时能量相结合,可以从参数的变化对聋儿的发音给出提示信息。总之,本文从汉语语音特点出发,采用适合聋儿语音康复训练的算法,并达到了满意的识别效果。
明悦,苗振江[7](2007)在《汉语语音识别网站的设计与实现》文中研究表明随着网络技术的飞速发展,它为汉语研究领域带来了新的动力。本文设计并实现了一种汉语语音识别的网站。介绍了隐含马尔科夫模型(HMM)在语音识别系统中的应用和小波变换在声调识别中的应用。采用JSP和SQL Server 2000数据库技术开发技术,实现了网络系统的开发,可实现查询用户信息等功能,并以WEB页的形式呈现给所有的网络用户,具有及时、准确等优点。本文对系统的开发原理、系统的功能和设计方案进行了介绍。
苏伟[8](2007)在《基于普适计算的交互汉语学习系统》文中认为近些年来,随着中国经济的快速发展和国际地位的不断提高,中国与世界的交往和联系日趋广泛和深入。汉语作为世界各国了解中国的重要工具和中华文化的主要载体,受到了越来越多的国家政府、教育机构、企业以及传媒的重视,不少国家出现了学习汉语的热潮。普适计算是一种正在兴起的新型的计算模式,其“无处不在,以人为本”的理念使得普适计算在许多领域的应用中都有着巨大的潜力。普适计算的理念非常适合应用于方便、高效地交互汉语学习。基于软交换、文语转换、语音邮件等技术的普适计算平台能够为汉语学习者提供多种普适服务,帮助他们更好的学习汉语。比如通过利用软交换技术的实时通讯服务,学习者能够及时地与汉语老师实时通信,这可以帮助学习者及时解决学习中遇到的问题,并建立一个汉语学习的良好语境;通过使用文语转换的语音邮件服务,系统可以自动收集学习者学习情况的信息,并以语音邮件的方式告知老师,这样老师就可以方便的了解到学习者的程度,进而帮助学习者制定下面的学习计划。语音识别技术能够识别学习者的汉语发音,同时计算出该汉语发音的准确度是多少,从而帮助学习者掌握汉语的准确发音;声调识别技术能够识别学习者发音的声调,并且计算出发音声调的准确度,这对于那些母语是非声调语言的学习者来说是非常有帮助的。本论文综合应用了语音识别、声调识别、软交换、文语转换、语音邮件等多种技术,使用了以人为中心的普适计算系统模型(HPC)和分层结构分析与设计方法(LAAD),设计了一个基于普适计算的交互汉语学习系统,以便为汉语学习者提供更好的服务,使他们能够更便捷,更高效的学习汉语。我们的研究取得了以下具体成果:第一,设计了基于普适计算的交互汉语学习系统的框架,定义个各功能模块。第二,完成了普适计算平台搭建,实现了软交换中IP网和PSTN网的语音通信,实现了文语转换和发送语音邮件的功能;第三,建立起了一个600词的汉语语料库,成功实现了汉语孤立词识别和汉语四种声调的识别,并提出了汉语发音准确度和汉语声调准确度的计算方法,实现了汉语发音准确度和汉语声调准确度的计算;第四,设计并完成了系统网站的建设,实现了交互汉语学习的目标。
郑燕琳[9](2004)在《汉语连续语音三字词基音提取及声调识别》文中认为随着现代科学和计算机技术的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式。一般来讲,人与机器的语言通信大致分为两种情况:语音合成、语音识别。语音识别是以语音为研究对象,是语音信号处理的一个重要研究方向,是实现人机通信的主要技术。在计算机、信息处理、通信与电子系统、自动控制等领域中,在工业、军事、交通、医学、民用诸方面有着广泛的应用。但由于汉语自身的特点,汉语的语音信息处理比西方语言更为困难和复杂,语音识别还存在许多困难,远远达不到实用化的要求。寻求新的语音识别算法,提高识别准确率是目前所要解决的问题。汉语是音节声调语言。声母、韵母和声调是汉语音节的三个主要属性。作为主要属性之一的声调携带着重要的辩义信息,是连续语音切分的有力手段,在连续语流中声调组合及其模式还是提高单词和单句识别率及语音理解必不可少的。声调对探讨具有汉语特色的新的语音识别方法有重要意义,对形成个人语音声调特征进行说话人识别也具有重要意义。因此,研究汉语的声调特征是具有普遍意义的。三字词中音节的声调特征更接近连续语音中音节的声调特征,本文就是要探讨一种有效的汉语连续语音三字词基音检测及声调识别方法。本文主要研究内容为两部分:基音提取和声调识别。基音提取的准确度极大的影响声调识别的准确率。本文主要研究基音频率的特性,提出了一种有效的基音提取算法。另外,本文在研究已有的声调识别方法的基础上,提出了一种新的声调识别算法。 本文首先介绍了语音识别技术的发展历史、语音识别的系统框架和目前语音识别技术的难点,以及声调识别技术的理论基础及现状。然后,本文重点研究所要探讨主要内容的理论算法,并提出新的算法:1.研究本课题关键技术之一:基音提取。基音提取是声调识别准确<WP=88>率提高的关键因素之一,准确的提取基音频率,尤其是较准确的提取三字词音节浊音段的频率是所要解决的问题。本文提出了一种音节分割方法,利用声母短时平均能量和短时过零率特性进行音节的有效分割。再结合自相关函数和平均幅度差函数法提取基音频率。实验证明这种方法取得了较好的效果。2.研究本课题关键技术之二:声调识别。本文利用基音提取的结果对已有的模糊声调识别算法进行研究,并提出了一种基于动态时间规整技术和改进的神经网络的声调识别算法。对不同的汉语词语,或不同人说相同的汉语词语时,其输入汉语语音词组信号的帧数不同,而大多数神经网络分类器的输入结构是固定的,我们利用动态时间规整技术提取固定长度的语音信号来解决这一难题。实验证明,这种方法取得了很好的效果。神经网络的设计是声调识别准确度提高的关键,我们将传统神经网络加以改进,提出S函数输出限幅算法、动量法、自适应学习算法,并用BP网络加以训练,这种改进的神经网络算法提高了声调识别的准确率。最后,本文对所提出的算法进行实验和性能分析。理论分析和实验结果都表明,应用本文提出的基音提取和声调识别方法可取得较高的声调识别准确率,并具较好的鲁棒性,但还存在一些缺点。我们在总结全文的基础上,指出了若干有待深入研究的问题。
赵瑞珍[10](2001)在《小波理论及其在图像、信号处理中的算法研究》文中认为小波分析是国际上新兴的一个前沿研究领域,研究小波的新理论、新方法以及新应用具有重要的理论意义和实用价值。本文旨在完善小波的基本理论,设计新的小波应用算法,进一步拓宽小波的应用范围。主要工作包括: 较为详细地讨论了小波快速算法的矩阵实现形式和卷积实现形式;总结了小波基的数学特性,分析了它们对实际应用的影响和作用;提出了一种从紧框架出发构造规范正交小波基的方法;讨论了M进小波的构造与特性,构造了一组三进规范正交小波基对应的滤波器系数。 针对模极大值原理去噪过程中存在的重构小波系数难的问题,本文提出了一种分段三次样条插值(PCSI)新算法,可以快速高效地重构小波系数;在相关去噪的基础上,提出了一种基于区域相关的小波滤波算法,克服了通常相关算法中由于各尺度间小波系数的偏移导致的判断准确率低的缺点;针对硬阈值法不连续和软阈值法有偏差的缺点,提出了多项式插值法,软、硬阈值折衷法和模平方处理方法等三种改进方案。 推导出Poisson噪声在小波变换下随尺度变化的变化公式,提出了一种基于区间的小波局部域复合滤波算法;针对Film-grain型噪声的特性,通过最小化估计信号与真实信号之间的均方差计算并得到了一个变换域最佳滤波算子,使得阈值选取具有自适应性。 依次提出了基音周期检测与汉语声调识别的小波变换峰值检测算法、基于小波变换的语音数字水印嵌入与检测算法、图像噪声去除的小波相位滤波算法以及基于小波变换的遥感图像多尺度数据融合算法;首次把小波包变换的方法用于医学中的胃动力检测;首次将小波变换的方法用于太阳射电爆发中的网纹消除与图像增强。仿真试验结果表明了上述算法的有效性和可行性。
二、基于小波变换的汉语声调识别新方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于小波变换的汉语声调识别新方法(论文提纲范文)
(1)北部吴语阻塞音的声学实验研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 调查点说明 |
1.2 阻塞音的概念 |
1.2.1 辅音的定义和分类 |
1.2.2 阻塞音的定义 |
1.2.3 本文相关术语说明 |
1.3 阻塞音研究综述 |
1.3.1 关于塞音的实验研究 |
1.3.2 关于塞擦音的实验研究 |
1.3.3 关于擦音的实验研究 |
1.4 研究目的及意义 |
第二章 小波变换理论与实验方案 |
2.1 小波变换与传统分析方法的比较 |
2.1.1 傅里叶变换 |
2.1.2 短时傅里叶变换 |
2.1.3 小波变换 |
2.1.4 小结 |
2.2 小波变换的基本思想及算法原理 |
2.2.1 小波的含义和性质 |
2.2.2 小波变换的主要特点 |
2.2.3 小波变换的基本算法 |
2.3 小波变换研究综述 |
2.3.1 小波在语音信号处理中的应用 |
2.3.2 小波在汉语语音研究中的应用 |
2.4 实验方案 |
2.4.1 发音人选择 |
2.4.2 实验调查表设计 |
2.4.3 语音样本采集 |
2.4.4 语音样本处理 |
2.4.5 具体声学实验操作 |
第三章 塞音的实验研究 |
3.1 实验材料 |
3.2 塞音的时长分析 |
3.2.1 参数说明 |
3.2.2 时长测量结果及分析 |
3.2.3 显着性检验 |
3.3 塞音的过渡音征和音轨方程分析 |
3.3.1 参数说明 |
3.3.2 塞音的过渡音征及分析 |
3.3.3 塞音的音轨方程及分析 |
3.4 塞音的频谱分析 |
3.4.1 参数说明 |
3.4.2 不同发音部位塞音的频谱表现 |
3.4.3 不同发音方法塞音的频谱表现 |
3.4.4 苏州话与常州话塞音的频谱比较 |
3.5 塞音的小波变换分析 |
3.5.1 塞音的线性时域标准化波形图 |
3.5.2 塞音后接不同元音的波形图和小波系数图 |
3.5.3 变异性检测 |
第四章 塞擦音的实验研究 |
4.1 实验材料 |
4.2 塞擦音的时长分析 |
4.2.1 参数说明 |
4.2.2 时长测量结果及分析 |
4.2.3 显着性检验 |
4.3 塞擦音的过渡音征和音轨方程分析 |
4.3.1 塞擦音的过渡音征及分析 |
4.3.2 塞擦音的音轨方程及分析 |
4.4 塞擦音的频谱分析 |
4.4.1 塞擦音阻塞段与相应塞音的频谱比较 |
4.4.2 塞擦音摩擦段与相应擦音的频谱比较 |
4.4.3 塞音阻塞段与摩擦段的频谱比较 |
4.5 塞擦音的小波变换分析 |
4.5.1 塞擦音的线性时域标准化波形图 |
4.5.2 塞擦音后接不同元音的波形图和小波系数图 |
4.5.3 变异性检测 |
第五章 擦音的实验研究 |
5.1 实验材料 |
5.2 擦音的时长分析 |
5.2.1 参数说明 |
5.2.2 时长测量结果及分析 |
5.2.3 显着性检验 |
5.3 擦音的频谱分析 |
5.3.1 不同发音部位擦音的频谱表现 |
5.3.2 不同发音方法擦音的频谱表现 |
5.3.3 苏州话与常州话擦音的频谱比较 |
5.4 擦音的小波变换分析 |
5.4.1 擦音的线性时域标准化波形图 |
5.4.2 擦音后接不同元音的波形图和小波系数图 |
5.4.3 变异性检测 |
第六章 总结 |
6.1 结论 |
6.2 不足与展望 |
参考文献 |
致谢 |
(2)噪声环境下汉语连续语音声调识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 引言 |
1.1.1 语音信号概述 |
1.1.2 语音信号处理技术的发展概况 |
1.2 汉语连续声调识别的发展 |
1.3 论文结构安排 |
第2章 语音增强 |
2.1 引言 |
2.2 噪声源 |
2.3 传统语音增强方法 |
2.3.1 谱减法 |
2.3.2 基于语音模型的增强方法 |
2.3.3 子空间语音增强 |
2.4 新的子空间语音增强算法 |
2.4.1 噪声子空间跟踪 |
2.4.2 信号维度估计 |
2.4.3 混合子空间语音去噪 |
2.4.4 实验与分析 |
2.5 基于复合稀疏字典语音增强 |
2.5.1 K-SVD算法 |
2.5.2 复合稀疏字典 |
2.5.3 实验和分析 |
2.6 本章小结 |
第3章 连续语音的端点检测 |
3.1 引言 |
3.2 利用双门限法检测语音端点 |
3.2.1 短时能量 |
3.2.2 短时平均过零点率 |
3.3 基于时域互相关函数的端点检测 |
3.3.1 相关系数 |
3.3.2 互相关函数 |
3.4 语音端点检测实验 |
3.5 本章小结 |
第4章 语音的基音周期提取方法 |
4.1 引言 |
4.2 传统的基音周期检测的方法 |
4.2.1 基于短时平均幅度差的基音周期检测 |
4.2.2 基于倒谱的基音周期估计 |
4.2.3 逆滤波法基音周期估计 |
4.3 基于自相关函数的基音周期估计 |
4.3.1 预处理 |
4.3.2 自相关法基音检测原理 |
4.3.3 语音基频检测后处理 |
4.4 基音周期估计实验 |
4.4.1 噪声对基音频率检测的影响 |
4.4.2 基频曲线平滑 |
4.5 本章小结 |
第5章 基于相邻信息的连续声调识别 |
5.1 引言 |
5.1.1 声母 |
5.1.2 韵母 |
5.1.3 孤立字声调 |
5.2 连续语音的声调变化规律 |
5.2.1 连续声调协同作用分析 |
5.2.2 连续声调模型分析 |
5.3 连续语音声调识别 |
5.3.1 语音预处理 |
5.3.2 声调预识别 |
5.3.3 声调预测 |
5.4 连续声调识别实验 |
5.4.1 语音增强对基频曲线影响 |
5.4.2 连续语音声调识别实验 |
5.5 本章小结 |
第6章 结论与展望 |
6.1 本论文工作总结 |
6.2 进一步研究工作 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的其他研究成果 |
(3)基于时频分析的汉语声调识别的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究的意义 |
1.2 国内外研究现状和发展趋势 |
1.3 本文的主要研究工作 |
1.4 论文结构安排 |
第二章 汉语声调识别的基本原理 |
2.1 语音信号产生的数学模型 |
2.1.1 激励模型 |
2.1.2 声道模型 |
2.1.3 辐射模型 |
2.2 汉语声调的产生原理及特征 |
2.2.1 汉语声调的产生原理 |
2.2.2 声调语音的时域特征 |
2.2.3 声调语音的基音频率特征 |
2.3 声调特征的提取方法 |
2.3.1 自相关法提取基音周期 |
2.3.2 简化逆滤波法提取基音周期 |
2.3.3 基音周期的中值平滑处理方法 |
2.4 高斯混合模型分类器原理 |
2.4.1 高斯混合模型的基本概念 |
2.4.2 高斯混合模型的声调识别原理 |
第三章 汉语声调语音的时频分布 |
3.1 时频分析的基本原理 |
3.1.1 语谱图 |
3.1.2 Cohen 类时频分析 |
3.1.3 时频聚集性 |
3.2 信号的时频分布选择与比较 |
3.3 仿真实验与结果分析 |
3.3.1 单韵母的 SPWD 时频图 |
3.3.2 复韵母的 SPWD 时频图 |
3.3.3 鼻韵母的 SPWD 时频图 |
3.4 本章小结 |
第四章 基于时频脊特征提取的汉语声调识别 |
4.1 时频脊特征提取的基本原理 |
4.1.1 Hough 变换检测直线原理 |
4.1.2 最小二乘法多项式拟合 |
4.1.3 图像细化原理 |
4.1.4 重排平滑伪 Wigner-Ville 分布 |
4.2 时频脊特征提取的汉语声调识别算法实现步骤 |
4.3 仿真实验与结果分析 |
4.3.1 Hough 变换提取的 和 参数 |
4.3.2 时频脊线的提取 |
4.3.3 声调识别实验 |
4.4 本章小结 |
第五章 基于 LP 改进的 Hilbert-Huang 变换的汉语声调识别 |
5.1 基于 LP 改进的 Hilbert-Huang 变换基音周期检测原理 |
5.1.1 线性预测分析基本原理 |
5.1.2 Hilbert-Huang 变换原理 |
5.1.3 线性预测残差信号的 HHT 瞬时能量 |
5.2 算法实现步骤 |
5.3 仿真实验与结果分析 |
5.3.1 基音周期的检测 |
5.3.2 声调识别实验 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
致谢 |
参考文献 |
附录: 作者在攻读硕士学位期间发表的论文 |
(4)基于听觉感知小波包改进的语音处理方案对电子耳蜗汉语音感知的研究(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 电子耳蜗的发展及国内外研究现状 |
1.3 本论文研究难点分析及内容概括 |
1.3.1 本论文研究难点分析 |
1.3.2 论文内容概括 |
1.4 本章小结 |
第二章 电子耳蜗语音信号处理方案的理论基础 |
2.1 听觉系统及耳蜗内频率分布 |
2.1.1 听觉系统 |
2.1.2 耳蜗内的频率分布 |
2.2 电子耳蜗的结构及工作原理 |
2.3 声调感知机理 |
2.3.1 汉语声调感知的基础 |
2.3.2 影响电子耳蜗植入者声调感知的因素 |
2.4 本章小结 |
第三章 电子耳蜗语音处理方案的发展 |
3.1 单电极电子耳蜗语音处理方案 |
3.2 多电极电子耳蜗语音处理方案 |
3.2.1 基于特征提取的信号处理方案 |
3.2.2 基于滤波器组的信号处理方案 |
3.3 本章小结 |
第四章 基于听觉感知小波包改进的语音处理方案 |
4.1 小波分析的基本理论 |
4.1.1 傅里叶变换 |
4.1.2 小波变换 |
4.1.3 基于 Morlet 小波变换语音处理方案的仿真结果及分析 |
4.2 小波包分解理论 |
4.3 听觉感知的小波包 |
4.4 调制深度的选择方案 |
4.5 调制深度的选择方案的仿真结果 |
4.6 本文提出的方案 |
4.7 本章小结 |
第五章 实验结果及分析 |
5.1 本文改进的语音处理方案的仿真结果与其他方法的比较分析 |
5.1.1 本文改进的语音处理方案仿真结果及分析 |
5.1.2 本文方法与主流算法的比较与分析 |
5.1.3 本文方法处理后的四声调的基音周期 |
5.2 不同语音处理方案的合成语音测试分析 |
5.2.1 测试用语言材料及方法 |
5.2.2 测试结果分析 |
5.3 本章小结 |
第六章 总结与展望 |
参考文献 |
攻读学位期间发表的论文 |
致谢 |
(5)汉语普通话声调识别和评估系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
英文术语简写 |
一 概述 |
1.1 引言 |
1.2 语音识别研究的发展历程 |
1.3 当前语音识别领域所面临的主要问题 |
1.4 汉语声调研究简介 |
1.4.1 声调听觉征兆的研究 |
1.4.2 声调模型的研究 |
1.5 论文的研究意义和目标 |
1.6 本文的研究思路、主要工作和章节安排 |
二 基频提取及后处理算法 |
2.1 前言 |
2.2 基频提取算法原理 |
2.2.1 语音信号预处理 |
2.2.2 自相关法提取基频 |
2.2.3 插值平滑 |
2.2.4 重采样处理 |
2.2.5 重采样维数的确定 |
2.3 算法性能测试 |
2.3.1 数据库 |
2.3.2 归一化处理 |
2.3.2.1 归一化的引入 |
2.3.2.2 归一化的主要方法 |
2.3.2.3 归一化实验数据对比 |
2.3.2.4 m-LD归一化算法 |
2.3.3 性能测试 |
三 声调识别模型 |
3.1 前言 |
3.2 声调模式 |
3.3 基于GMM的声调识别模型 |
3.3.1 基频的分布特性 |
3.3.2 GMM模型描述 |
3.3.3 GMM模型参数训练算法 |
3.3.3.1 K-Means算法 |
3.3.3.2 EM算法 |
3.3.4 GMM识别算法 |
3.3.5 实验结果分析 |
四 声调的测试与评估模型 |
4.1 前言 |
4.2 CALL系统简介 |
4.3 评估系统的主要思想 |
4.4 评估模型的建立 |
4.5 模型的求解 |
4.5.1 混合数的选择 |
4.5.2 衡量机器打分准确程度的指标 |
4.5.2.1 相关系数 |
4.5.2.2 分级错误率 |
4.5.3 自动评分流程 |
4.5.4 评估依据 |
4.6 实验结果 |
五 结论与展望 |
5.1 结论 |
5.2 不足与展望 |
参考文献 |
在学期间参加的主要项目和发表的论文 |
1 学校期间参加的主要项目 |
2 学校期间发表的论文 |
致谢 |
附录 |
附录1 9位专家对100位学生的汉语声调打分结果(满分6分) |
附录2 9专家平均打分和机器打分结果(归一化数据) |
(6)基于计算机智能聋儿语音康复训练系统的语音识别研究(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 聋儿康复训练系统的国内外研究现状 |
1.2 聋儿康复训练系统的主要任务及要求 |
1.3 主要研究工作及论文内容安排 |
第二章 语音的发声机理及汉语语音的特点 |
2.1 语音的发声机理 |
2.2 语音听觉机理及特点 |
2.2.1 人耳的构造 |
2.2.2 听觉感受性 |
2.2.3 掩蔽效应 |
2.3 汉语语音的特点 |
2.3.1.声母和韵母 |
2.3.2.音调 |
2.3.3.音长特性 |
2.3.4.频谱特性 |
2.4 本章小结 |
第三章 预处理 |
3.1 预加重 |
3.2 端点检测 |
3.2.1 基于短时能量,短时过零率的时域端点检测方法 |
3.2.2 基于信息熵的端点检测方法 |
3.2.3 基于频带方差的端点检测 |
3.2.4.基于线性预测系数的端点检测方法 |
3.2.5.基于小波方差的端点检测方法 |
3.2.6 以上各种方法的对比 |
3.2.7 一种新的适用于聋儿康复系统的端点检测方法 |
3.3 语音增强 |
3.3.1 基于EVRC编码的噪声抑制 |
3.3.2 小波变换去噪方法 |
3.4 本章小结 |
第四章 声调识别 |
4.1 基音特征提取 |
4.1.1 短时平均幅度差函数方法 |
4.1.2 自相关法 |
4.1.3 线性预测分析方法 |
4.1.4 小波方法 |
4.1.5 各种基音周期检测方法的对比 |
4.2 基音轨迹平滑方法 |
4.3 声调识别 |
4.3.1 基于能量预分类的统计处理方法 |
4.3.2 有说话人归一化方法的五点法 |
4.3.3 一种新的基于汉语声调特点的声调识别方法 |
4.4 本章小结 |
第五章 语音共性识别 |
5.1 共性特征的提取及选择 |
5.1.1 LPCC参数及其提取 |
5.1.2 MFCC参数及其提取 |
5.1.3 共振峰参数及其提取 |
5.1.4 以上各参数的对比及选取 |
5.2 特征匹配——动态时间规整(DTW) |
5.2.1.DTW算法原理 |
5.2.2.DTW算法实现 |
5.3 基于汉语音节特点的新共性特征对比方法 |
5.3.1.清音段的识别 |
5.3.2.浊音段的识别 |
5.4 本章小结 |
第六章 结论与展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
学位论文评阅及答辩情况表 |
(8)基于普适计算的交互汉语学习系统(论文提纲范文)
中文摘要 |
ABSTRACT |
序 |
1 引言 |
1.1 论文研究背景与意义 |
1.2 目前汉语学习的现状与存在问题 |
1.2.1 现有汉语学习系统 |
1.2.2 科研单位的汉语学习研究 |
1.2.3 存在问题与挑战 |
1.3 本论的研究内容与结构 |
1.3.1 研究内容 |
1.3.2 论文结构 |
2 普适计算与交互汉语学习 |
2.1 计算机的时代变迁 |
2.2 普适计算的概念 |
2.3 普适计算的特性 |
2.4 交互汉语学习中的语音处理 |
2.5 基于普适计算的交互汉语学习系统 |
3 基于普适计算的交互汉语学习系统的设计 |
3.1 普适计算系统的结构 |
3.2 基于HPC 和LAAD 的交互汉语学习系统设计 |
3.3 系统模块与功能描述 |
3.3.1 汉语语音识别及语音准确度评分功能 |
3.3.2 汉语声调识别及声调准确度评分功能 |
3.3.3 普适服务功能 |
4 汉语语音识别 |
4.1 基本建模单元 |
4.2 语音特征提取 |
4.3 声学建模 |
4.3.1 声学建模技术概述 |
4.3.2 隐马尔可夫模型(HMM) |
4.4 语音识别及语音准确度评分 |
4.4.1 语音分割 |
4.4.2 语音识别 |
4.4.3 语音准确度 |
5 汉语声调识别 |
5.1 汉语声调 |
5.1.1 汉语声调的重要性 |
5.1.2 汉语声调系统的演变 |
5.2 声调获取 |
5.2.1 声调获取概述 |
5.2.2 基于小波变换的声调获取方法 |
5.3 声调分割 |
5.4 声调识别及声调准确度评分 |
5.4.1 声调识别 |
5.4.2 声调准确度 |
6 普适服务 |
6.1 实时通讯服务 |
6.2 语音邮件服务 |
6.3 网站服务 |
7 系统实现 |
7.1 汉语语音识别子系统的实现 |
7.1.1 声韵母建模 |
7.1.2 MFCC 系数 |
7.1.3 HMM |
7.1.4 Viterbi 解码及语音准确度评分 |
7.2 汉语声调识别子系统的实现 |
7.2.1 小波变换峰值检测算法 |
7.2.2 基于基音频率曲线斜率的声调识别及准确度评分 |
7.3 普适服务子系统的实现 |
7.3.1 PSTN 网关的实现 |
7.3.2 文语转换模块的实现 |
7.4 系统网站建设 |
8 结束语 |
参考文献 |
作者简历 |
学位论文数据集 |
(9)汉语连续语音三字词基音提取及声调识别(论文提纲范文)
第一章 绪 论 |
1.1 语音识别概述 |
1.1.1 语音识别发展历史 |
1.1.2 语音识别系统 |
1.1.3 语音识别的难点 |
1.2 语音识别--声调识别理论基础及现状 |
1.3 本文的研究内容和方法 |
1.4 本章小结 |
第二章 基音提取及音节分割 |
2.1 基音提取原理 |
2.1.1 语音信号预处理 |
2.1.2 自相关法和平均幅度差法相结合提取基音 |
2.1.3 插值平滑 |
2.2 音节分割原理 |
2.2.1 清浊判决 |
2.2.2 周期性判断 |
2.2.3 音节分割 |
2.3 基音提取及音节分割的算法与实验结论 |
2.4 本章小结 |
第三章 声调识别原理 |
3.1 声调模式 |
3.2 声调识别概述 |
3.3 声调模糊识别原理 |
3.3.1 特征提取 |
3.3.2 声调模式分析 |
3.3.3 模糊识别算法 |
3.4 本章小结 |
第四章 基于动态时间规整和改进神经网络的声调识别算法 |
4.1 动态时间规整 |
4.1.1 识别系统方案 |
4.1.2 时间规整网络结构 |
4.1.3 时间规整网络算法 |
4.2 人工神经网络概述 |
4.3 人工神经元网络基本原理 |
4.3.1 人工神经元 |
4.3.2 人工神经元网络模型 |
4.3.3 人工神经元网络的学习过程 |
4.3.4 人工神经元网络的学习规则 |
4.3.5 Delta学习规则 |
4.4 多层网络的误差逆传播校正方法 |
4.4.1 误差逆传播校正方法 |
4.4.2 BP网络的学习规则与计算方法 |
4.5 BP网络的设计分析及其改进方案 |
4.5.1 BP网络的设计分析 |
4.5.2 BP网络的改进方案 |
4.6 基于改进的BP网络的算法实现 |
4.7 本章小结 |
第五章 实验结果与分析 |
5.1 基于动态时间规整和改进的神经网络算法 |
5.1.1 神经网络隐含层神经元数的选择 |
5.1.2 基于动态时间规整和改进神经网络算法实验结果分析 |
5.2 基于动态时间规整和改进的神经网络算法与其它识别方法 性能比较 |
5.3 结论 |
5.4 本章小结 |
第六章 全文总结 |
参考文献 |
致谢 |
摘要 |
Abstract |
(10)小波理论及其在图像、信号处理中的算法研究(论文提纲范文)
中文摘要 |
英文摘要 |
第一章 绪论 |
1.1 小波发展回顾 |
1.2 小波滤波算法的研究概况 |
1.3 本文的主要工作 |
第二章 小波理论与小波基的数学特性 |
2.1 多分辨分析与正交小波基 |
2.2 小波变换及快速算法 |
2.3 小波基的数学特性 |
2.4 小结 |
第三章 小波框架与M进小波 |
3.1 基于紧框架的规范正交小波基 |
3.2 小波框架的算法及应用 |
3.3 三进小波尺度函数序列的特性及构造 |
3.4 小结 |
第四章 小波去噪算法研究 |
4.1 小波模极大值去噪及重构算法 |
4.2 基于小波系数区域相关性的滤波算法 |
4.3 小波阈值去噪方法及改进 |
4.4 去噪算法分析与比较 |
4.5 小结 |
第五章 非Gaussian噪声消除的小波滤波算法 |
5.1 Poisson噪声及其在小波变换下的传播特性 |
5.2 局部域复合滤波算法 |
5.3 Film-grain型噪声及其去除方法 |
5.4 小结 |
第六章 小波变换在信号检测与处理中的应用 |
6.1 小波变换峰值检测算法及其在声调识别中的应用 |
6.2 基于小波变换的语音数字水印技术 |
6.3 胃动力检测的小波包变换方法 |
6.4 小结 |
第七章 小波在图像处理中的应用算法 |
7.1 图像噪声去除的小波相位滤波算法 |
7.2 基于小波变换的图像多尺度数据融合 |
7.3 小波变换在天文数据处理中的应用 |
7.4 小结 |
结束语 |
附录 |
参考文献 |
致谢 |
在学期间撰写的学术论文和参加科研情况 |
四、基于小波变换的汉语声调识别新方法(论文参考文献)
- [1]北部吴语阻塞音的声学实验研究[D]. 张婉琪. 南京师范大学, 2018(01)
- [2]噪声环境下汉语连续语音声调识别研究[D]. 刘从桂. 中国科学技术大学, 2014(10)
- [3]基于时频分析的汉语声调识别的研究[D]. 徐郑丹. 江南大学, 2013(02)
- [4]基于听觉感知小波包改进的语音处理方案对电子耳蜗汉语音感知的研究[D]. 沈燕. 苏州大学, 2012(10)
- [5]汉语普通话声调识别和评估系统的设计与实现[D]. 杨丽宁. 兰州大学, 2008(01)
- [6]基于计算机智能聋儿语音康复训练系统的语音识别研究[D]. 姚艳红. 山东大学, 2008(01)
- [7]汉语语音识别网站的设计与实现[A]. 明悦,苗振江. 第九届全国人机语音通讯学术会议论文集, 2007
- [8]基于普适计算的交互汉语学习系统[D]. 苏伟. 北京交通大学, 2007(06)
- [9]汉语连续语音三字词基音提取及声调识别[D]. 郑燕琳. 吉林大学, 2004(04)
- [10]小波理论及其在图像、信号处理中的算法研究[D]. 赵瑞珍. 西安电子科技大学, 2001(01)