一、汉语/英语AMR语音编码参数统计特性(论文文献综述)
刘杰[1](2020)在《面向网络语音流的快速隐写分析技术研究》文中研究表明网络语音通信随着即时通讯软件的快速发展而迅速普及,这吸引了广大学者开始研究使用网络语音流作为隐写的载体。基于网络语音流的隐写可以保证信息隐秘而安全地传输,从而导致其被不法分子利用会给网络和公众带来危害。为了应对这种挑战,其对抗措施——隐写分析也受到了极大的关注。但是从目前的研究来看,现有隐写分析方法还存在不同程度上的检测效率问题,诸如检测精度(特别是在低嵌入率时)不佳、隐写分析特征维度过高等问题,从而难以迅速给出准确的检测结果。鉴于此,本文从特征角度、分类器角度以及深度学习角度针对若干网络语音流典型隐写方法进行快速高效检测,具体研究工作如下:(1)基于网络语音流静音帧的隐写可以在拥有较高隐写带宽的同时保持良好的语音质量,目前缺乏有效的检测手段。在深入研究隐写操作对于网络语音流影响的基础之上,我们先后提出了两种低特征维度的检测方案。第一种检测方案使用静音帧不同编码参数的扑克检测结果作为隐写分析特征;第二种使用过零数和梅尔频率倒谱系数这两种常用于描述语音基频特性的相关统计量作为隐写分析特征。两种特征均以支持向量机作为分类器,对静音帧上的隐写行为进行检测。实验结果表明,两种方法都可以对静音帧上的隐写行为进行有效的检测。基于基频统计特性的检测方案虽然特征维度略高于扑克检测的方案,但可以提供更好的检测性能。此外,基于基频统计特性的检测方法可以在较少静音帧数目的情况下实现有效检测。(2)针对自适应多速率语音流固定码本域上现有隐写分析方法特征维度较高的问题,我们发现了固定码本脉冲相关性被隐写操作所修改,并据此提出了基于脉冲相关性的隐写检测特征,其维度仅100维,是现有检测特征维度的1/5,结合支持向量机,其检测结果已经优于现有的检测方案。为了进一步提升固定码本域上隐写的检测性能,我们设计了一种新型的多分类器组合模型。针对固定码本域上的隐写行为,使用现有的各种特征对所提出的多分类器组合模型进行性能评估和分析。实验结果表明,我们所提出的模型较之传统的支持向量机模型更为高效,其中基于该模型的最佳方案在10s语音流长度30%嵌入率时就已经可以达到超过90%的正确率,比现有方案高大约10%。(3)基于速率调制的隐写不对网络语音流的相关协议或者载荷进行任何的修改,这使得传统的隐写分析方法难以对其进行检测。而现有基于速率跳变间隔的检测方法存在特征不够完备且特征维度与语音样本长度成正相关的缺点。为了弥补现有隐写方案的不足,我们提出了基于深度学习的端到端隐写分析方案。该方案使用循环神经网络学习全局的速率相关性,使用一维卷积神经网络学习局部的速率相关性,然后将两种学习到的速率相关性融合送入全连接层后得到最终的检测结果。实验结果表明,我们所提出的检测方案可以有效地对使用编码速率作为载体的隐写进行检测,在语音流长度只有10s的低嵌入率情况下正确率比现有检测方案最高可多出10%。
刘小康[2](2020)在《基于自适应码本划分的语音隐写及其检测技术研究》文中认为隐写是一种新兴的信息安全技术,它可将信息隐藏到多媒体载体中而不会引起载体的显着变化,因而常被用作秘密通信。随着网络语音通信技术的发展和普及,以网络语音作为载体的隐写成为信息安全领域的研究热点。基音周期预测是语音信号处理必不可少的步骤,但由于基音周期难以准确测量,语音压缩编码通常采用自适应码本参数来对其进行近似量化,从而为信息隐藏提供了可能性。尽管这一隐藏技术可成为安全通信的有效手段,但如被非法分子利用将会对网络安全和社会安全带来极大威胁。因此,研究其对抗技术,即隐写分析技术,具有重要的理论和社会意义。本文聚焦基于自适应码本划分的网络语音信息隐藏技术,一方面针对现有隐写方法存在的抗检测能力弱和隐藏容量低的问题,提出更安全和有效的隐写方法;另一方面,为实现对该类隐写技术的“可防可控”,提出更具普适性和高效性的隐写分析方法。具体研究工作如下:(1)针对传统基于自适应码本划分网络语音隐写抗检测能力较弱的问题,提出了一种基于小数基音延迟的语音隐写方法。具体来说,该研究从三个方面提高了隐写的安全性:其一,利用了小数参数修改对语音质量影响较小的特性,提高了隐写的感官透明性;其二,引入3个m序列分别对秘密信息进行加密和对隐写过程进行引导,增强了嵌入过程的安全性;其三,设计了一种基音周期整数参数覆盖策略以确保其隐写前后保持不变,从而进一步提高了隐写方法的抗检测能力。以自适应多速率语音为实验对象,对提出的方法进行了性能评估和分析。实验结果表明所提方法更为安全和高效。特别是在保证相同的嵌入率和语音质量变量的条件下,该方法较之已有方法具有更好的抗检测能力。(2)以5G语音通信中广泛应用的增强型语音通话服务编码器为载体对象,提出了基于可拓展矩阵的语音隐写方法。为确保较好的隐写透明性,方法采用改变后影响较小的相对搜索基音延迟参数和小数基音延迟参数为隐写载体;此外,为进一步减少载体修改量,提出了基于凸优化思想的多矩阵组合嵌入方法。以大量的语音样本为载体,对提出的方法进行了性能评估和分析。实验结果表明,提出的方法较之传统的最低有效位隐写方法具有更高的嵌入效率;且与传统的矩阵嵌入方法相比,该方法因不受载体长度限制而具有更灵活的嵌入效率,并可达到更高的隐写带宽(最高隐写带宽是传统方法的1.5倍)。(3)为了进一步提高已有隐写分析方法的检测准确率,提出了一种基于奇偶特性的基音延迟隐写分析方法。该方法综合了两类检测特征:一类是提出的奇偶贝叶斯概率特征,它可表征自适应码本参数奇偶特性在隐写前后的变化;另一类是优化了参数阈值范围的二阶差分特征马尔可夫转移概率特征,它可表征自适应码本参数数值特性在隐写前后的变化。以支持向量机为分类器,将所提方法与已有方法进行了性能对比实验。结果表明所提方法是可行的,且较之已有方法检测准确率更高。(4)为了增强基于自适应码本划分语音隐写分析的普适性和准确率,在对已有的基于自适应码本划分隐写方法进行深入分析基础上,提出了一种基于小数基音延迟统计特性的通用隐写检测方法。鉴于在量化基音周期过程中整数参数与小数参数之间具有强相关性,该方法采用小数与整数差分的条件概率作为检测特征。该特征能准确表征整数参数差和小数条件概率在隐写前后的变化,因而可用于检测多种类型的基音延迟隐写方法。采用支持向量机作为分类器,在多种常用的语音编码环境中以各种不同类别隐写方法为检测对象,对提出的方法进行了性能评估和分析。实验结果表明该方法能够有效检测不同编码环境下的多种基于自适应码本划分的语音隐写方法,并较之已有方法能够达到更高的检测正确率(各类情况下的提高量均大于10%)。
黄美伦[3](2019)在《面向自适应多速率语音的隐写分析技术研究》文中提出随着自适应多速率(Adaptive multi-rate,AMR)语音在IP电话及移动通信领域的广泛应用,基于AMR语音的隐写方法层出不穷。然而,与大多数安全技术类似,基于AMR语音的隐写技术若被不法分子利用,将会给信息安全带来巨大的安全隐患。因此,面向AMR语音的隐写分析技术成为了一个重要的研究课题。从已有研究成果来看,该技术仍存在诸多问题亟待解决,例如检测特征维度过高等。论文针对已有研究存在的问题,结合AMR语音编码的原理,分别对基音延迟参数域、固定码本参数域和线性预测参数域上的隐写分析方法进行了深入研究,具体研究工作如下:(1)针对现有研究存在特征维度过高和对AMR语音基音延迟特性表述欠完整的问题,提出了一种基于基音延迟统计特性的隐写分析方法。该方法对已有特征进行细致筛选提出了低维度但高效的基音延迟值二阶差分统计特征,并引入奇偶统计特征以弥补基音延迟值二阶差分统计特征表达能力的不足。以支持向量机为分类器,通过大量的样本对所提出的方法进行了性能评估,并与已有方法进行比较。实验结果表明,本方法在不同嵌入率和不同样本长度条件下均能得到较现有方法更好的检测效果。(2)为了解决现有方法检测特征维度过高的问题,提出了一种基于XGBoost(e Xtreme Gradient Boosting)的AMR固定码本域隐写分析方法。该方法利用XGBoost算法对基于脉冲值对统计特性的特征进行特征选择,得到有效且维度更低的特征集合。选用XGBoost作为分类器,通过大量的样本对所提出的方法进行了性能评估,并与相关工作进行性能对比。结果表明,本方法特征维度(最低70维,最高不超过289维)明显低于目前最好方法的498维,而其检测性能优于次最优方法,且并不逊色于当前最好方法。(3)为实现线性预测参数域上隐写方法的高效检测,提出了一种基于空间局部统计特性的隐写分析方法,其原理是将一维参数序列转换成二维“参数块”,利用卷积神经网络从整体上对语音参数块的空间局部统计特性进行建模,并提取有效特征。以支持向量机为分类器,通过大量的样本对所提出的方法进行了性能评估,并与已有方法进行比较。实验结果表明,本方法在检测线性预测参数上的隐写方法是可行有效的,且较之已有方法具有更好的检测性能。
王明合[4](2018)在《噪声条件下鲁棒说话人识别研究》文中提出在众多生物认证技术中,说话人识别具有独特和不可替代的应用价值。实验室环境下基于高质量语音的说话人识别技术已经相对成熟,达到了很高的识别率。然而,真实环境下说话人识别仍然面临着巨大挑战,首当其冲是噪声干扰。噪声会造成信号失真,引起语音信号训练与识别特征之间不匹配,严重影响说话人识别系统性能。因此,鲁棒性研究成为非常重要的研究热点。本文工作针对噪声条件下鲁棒说话人识别进行研究和探索,归纳如下:首先,本文提出了一种基于Fisher线性判别分析的端点检测方法。语音端点检测是语音处理和说话人识别领域不可或缺的关键技术。针对传统端点检测对受到噪声污染的清音与背景噪声之间分离能力不足的问题,提出的方法将清音信号和背景噪声视为两类分类问题,采用Fisher准则求解具有判别信息的最佳投影方向,使得投影后的特征参数具有最大类间散度和最小类内散度,从而增大清音与背景噪声的可分离性。在不同语音库上的实验结果表明,该方法在清音分离能力、整体准确率方面始终优于目前具有代表性的AMR-1、G.729B、PD、SS-AE-VAD和基于MFCC相似度等方法,其错误率比AMR-1平均降低13.1%。其次,本文提出了基于i-vector局部加权线性判别分析的说话人识别方法。噪声按干扰方式可分为信道噪声和背景噪声。以往基于i-vector的说话人识别系统不能保证样本在待识别语音近邻区域内具有最佳的分离度,使得目标说话人和其近邻间的得分差异较小,导致识别准确性下降。针对该问题,本文提出的方法在计算类内和类间散度时,增加待识别语音近邻样本权重。在此基础上,通过提高待识别语音近邻区域局部类间的分辨能力,尽可能减少因信道差异而产生的识别错误。结果表明,所提方法LWLDA能够在复杂信道条件下始终保持良好的鲁棒性,与基线相比,在交叉信道条件下的识别准确率平均提高3.6%,识别错误率相对降低19.5%。再次,本文提出了嵌入鲁棒主成分分析的语音特征参数提取方法。该方法利用鲁棒主成分分析将含噪语音的频谱分解成低秩和稀疏两部分,然后把稀疏部分作为语音频谱直接输入到特征提取算法中,未做逆STFT及平滑处理。从而避免语音中说话人个性信息的破坏,有效提升说话人确认系统的性能。与基线相比,所提方法RPCA-TVS在SNR=5dB、10dB和25dB混合条件下,其EER指标降低了 4.7%,相对降低了 19.2%。最后,本文提出了基于改进非负矩阵分解的语音去噪方法。基于传统非负矩阵分解的语音去噪,在提高语音信号信噪比的同时,也会引起语音失真。针对这一问题,所提方法通过数学模型产生基音及泛音频谱,在此基础上模仿人声的共振峰结构来合成字典,从而保证语音字典纯净性。另一方面,为了克服传统噪声字典构建方法带来的噪声信息部分丢失问题,所提方法对在线分离出的噪声样本进行分帧和短时傅里叶变换,经增益调整后,以帧为单位线性组合生成噪声字典。性能评估实验引入了包括稳定及非稳定等多种类型的噪声,实验结果表明所提方法ImNMF可有效提高说话人确认系统的鲁棒性,特别是在未知和非平稳噪声条件下,其EER相比基线系统平均降低了 4.6%,相对降低了 22.6%。为了客观和科学地评价说话人识别系统的鲁棒性,本文设计和生成了包含多种不同类型噪声的语音库。语音数据库是说话人识别研究得以顺利进行的基础。然而,国内外的语音库多是面向语音识别的,专门面向说话人识别的数据库极少。针对这一问题,在已有语音库的基础上进行整理、加噪生成了包含纯净语音、信道失配语音和混有多种不同类型背景噪声的含噪语音库。从基音范围、信道失配、噪声覆盖范围、信噪比和失真度等方面对含噪语音库进行了评估,证实所生成的含噪语音库具有一定的代表性,适用于说话人识别研究及测试任务。
吴彦鹏[5](2016)在《网络语音流隐写分析技术研究》文中进行了进一步梳理隐写分析技术是信息隐藏技术的逆向技术,主要目的在于检测、提取或破坏可疑载体内藏有的秘密信息。由于网络语音流具有较大的信息隐藏容量和较高的实时性,因此网络语音流上的信息隐藏技术具有较大的安全隐患。目前,针对网络语音流的隐写分析技术仍有许多问题需要解决,本文通过分析已有研究工作的优缺点,分别做出了以下几点研究:1.由于网络语音流载体的特性与图像有很大的不同,大部分基于图像的隐写分析技术不能直接应用于语音的信息隐藏检测。通过对待检比特序列进行随机数扩充,可以将待检比特位构建成类似于图像灰度值的参数,并利用传统的隐写分析方法如卡方检测进行信息隐藏的检测。实验结果表明,本方法能够较好地检测出网络语音流上的信息隐藏。2.通过实验可以发现,不同的检测特征在不同的参量上有不同的检测性能,因此本文提出了一种分布式的隐写分析方法。该方法针对不同的参量选用了最佳的检测特征。为了验证该方法的有效性,本文以G.729a作为载体,通过大量的样本在支持向量机上进行实验,并与现有方法在不同嵌入率和不同样本长度下的检测效果进行了比较。实验结果表明,本方法相较现有方法在检测效果上有较大优势。3.由于固定码本索引具有较好的隐藏性能,为了检测出固定码本索引上的信息隐藏,本文提出了一种基于参量统计特性的隐写分析方法。该方法通过分析固定码本索引的特性,提出了多种特征,并通过支持向量机对分类器进行训练。实验结果表明,本方法不仅在低嵌入率及低样本长度等条件下较现有方法有更好的检测效果,在现有方法无法检测的单一比特的隐写上,本方法依旧表现出较好的检测性能。4.由于自适应多速率语音编码是Vo IP中常用的语音编码,其固定码本结构较为特殊,具有较好的隐藏特性且不易检测。为此,本文针对其设计了新的检测特征,并利用Ada Boost方法对提取的特征进行特征筛选,以防止提取出的特征维数过高而造成过拟合现象的产生。筛选后的特征被送入支持向量机进行训练。训练后的分类器被用于多种情况下的隐写分析测试,以便于和现有方法进行比较。实验结果表明,该方法相较于现有方法在多种指标上均有明显优势。
张伟伟[6](2014)在《通信系统中语音质量评价的研究》文中进行了进一步梳理随着通信技术的飞速发展,现代通信系统提供了广泛的语音服务,语音通信已经成为生活中不可或缺的交流方式。为了提供更好的语音通信服务,需要对通信网络和语音编解码技术进行性能评价。评判语音通信系统性能优劣的指标是多方面的,其中最重要的一个标志是系统输出语音的质量。由于语音质量直接地影响着用户的体验,因此如何准确有效的评价语音质量成为一个重要的课题。语音质量评价的方法,主要分为主观评价方法和客观评价方法。主观评价方法可以得到较准确的结果,但是,由于其费时和费力,因此不适用于对实时通信系统的评价。客观评价是以计算机信息处理为核心来判别语音的质量,它不受测试条件的限制,也不受测试人员主观因素的影响。所以,客观评价技术成为大家研究的热点。本文主要研究了基于QoE的语音质量客观评价方法。对ITU-T.P.862标准的PESQ算法进行了详细研究,并对其进行了改进。为了更有效的评价语音质量,提出了一种新的感知语音质量评价方法也就是NPESQ算法。然后,搭建了一个VoIP语音通信的实验平台,在此平台上采用NPESQ算法来评价VoIP通信的语音质量。最后,提出了基于多元回归算法的语音质量评价模型。本论文的主要成果分为以下几个方面:第一,对感知语音质量评价算法(PESQ)进行了深入研究,并对其进行了改进。PESQ算法是ITU提出的一种语音质量客观评价算法,并形成ITU-T P.862标准。它是目前比较主流的语音质量评价算法。然而,PESQ算法是在英语环境下提出的,在不同的语言环境下,PESQ算法的评价效果是有差异的。目前,没有专门针对中文环境下PESQ评价语音编解码器性能的研究。本文研究了PESQ算法对语音编解码器的评价性能。所选择的语音编解码器,是3G通信中常用的三类变速率编解码器,包括增强型可变速率编解码器(EVRC), EVRC-B和自适应多速率语音编解码器(AMR)。经过实验测试得出在中文环境下PESQ对EVRC和EVRC-B进行评价时,存在局限性,不能得出准确的评价结果。为了提高PESQ算法对EVRC和EVRC-B评价的准确度,对PESQ提出了改进。仿真结果表明,经过改进后,其评价准确度得到了提高。改进的PESQ算法可以更好的评价语音业务。第二,为了更准确的评价通信系统的语音质量,本文提出了一种新型感知语音质量评价模型(NPESQ)。NPESQ模型是基于ERB频率尺度和Moore响度变换的客观评价方法。本文给出了NPESQ模型的实现过程,并通过实验测试,给出了NPESQ模型评价出的语音质量的得分。语音质量客观评价方法的性能指标有三个,分别为准确性、相关性和一致性。本文通过大量的实验测试数据验证了NPESQ算法的这三个性能。实验结果证明了,NPESQ算法可以得到比PESQ更准确的评价结果,并且NPESQ测得的结果和主观MOS结果具有更高相关性和一致性。第三,搭建了一个新的VoIP实验分析平台,并采用新提出的NPESQ算法来评价受不同因素影响时VoIP通信的语音质量。本文搭建的VoIP实验平台和其他研究者的平台有两点不同:第一点是选择最新的网络仿真软件WANem来实现对真实的网络环境的再现。第二点为了保证实验更真实有效,需要进行多次反复的实验。如果用手动的运行几百次乃至几万次的过程不太合适,太费时费力。所以,我们编写了脚本来实现批处理。在同样的网络参数下,用批处理来自动进行多次的实验,再对所得的结果进行统计分析,这样保证了实验结果的准确性。然后,采用新型感知语音质量评价模型来评价VoIP通信的语音质量,通过实验评价出了不同因素影响下语音质量的得分。第四,针对VoIP通信中语音质量的评价,提出了基于多元回归算法的语音质量评价模型。多元回归分析是确定一个因变量和多个变化因素之间相互关系的一种统计分析方法。创建一个合理的语音质量评价模型的本质就是寻找各个影响因子和语音MOS值之间的关系。这样的关系可以通过回归分析的数理统计方法,用数学模型表达出来。在VoIP系统中,传输网络性能参数对感知语音质量(QoE)起着基础性的影响作用。我们采用多元回归分析的方法,建立了网络性能参数和语音质量之间的映射模型。以网络通信中的丢包,时延和包错排序为参数,通过实验数据分析,提出了新的多元回归算法的语音质量评价模型。利用该多元回归模型,将给定的网络性能参数带入函数模型中,可以直接得到语音质量的得分,从而更快捷的实现语音质量评价。
高思源[7](2014)在《基于AMR的网络语音处理算法研究与性能的仿真》文中研究指明网络语音是因特网语音发展的代表标志,它也可称为因特网语音(VoIP-Voice over Internet Protocol)技术。VoIP是在IP分组交换网络的基础上,来实现语音通信的传输技术,由于价格便宜和功能种类多,所以得到了广泛地应用。尽管VoIP在成本节省和服务改进方面提供了各种优势,但部分由于质量问题,其推广一直不太顺利。事实上,在传统电话系统和新型的VoIP系统之间存在着若干基本差异,网络的流畅与堵塞必然引起语音信号的延时、抖动、丢包、回声等现象,影响VoIP网络通话质量的主要原因就是丢包现象。在接收端,经过语音解码后的语音实时回放的质量的损失和劣化就是由于语音包的丢失所带来的。论文通过自适应多速率(AMR)语音编码技术在丢包处理上的算法,在VoIP系统中的信源信道,通过自适应的联合编码来实现丢包问题的解决方法。这种算法就是采用动态的网络状况,在信道编码上选取在Reed-Solomon码的前向纠错体制,运用E-Model评价模型对语音质量进行评估,然后自主选择一种能够达到语音质量最好的信源和信道编码速率。本文设计了一种自适应算法,适用于VoIP系统的信源信道速率,采用了AMR语音编码技术和基于RS码的前向纠错信道编码。这种算法通过E-Model评价模型从丢包和延时两点来判断语音的质量,依据当前变化的网络状况自适应地选择出语音质量最优的信源与信道编码方案。对于这种算法,以VisualC++6.0平台进行算法的分析,分别在不同的网络状态下,求解出使得语音质量最优时的信源信道速率以及前向纠错编码方式,如果与假定的结果相符,那么就证明了它的有效性。实验在NS2仿真环境下进行,模拟网络环境的变化,在VoIP系统中,结合信源、信道速率自适应算法,并与VoIP系统中固定速率G.729的编码器、VoIP系统中信源速率自适应AMR的编码器相比较。试验表明,论文设计的这种算法对于丢包和延时两个问题的影响都不同程度的下降,尤其是在网络拥塞的时候它的效果更加明显。
陈辉[8](2013)在《线谱频率高效编码算法研究》文中研究说明近二十年来,语音编码已经成为了现代数字通信领域中关于语音通信的最重要的关键技术之一。线性预测模型和它的系数线谱频率(LSF)的编码广泛应用于多种语音处理中,用于表征语音信号中的谱包络信息。常用的高效线谱频率矢量量化方法常用的有多级矢量量化和分裂矢量量化。而在相同的计算复杂度下,多级矢量量化被证明要优于分裂矢量量化。在多级矢量量化中,存在一种联合调整码书设计的算法要优于顺序多级矢量量化设计的码书,因为在多级矢量量化方法中实现了瞬时联合调整码书设计算法。论文首先实现了基于LBG算法的线谱频率矢量量化的算法框架。第二,是以实现的LBG码书设计算法为基础,实现了一个LSF矢量量化的顺序多级码书设计算法。后来由于考虑到相连的LSF值之间有相似性,这种帧间帧内相关性可以用来预测下一个和相邻的LSF系数,用以去除这种相关性。通过这个方法,LSF系数的矢量量化性能可以得到提高。第三,设计和实现了一个多级联合矢量量化码书设计算法及其相关的编码算法。另外,也设计和实现了两个带一阶自回归预测和一步差值预测的多级联合码书设计算法。测试结果表明,本文实现的LSF矢量量化码书设计算法和相应的编解码器的性能都好于经典的语音编码算法中的LSF量化部分,如窄带AMR和MELP系统。因此本文实现的码书设计和编解码算法可以在不同的语言编码中得到应用。
牟欣雯[9](2011)在《基于ACELP编码模型的音频误码掩盖算法研究》文中认为本文根据目前数字音频的主要发展趋势,对音频通信差错控制中的误码掩盖算法进行了研究。在阅读了大量的国内外文献的前提下,研究基于ACELP编码模型的自适应多速率宽带(AMR-WB)语音编码方案,并在该编码方案的基础上,在解码端尝试几种恢复重要编码参数的音频误码掩盖方法。通过进行大量的仿真对比实验,综合比较实验结果和算法延迟,最后提出了一种基于ACELP编码模型的音频误码掩盖算法。该算法首先对编码器进行了简单地修改,将自适应码本贡献限制方法嵌入到编码器中,用来加快丢帧后合成语音质量的恢复速度。该方法虽然在无语音帧丢失的情况下会造成合成语音质量的略微下降,且这种微小的音质降低在听觉感受上是察觉不出明显变化的,但对丢帧之后的合成语音质量的提高却起到了很大的帮助作用。在解码器中,首先对丢失帧两侧有效语音帧的类型进行判断并确定丢失语音帧的声音类型,声音类型分为浊音、清音、浊音向清音的过渡和清音向浊音的过渡等。然后分别采用两个不同的数学模型来恢复ACELP编码模型参数:采用拉格朗日插值多项式逼近方法来重建导抗谱对(ISP)参数或线谱频率(LSF)参数;采用线性预测模型来恢复基音周期参数和固定随机码本增益参数。对丢失语音帧参数的恢复是按照顺序一帧一帧独立进行的。本文算法对编码参数的恢复不仅仅依赖于过去有效语音帧的参数信息,同时还利用了未来有效语音帧的参数信息。与传统的只利用过去语音帧信息进行误码掩盖的方法相比,本文算法能够更加准确而高效地重建丢失语音帧的编码参数ISP、基音周期和码本增益。本文将上述三种方法在ITU-T AMR-WB标准编解码器上进行了仿真实现,并与ITU-T G.729编码标准中的音频误码掩盖算法进行性能比较。本文对仿真实验数据分别从时域波形图、频域语谱图、客观评价标准PESQMOS值以及客观不同等级ODG值等几个方面进行详尽地对比分析与讨论。结果表明,与G.729误码掩盖算法相比,本文提出的算法能够更快地抑制误码在自适应码本中的扩散速度,更好地消除丢失语音帧对合成语音质量造成的不利影响。不论从主观听觉测试角度分析,还是从实验得出的客观数据方面讨论,本文提出的误码掩盖算法在各种丢帧率(1%-10%)下都表现出了优于G.729误码掩盖算法的恢复效果。经计算发现,本文算法得到的PESQMOS值较之G.729算法平均提高了0.0750,ODG值平均提高了0.116。本文算法主要是针对ACELP编码模型而提出的一种误码掩盖算法,因此其可以很容易地移植到其他任何一个以ACELP类编码模型为基础的标准编解码器上。本文推荐的算法不会增加额外的码流信息,不会引入较长的时间延迟(最多不超过20 ms时延),方法简单易于实现,并且与标准编解码器完全兼容,不会增加过多的算法复杂度。由于本文算法具有高逼真、低延迟和低算法复杂度等特点,使其能够在未来的消费电子领域得到广泛地应用。
李小东[10](2011)在《一款改进型语音编解码算法的研究与实现》文中研究表明语音压缩编码是与我们的日常生活联系最紧密的技术之一,其应用随处可见,已经取得了大量非常成熟的成果。其中,ITU-T G.723.1是一款性能优越的语音编码器,具有典型的现代语音编码核心技术。在本论文中,我们针对ITU-T G.723.1语音编码体制的算法,展开深入研究、改进,并在TMS320C5402 DSP芯片平台上,应用汇编语言开发实现了G.723.1编解码算法。本文的主要工作包括以下几点。(1)算法理论研究与实现。深入研究了G.723.1算法,详细分析了其编解码器主要算法模块的原理,进行了高级语言的仿真实现。(2)降低编码码率。在某些应用场合下,我们希望使用的语音压缩算法,具有更低的编码速率,但算法框架和G.723.1兼容。论文把G.723.1的5.3kbps算法,进一步压缩码率为4.75kbps,而保持整个算法结构和主要功能模块不变。PESQ语音音质客观性评测表明,改进后的新算法的音质,虽然比G.723.1稍低,但优于同样码率的ETSI AMR 4.75kbps算法的音质,远好于同档次码率的美国国防部FS1016算法的音质。(3)码字的比特敏感性研究。本论文还研究如何提高G.723.1(及其改进型算法)的抗信道误码能力,其核心在于研究编码码字中各比特出现误码的时候,对解码语音音质的影响程度。论文基于Monte Carlo仿真实验,利用随机误码仿真和PESQ语音音质客观性评测,构建了一套合理、完整的测试体系。仿真实验的测试结果同常规语音编码器的一般性结论相近,但更精细、准确。(4) DSP实现。论文在TMS320C5402 DSP芯片平台上,应用汇编语言开发实现了G.723.1编码算法。测试表明,编码器的算法复杂度小于30MIPS,达到了实际应用的需求。
二、汉语/英语AMR语音编码参数统计特性(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉语/英语AMR语音编码参数统计特性(论文提纲范文)
(1)面向网络语音流的快速隐写分析技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 网络语音流隐写及隐写分析的研究现状 |
1.2.1 隐写术及其常用的评价指标 |
1.2.2 网络语音流隐写的研究现状及分析 |
1.2.3 网络语音流隐写分析及其常用的评价指标 |
1.2.4 网络语音隐流写分析的研究现状及分析 |
1.3 论文的主要工作和组织结构 |
1.3.1 论文的主要工作 |
1.3.2 论文的组织结构 |
第2章 面向静音帧隐写的快速检测方法 |
2.1 网络语音流的静音帧隐写方法 |
2.2 基于扑克检测的静音帧隐写检测 |
2.2.1 基于扑克检测的隐写分析特征 |
2.2.2 基于扑克检测的静音帧隐写检测方法 |
2.3 基于基频统计特性的静音帧隐写检测 |
2.3.1 基于基频统计特性的隐写分析特征 |
2.3.2 基于基频统计特性的静音帧隐写检测方法 |
2.4 实验结果与分析 |
2.5 本章小结 |
第3章 面向固定码本域隐写的快速检测方法 |
3.1 相关工作简介 |
3.1.1 固定码本域隐写算法 |
3.1.2 现有的固定码本域隐写分析算法 |
3.2 基于多分类器组合的固定码本域隐写检测 |
3.2.1 基于脉冲相关性的隐写分析特征 |
3.2.2 基于多分类器组合的固定码本域隐写检测方法 |
3.3 实验结果与分析 |
3.4 本章小结 |
第4章 面向速率调制隐写的快速检测方法 |
4.1 相关工作简介 |
4.1.1 编码速率调制隐写算法 |
4.1.2 现有的编码速率调制隐写分析算法 |
4.2 基于深度学习的速率调制隐写检测 |
4.2.1 编码速率的相关性模型 |
4.2.2 基于深度学习的速率调制隐写检测方法 |
4.3 实验结果与分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 全文总结 |
5.2 研究展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(2)基于自适应码本划分的语音隐写及其检测技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 语音隐写和隐写分析研究现状 |
1.2.1 语音隐写的发展及评价标准 |
1.2.2 语音隐写的研究现状及分析 |
1.2.3 语音隐写分析的发展及评价标准 |
1.2.4 语音隐写分析的研究现状及分析 |
1.3 基于自适应码本的语音隐写和隐写分析 |
1.3.1 代数激励线性预测编码框架 |
1.3.2 自适应码本划分原理 |
1.3.3 基于自适应码本的隐写和隐写分析 |
1.4 论文的主要工作和组织结构 |
1.4.1 论文的主要工作 |
1.4.2 论文的组织结构 |
第2章 面向自适应多码率编码的小数基音延迟隐写方法 |
2.1 自适应多码率编码器中的自适应码本划分原理 |
2.2 基于小数基音延迟的隐写 |
2.2.1 最长序列 |
2.2.2 提出的隐写方法 |
2.3 实验分析及性能评估 |
2.4 本章小结 |
第3章 面向增强语音服务编码器的可拓展矩阵隐写方法 |
3.1 增强语音服务编码器中的自适应码本划分 |
3.2 基于可拓展矩阵的语音隐写方法 |
3.2.1 矩阵编码隐写 |
3.2.2 基于可拓展矩阵的语音隐写方法 |
3.3 实验分析及性能评估 |
3.4 本章小结 |
第4章 基于奇偶特性的基音延迟隐写分析方法 |
4.1 现有基音延迟隐写分析方法的不足 |
4.2 基于奇偶性的基音延迟隐写分析 |
4.2.1 基音延迟的奇偶性特征 |
4.2.2 基于基音延迟奇偶性的隐写分析方法 |
4.3 实验分析及性能评估 |
4.4 本章小结 |
第5章 基于小数基音延迟统计特性的语音隐写分析方法 |
5.1 自适应码本划分隐写方法分类 |
5.2 基于小数基音延迟统计特性的隐写分析方法 |
5.2.1 隐写前后数据的变化分析 |
5.2.2 小数基音延迟的统计特征 |
5.2.3 提出的隐写分析方法 |
5.3 实验分析及性能评估 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(3)面向自适应多速率语音的隐写分析技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 隐写技术和隐写分析技术 |
1.2.1 隐写技术及其评价指标 |
1.2.2 隐写分析技术及其评价指标 |
1.3 语音隐写及隐写分析研究现状 |
1.3.1 语音隐写技术研究现状 |
1.3.2 语音隐写分析技术研究现状 |
1.3.3 基于自适应多速率语音的隐写及隐写分析技术研究现状 |
1.4 论文的主要工作和组织结构 |
1.4.1 论文的主要工作 |
1.4.2 论文的组织结构 |
第2章 基于基音延迟统计特性的自适应多速率语音隐写分析方法 |
2.1 自适应多速率语音自适应码本搜索原理 |
2.2 相关工作 |
2.3 基于基音延迟统计特性的隐写分析方法 |
2.3.1 改进的基音延迟校准二阶差分马尔科夫转移概率矩阵特征 |
2.3.2 基音延迟奇偶分布特征 |
2.3.3 提出的隐写分析方法 |
2.4 实验结果与分析 |
2.5 本章小结 |
第3章 基于XGBoost的自适应多速率语音隐写分析方法 |
3.1 自适应多速率语音固定码本搜索原理 |
3.2 相关工作 |
3.3 基于XGBoost的隐写分析方法 |
3.3.1 基于XGBoost的特征选择策略 |
3.3.2 提出的隐写分析方法 |
3.4 实验结果与分析 |
3.5 本章小结 |
第4章 基于线性预测参数空间局部特性的自适应多速率语音隐写分析方法 |
4.1 自适应多速率语音线性预测分析原理及可隐藏性分析 |
4.2 基于线性预测参数局部特性的隐写分析方法 |
4.2.1 基于卷积神经网络的检测特征提取机制 |
4.2.2 提出的隐写分析方法 |
4.3 实验结果与分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 全文总结 |
5.2 研究展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(4)噪声条件下鲁棒说话人识别研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 概述 |
1.1.1 研究意义 |
1.1.2 应用前景 |
1.1.3 发展概况 |
1.1.4 面临挑战 |
1.2 理论基础 |
1.2.1 声学模型 |
1.2.2 听觉模型及特征参数 |
1.2.3 噪声模型 |
1.3 系统结构与相关技术 |
1.3.1 系统结构 |
1.3.2 相关技术 |
1.4 鲁棒说话人识别研究现状 |
1.4.1 预处理技术 |
1.4.2 特征提取技术 |
1.4.3 模型训练技术 |
1.4.4 得分规整与判决 |
1.5 说话人识别性能评价 |
1.5.1 说话人辨认性能评价 |
1.5.2 说话人确认系统性能评价 |
1.6 本文研究内容 |
1.7 本文结构安排 |
2 含噪语音数据库设计与分析 |
2.1 引言 |
2.2 常用语音库简介 |
2.2.1 语音库 |
2.2.2 噪声库 |
2.3 含噪语音库建立 |
2.3.1 需求分析 |
2.3.2 设计 |
2.3.3 生成 |
2.4 含噪语音库分析 |
2.4.1 基音范围 |
2.4.2 信道失配 |
2.4.3 噪声覆盖范围 |
2.4.4 信噪比 |
2.4.5 失真度 |
2.5 说话人识别实验 |
2.5.1 基于UBM模型的说话人识别 |
2.5.2 实验设置 |
2.5.3 实验结果分析 |
2.6 本章小结 |
3 噪声条件下语音信号端点检测 |
3.1 引言 |
3.2 常用端点检测方法 |
3.2.1 基于能量-过零率双门限法 |
3.2.2 基于倒谱距离法 |
3.2.3 AMR端点检测 |
3.2.4 G.729B端点检测 |
3.2.5 基于MFCC相似度方法 |
3.3 基于Fisher线性判别分析的端点检测 |
3.4 实验设计与性能分析 |
3.4.1 实验设计 |
3.4.2 性能分析 |
3.5 本章小结 |
4 信道噪声条件下基于局部加权LDA的说话人辨认 |
4.1 引言 |
4.2 相关工作 |
4.2.1 特征补偿 |
4.2.2 模型补偿技术 |
4.2.3 得分策略 |
4.2.4 得分规整 |
4.3 线性判别分析与信道失配补偿 |
4.3.1 局部线性判别分析 |
4.3.2 处理框架 |
4.3.3 实现细节 |
4.4 实验设计与性能分析 |
4.4.1 参数α和k对识别性能的影响 |
4.4.2 局部分离能力对比 |
4.4.3 说话人识别准确率对比 |
4.5 本章小结 |
5 背景噪声条件下基于鲁棒主成分分析的说话人确认 |
5.1 引言 |
5.2 相关工作 |
5.2.1 语音增强 |
5.2.2 鲁棒特征提取 |
5.2.3 模型匹配补偿 |
5.3 噪声条件下的语音模型 |
5.4 鲁棒主成分分析 |
5.5 基于RPCA的说话人识别 |
5.5.1 基于RPCA的语音增强 |
5.5.2 基于RPCA的语音特征参数提取 |
5.5.3 基于RPCA-TVS的说话人确认 |
5.6 实验与分析 |
5.6.1 实验设置 |
5.6.2 参数优化 |
5.6.3 EER对比 |
5.6.4 DET曲线及minDCF-08对比 |
5.6.5 时效分析 |
5.7 本章小结 |
6 背景噪声条件下基于非负矩阵分解的说话人确认 |
6.1 引言 |
6.2 非负矩阵与语音增强 |
6.3 基于ImNMF的说话人确认 |
6.3.1 ImNMF |
6.3.2 ImNMF与NMF的区别 |
6.3.3 基于ImNMF的语音去噪 |
6.3.4 TVS空间与i-vector |
6.3.5 打分策略 |
6.4 实验与分析 |
6.4.1 去噪效果对比 |
6.4.2 说话人确认性能评价 |
6.4.3 复合噪声条件下性能验证 |
6.4.4 时效分析 |
6.5 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 研究展望 |
致谢 |
参考文献 |
附录 |
(5)网络语音流隐写分析技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 网络语音流信息隐藏技术概述及研究现状 |
1.2.1 信息隐藏技术概述 |
1.2.2 信息隐藏的评价指标 |
1.2.3 网络语音流信息隐藏技术研究现状 |
1.3 网络语音流隐写分析技术概述及其发展现状 |
1.3.1 隐写分析技术概述 |
1.3.2 隐写分析常用的评价指标 |
1.3.3 网络语音流的隐写分析研究现状 |
1.4 论文的主要工作与组织结构 |
1.4.1 论文的主要工作 |
1.4.2 论文的组织结构 |
第2章 基于比特组合的隐写分析方法 |
2.1 G.729a的载体特性及隐藏特性分析 |
2.2 基于卡方检测的网络语音流隐写分析方法 |
2.2.1 卡方检测 |
2.2.2 隐写分析方法 |
2.3 实验结果与分析 |
2.3.1 组合比特数对检测效果的影响 |
2.3.2 阈值对检测效果的影响 |
2.3.3 各比特检测效果 |
2.4 本章小结 |
第3章 分布式多参量隐写分析方法 |
3.1 特征提取方法 |
3.1.1 直方图分布特征 |
3.1.2 差分直方图分布特征 |
3.1.3 马尔科夫转移矩阵特征 |
3.1.4 差分马尔科夫转移矩阵特征 |
3.2 隐写分析方法 |
3.3 实验结果与分析 |
3.4 本章小结 |
第4章 基于参量统计特性的固定码本索引隐写分析方法 |
4.1 G.729a的固定码本结构及可隐藏性分析 |
4.1.1 G.729a的固定码本结构 |
4.1.2 固定码本可隐藏性分析 |
4.2 特征提取方法 |
4.2.1 脉冲位分布特征 |
4.2.2 脉冲位短时自相关特征 |
4.2.3 脉冲间相关特征 |
4.3 隐写分析方法 |
4.4 实验结果与分析 |
4.5 本章小结 |
第5章 融合统计特性和特征选择的自适应多速率语音编码隐写分析方法 |
5.1 AMR固定码本结构及可隐藏性分析 |
5.2 特征提取方法 |
5.2.1 脉冲对分布特征 |
5.2.2 脉冲对短时自相关特征 |
5.2.3 脉轨间相关特征 |
5.3 特征筛选方法 |
5.4 隐写分析方法 |
5.5 实验结果与分析 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
(6)通信系统中语音质量评价的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景及意义 |
1.2 QoS的局限性以及QoE的研究意义 |
1.3 语音质量评价的现状及发展趋势 |
1.4 VoIP通信网络 |
1.5 论文的主要内容及结构安排 |
第二章 基于QoE的语音质量评价方法 |
2.1 引言 |
2.2 语音质量主观评价方法 |
2.3 语音质量客观评价模型 |
2.3.1 PESQ评价模型 |
2.3.2 POLQA评价模型 |
2.3.3 NPESQ评价模型 |
2.4 语音质量客观评价模型的性能指标 |
2.5 本章小结 |
第三章 中文环境下PESQ对声码器评价的性能 |
3.1 引言 |
3.2 PESQ算法的实现 |
3.3 语音编解码器的选择和编程实现 |
3.3.1 AMR编解码器的实现 |
3.3.2 EVRC和EVRC-B的实现 |
3.4 PESQ对语音编解码器的性能评价实验 |
3.4.1 中文语音库的建立 |
3.4.2 语音质量测试实验 |
3.4.3 实验仿真结果与性能分析 |
3.5 对PESQ算法的改进 |
3.6 本章小结 |
第四章 一种新型感知语音质量评价模型 |
4.1 引言 |
4.2 基于ERB尺度的Moore响度模型 |
4.3 NPSESQ模型的实现过程 |
4.3.1 电平调整 |
4.3.2 时间对齐处理 |
4.3.3 基于Moore模型的听觉变换 |
4.3.4 感知模型 |
4.4 NPSESQ模型性能的仿真实验 |
4.4.1 实验的语音样本数据库 |
4.4.2 语音质量测试实验 |
4.4.3 实验仿真结果分析 |
4.5 本章小结 |
第五章 VoIP通信的语音质量评价 |
5.1 引言 |
5.2 VoIP网络模型 |
5.3 影响VoIP语音质量的因素 |
5.4 VoIP系统实验平台 |
5.4.1 VoIP实验环境概述 |
5.4.2 网络仿真软件WANemu的搭建 |
5.4.3 VoIP实验平台的结构 |
5.5 基于QoE的VoIP的语音质量评价实验 |
5.5.1 实验参数的选取 |
5.5.2 实验仿真结果 |
5.6 本章小结 |
第六章 基于多元回归分析的语音评价模型 |
6.1 引言 |
6.2 回归分析的原理 |
6.3 评价语音的指数回归模型 |
6.3.1 指数回归模型 |
6.3.2 实验仿真结果 |
6.4 评价语音的多项式回归模型 |
6.4.1 多项式回归模型 |
6.4.2 实验仿真结果 |
6.5 本章小结 |
第七章 总结与展望 |
参考文献 |
附录 缩略语对照表 |
致谢 |
作者攻读学位期间发表的学术论文目录 |
(7)基于AMR的网络语音处理算法研究与性能的仿真(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题的研究背景 |
1.2 国内外的研究现状 |
1.3 论文的组织结构 |
第2章 VOIP的原理及主要技术 |
2.1 VoIP技术概论 |
2.1.1 VoIP产生及发展过程 |
2.1.2 VoIP的技术现况 |
2.1.3 VoIP语音的基本传输过程 |
2.2 IP电话的语音通话质量 |
2.2.1 VoIP话音质量的影响因素 |
2.2.2 丢包技术的处理 |
2.2.3 基于拥塞控制的抗丢包技术 |
2.3 章末小结 |
第3章 适于VOIP的语音编码方法的研究 |
3.1 语音编码概述 |
3.1.1 语音编码的原理 |
3.1.2 语音编码的分类 |
3.1.3 语音编码性能的评价标准 |
3.2 变速率语音编码 |
3.2.1 变速率语音编码协议简介 |
3.2.2 变速率语音编码的分类 |
3.2.3 变速率语音编码的发展现况和发展方向 |
3.3 自适应多速率语音编码 |
3.3.1 AMR的应用原理 |
3.3.2 AMR解编码器的主要功能 |
3.4 章末小结 |
第4章 自适应多速率语音编码算法研究与设计 |
4.1 抗丢包编码算法 |
4.2 里德—所罗门码(RS码) |
4.2.1 RS码的编码 |
4.2.2 RS码的译码 |
4.3 E-MODEL评价模型 |
4.4 基于RS码的AMR算法的设计 |
4.4.1 对延迟、丢包的估计 |
4.4.2 AMR编码算法的描述 |
4.4.3 AMR编码算法的处理流程设计 |
4.5 章末小结 |
第5章 基于NS2的网络仿真与性能分析 |
5.1 仿真的简介 |
5.1.1 NS2简介 |
5.1.2 PESQ评价方法 |
5.2 仿真实验设计和性能评价 |
5.2.1 仿真环境及其参数 |
5.2.2 仿真结果及分析 |
5.3 章末小结 |
第6章 总结与展望 |
参考文献 |
致谢 |
(8)线谱频率高效编码算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 工作内容 |
1.4 论文结构 |
第二章 线性预测分析与线谱频率 |
2.1 线性预测分析基本原理 |
2.2 线谱频率参数的定义与性质 |
2.3 LSF 系数与 LPC 系数之间的相互转换 |
2.4 本章小结 |
第三章 常用的线谱频率编码方法 |
3.1 矢量量化 |
3.1.1 矢量量化定义 |
3.1.2 矢量量化特点 |
3.1.3 矢量量化相关概念 |
3.1.4 矢量量化关键技术 |
3.1.5 矢量量化与标量量化优缺点 |
3.2 常用线谱频率矢量量化算法 |
3.2.1 LBG 矢量量化算法 |
3.2.2 多级矢量量化算法 |
3.2.3 分裂矢量量化算法 |
3.2.4 预测矢量量化算法 |
3.3 国际标准中的 LSF 编码算法 |
3.3.1 G.729 中 LSF 编码算法 |
3.3.2 AMR 中 LSF 编码算法 |
3.3.3 MELP 中 LSF 编码算法 |
3.4 本章小结 |
第四章 线谱频率编码方法的实现与改进 |
4.1 实现的线谱频率编码方法简介 |
4.2 码书设计算法 |
4.2.1 LBG 算法的实现 |
4.2.2 多级矢量量化设计和实现 |
4.2.3 m进制树搜索和瞬时联合调整 |
4.2.4 预测模型 |
4.3 编解码算法 |
4.3.1 编码器 |
4.3.2 解码器 |
4.4 本章小结 |
第五章 性能测试与分析 |
5.1 性能指标 |
5.1.1 谱失真 |
5.1.2 主观语音质量评估 |
5.2 结果分析与对比 |
5.3 算法实现遇到问题和解决方法 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 进一步研究方向 |
致谢 |
参考文献 |
(9)基于ACELP编码模型的音频误码掩盖算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 引言 |
1.2 本文研究的主要内容和研究目的 |
1.3 研究方法 |
1.4 论文的结构安排 |
第2章 音频误码掩盖技术 |
2.1 音频误码掩盖技术研究现状 |
2.2 基于发送端的音频误码掩盖方法 |
2.3 基于接收端的音频误码掩盖方法 |
2.3.1 基于插入的方法(Insertion-based Repair) |
2.3.2 基于插值的方法(Interpolation-based Repair) |
2.3.3 基于重构的方法(Regeneration-based Repair) |
2.4 本章小结 |
第3章音频压缩编码 |
3.1 音频数据的信息冗余 |
3.1.1 时域冗余 |
3.1.2 频域冗余 |
3.1.3 听觉冗余 |
3.2 音频压缩编码的分类 |
3.2.1 波形编码 |
3.2.2 参数编码 |
3.2.3 混合编码 |
3.2.4 感知编码 |
3.3 代数码激励线性预测编码(ACELP) |
3.3.1 ACELP 编码原理 |
3.3.2 ACELP 解码原理 |
3.4 评价准则 |
3.4.1 主观评价准则 |
3.4.2 客观评价准则 |
3.5 本章小结 |
第4章 基于AMR-WB 编解码器的音频误码掩盖算法 |
4.1 自适应多速率宽带编码(AMR-WB) |
4.1.1 AMR-WB 编码器原理 |
4.1.2 AMR-WB 解码器原理 |
4.2 G.729 音频误码掩盖算法 |
4.3 基于AMR-WB 编解码器的音频误码掩盖算法实现 |
4.3.1 算法总体设计思想 |
4.3.2 编码器自适应码本贡献限制方法 |
4.3.3 解码器音频误码掩盖算法 |
4.4 本章小结 |
第5章 仿真实验与结果分析 |
5.1 仿真实验条件 |
5.2 声音帧检测 (Voiced Frame) |
5.3 算法延迟 |
5.4 仿真实验结果的对比与分析 |
5.4.1 语音男声序列es02.wav 的仿真结果及分析 |
5.4.2 语音女声序列es03.wav 的仿真结果及分析 |
5.4.3 歌曲序列es01.wav 的仿真结果及分析 |
5.4.4 有音乐背景的语音序列se02.wav 的仿真结果及分析 |
5.4.5 测试语音序列和音乐序列的ODG 值对比 |
5.5 仿真实验的总结 |
5.6 小结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(10)一款改进型语音编解码算法的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 语音压缩编码技术的研究背景 |
1.2 语音压缩编码技术的发展和应用 |
1.2.1 语音压缩编码技术的发展概况 |
1.2.2 语音压缩编码的相关国际标准 |
1.3 语音压缩编码技术基础 |
1.3.1 短时分析技术 |
1.3.2 合成分析法A-B-S(Analysis-By-Synthesis) |
1.3.3 感知加权滤波器 |
1.3.4 矢量量化(VQ)技术 |
1.3.5 码激励线性预测编码(CELP) |
1.3.6 衡量语音编码性能的主要因素 |
1.4 论文工作简介及论文结构 |
第二章 G.723.1 算法分析与研究 |
2.1 编译码原理 |
2.1.1 LPC分析及LSP处理 |
2.1.2 共振峰感觉加权滤波器 |
2.1.3 基音估计与预测 |
2.1.4 双速率激励搜索 |
2.1.5 模拟译码器 |
2.1.6 比特分配和编码器的初始化 |
2.2 解码器原理 |
2.2.1 基音后置滤波器 |
2.2.2 LPC合成滤波器 |
2.2.3 共振峰后滤波器 |
2.2.4 增益控制单元 |
2.2.5 解码器插值 |
2.2.6 解码器初始化 |
2.3 小结 |
第三章 G.723.1 算法的改进及其比特敏感性 |
3.1 语音音质客观性质量评估 |
3.2 G.723.1 算法码率的改进 |
3.2.1 降低语音编码体制码率的一般方法 |
3.2.2 降低G.723.1 算法码率 |
3.2.3 改进型4.75kbps算法的音质 |
3.3 编码码字的比特敏感度 |
3.3.1 编码参数敏感度研究 |
3.3.2 4.75kbps算法码字的比特敏感度测试 |
3.3.3 4.75kbps算法码字的比特敏感度结果 |
3.4 小结 |
第四章 算法的DSP实现 |
4.1 算法的定点化 |
4.2 数字信号处理器(DSP)简介 |
4.3 实现改进算法的硬件环境 |
4.4 仿真实现的软件工具 |
4.5 DSP实现及结果测试 |
4.6 小结 |
第五章 总结 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
四、汉语/英语AMR语音编码参数统计特性(论文参考文献)
- [1]面向网络语音流的快速隐写分析技术研究[D]. 刘杰. 华侨大学, 2020(01)
- [2]基于自适应码本划分的语音隐写及其检测技术研究[D]. 刘小康. 华侨大学, 2020
- [3]面向自适应多速率语音的隐写分析技术研究[D]. 黄美伦. 华侨大学, 2019(01)
- [4]噪声条件下鲁棒说话人识别研究[D]. 王明合. 南京理工大学, 2018(06)
- [5]网络语音流隐写分析技术研究[D]. 吴彦鹏. 华侨大学, 2016(02)
- [6]通信系统中语音质量评价的研究[D]. 张伟伟. 北京邮电大学, 2014(04)
- [7]基于AMR的网络语音处理算法研究与性能的仿真[D]. 高思源. 东北大学, 2014(06)
- [8]线谱频率高效编码算法研究[D]. 陈辉. 西安电子科技大学, 2013(S2)
- [9]基于ACELP编码模型的音频误码掩盖算法研究[D]. 牟欣雯. 吉林大学, 2011(09)
- [10]一款改进型语音编解码算法的研究与实现[D]. 李小东. 国防科学技术大学, 2011(04)