话者确认论文-吴明辉,胡群威,李辉

话者确认论文-吴明辉,胡群威,李辉

导读:本文包含了话者确认论文开题报告文献综述及选题提纲参考文献,主要关键词:话者确认,深度神经网络,深度学习

话者确认论文文献综述

吴明辉,胡群威,李辉[1](2016)在《一种基于深度神经网络的话者确认方法》一文中研究指出主要研究基于深度神经网络的话者确认方法。在训练阶段,以语音倒谱特征参数作为输入,说话人标签作为输出有监督的训练DNN;在话者注册阶段,从已训练的DNN最后一个隐藏层抽取与说话人相关的特征矢量,称为d-vector,作为话者模型;在测试阶段,从测试语音中抽取其d-vector与注册的话者模型相比较然后做出判决。实验结果表明,基于DNN的话者确认方法是可行的,并且在噪声环境及低的错误拒绝率的条件下,基于DNN的话者确认系统性能比i-vector基线系统性能更优。最后,将两个系统进行融合,融合后的系统相对于i-vector基线系统在干净语音和噪声语音条件下等误识率(EER)分别下降了13%和27%。(本文来源于《计算机应用与软件》期刊2016年06期)

胡群威[2](2016)在《话者确认中信道和时长失配补偿研究》一文中研究指出文本无关的说话人确认技术旨在从语音中提取说话人的个性信息从而完成说话人身份的验证。使用便捷以及非接触式交互等独特的优势使其得到越来越广泛的应用,并成为当今生物特征识别领域的研究热点。近年来,说话人确认技术逐渐走向实用,但由于实际环境的复杂性,面临着传输信道的多样化、背景噪声污染等问题,说话人确认技术性能难以提升。本论文主要是研究环境失配下的说话人确认,从失配补偿的角度出发,探讨了全局差异空间方法以及概率线性鉴别分析方法,并对其存在的问题提出改进方案。本论文主要的研究工作有:首先,探讨了美尔频率倒谱参数的提取过程,介绍了高斯混合模型(Gaussian Mixture Model, GMM),对其原理以及训练算法进行详细的阐述,并深入分析了GMM用于说话人确认的优缺点,构建了基于GMM-UBM框架的说话人确认系统,并通过实验分析GMM-UBM系统的性能。接着,深入研究说话人确认失配补偿方法。利用因子分析的方法,从高斯均值超矢量提取出具有区分性的身份矢量I-Vector,构建了基于I-Vector的说话人确认系统。给出线性鉴别分析、类内协方差规整等信道补偿方法对I-Vector系统进行改进,实验结果表明这些方法可以有效地改善信道失配对说话人确认系统的负面影响。最后,深入研究概率线性鉴别分析(Probabilistic Linear Discriminant Analysis, PLDA)方法对说话人以及干扰信息的建模能力,简化高斯概率线性鉴别分析(Gaussian PLDA, GPLDA)以及其得分公式,构建基于高斯概率线性鉴别分析的说话人确认系统,研究其对I-Vector矢量的补偿能力。此外,针对训练语音与测试语音时长失配的情况,提出估计时长差异信息的方法,并将此时长差异信息融入PLDA系统,实验表明,该方法在一定程度上提高系统的性能。(本文来源于《中国科学技术大学》期刊2016-05-01)

吴明辉[3](2016)在《基于深度学习的与文本无关话者确认研究》一文中研究指出随着科学技术的不断进步,电话已经成为人们日常生活中不可或缺的一部分。在身份认证技术研究领域,越来越多的研究人员开始关注如何使用电话语音进行身份认证,因为相对于其它身份认证技术来说,使用电话语音进行身份认证所需的设备简单、成本低、易获取,更重要的是在使用电话语音进行身份认证的过程中,用户不需要接触设备,只需要简单的说一句话,便可完成认证,大大提高了用户的接受率。另外,说话人确认技术还是语音识别技术研究领域的一个重要研究方向,所以说话人确认技术的研究不仅具有重要的理论研究意义而且还具有广泛的应用前景。目前在说话人确认研究领域中,主流的说话人建模方法都是基于概率统计模型的,其中最具代表性的概率统计说话人模型当属高斯混合模型(Gaussian Mixture Model, GMM)。高斯混合模型采用非常多的高斯概率密度函数分量,对说话人的语音特征分布进行了较好的描述,从而取得了不错的效果:但说话人确认是一个二元分类问题,而高斯混合模型只是一种概率生成性模型,其区分能力非常有限,所以需要寻找同时具有强大表征能力和很强区分能力的模型进行说话人建模。近年来,深度学习(Deep Learning,DL)理论在模式识别领域掀起了一股非常大的研究热潮,其出发点是想构建一个复杂的神经网络模型来模拟人脑的思维方式,然后对数据进行分析和处理。目前深度学习理论所依托的实现载体是深度神经网络(Deep Neural Network, DNN)。深度神经网络凭借多隐层的结构特点,使得其具有很好的表征能力和区分能力,目前在模式识别的诸多研究方向都取得了成功应用。本文主要研究内容就是将具有强大表征能力及区分能力的深度神经网络应用于说话人确认系统中进行说话人建模,构建基于深度神经网络的话者确认系统,针对建模过程中深度神经网络输入特征的选择、网络结构以及网络训练方法等关键问题进行了深入的研究,并对多种基于深度神经网络的说话人确认系统的结构及性能进行对比。首先,介绍了目前说话人确认技术研究领域最为经典的概率统计模型——高斯混合模型,并对其原理进行了详细阐述。针对其应用于说话人确认系统中使用的GMM-UBM结构进行了深入的讨论,并对GMM-UBM说话人模型训练过程中使用的MAP算法进行介绍,然后通过实验分析了混合度的选取对GMM-UBM说话人确认系统整体性能的影响,同时构建了本文研究所需的基线系统。接着,对深度神经网络相关内容展开了讨论,介绍了深度神经网络的发展历程,详细阐述了深度神经网络的原理及其训练算法,并对深度神经网络在训练过程中常出现的问题进行了重点讨论。本文针对基于GMM-UBM的说话人模型区分能力差,表征能力不足等问题,引入了深度神经网络进行说话人建模,构建了基于DNN-SPK说话人确认系统。为了进一步的减弱语音倒谱中语义信息的干扰,采用GMM对语音的原始倒谱特征进行聚类变换,抽取原始倒谱特征的统计特征参数,从而进一步突显说话人的个性信息,然后将其与深度神经网络相结合,构建基于GMM-DNN说话人确认系统,大大提高了确认的效果。最后,语音作为一种时序信号,当前时刻的信息在一定程度上是受其历史信息影响的。采用DNN进行说话人建模时,DNN对语音历史信息的记忆是非常有限的,所以引入了能够记住长历史信息的长短时记忆(Long Short Term Memory,LSTM)模型,构建了基于LSTM-SPK说话人确认系统,针对采用LSTM进行说话人建模过程中,模型结构的选择以及如何选取输入特征参数和输出说话人标签等关键问题进行详细讨论。另外,针对LSTM计算复杂度比较高的问题,探讨了采用LSTMP模型替换LSTM模型进行说话人建模的策略,最终使得话者确认系统的性能获得了明显的提升。(本文来源于《中国科学技术大学》期刊2016-05-01)

卓着,李辉[4](2015)在《PCA变换下的GMM-SVM话者确认研究》一文中研究指出针对支持向量机(SVM)输入参数不能充分利用高斯混合模型(GMM)均值、方差、权重所携带的说话人信息,而导致与文本无关话者确认系统性能下降的问题,本文结合GMM的均值、方差、权重,提出一种新的、基于自适应后GMM的,SVM模型输入特征提取方法。在NIST 06语音数据库上的实验表明,本方法将等误识率(EER)从高斯混合模型-通用背景模型(GMMUBM)系统的8.49%,下降到基于离散余弦变换(DCT)变换GMM-SVM系统的4.16%,以及基于主元成分分析(PCA)GMMSVM系统的3.3%.(本文来源于《小型微型计算机系统》期刊2015年03期)

方昕,李辉,刘青松[5](2014)在《利用i-vectors构建区分性话者模型的话者确认》一文中研究指出对于电话手机语音的文本无关话者确认,运用联合因子分析构建话者信息子空间与信道信息子空间来进行失配信道补偿取得了较好的效果.然而研究表明,信道信息子空间仍然包含了可以用来区分话者的信息.因此,本文运用一种既包含话者信息又包含信道信息的全变量信息子空间来提取i-vectors低维特征矢量,再运用类内协方差规整进行失配信道补偿,最后用补偿后的i-vectors特征矢量构建支持向量机话者模型.在NIST08数据库上实验表明,本文所构建系统的性能在等误识率和最小检测代价函数上有相对近70%的提高.(本文来源于《小型微型计算机系统》期刊2014年03期)

丁聪敏,唐建,郭立[6](2012)在《基于WCCN和余弦评分的话者确认研究》一文中研究指出本征音话者识别方法能够在一定程度上补偿因文本无关造成的语音类失配,但它并没有涉及另一个重要的失配因素——信道失配.本文提出了一种在本征音方法基础上补偿信道失配的方案.首先用本征音方法进行语音类失配补偿,然后采用WCCN(类内方差规整)进行信道失配补偿,从而得到经过语音类失配补偿和信道失配补偿的话者因子并将其作为话者模型,最后采用余弦评分方法进行性能评测.实验表明,本文方法在等误识率和最小检测代价函数上具有较好表现,同时本文方法对话者建模所需要空间较小.(本文来源于《中国科学技术大学学报》期刊2012年10期)

高二中,李辉,郭立,许敏强[7](2011)在《基于语音质量的话者确认方法研究》一文中研究指出针对传统的手机电话语音的说话人确认中,未考虑训练语音和测试语音信号本身质量对识别效果的影响问题,采用语音质量测量的方法对GMM-UBM方法进行改进,提出了利用多维基音参数,将基音偏离作为语音信号质量测量准则的方法,对GMM-UBM系统短时谱参数评分过程进行修正,得到基于语音信号质量的评分方法.通过在NIST SRE 2006 1side数据库中男性话者的实验表明,采用语音质量的评分方法能够有效提高系统的识别率,系统的等误识率和检测代价函数都有一定程度的改进.(本文来源于《中国科学技术大学学报》期刊2011年11期)

许敏强,戴蓓蒨,刘青松,许东星[8](2011)在《基于多微商核函数的SVM话者确认》一文中研究指出给出了一种基于多微商核函数(MDK)的结合高斯混合模型(GMM)和支持向量机(SVM)的方法,并应用于SVM文本无关话者确认。从GMM话者语音特征概率分布出发,用多阶微商描述GMM概率分布,将GMM和SVM结合的问题转化为用多阶微商建立SVM话者模型的问题。首先对说话人语音进行基于因子分析的参数域失配补偿,用GMM描述失配补偿后的话者语音特征的概率分布;然后对GMM求多阶微商;最后构建多微商核函数,建立多SVM话者模型。在NIST’01 2min-1min话者确认数据库上的实验表明,基于多微商核函数的SVM话者确认系统性能优于基于失配补偿的GMM系统,也比基于失配补偿的Fisher核函数SVM话者系统和基于失配补偿的Kullback-Leibler(KL)距离SVM话者系统有较大的提高。(本文来源于《数据采集与处理》期刊2011年05期)

周毓,李辉,刘青松[9](2011)在《基于话者因子评分的说话人确认》一文中研究指出针对基于因子分析模型的说话人确认系统评分的复杂性以及需要较大运算量的问题,文章直接利用话者因子的余弦距离相似度来计算评分。首先在训练阶段和测试阶段分别用因子分析的方法从语音中估计出话者因子,然后直接利用话者因子评分。对比SVM和其它的JFA-GMM-UBM话者确认系统,本文中所采用的系统训练阶段和测试阶段的流程相同,并且目标话者模型只需要存储话者因子,存储量少。在NIST2008数据库上的实验结果表明,余弦距离评分对比其它因子分析模型的评分方法,更加简单,并且话者确认系统的性能也有提高。(本文来源于《电子技术》期刊2011年07期)

陈伟[10](2011)在《信道失配条件下的话者确认研究》一文中研究指出随着科学技术的发展,说话人确认技术的研究重点逐渐从实验室环境转向现实生活中的复杂环境。这给说话人确认带来了许多新的亟待解决的问题,信道失配就是其中的一个典型的具有代表性的问题。信道失配,是指训练语音和测试语音分别来自不同的传输信道,进而导致话者确认系统的性能下降。本论文分析了基于GMM-UBM结构和SVM模型的说话人确认系统;探讨了多种在特征域、模型域和得分域中常用的信道失配补偿算法;给出了基于冗余属性投影的信道失配问题的解决方案,并对冗余属性算法进行了优化。本论文主要的研究内容如下:一、深入研究了基于概率统计高斯混合模型-通用背景模型(GMM-UBM)结构的话者确认系统,探讨了EM算法和MAP算法。针对概率统计模型的区分性不足以及区分性辨别模型对说话人个性特征描述不够精确的问题,给出了基于GMM-SVM结构的话者确认系统,利用GMM模型对特征参数进行压缩和聚类后,采用从GMM模型中构建出的GMM-supervector作为SVM的输入来建立目标话者模型。二、深入研究了在复杂信道条件下的说话人确认的失配补偿方法,针对特征参数的倒谱均值减、相关谱滤波、特征映射等方法;针对模型的因子分析等方法;针对测试评分的测试规整等方法。在NIST数据库上的对比试验表明这些方法可以改善信道失配对话者确认系统带来的负面影响。叁、深入研究了基于GMM-SVM结构的话者确认系统中的信道失配问题,给出了一种通过消除SVM输入特征GMM-supervector中的信道子空间的成分的失配补偿算法。使用集外大量已知信道类型信息的语音训练出映射矩阵,然后训练语音和测试语音都利用此矩阵进行映射,从而得到受信道影响更小的说话人确认系统。?(本文来源于《中国科学技术大学》期刊2011-05-06)

话者确认论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文本无关的说话人确认技术旨在从语音中提取说话人的个性信息从而完成说话人身份的验证。使用便捷以及非接触式交互等独特的优势使其得到越来越广泛的应用,并成为当今生物特征识别领域的研究热点。近年来,说话人确认技术逐渐走向实用,但由于实际环境的复杂性,面临着传输信道的多样化、背景噪声污染等问题,说话人确认技术性能难以提升。本论文主要是研究环境失配下的说话人确认,从失配补偿的角度出发,探讨了全局差异空间方法以及概率线性鉴别分析方法,并对其存在的问题提出改进方案。本论文主要的研究工作有:首先,探讨了美尔频率倒谱参数的提取过程,介绍了高斯混合模型(Gaussian Mixture Model, GMM),对其原理以及训练算法进行详细的阐述,并深入分析了GMM用于说话人确认的优缺点,构建了基于GMM-UBM框架的说话人确认系统,并通过实验分析GMM-UBM系统的性能。接着,深入研究说话人确认失配补偿方法。利用因子分析的方法,从高斯均值超矢量提取出具有区分性的身份矢量I-Vector,构建了基于I-Vector的说话人确认系统。给出线性鉴别分析、类内协方差规整等信道补偿方法对I-Vector系统进行改进,实验结果表明这些方法可以有效地改善信道失配对说话人确认系统的负面影响。最后,深入研究概率线性鉴别分析(Probabilistic Linear Discriminant Analysis, PLDA)方法对说话人以及干扰信息的建模能力,简化高斯概率线性鉴别分析(Gaussian PLDA, GPLDA)以及其得分公式,构建基于高斯概率线性鉴别分析的说话人确认系统,研究其对I-Vector矢量的补偿能力。此外,针对训练语音与测试语音时长失配的情况,提出估计时长差异信息的方法,并将此时长差异信息融入PLDA系统,实验表明,该方法在一定程度上提高系统的性能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

话者确认论文参考文献

[1].吴明辉,胡群威,李辉.一种基于深度神经网络的话者确认方法[J].计算机应用与软件.2016

[2].胡群威.话者确认中信道和时长失配补偿研究[D].中国科学技术大学.2016

[3].吴明辉.基于深度学习的与文本无关话者确认研究[D].中国科学技术大学.2016

[4].卓着,李辉.PCA变换下的GMM-SVM话者确认研究[J].小型微型计算机系统.2015

[5].方昕,李辉,刘青松.利用i-vectors构建区分性话者模型的话者确认[J].小型微型计算机系统.2014

[6].丁聪敏,唐建,郭立.基于WCCN和余弦评分的话者确认研究[J].中国科学技术大学学报.2012

[7].高二中,李辉,郭立,许敏强.基于语音质量的话者确认方法研究[J].中国科学技术大学学报.2011

[8].许敏强,戴蓓蒨,刘青松,许东星.基于多微商核函数的SVM话者确认[J].数据采集与处理.2011

[9].周毓,李辉,刘青松.基于话者因子评分的说话人确认[J].电子技术.2011

[10].陈伟.信道失配条件下的话者确认研究[D].中国科学技术大学.2011

标签:;  ;  ;  

话者确认论文-吴明辉,胡群威,李辉
下载Doc文档

猜你喜欢