导读:本文包含了乐器识别论文开题报告文献综述及选题提纲参考文献,主要关键词:AI,作曲家,人工智能技术,中国民族乐器
乐器识别论文文献综述
刘灏[1](2019)在《AI技术在音乐领域的探索与应用——对于中国民族乐器种类以及乐器技法的识别》一文中研究指出21世纪以来,人工智能与基因工程、纳米科学并称为"世界叁大尖端技术"。其中,就"如何运用机器模拟人类的智能模式"展开讨论与探索的人工智能目前在许多领域都取得了令人瞩目的研究成果和应用,尤其在机器人的模型制作、不同种类的仿真学系统中已经运用到了成熟的人工智能技术和手段。那么AI技术将如何能为音乐艺术领域带来哪些改变与创新,本文将着重论述相关话题。(本文来源于《人民音乐》期刊2019年10期)
李金科,王朝宇,刘慧敏[2](2018)在《基于FPGA的乐器音色识别硬件系统设计》一文中研究指出采用用于人声纹识别的算法及特征进行乐器音色识别,实现了具有乐器音色识别能力的硬件系统。通过改进谱能流法确定乐音起点,并对乐音时域特征包络分段比及频域特征梅尔频率倒谱系数进行提取,结合这些特征提出了一种音色鉴别算法,再使用FPGA实现对乐器声音进行音色鉴别的硬件系统。通过采集多个吉他声音对硬件系统进行测试,对比MATLAB中的处理和系统测试结果,两者结果基本一致,说明该系统对乐器音色能很好地进行分类和识别。(本文来源于《电子测量技术》期刊2018年14期)
王飞[3](2018)在《基于音色分析与深度学习的乐器识别方法研究》一文中研究指出乐器识别作为音乐信息检索(Music Information Retrieval,MIR)的一部分,可用于对音乐的自动标注、音乐分类、音乐情感识别,乐器识别的关键是寻找乐器音色的有效表示,通过对时域频域特征、倒谱特征、稀疏特征、概率特征的分析论证表明,利用时频域特征可有效识别乐器。在此基础上,利用深度学习的逐层抽象特性对包含时频信息的谱图抽象出乐器音色的高级时频表示用于乐器识别。本文首先对传统乐器音色特征进行仿真分析,随后研究深度学习提取乐器音色的高级表示以及乐器识别的具体应用,具体的研究工作如下:1.针对目前时域频域特征、倒谱特征、稀疏特征、概率特征对同族乐器错分率高且对打击乐器识别不佳,提出一种提取时频信息且低冗余度的模型用于乐器识别,首先利用耳蜗模型对乐音进行谐波分解生成接近人耳感知且包含时频信息的听觉谱图,随后利用多尺度滤波器对听觉谱图多尺度时频调制以观测时频的变化,最后利用多线性主成分分析对调制输出在保留数据内在相关的前提下降维并使用支持向量机分类。仿真实验表明,本方法在IOWA数据库上取得92.7%的正确率,对打击乐器与同族乐器的错分率均优于上述特征。相较于主成分分析降维,多线性主成分分析能够有效提高识别准确率。2.针对传统乐器识别需要音乐的低级声频特征且识别性能依赖特征选取的问题,利用接近人耳感知且低冗余度的听觉谱图作为深度学习的输入特征,逐层抽象出音色的高级时频表示用于乐器识别。为结合级联去噪自编码器的特征表达能力以及深度置信网络的抽象特征的能力,利用上述两种基础模块搭建5层深度混合网络作为深度学习框架。在对IOWA乐器库的仿真实验表明,使用混合深度网络的识别准确率为97.2%,优于浅层网络以及单种基础模块搭建的深层神经网络。在相同的网络结构前提下,利用听觉谱图得到的识别准确率以及对打击乐器与同族乐器的错分率均优于梅尔倒谱系数以及语谱图。3.针对传统乐器识别需要人为设计特征以及全连接结构的深度学习模型训练复杂度高的问题,利用低冗余且接近人类感知的听觉谱图作为5层深度卷积网络的输入,随后利用卷积网络提取乐器音色中的高级时频表示。为有效捕获听觉谱图中的时频信息,将卷积网络第一层矩形卷积核改进为频率、时间轴上的多尺度卷积核。在对IOWA乐器库的仿真实验表明,使用改进的多尺度卷积核取得96.9%的识别准确率,优于单一卷积核。在相同的网络结构前提下,利用听觉谱图得到的识别准确率以及对打击乐器与同族乐器的错分率均优于梅尔倒谱系数以及语谱图。(本文来源于《江南大学》期刊2018-06-01)
后方帅[4](2018)在《基于单音的西洋乐器音色识别方法研究》一文中研究指出作为音乐信息检索领域内的重要分支,乐器识别的关键在于音色信息的提取。基于乐器音色形成机制,乐器音色的稳定成分主要表现为乐音不同频率成份的时间演变。传统上,音色信息的表达是通过人工设计的音色特征,因此乐器音色主要表现为音色特征时间序列的演变。本文的研究工作侧重于西洋乐器单音的音色识别。首先,本文将经过特征选择与降维的音色特征组合,按多种方式作为浅层分类器的输入来实现乐器音色识别。其中,高斯混合模型与通用背景模型将乐器音色信息建模成概率分布,隐马尔可夫模型将乐器音色信息建模成隐状态概率分布与转移概率。无论哪一种分类器,基于信息增益(Information Gain,IG)原则的特征选择方法都表现出相对优越的性能。通用背景模型优于其他两类分类器,取得了 92.3%的整体准确率。另外,本文将音色特征时间序列的时间整合作为支持向量机的输入来实现乐器音色识别。对于不同的音色特征,时间整合的组合特征,即统计量与多变量自回归的组合特征(Combination of Multivariate Auto Regression,CMAR),相对于单纯的多变量自回归的特征(Multivariate Auto Regression,MAR)表现出一定的优势。同时,基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)的时间整合组合特征取得相对明显优势。此现象源于人工设计音色特征的缺陷。对于MFCC时间整合的组合特征而言,同样取得了 92.3%的整体准确率。同时,两方案都表现出管乐器的识别性能不如弦乐器的特点。其次,本文将包含音色特征序列的时间整合特征,作为深度分类器的输入来实现乐器音色识别。相对于支持向量机,深度分类器极大地缓解了管乐器识别效果的不足。同时,深度分类器也提高了乐器识别的整体性能且抑制了乐器间以及乐器家族间的混淆。与支持向量机类似,CMAR特征相对于单纯的MAR特征表现出一定优势,且MFCC取得相对明显优势。无论何种音色特征,基于t-分布随机领域嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的聚集效果表现为:(1)随着深度分类器模型层数的增加,不同乐器对应的二维矢量特征呈现类内聚集以及类间分离的趋势;(2)对于CMAR而言,各层聚集效果相对要好。同时,聚集的效果与乐器识别测度的分析结果保持一致。卷积神经网络(Convolutional Neural Network,CNN)实现了 99.57%的最高整体准确率;深度神经网络(Deep Neural Network,DNN)则为99.02%。深度分类器通过逐层的非线性变换实现了对人工设计音色特征的提炼。虽然提炼后的音色特征的音色属性区分度更好,但深度模型并没有完全突破人工设计音色特征的壁垒。最后,本文通过深度卷积自编码器(Deep Convolutional Auto Encode,DCAE)从乐音时间波形中直接提取时域音色特征,并通过CNN与DNN的分类识别测度及t-SNE聚类来评价时域音色特征。从评价结果来看,无监督训练有助于优化有监督训练,具体体现为管乐器的识别效果得到明显提升。(本文来源于《山东大学》期刊2018-05-19)
黄英来,任田丽,赵鹏[5](2018)在《VMD与PSO的乐器声音识别》一文中研究指出针对乐器音频信号的识别率低的问题,提出了一种变分模态分解(VMD)和被粒子群算法(PSO)优化的支持向量机(SVM)的乐器音频信号识别的方法。采用VMD将乐器音频信号分解成一系列平稳的窄带分量(IMF),并根据相关系数重构信号,采用小波去除残余的噪声。最后,在分析传统的声音特征提取方法基础上,提取梅尔频率倒谱系数(MFCC),用经PSO寻优参数的SVM进行音频信号的分类。实验结果表明,本文算法的去噪效果明显优于经验模态分解(EMD)和集合经验模态分解(EEMD)的分析结果;PSO优化后的SVM有效的提高了噪声环境下音频信号分类的正确率。(本文来源于《哈尔滨理工大学学报》期刊2018年02期)
任田丽[6](2018)在《基于声学特征的几种典型乐器识别研究》一文中研究指出近年来,随着计算机科学信息技术的迅猛发展,音频信号的声学方面的相关研究已经逐渐成为当前音乐领域的研究热点。基于声学特征的乐器识别是当前音乐信号分析工作的重点,为了提高乐器音频信号种类识别正确率,本论文主要是对收集到的古筝、吉他、钢琴、手风琴、口琴、唢呐这6种乐器的音频进行研究,主要包括有以下几个方面的工作:首先,本论文针对乐器音频信号中附加噪声导致的乐器音频信号识别率低的问题,本文采用改进的变分模态分解(VMD)对乐器音频信号进行去噪处理。本论文是通过先采用VMD将乐器音频信号分解成一系列平稳的窄带分量(IMF),之后,通过相关系数大于或等于0.5的IMF与相关系数小于0.5的IMF被小波阈值去噪后得到的有效的信息一起重构信号的方式来对VMD进行改进的。在相同的实验环境下,分别研究了小波阈值去噪、经验模态分解、VMD、改进的VMD等方法对乐器音频信号的去噪效果的优劣,仿真实验结果表明,本文采用的改进的VMD算法比其他去噪算法去噪鲁棒性更好。其次,为了在去噪后能进一步提高分类正确率,从乐器音频信号中提取充分体现声音特性的声音特征,该声音特征为基于改进的核主成分分析(KPCA)降维的Mel频率倒谱系数与一阶差分Mel频率串联起来的24维的组合特征。本论文提取24维Mel频率倒谱系数、24维一阶差分Mel频率倒谱系数作为分类器的输入参数,实验结果表明,Mel频率倒谱系数与一阶差分Mel频率倒谱系数串联起来的共48维的组合特征在对比分析实验中比单个特征获得了更高的识别率。由于此组合特征的维度非常高,为了提高运算速度,提高分类识别的精度,降低运算量,本论文采用改进的KPCA算法对此组合特征进行降维实验,仿真实验结果表明,改进的KPCA比KPCA与主成分分析(PCA)降维后保留了更多的体现音频信号音色特性的成分,去掉更多的干扰成分。最后,本论文采用由改进的PSO优化的SVM作为乐器音频信号的分类器。首先,由于实验数据样本少,本论文决定采用支持向量机来对去噪后的乐器音频信号的特征进行分类识别。由于SVM的参数的选择对识别结果影响很大,本论文在接下来的仿真实验中分别采用粒子群优化算法(PSO),改进的PSO来优化SVM参数,该改进的PSO算法是对PSO进行了自适应惯性权重和异步自适应学习因子的改进,实验结果表明:经由改进的PSO优化参数的SVM获得更高的乐器音频信号分类识别率。(本文来源于《东北林业大学》期刊2018-04-10)
王飞,于凤芹[7](2018)在《结合多尺度时频调制与多线性主成分分析的乐器识别》一文中研究指出针对目前时域频域特征、倒谱特征、稀疏特征、概率特征对同族乐器错分率高且对打击乐器识别不佳的问题,提出一种提取时频信息且低冗余度的模型用于乐器识别。首先利用耳蜗模型对乐音进行谐波分解,生成接近人耳感知且包含时频信息的听觉谱图(AS);随后利用多尺度滤波器对听觉谱图多尺度时频调制(MTFM)以观测时频的变化;最后利用多线性主成分分析(MPCA)对调制输出在保留数据内在相关的前提下降维,并使用支持向量机(SVM)分类。仿真实验表明,该方法在IOWA数据库上取得92.74%的正确率,对打击乐器与同族乐器的错分率分别为3%与9.12%,均优于上述特征。相比主成分分析(PCA)降维,MPCA提高识别准确率6.43%。因此,该模型适用于对同族乐器与打击乐器的识别。(本文来源于《计算机应用》期刊2018年03期)
黄英来,李晓霜,赵鹏[8](2019)在《卷积神经网络在乐器板材优劣识别中的应用研究》一文中研究指出目前民族乐器板材振动信号识别算法存在特征提取复杂且耗时长等缺点,针对此问题,提出了一种基于卷积神经网络的木材振动信号分类识别算法,实现了乐器板材优劣的判别。卷积神经网络将特征提取和分类过程结合来进行神经网络的训练,具有识别度高、鲁棒性好等优点。首先重点分析和讨论了提取木材振动信号的语谱图特征,然后应用卷积神经网络结合网格搜索的方法进行参数调优。为了防止过拟合,还应用了Re LU和dropout等新技术,得到最终分类结果。实验证明,测试样本准确率达到96%,明显优于传统方法。该方法可减小人工测量的误差,加快板材的选取时间,为民族乐器制造领域的选材提供了一种更加实用的方法。(本文来源于《计算机应用研究》期刊2019年03期)
王飞,于凤芹[9](2019)在《基于改进卷积神经网络与听觉谱图的乐器识别》一文中研究指出针对传统乐器识别需要音乐的低级声频特征及识别性能依赖特征选取的问题,利用接近人耳感知且低冗余度的听觉谱图作为5层深度卷积网络的输入,逐层抽象出音色的高级时频表示用于乐器识别。为有效捕获听觉谱图中的时频信息,将卷积网络第1层矩形卷积核改进为频率、时间轴上的多尺度卷积核。在IOWA乐器库上进行的仿真实验结果表明,该神经网能获得96. 95%的识别准确率,优于使用单一卷积核的神经网,在相同的网络结构下,基于听觉谱图得到的识别准确率较基于梅尔频率倒谱系数(MFCC)、语谱图分别高出9. 11%、3. 54%,且对打击乐器与同族乐器的错分率均较小。(本文来源于《计算机工程》期刊2019年01期)
王芳[10](2016)在《基于深度学习的音乐流派及中国传统乐器识别分类研究》一文中研究指出近几年,随着互联网和数字音频技术的发展,音乐信息检索逐渐成为研究热点。其中,对音乐流派进行有效的识别分类是一个重要的研究方向;此外,乐器的识别分类也是研究热点方向之一,其中中国传统乐器作为世界乐器的重要组成部分,也具有很大的研究价值,但对其研究较少。目前音乐信息检索领域的识别分类系统主要先人工提取音乐特征,再用分类器训练建模,最后利用建好的模型对测试音乐样本进行识别分类。但是目前在人工提取音乐特征方面遇到了瓶颈。因为不同的识别分类任务所需的音乐特征不同,甚至有时所需的音乐特征叫不出名字,所以人工提取音乐特征十分困难。而深度学习作为一种新的特征提取技术,已在图像处理、自然语言理解等领域取得了巨大成果,因此本文针对是否可以利用深度学习强大的特征提取能力发现更合适的音乐特征用于音乐流派和中国传统乐器识别分类这一问题展开了研究。首先,本文介绍了人工提取的音乐特征以及经典的分类方法,并概述了深度学习的发展历史、结构以及常用模型,指出了本文采用深度置信网络的原因。接着,本文研究了基于深度置信网络的音乐流派识别分类算法,并对其进行了改进。先对各音乐流派信号预处理并提取梅尔多频系数,再将该特征作为深度置信网络的输入,并对网络添加Dropout和动量来改进网络,然后不断调参训练得到最佳网络模型,最后利用得到的最佳模型对测试音乐进行流派预测。仿真实验结果表明,使用改进的方法对GTZAN库的十大音乐流派进行识别分类的准确率最高达75.8%,优于现有经典算法。最后,本文提出了基于深度置信网络的中国传统乐器识别分类算法,对各乐器音乐样本预处理并提取梅尔频率倒谱系数,再将其输入深度置信网络,然后调参训练,最后利用训练好的模型对测试乐器的种类进行预测。仿真实验结果表明,使用该算法对本人建立的中国传统乐器音乐库的六种乐器进行识别分类的准确率最高达99.2%,同样优于现有经典算法。因为乐器库的音乐质量较好且乐器的种类较少,故预测准确率明显高于流派库的预测准确率。(本文来源于《南京理工大学》期刊2016-12-01)
乐器识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
采用用于人声纹识别的算法及特征进行乐器音色识别,实现了具有乐器音色识别能力的硬件系统。通过改进谱能流法确定乐音起点,并对乐音时域特征包络分段比及频域特征梅尔频率倒谱系数进行提取,结合这些特征提出了一种音色鉴别算法,再使用FPGA实现对乐器声音进行音色鉴别的硬件系统。通过采集多个吉他声音对硬件系统进行测试,对比MATLAB中的处理和系统测试结果,两者结果基本一致,说明该系统对乐器音色能很好地进行分类和识别。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
乐器识别论文参考文献
[1].刘灏.AI技术在音乐领域的探索与应用——对于中国民族乐器种类以及乐器技法的识别[J].人民音乐.2019
[2].李金科,王朝宇,刘慧敏.基于FPGA的乐器音色识别硬件系统设计[J].电子测量技术.2018
[3].王飞.基于音色分析与深度学习的乐器识别方法研究[D].江南大学.2018
[4].后方帅.基于单音的西洋乐器音色识别方法研究[D].山东大学.2018
[5].黄英来,任田丽,赵鹏.VMD与PSO的乐器声音识别[J].哈尔滨理工大学学报.2018
[6].任田丽.基于声学特征的几种典型乐器识别研究[D].东北林业大学.2018
[7].王飞,于凤芹.结合多尺度时频调制与多线性主成分分析的乐器识别[J].计算机应用.2018
[8].黄英来,李晓霜,赵鹏.卷积神经网络在乐器板材优劣识别中的应用研究[J].计算机应用研究.2019
[9].王飞,于凤芹.基于改进卷积神经网络与听觉谱图的乐器识别[J].计算机工程.2019
[10].王芳.基于深度学习的音乐流派及中国传统乐器识别分类研究[D].南京理工大学.2016