导读:本文包含了多音音乐论文开题报告文献综述及选题提纲参考文献,主要关键词:深度学习,钢琴多音估计,音乐生成
多音音乐论文文献综述
李星达[1](2019)在《钢琴多音估计问题和音乐生成问题的深度学习方法》一文中研究指出深度学习近年来在图像处理、自然语言和语音处理等领域取得了令人瞩目的结果,它的成功主要归功于以下几点:1.基础模块简单。从DNN(Deep Neural Networks)时代发展到CNN(Convolutional Neural Networks)时代,构建深度网络的主要元素仅有卷积层、激活层和全连接层几种;2.网络结构灵活。从早期的Le Net和Google Net,一直到后来的Res Net和Dense Net,深度学习仅通过对网络结构,即计算图的调整,就极大地增加了网络深度、提升了网络性能、减少了参数量并加快了计算速度;3.优化求解高效。深度学习使用基于mini-batch的梯度更新策略,可以从网络结构、批量样本等多个层面实现并行计算,并在CPU或GPU集群上高效地运行;4.方便的模型交换和海量的数据支撑。深度网络本质是纯数据的,因此一个模型可以很容易地在不同代码实现之间交换,而不需要重新训练。如果一个深度学习框架原生支持多平台,那么训练好的网络甚至可以不做任何修改就直接部署到应用环境中。随着信息时代的发展,大数据、穿戴设备和物联网为许多领域,例如医疗、健康和智能家居等,奠定了使用深度学习的基础。同时,随着越来越多公开数据集的出现和计算硬件的发展,许多中小规模团队乃至个人都可以投身到深度学习中,使学术界和工业界对深度学习的研究热情持续不减。然而,由于原声音乐信号的多变性和音乐表示方法的复杂性,深度学习在音乐相关领域尚未取得如上述问题般的巨大成功。因此,本文将针对音乐这一领域,从一反一正两方面探讨钢琴的多音估计问题和音乐生成问题的深度学习方法。多音估计是原声音乐信息提取问题中的经典难题,而钢琴因其音响特性,更是多音估计问题的难点。为了联合字典学习的特征分解能力和深度学习的特征提取能力,本文提出了多模态字典学习和稀疏表示层(Multimodal Dictionary Learning and Sparse Representation Layer,简称MDLSRLayer),以及以MDLSRLayer为核心的多音估计网络MPENet。MDLSRLayer的原型是带有编码Lorentzian-Block Frobenius范数约束和字典不相干性(incoherentness/incoherence)约束的非负多模态字典学习和稀疏表示问题。本文将求解这个原型问题的两个子问题对应到深度学习中的前向和反向过程,进而将它嵌入到深度网络中,并给出相应算法与证明。使用MDLSRLayer的网络可以在重构和分类的双重监督下,进行字典和分类器的联合学习和在线学习。需要注意的是,MDLSRLayer的稀疏性与现有深度学习中使用Re LU或Dropout得到的稀疏性不同:前者是MDLSRLayer对输入的良好性质,即数据可以被字典的原子稀疏逼近;而后者是通过非线性变换得到的。实验结果显示,MPENet仅使用单音数据作为训练集在MAPS数据集的RAND子集上取得了目前最好的钢琴多音估计准确率(六个音符迭加时F-measure为83.65%)。实验结果还显示,不做任何修改的MPENet在钢琴自动转录问题(frame-level AMT)上也可以取得较好的结果。除了多音估计问题之外,本文还简单讨论了MDLSRLayer对于其他问题的适用性。以多角度动作识别为例,通过修改模型约束,使用MDLSRLayer的网络在IXMAS数据集也取得了很好的结果。音乐生成问题作为“人工智能”的标志之一,近年来成为了深度学习的热点。由于音乐自身的特点,“MIDI+RNN”组合成为了音乐生成方法的主流。其中,前者是用于训练和生成的数据格式,后者是学习音乐语言的模型。使用MIDI格式主要有两个弊端:其一是为了让模型能够学习到一个旋律的所有可能形式,训练时必须要对数据做增广;其二是平坦的分类结构不仅增加了计算和存储的成本,也增加了分类的难度。本文根据音乐学理论,使用与调(Key)无关的、结构为“调式+音级+变换”的层级式方法来表示音符与和弦,可以仅用一种形式就唯一地确定一个乐谱,因此不需要对同一旋律做数据增广。为了使用深度网络学习层级式音乐表示模型,本文还相应地给出了层级式分类网络的训练和生成算法。以上述为基础,再根据乐曲中和弦模进的变化相比旋律变化要少得多的统计事实,本文进一步提出了调无关、和弦约束的层级式音乐生成方法(Key-Independent,Chord Constrained and Hierarchical Music Generation,简称KICCHMG),以及对应的深度网络KICCHMGNet。KICCHMG方法将音乐生成分为伴奏生成和旋律生成两个步骤,因此KICCHMGNet由用来学习和弦模型与学习旋律模型的两个子网络组成,我们分别称它们为Chord Net和Melod Net。具体生成一个乐谱时,Chord Net首先生成一个和弦模进,然后Melod Net在这个和弦模进的约束下生成符合听感审美的旋律。实验结果显示,使用简单结构的KICCHMGNet在随机生成、指定调式生成与条件生成等不同生成方式下,可以同时满足一定的创新性和听感审美。最后,本文还讨论了KICCHMG方法对于其他调式的扩展能力、目前存在的问题以及未来工作。本文的主要贡献包括:·MDLSRLayer和MPENet:本文针对多音估计问题提出了带有编码的Lorentzian-Block Frobenius范数约束和字典的不相干性(incoherentness/incoherence)约束的非负多模态字典学习和稀疏表示模型。在这个模型的基础上,本文进一步提出了MDLSRLayer和MPENet。实验结果显示,MPENet仅使用单标签样本作为训练集就可以完成多标签分类任务,并在MAPS数据集的RAND子集上取得了目前最好的钢琴多音估计准确率。·KICCHMG和KICCHMGNet:本文针对音乐生成问题提出了调无关、和弦约束的层级式音乐生成方法KICCHMG及其对应的层级式深度网络KICCH-MGNet。该方法:1.在给定具体的调之前,音符只具有相对音高,因此同一个旋律只需要学习一次即可,不需要做数据增广;2.通过层级组合的方式解决了和弦的复杂表示;3.通过伴奏的约束令生成的旋律符合听感和谐。4.支持指定调式和条件生成。(本文来源于《吉林大学》期刊2019-06-01)
孙博文,张艳鹏,赵振国,高超,孟繁博[2](2012)在《基于多音轨MIDI主旋律提取的音乐可视化表达》一文中研究指出本文以MIDI音乐为研究对象,以表达音乐主旨为前提,提出了一种基于主旋律提取的音乐可视化表达方法。通过对MIDI文件的特征识别,构造音乐主旋律的提取方法,并将提取出来的主旋律作为音乐视觉表现的主要对象,而其他非主旋律的音乐元素淡化辅助表示,从而实现更加准确表达音乐核心之目的,以达到更好的视听效果。(本文来源于《软件》期刊2012年03期)
杨波[3](2012)在《基于内容的多音音乐检索系统设计》一文中研究指出如何从口益增长的多媒体资源中快速准确地定位已成为多媒体检索领域的研究热点,其相关技术的研究必将推动人机交互技术的发展,但目前基于内容的音频检索相对于基于内容的图像或视频检索来说发展滞后。哼唱检索是基于内容的音频检索的一个重要分支,是一种最自然、最方便的音乐检索方式,用户只需哼唱出一段旋律,就能在音乐数据库中检索出想要的歌曲。当前音乐检索支持的音乐格式主要是MIDI格式,而对MP3、WAV等格式的多音音乐检索的研究成果很不理想。本文在分析研究多音音乐检索的关键技术和难点问题的基础上,完成了哼唱输入的端点检测和目标音乐的音乐分割,改进并完善了基于基频矩阵的基音提取算法,归纳了用于音乐检索的DTW算法,实现了多音音乐的特征提取和特征匹配,最后设计实现了本文的多音音乐检索Music-Retrieval系统。本文主要研究的内容如下:(1)在分析音乐检索的原理和音乐乐理知识的基础上,选取了广泛用于音乐检索的旋律(音高、基音)特征来表征音乐;设计了基于内容的多音音乐检索的总体框架,分析了多音音乐检索的难点及本文研究实现的重点。(2)讨论了音乐信号的预处理,选用了基于频谱能量的端点检测算法实现了哼唱输入的端点检测,完成了对目标音乐的多音音乐分割,减少了后期特征提取和特征匹配的工作量。(3)仿真分析了基本的基于时域、频域的基音提取算法从含有复杂背景伴奏的目标多音音乐中提取基音特征的缺陷,在探讨现有的基于基频矩阵的基音提取算法的基础上,改进并完善了该算法,实现了在不能构造基频矩阵的情况下依然能够从目标音乐中提取到音乐的基音特征,并降低了计算的复杂度;(4)分析讨论了在语音识别领域中广泛使用的DTW算法用于多音音乐特征匹配的优缺点,归纳了适用于音乐检索的DTW算法,较好的克服了哼唱输入的音调误差,减少了匹配时间,实现了哼唱输入与目标音乐的特征匹配。(5)完成了本文Music-Retrieval系统的功能设计,采用VC++编程实现了该系统;采集了哼唱输入片段作为实验数据,完成了音乐检索系统的实验评测,包括算法的有效性实验,系统的检索性能、速度和精度等实验。(本文来源于《武汉理工大学》期刊2012-04-01)
段志尧[4](2008)在《多音音乐音高估计研究》一文中研究指出多音音高估计(基频估计)是音乐信息检索领域非常重要而困难的研究方向之一,其基本任务就是估计多音音乐每一时刻音符的音高(基频)和数目。音符的发音时间、结束时间的估计有时也列入其中。本文从音乐信息检索的大背景出发,介绍了多音音乐音高估计研究的基本任务、研究价值及与其它研究的关系,然后较系统得回顾了一些有代表性的音高估计算法。在此基础上,本文提出了两个新算法。第一个算法是针对单帧信号的基于最大似然频谱建模的多音音高估计算法。与以往对于整个频谱建模的方法不同,该算法把信号的频谱简化为幅度谱的峰值和非峰区域,峰值进一步简化为其频率和幅度。最大似然模型也随之分为峰值似然和非峰区域似然两个部分。在建模峰值似然时,考虑到峰值检测算法的检测错误,我们提出了“真”峰和“假”峰的概念,并分别建模。在建模非峰区域似然时,我们用该区域未检测到由谐频产生的峰的概率作为似然函数。这两部分似然模型关注的焦点不同,互为补充。我们通过单音训练数据学习这些模型的参数,因为在单音数据中,“真”峰和“假”峰可以比较可靠的区分开来。我们还采用了一种加权的贝叶斯信息准则来估计音符个数。最后,该算法在由真实乐器音符合成的随机和弦和音乐和弦上进行测试,取得了不错的结果。第二个算法是针对多帧信号的基于计算听觉场景分析的多音音高估计算法。在该算法中,我们模仿人脑的声音感知规则,对信号频谱的时频成分做聚集。具体来说,我们在信号连续的频谱中定义了谐波事件的概念,每一个谐波事件是一个四元组(频率、幅度、发音时间、结束时间)。对于待处理的音乐,我们提取其所有的谐波事件并组成一个集合,集合中的每个事件都是基频事件的候选。我们设计了一个支持度传递的算法让这些谐波事件互相投票,选出支持度最高的事件作为基频。该算法在由真实乐器音符合成的随机和弦,以及计算机合成的重奏音乐上进行测试,取得了不错的结果。(本文来源于《清华大学》期刊2008-06-01)
多音音乐论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文以MIDI音乐为研究对象,以表达音乐主旨为前提,提出了一种基于主旋律提取的音乐可视化表达方法。通过对MIDI文件的特征识别,构造音乐主旋律的提取方法,并将提取出来的主旋律作为音乐视觉表现的主要对象,而其他非主旋律的音乐元素淡化辅助表示,从而实现更加准确表达音乐核心之目的,以达到更好的视听效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多音音乐论文参考文献
[1].李星达.钢琴多音估计问题和音乐生成问题的深度学习方法[D].吉林大学.2019
[2].孙博文,张艳鹏,赵振国,高超,孟繁博.基于多音轨MIDI主旋律提取的音乐可视化表达[J].软件.2012
[3].杨波.基于内容的多音音乐检索系统设计[D].武汉理工大学.2012
[4].段志尧.多音音乐音高估计研究[D].清华大学.2008