006048计算机音乐漫谈
计算机音乐漫谈
关键词:基于计算机的音乐 数学音乐资源
白 硕
中国科学院计算技术研究所
音乐,是一种艺术门类,是形象思维的典型代表。计算机,则是一种基于逻辑的信息处理工具,是逻辑思维的典型代表。但是,在信息时代,二者却奇妙地结合在一起,产生了“计算机音乐”这样一个充满活力的技术领域,在当代多媒体技术特别是数字音频技术中,发挥着重要的作用。
计算机音乐领域所涵盖的内容是十分广泛的——音乐在计算机中的表示、基于计算机的音乐合成与分析、音乐的查询检索以及数字音乐资源的知识产权保护等等,都属于计算机音乐的范畴。当然,从数字音频技术角度看,音乐只是音频信息的特例,而那些不专门针对音乐的、面向
音频信息处理的共性技术,不在计算机音乐的讨论范围之列。
的持续时间,就可以控制音的长短。当然,在
音乐的信息属性
音乐之所以能用计算机处理,是因为音乐有信息的属性。音乐的基本要素包括音高、音强、音长和音色等。音乐在一个特定物理区域的呈现还包括各个音轨(声部)的空间位置。这些基本要素都可以通过信息的形式表示。
音高,从声学的角度看就是基频值。只要能依据基频值产生对应的正弦波,就产生了音调。当然,这种音调显得十分“单调”,那是因为没有进行复杂的音色合成的缘故。
音强,从声学的角度看就是振幅。只要能依据振幅产生对应的输出电平,就可以控制声音的强弱。
音长,顾名思义是音的持续时间。只要能依据节奏速度和时值计算出音
一段音乐中,节奏速度可能是动态变化的,这时音的实际持续时间就需要稍微复杂一些的计算。
音色,从声学的角度看是由高次谐波构成。乐器音色的千差万别,都是高次谐波构成的不同造成的。这是计算机合成音乐工作中最困难的一点。
多声部音乐在一个特定物理区域的呈现模式,是由声场的分布参数决定的。声场的分布
32
参数不同,听觉上各音轨在空间的排列位置就不同。
从上面的分析来看,音乐自身和音乐呈现的基本要素,都是可以数字化的,都有很强的信息属性。这就决定了音乐可以用最强大的信息处理工具——计算机来处理。
音乐在计算机中的表示
在音乐领域,音乐的表示形式就是乐谱。中国古代有工尺谱,现代有简谱,国际通行的表示方式是五线谱。乐谱上面的符号记号虽然复杂,但这些记号归根结底就是表示前面提到的音乐的基本要素。
早期的计算机音乐,由于以孤立的研究为主,并没有互操作的要求,所以在表示上是比较随意的。
最早的互操作要求始于电子乐器接口。由于需要从一台电子设备向另一台电子设备发出指令,精确指定音乐(音高、音强、音长、音色和声场分布参数等)要素,必须建立相应的数据交换标准。于是,数字乐器接口(Music Instrument Digital Interface,MIDI)规范就诞生了。请注意,MIDI是发声指令而不是具体的音频信号,因此它不是“所听即所得”的。不同的设备,对MIDI指令的解释有很大差异,特别是在音色上。
另外,随着基于计算机的排版印刷技术的发展,乐谱编辑、印刷和出版的计算机化成为可能。因此,音乐的计算机表示,从另一个角度也提了出来,这就是乐谱版面的描述。与MIDI格式不同的是,MIDI是给电子设备用的,而乐谱版面的描述则在相当程度上是给编辑乐谱的人用的。于是出现了专门面向乐谱的排版语言。著名的abc输入法就是在这个环节为大家所熟悉。基于TeX的乐谱排版语言MuTeX曾经流行一时。我国的方正激光照排系统中也规定了一套自用的乐谱版面描述格式。
在可视化技术高度发展之后,版面描述语言逐渐退居幕后,不再直接与用户打交道了。取而代之的是一种所见即所得的鼠标操作方式。这种方式使得版面描述语言成为计算机系统内部的规范,只要机器可读就足够了,并不需要人去懂得它。另外,乐谱输入总是难免出错,发现乐谱错误的最好方法就是按照乐谱播放一遍声音效果。因此,乐谱输入环境有与音乐合成环境集成的强烈倾向。目前,有迹象表明,乐谱的通行机读格式的基础正趋于转向可扩展标记语言(eXtensible Markup Language,XML)。而在二进制层面,MIDI则仍然是电子音乐设备互操作的主流格式。
基于计算机的音乐合成与分析
计算机音乐是一个广泛的技术领域。但是狭义理解的“计算机音乐”,指的却是“计算机合成音乐”。
从前面的分析实际上不难看出,要制作计算机合成音乐,音高、音强和音长这三个要素都不是问题,只要一个“音序器”就解决了,但是音色却是一个老大难问题。在早期,完成这个任务的是“电子合成器”,里面预置了各种与所需乐器的音色对应的高次谐波参数,俗称“波表”。但问题是,合成器一经产出,所有的音色参数就是确定的。所以,这种音色是基于硬件的,不仅不利于按需更换、动态加载,而且非常笨重。
随着声卡技术的不断发展,声卡的处理能力不断提高,于是出现了一种可能,即把“音序器”部分实现在声卡里,而“波表”部分则作为可动态加载和按需替换的系统数据。后者也称为“软波表”。专业化声卡加上软波表,已经能够以很低的成本取得接近合成器的音效,逐步成为计算机合成音乐的主流模式。软波表的质量直接决定MIDI文件在系统中播放时的音色质量,软波表的配置也已经成为操作系
33
统配置的一个不可或缺的选项。
实际上,自然是最好的老师。与其通过直接预置高次谐波参数来模仿现有乐器的音色,不如直接对现有乐器的音色进行采样,通过一定的插补计算来现场获得更加逼真的高次谐波参数。这就提示了一种可能,即可以不再使用预置的高次谐波参数,而是由一个“插补算法”和一个“音色库”组成软波表。插补算法相对固定,而真正需要动态加载、按需替换的部分,其实就是“音色库”。只要定义出音色库的标准数据格式,不同的音色库就可以互换,甚至可以互相融合,取长补短,创造出丰富多彩的组合音色来。目前,这种由“插补算法”和“音色库”联合构成软波表的方式,已经成为专业化计算机音乐合成的主流方式。音色库的主要格式有SoundFont和GIGA两种。用这两种格式制作的大大小小的音色库层出不穷,也已经出现一些针对中国民族乐器的不错的音色库。
计算机合成音乐的制作工作,不仅被业余爱好者用来自娱自乐,同时一些音乐专业人士也开始涉猎其中,有的音乐学院还专门开设了这样的课程。不用请乐队和指挥,一个人就可以尝试各种乐器的组合音效,计算机合成音乐制作不仅适合高生产率的音乐制作(比如卡拉OK伴奏音乐的生产),也成为专业人士的一个很好的作曲平台。目前,乐谱编辑和录制一体化集成是计算机音乐合成软件的发展趋势。Cakewalk和CUBASE是这方面的典型代表。
与器乐相比,声乐的计算机合成似乎具有更大的难度。一方面,这涉及音乐合成技术与语音合成技术的交融和集成;另一方面,对特定演唱者的音色特征的采样和插补更为复杂。目前,这方面的研究才刚刚起步,但是一旦有所突破,应用前景是很诱人的。试想,如果你能使计算机用刘欢的声音唱一首刘欢从来没有唱过的歌,或者与从来没有谋过面的演唱者在一起演练重唱,并且效果足以乱真,那会是怎
34
样的情景啊!
相比之下,计算机音乐分析虽然起步较早,但是并没有特别成熟的应用模式。旋律、和声的自动识别,作品的曲式结构和风格的自动分析,节奏的自动配准和同步等方面已经有了实验室成果,但还缺少有应用前景和整体显示力度的产品带动,长期以来一直处于“初级阶段”。音乐喷泉及其他音乐驱动的动态景观设施的设计与上述音乐分析技术联系颇多,也许可能成为实验室成果走向应用的一个突破口。但是,下面要谈到的面向互联网服务的音乐作品检索,才是音乐分析技术走向实际应用的真正有价值的亮点。
音乐检索与音乐搜索引擎
在互联网时代,没有办法不谈检索。“音乐检索”这个词,因为跟法律侵权事件沾上了太多的关系,也许使人忘记了它的本意。实际上,现在网络上所谓的音乐检索网站,基本上是基于音乐作品的“元数据”(比如标题、词曲作者、演唱/演奏者、歌词中的关键词等),从曲库中检索出符合条件的音乐作品,本质讲还属于文本检索,没有利用音乐作品自身的音乐特性。
根本意义上的音乐检索,指的是利用音乐作品自身的音乐特性,从一个音乐作品集里面筛选出符合音乐特性描述的音乐作品的机制。这里的音乐特性包括:旋律、节拍、节奏、调性、和声、曲式、律制和风格等等。
所有这些,从后台技术看,无一不涉及到音乐的分析。但是,对单一作品的分析同对大规模作品集合的分析,在计算机制上可能具有本质的不同。分析中各步骤的流水、并发组织,分析工作中共性部分的提取、合并,音乐作品按音乐特性(特别是按旋律)的索引安排,是提高后台前处理效率的关键所在。所以,只有当音乐分析技术和计算技术实现深层
次的结合,才能真正地提供高效率的、实用的音乐检索服务。
但是,也不能忽略前台技术。以旋律这个音乐特性为例,旋律特性的输入方式很有讲究,要做到方便实用还有很高的难度。用死板的符号形式输入旋律,不符合实用场景的需求。更加贴近真实的输入方式是哼唱、手写乐谱或模拟键盘输入等。这就要求前台具有较强的识别能力(即使是模拟键盘输入,也要识别音长)。只有实现前后台技术有机的整合,音乐检索才能逐渐进入实用,所谓“音乐搜索引擎”才会名副其实。
数字音乐资源的知识产权保护
数字音乐作品的知识产权保护,不仅是法律问题,也是一个技术问题。这是因为,由于被保护对象采取了数字的形态,就有了利用技术手段对数字音乐作品的非授权分发进行限制的可能性。这方面的研究,总的说来分为下面两种途径。
第一种是事后保护方式。就是说,在数字音乐作品中嵌入不可察觉、不可去除但通过专用系统可以提取和检验的标识版权信息,也就是通常所说的数字水印。在wav或mp3这类音频文件中加入数字水印的方法相对成熟。但是,如何在MIDI文件中加入数字水印,还没有特别成熟的方案。
第二种是事前限制方式。就是说,对数
字音乐作品本身的内容实施一定的加密变换,通过另外的渠道发放授权许可证,对作品下载后的各种允许或禁止的操作环节进行详尽的定义,这种机制也就是通常所说的数字权利管理(Digital Rights Management,DRM)。
数字音乐作品的版权保护目前还没有涉及到音色库采样问题,因为目前采样的对象还是以器乐为主。如果随着声乐合成技术的发展,采样的对象涉及到了人声,将会有更多的法律问题出现,人声的法律权利保障问题也会随之凸现出来。
结语
计算机音乐是信息科学和音乐艺术相交叉的领域,需要音乐工作者和计算机工作者的共同努力、密切交流各自领域内的最新技术进展,协作解决所面临的问题和挑战。总的说来,计算机音乐领域还有大量未解决的实际问题,蕴涵着很大的发展潜力,也包含了很多商业机会。希望相关的研究力量能够整合起来,突破关键技术,实现新的技术飞跃,造福人类。
白 硕
博士,上海证券交易所总工程师,中国科学院计算技术研究
所研究员,博士生导师。
35