第2章 多媒体输入与输出技术(new)
第2章 多媒体输入与输出技术
2.1输入与输出的概念
2.1.1 声音素材的输入与输出
在多媒体技术中,人们通常将声音媒体分为波形声音、语音和音乐三类。 波形声音从声音是振动波的角度来说,波形声音实际上已经包含了所有的声音形式,是声音的最一般形态。人的说话声不仅是一种波形声音,更重要的是它还包含丰富的语言内涵,是一种特殊的媒体,称之为语音。 音乐与语音相比, 形式更为规范一些,音乐是符号化的声音,也就是乐曲,乐谱是乐曲的规范表达形式。
声音是人耳所感知的空气振动。通常用连续的随时间变化的波形来表示,是模拟信号。波形的最大位移也就是振幅反映音量(音高、响度或强度)。波形中连续两个波峰或波谷之间的时间距离称为周期,周期的倒数称为频率。频率用Hz 表示,用来反映声音的音调。 声音素材常用的输入方式是,通过声音数字化接口的录音设备将声音直接或转录到计算机中。实际上,这个方法就是将模拟声音信号经过采样、量化进行数字化的过程。
1.采样:
以固定的时间间隔(采样周期)抽取模拟信号的幅度值。采样后得到的是离散的声音振幅样本序列,仍是模拟量。采样频率越高,声音的保真度越好,但采样获得的数据量也越大。在MPC wow gold 中,采样频率标准定为:11,025KHz ,22,05KHz ,44,1KHz 。
2.量化:
量化即是将采样得到的声音信号幅度的样本值从模拟量转换成数字量。数字量的二进制位数是量化精度。在MPC 中,量化精度标准定为8位和16位。采样和量化过程称为模 / 数
(A / D)转换。
3.编码:
把数字化声音信息按一定数据格式表示。常用PCM 、DPCM 、ADPCM 、LPC 、MPEG Layer-Ⅲ等波形声音压缩编码。
对于数字化后的波形声音文件,可以使用声音处理实用软件工具对其进行剪切、连接、混合、音调升降处理,并可以为其增加回音、频率过滤、边缘效果等特殊效果。
声音信号的输出即声音的重构,将数字化的信号经计算机处理后,还原为模拟信号
(D / A转换),通过扬声器转换为声音。
2.1.2 图像素材的输入与输出
图像是表达思想的一种直观方法,传统的图像通过化学摄影术制成,如一张照片,是一幅静态的画面,它一旦形成就很难再改变。数字图像是以0或1的二进制数据表示的,其优点是便于修改、易于复制和保存。
数字图像分为矢量图和位图两种形式。位图以点或象素的方式来记录图像,图像由许许多多小点组成。位图图像的优点是色彩显示自然、柔和、逼真。其缺点是图像在放大或缩小的转换过程中会产生失真,且随着图像精度提高或尺寸增大,所占用的磁盘空间也急剧增大。 矢量图是以特征数据(特征点坐标、线宽、线条颜色、填充颜色等)的方式来记录图像信息的,由特定软件制作而成。矢量图的优点是信息存储量小,在图像的尺寸放大或缩小过程中图像的质量不会受到影响,而且它是面向对象的,每一个对象都可以任意移动、调整大
小或重叠,所以很多3D 软件都使用矢量图。矢量图的缺点是用数学方程式来描述图像,运算比较复杂,而且所制作出的图像色彩显示比较单调,图像看上去比较生硬,不够柔和逼真。在图形的复杂程度不大的情况下,矢量图形具有文件短小、可无级缩放等优点。
图形图像的采集输入主要有以下途径:用软件创作,扫描仪扫描,数码相机拍摄,数字化仪输入,从屏幕、动画、视频中捕捉等。
图形图像可以通过显示器显示输出,或通过打印机、绘图设备打印输出。
2.1.3 视频素材的输入与输出
任何动态图像都是由多幅连续的图像序列构成。每一幅图像沿着时间轴保持一个Δt 时间,以较快的速度顺序更换为另一幅图像,连续不断地显示,就形成了动态图像。当每一帧图像是人工或计算机产生的时候,被称为“动画”,当每一帧图像是通过实时获取的自然景物时,被称为“视频”。
视频具有以下特点: ① 具有时间连续性 ② 数据量更大 ③ 帧与帧之间具有很强的相关性 ④ 对实时性要求很高,必须在规定时间内完成更换画面播放的过程。
视频有模拟和数字两种形式。模拟视频可以使用摄像机拍摄获得。获取数字视频信息主要有两种方式:一种是将模拟视频信号数字化;另一种是利用数字摄像机拍摄实际景物,从而直接获得无失真的数字视频。
视频素材通常使用显示器显示输出。
2.1.4 文本素材的输入与输出
文本是人们早已熟知的信息表示方式,如一篇文章、一段程序、一个文件都可用文本描述。它通常以字、句子、段落、节、章为单位,记录自然现象、表述思想感情、传达某种信息。人们在阅读时,通常是一字一句、一行一页顺序地浏览。
文本是文字、字母、数字和各种功能符号的集合。在现实生活中,人们对事情的讲述、逻辑的推理、数学公式的表述等都主要用文字和数字来准确的表达。在多媒体应用系统中,虽然有图形、声音、视频影像等多种媒体形式,但是对于一些复杂而抽象的事件,文本表达却有它不可替代的独到之处。
与其它媒体素材相比,文字输入方便、容易处理。文本信息输入、采集的方法主要有以下几类:
(1)键盘输入方法:
键盘输入法是利用键盘,按照一定的编码规则来输入汉字。这是最早采用的文本输入方法,也是现在计算机进行文字输入最普遍的方式。其中,英文字符可以直接从键盘输入,无需编码;汉字输入则必需对汉字编码,可以根据汉字的读音或基本形状用数字或英文字符编码。常用的有“微软拼音输入法”、 “五笔字型输入法”等。汉字输入法种类繁多,而且新的输入法还在不断涌现,各种输入法各有特点,功能也不断增强。
键盘输入文本的优点是方便快捷,易修改并且不需附加录入设备,缺点是由于使用键盘输入文字通常需要理解和记忆对应的中文输入法的编码规则,因此输入速度较难提高。
(2)语音输入方法
随着计算机技术的发展,大量信息输入仅仅通过键盘来完成已经不能满足人们的需要,让计算机能听懂人类语言,或是用语音来控制各种自动化系统,是一种最理想的信息输入选择。语音输入法,是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。利用语音识别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。
语音输入法在硬件方面要求电脑必须配备能正常录音的声卡和录音设备,安装语音识别软件。在调试好麦克风后,即可以对着麦克风进行朗读录入。如果普通话不标准,可用语音识别软件提供的语音训练程序,进行一段时间的训练,让软件熟悉您的口音后,就可以通过
讲话来实现文字输入。识别软件将录入的语音信号识别转换为数字文本,实现语音文字输入。目前,语音识别技术整合较好的软件有IBM 公司的VIA Voice , VIA Voice 标志大词汇量、非特定人和连续语音识别技术正在趋于成熟。国内推出的Dutty ++语音识别系统、天信语音识别系统、世音通语音识别系统等也被广泛使用。
语音输入方法的优点是可以快捷、自然地完成文本录入,可减轻用户使用键盘输入的疲劳;缺点是错字率仍然比较高,特别是一些未经训练的专业名词及生僻字,因此要求录入者发音比较标准,还需要先使系统适应录入者的语音语调。
(3)联机手写识别输入
手写输入法是一种用特制的感应书写笔,在与计算机接口相连的手写板上书写文字来完成文本输入的方法。它符合人们用笔写字的习惯,只要将手写板接入计算机,在手写板上按平常的习惯写字,电脑就能将其识别显示出来。
联机手写识别输入法中,计算机之所以能感受到手写的笔划顺序,达到识别文字的目的,这是因为手写板结构中使用的电阻或电磁感应方式,将专用笔在运动中的坐标输入计算机,计算机中的文字识别软件根据采集到笔迹之间的位置关系和时间关系信息来识别出书写的文字,并把相应的文字显示在文字录入窗口。
目前市场上销售的手写板产品众多,从构成原理来分,主要有电阻式手写板和感应式手写板两类,电阻式手写板一般是中、低档产品,而感应式手写板的识别率一般较高,是目前的高端产品。从外观结构来分也有两类:一类是有连线的有线笔;另一类是无线笔,无线笔特受用户喜爱,是手写板发展的方向。从不同品牌来分,有汉王公司的汉王笔、北大方正的如意笔、摩托罗拉公司的慧笔、台湾蒙恬公司的蒙恬笔、清华紫光笔等。图2-1和图2-2是常见的两款手写笔实物图。
图2-1汉王笔和蒙恬全能王实物
联机手写识别输入的优点是,不用专门学习训练,即写即得,并且识别率较高,其录入速度取决于书写速度。缺点是不同的字体和潦草的字迹会严重影响识别系统的识别率。手写录入实际上是在OCR (光识别技术)基础上发展的文字录入方法。
(4)扫描仪+OCR识别输入法
在实际办公中,如果需要进行大量文字录入,如书稿,资料等,仍用手工录入,无疑会浪费许多时间,用扫描转换的方法,可以大大加快文字录入速度,提高工作效率。利用OCR 技术,我们可以把需要的教材、文件、资料等进行扫描转换,生成电子文档,更便于保存。
OCR 是光学字符识别技术的英文缩写。扫描仪+OCR识别输入就是将印刷品类纸张上的文字以图像的方式扫描到计算机中,再用OCR 软件将图像中的文字识别出来,并转换为文本格式的文件。它要求把要输入的文稿首先通过扫描仪转化为图像后才能识别,所以,扫描仪是OCR 技术中必须的配置。如果被扫描的原稿印刷质量越高,识别的准确率就越高,一般最好是印刷体的文字,比如图书、杂志等。需要注意的是,扫描仪本身并没有文字识别
功能,它只能将文稿扫描到计算机中后以图片的方式保存,文字识别则由OCR 软件处理完成。
文本信息有使用显示器显示、使用打印机打印等输出方式。
2.2 输入输出的基本参数
2.2.1 声音的基本参数
模拟音频信号有频率和带宽、周期和幅度等特征。
● 频率,是信号每秒钟变化的次数, 单位是Hz 。频率高,则音调高,频率低,则音
调低。人耳可感受的声音信号频率范围为20~20.000Hz。这个范围内的声音信号称
为音频(Audio)信号。一般来说,频率范围(带宽)越宽,声音质量越高。
※ CD 质量(Super Hi Fi)音频带宽为10~20,000Hz
※ FM 无线电广播的带宽为20~15,000Hz
※ AM 无线电广播的带宽为50~7,000Hz
※ 数字电话话音带宽为200~3,000Hz
● 周期,是相邻声波波峰间的时间间隔。
● 幅度,表示信号强弱的程度。幅度决定声音信号的音量。
音频信号由许多不同频率和幅度的信号组成。在复音中,最低频率为基音,其他频率为谐音,基音和谐音组合起来,决定了声音的音色。
对声音信号,通常使用响度、音质、客观质量度量及主观质量度量等指标参数来评价。 响度的大小决定于发声体振动的振幅,音调的高低决定于发声体振动的频率,音色的不同取决于不同的泛音,每一种乐器、不同的人以及所有能发声的物体发出的声音,除了一个基音外,还有许多不同频率的泛音伴随,正是这些泛音决定了其不同的音色,使人能辨别出是不同的乐器甚至不同的人发出的声音。(1)低于20 Hz的声音称为次声,(2)频率范围在20 Hz~20 kHz范围的可听声称为音频,(3)频率高于20 kHz的称为超音频(或超声),人的发音器官发出的声音频段在80Hz 到3400Hz 之间,人说话的信号频率在300到3000Hz ,有的人将该频段的信号称为语音信号。
音质是指声音的品质,主要是衡量声音的上述三方面是否达到一定的水准。即相对于某一频率或频段的音高是否具有一定的强度,并且在要求的频率范围内 、同一音量下,各频点的幅度是否均匀、均衡、饱满,频率响应曲线是否平直,声音的音准是否准确,既忠实地呈现了音源频率或成分的原来面目,频率的畸变和相移又符合要求 。声音的泛音适中,谐波较丰富,听起来音色就优美动听。用声音信号的带宽来衡量,分为五级。
客观质量度量:用信噪比(signal to niose ratio,SNR) 衡量,建立在度量均方误差的基础上,计算简单,但不能完全反映人对语音质量的感觉。
主观质量度量:用平均意见得分(mean opinion score,MOS) 评价,如下表1。
表1主观质量度量表
2.2.2 图像的基本参数
数字图像是有多个具有一定颜色特征的像素点构成的,因此,了解颜色的特征参数是十
分必要的。评价颜色色彩常用亮度、色调、饱和度等指标。
●
●
● 亮度:是光作用于人眼时所引起的明亮程度的感觉,它与被观察物体的发光强度有关; 色调:是当人眼看到一种或多种波长的光时所产生的彩色感觉,它反映颜色的种类,是决定颜色的基本特性,如红色、棕色就是指色调; 饱和度:指的是颜色的纯度,即掺入白光的程度,或者说是指颜色的深浅程度,对
于同一色调的彩色光,饱和度越深颜色越鲜明或说越纯。
通常我们把色调和饱和度通称为色度。通俗的讲,亮度是用来表示某彩色光的明亮程度,而色度则表示颜色的类别与深浅程度。除此之外,自然界常见的各种颜色光,都可由红(R)、绿(G)、蓝(B)三种颜色光按不同比例相配而成;同样绝大多数颜色光也可以分解成红、绿、蓝三种色光,这就形成了色度学中最基本的原理----三原色原理(RGB)。
除了色彩外,评价数字图像的优劣性能,还用分辨率、色彩数、图形灰度等指标。 ●
● 分辨率:分为屏幕分辨率和输出分辨率两种,前者用每英寸行数表示,数值越大图形(图像)质量越好;后者衡量输出设备的精度,以每英寸的像素点数表示; 色彩数和图形灰度:用位(bit )表示,一般写成2的n 次方,n 代表位数。当图形
(图像)达到24位时,可表现1677万种颜色,即真彩。灰度的表示法类似;
2.3输入与输出的文件格式
2.3.1 声音的文件格式
常用的音频文件有以下几种:
1.WA VE 格式
WA VE ,扩展名为WA V :该格式记录声音的波形,故只要采样率高、采样字节长、机器速度快,利用该格式记录的声音文件能够和原声基本一致,质量非常高,但这样做的代价就是文件太大。
2.MOD 格式
扩展名MOD 、ST3、XT 、S3M 、FAR 、669等:该格式的文件里存放乐谱和乐曲使用的各种音色样本,具有回放效果明确,音色种类无限等优点。但它也有一些致命弱点,以至于现在已经逐渐淘汰,目前只有MOD 迷及一些游戏程序中尚在使用。
3.MPEG-3
扩展名MP3:现在最流行的声音文件格式,因其压缩率大,在网络可视电话通信方面应用广泛,但和CD 唱片相比,音质不能令人非常满意。
4.Real Audio
扩展名RA :这种格式真可谓是网络的灵魂,强大的压缩量和极小的失真使其在众多格式中脱颖而出。和MP3相同,它也是为了解决网络传输带宽资源而设计的,因此主要目标是压缩比和容错性,其次才是音质。
5.Creative Musical Format
扩展名CMF :Creative 公司的专用音乐格式,和MIDI 差不多,只是音色、效果上有些特色,专用于FM 声卡,但其兼容性也很差。
6.CD Audio
音乐CD ,扩展名CDA :唱片采用的格式,又叫“红皮书”格式,记录的是波形流,绝对的纯正、HIFI 。但缺点是无法编辑,文件长度太大。
7.MIDI
扩展名MID ,是目前最成熟的音乐格式,实际上已经成为一种产业标准,其科学性、兼容性、复杂程度等各方面当然远远超过本文前面介绍的所有标准(除交响乐CD 、Unplug
CD 外,其它CD 往往都是利用MIDI 制作出来的),它的General MIDI就是最常见的通行标准。作为音乐工业的数据通信标准,MIDI 能指挥各音乐设备的运转,而且具有统一的标准格式,能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果,而且文件的长度非常小。
8.OGG 格式
OGG 格式的全称应该是OGG Vobis 。它是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同的是,它是完全免费、开放和没有专利限制的。OGG Vobis 有一个很出众的特点,就是支持多声道,随着它的流行,以后用随身听来听DTS 编码的多声道作品将不会是梦想。OGG V obis 在压缩技术上比MP3好,而且它的多声道,免费,开源这些特点,使它很有可能成为一个流行的趋势,这也正是一些MP3播放器对其支持的原因。 另外,如果相同速率录制音频mp3和ogg 不分上下,ogg 采用更先进的算法还可能会好一些。
总之,如果有专业的音源设备,那么要听同一首曲子的HIFI 程度依次是:原声乐器演奏 > MIDI > CD唱片 > MOD > 所谓声卡上的MIDI > CMF,而MP3及RA 要看它的节目源是采用MIDI 、CD 还是MOD 了。
在多媒体材料中,存储声音信息的文件格式也是需要了解的,有W A V 文件、VOC 文件、MIDI 文件、RMI 文件、PCM 文件以及AIF 文件等若干种。
1.WA V 文件:
Microsoft 公司的音频文件格式,它来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数(8位或16位)把这些采样点的值转换成二进制数,然后存入磁盘,这就产生了声音的W A V 文件,即波形文件。Microsoft Sound System软件Sound Finder可以转换AIF SND和VOD 文件到W A V 格式。
2.VOC 文件:
Creative 公司波形音频文件格式,也是声霸卡(sound blaster)使用的音频文件格式。每个VOC 文件由文件头块(header block)和音频数据块(data block)组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。如声音数据静音标识ASCII 码文件重复的结果重复以及终止标志,扩展块等。
3.MIDI 文件:
Musical Instrument Digital Interface(乐器数字接口)的缩写。它是由世界上主要电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序 电子合成器和其它电子设备之间交换信息与控制信号的方法。MIDI 文件中包含音符定时和多达16个通道的乐器定义,每个音符包括键通道号持续时间音量和力度等信息。所以MIDI 文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令。
4.RMI 文件:
Microsoft 公司的MIDI 文件格式,它可以包括图片标记和文本。
5.PCM 文件:
模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,该文件没有附加的文件头和文件结束标志。在声霸卡提供的软件中,可以利用VOC-HDR 程序,为PCM 格式的音频文件加上文件头,而形成VOC 格式。Windows 的Convert 工具可以把PCM 音频格式的文件转换成Microsoft 的W A V 格式的文件。
6.AIF 文件:
Apple 计算机的音频文件格式。Windows 的Convert 工具同样可以把AIF 格式的文件换成Microsoft 的W A V 格式的文件。
2.3.2 图形图像的文件格式
常见的图形图像文件,有BMP 、DIB 、PCP 、DIF 、WMF 、GIF 、JPG 、TIF 、EPS 、PSD 、CDR 、
IFF 、TGA 、PCD 、MPT 等格式。
1.BMP (bit map picture):
PC 机上最常用的位图格式,有压缩和不压缩两种形式,该格式可表现从2位到24位的色彩,分辨率也可从480x320至1024x768。该格式在Windows 环境下相当稳定,在文件大小没有限制的场合中运用极为广泛。
2.DIB(device independent bitmap):
描述图像的能力基本与BMP 相同,并且能运行于多种硬件平台,只是文件较大。
3.PCP (PC paintbrush):
由Zsoft 公司创建的一种经过压缩且节约磁盘空间的PC 位图格式,它最高可表现24位图形(图像)。过去有一定市场,但随着JPEG 的兴起,其地位已逐渐日落终天了。
4.DIF (drawing interchange formar):
AutoCAD 中的图形文件,它以ASCII 方式存储图形,表现图形在尺寸大小方面十分精确,可以被CorelDraw ,3DS 等大型软件调用编辑。
5.WMF (Windows metafile format):
Microsoft Windows图元文件,具有文件短小、图案造型化的特点。该类图形比较粗糙,并只能在Microsoft Office中调用编辑。
6.GIF (graphics interchange format):
在各种平台的各种图形处理软件上均可处理的经过压缩的图形格式。缺点是存储色彩最高只能达到256种。
7.JPG (joint photographics expert group):
可以大幅度地压缩图形文件的一种图形格式。对于同一幅画面,JPG 格式存储的文件是其他类型图形文件的1/10到1/20,而且色彩数最高可达到24位,所以它被广泛应用于Internet 上的homepage 或internet 上的图片库。
8.TIF (tagged image file format):
文件体积庞大,但存储信息量亦巨大,细微层次的信息较多,有利于原稿阶调与色彩的复制。该格式有压缩和非压缩两种形式,最高支持的色彩数可达16M 。
9.EPS (encapsulated PostScript):
用PostScript 语言描述的ASCII 图形文件,在PostScript 图形打印机上能打印出高品质的图形(图像),最高能表示32位图形(图像)。该格式分为Photoshop EPS格式adobeillustrator EPS 和标准EPS 格式,其中后者又可以分为图形格式和图像格式。
10.PSD (photoshop standard):
Photoshop 中的标准文件格式,专门为Photoshop 而优化的格式。
11.CDR (coreldraw ):
CorelDraw 的文件格式。另外,CDX 是所有CorelDraw 应用程序均能使用的图形(图像)文件,是发展成熟的CDR 文件。
12.IFF (image file format):
用于大型超级图形处理平台,比如AMIGA 机,好莱坞的特技大片多采用该图形格式处理。图形(图像)效果,包括色彩纹理等逼真再现原景。当然,该格式耗用的内存外存等的计算机资源也十分巨大。
13.TGA (tagged graphic):
是True vision 公司为其显示卡开发的图形文件格式,创建时期较早,最高色彩数可达32位。VDA ,PIX ,WIN ,BPX ,ICB 等均属其旁系。
14.PCD (Photo CD):
由KODAK 公司开发,其它软件系统对其只能读取。
15.MPT 、MAC :
MPT (macintosh paintbrush)或MAC:Macintosh机所使用的灰度图形(图像)模式,在macintosh paintbrush中使用,其分辨率只能是720x567。
除此之外,Macintosh 机专用的图形(图像)格式还有PNT 、PICT 、PICT2等。
2.3.3 视频的文件格式
常用的视频文件有以下格式:
1.A VI 格式:
A VI 是音频视频交错(Audio Video Interleaved) 的英文缩写。比较早的A VI 是Microsoft 开发的。Audio Video Interactive,就是将视频信息与同步音频信号结合在一起混合储存,以帧为存储动态视频的基本单位。在每一帧中,都是先存储音频数据,再存储视频数据。A VI 也是最长寿的格式,已存在10余年了,虽然发布过改版(V2.0于1996年发布),但已显老态。A VI 格式上限制比较多,只能有一个视频轨道和一个音频轨道(现在有非标准插件可加入最多两个音频轨道),还可以有一些附加轨道,如文字等。A VI 格式不提供任何控制功能。
A VI 格式视频最直接的优点就是兼容好、调用方便而且图象质量好,因此也常常与DVD 相并称。但它的缺点也是十分明显的:体积大。也是因为这一点,我们才看到了MPEG-1和MPEG-4的诞生。根据不同的应用要求,A VI 的分辨率可以随意调。窗口越大,文件的数据量也就越大。降低分辨率可以大幅减低它的体积,但图象质量就必然受损。
2.ASF 格式和WMV 格式:
Microsoft 公司推出的Advanced Streaming Format (ASF,高级流格式) ,是一个在Internet 上实时传播多媒体的技术标准,Microsoft 公司希望用ASF 取代QuickTime 之类的技术标准。ASF 的主要优点包括:本地或网络回放、可扩充的媒体类型、部件下载、以及扩展性等。ASF 应用的主要部件是NetShow 服务器和NetShow 播放器。有独立的编码器将媒体信息编译成ASF 流,然后发送到NetShow 服务器,再由NetShow 服务器将ASF 流发送给网络上的所有NetShow 播放器,从而实现单路广播或多路广播。这和Real 系统的实时转播则是大同小异。
WMV (Windows Media Video)是微软公司开发的一组数位视频编解码格式的通称,ASF (Advanced Systems Format)是其封装格式。ASF 封装的WMV 格式具有“数位版权保护”功能。
3.MPEG 格式:
MPEG (Moving Picture Experts Group ),是一个国际标准组织(ISO )认可的媒体封装形式,受到大部份机器的支持。其储存方式多样,可以适应不同的应用环境。MPEG 的控制功能丰富,可以有多个视频(即角度)、音轨、字幕(位图字幕)等等。MPEG 的一个简化版本3GP 还广泛的用于准3G 手机上。
MPEG-1被广泛应用在 VCD 的制作和一些视频片段下载方面,其中最多的就是VCD ——几乎所有VCD 都是使用Mpge-1格式压缩的(*.dat格式的文件)。MPEG-1的压缩算法可以把一部 120 分钟长的电影(原始视频文件)压缩到1.2 GB左右大小。
MPEG-2则应用在DVD 的制作(*.vob格式的文件),同时也在一些HDTV 高清晰电视广播)和一些高要求视频编辑、处理有相当的应用。使用MPEG-2的压缩算法制作一部 120 分钟长的电影(原始视频文件)在4GB 到8GB 大小左右,当然其图象质量方面的指标是MPEG-1 所无法比拟的。
MPEG-4是一种新的压缩算法,使用这种算法的ASF 格式文件(接下来会介绍到)可以让一部120分钟长的电影(原始视频文件)“瘦身”到300MB 左右,由于其小巧便于传播,故成为网上在线观看的主要方式之一。这种算法据说是美国禁止出口的编码技术另外,运用DivX 格式还可以把源文件压缩到600MB 左右,但其图象质量则比ASF 要高出许多。由于
其高效性,有传言称美国政府禁止出口这一技术。
4.H.264
H264标准是由JVT (Joint Video Team,视频联合工作组)组织提出的新一代数字视频编码标准。JVT 于2001年12月在泰国Pattaya 成立。它由ITU-T 的VCEG (视频编码专家组)和ISO/IEC的MPEG (活动图像编码专家组)两个国际标准化组织的专家联合组成。JVT 的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标H264标准。H264标准将作为MPEG-4标准的一个新的部分(MPEG-4 part.10)而获得批准,是一个面向未来IP 和无线环境下的新数字视频压缩编码标准。
H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。举个例子,原始文件的大小如果为88GB ,采用MPEG-2压缩标准压缩后变成3.5GB ,压缩比为25∶1,而采用H.264压缩标准压缩后变为879MB ,从88GB 到879MB ,H.264的压缩比达到惊人的102∶1!H.264为什么有那么高的压缩比?低码率(Low Bit Rate)起了重要的作用,和MPEG-2和MPEG-4 ASP等压缩技术相比,H.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,H.264在具有高压缩比的同时还拥有高质量流畅的图像。
H264标准的主要特点如下:
(1)更高的编码效率:同H.263等标准的特率效率相比,能够平均节省大于50%的码率。
(2)高质量的视频画面:H.264能够在低码率情况下提供高质量的视频图像,在较低带宽上提供高质量的图像传输是H.264的应用亮点。
(3)提高网络适应能力:H.264可以工作在实时通信应用(如视频会议)低延时模式下,也可以工作在没有延时的视频存储或视频流服务器中。
(4)采用混合编码结构:同H.263相同,H.264也使用采用DCT 变换编码加DPCM 的差分编码的混合编码结构,还增加了如多模式运动估计、帧内预测、多帧预测、基于内容的变长编码、4x4二维整数变换等新的编码方式,提高了编码效率。
(5)H.264的编码选项较少:在H.263中编码时往往需要设置相当多选项,增加了编码的难度,而H.264做到了力求简洁的“回归基本”,降低了编码时复杂度。
(6)H.264可以应用在不同场合:H.264可以根据不同的环境使用不同的传输和播放速率,并且提供了丰富的错误处理工具,可以很好的控制或消除丢包和误码。
(7)错误恢复功能:H.264提供了解决网络传输包丢失的问题的工具,适用于在高误码率传输的无线网络中传输视频数据。
(8)较高的复杂度:264性能的改进是以增加复杂性为代价而获得的。据估计,H.264编码的计算复杂度大约相当于H.263的3倍,解码复杂度大约相当于H.263的2倍。
5.DivX 格式
DivX 是一种将影片的音频由MP3来压缩、视频由MPEG-4技术来压缩的数字多媒体压缩格式。DivX 由DivXNetworks 公司发明,DivX 配置CPU 要求是300MHz 以上、内存要求是64M 以上、8M 以上显存的显卡.DivX 视频编码技术是为了打破微软ASF 的种种协定的束缚,由Microsoft mpeg4 v3修改而来,使用MPEG-4压缩算法。
DivX 是一项由DivXNetworks 公司发明的,类似于MP3的数字多媒体压缩技术。DivX 基于MPEG-4标准,可以把MPEG-2格式的多媒体文件压缩至原来的10%,更可把VHS 格式录像带格式的文件压至原来的1%。通过DSL 或CableModen 等宽带设备,它可以让你欣赏全屏的高质量数字电影。无论是声音还是画质都可以和DVD 相媲美。同时它还允许在其他设备(如安有机顶盒的电视、PocketPC )上观看。由于Divx 后来转为了商业软件,其发展受到了很大限制,表现相对欠佳,在竞争中处于了劣势。
DivX 是将影片的音频由MP3来压缩、视频由MPEG-4技术来压缩,最后再将两部分合成制作而成的。由于MP3和MPEG-4超强的压缩能力,使得影片的容量急剧减少。
6.Xvid 格式
Xvid (旧称为XviD )是一个开放源代码的MPEG-4视频编解码器,它是基于OpenDivX 而编写的。Xvid 是由一群原OpenDivX 义务开发者在OpenDivX 于2001年7月停止开发后自行开发的。Xvid 支持多种编码模式,量化(Quantization )方式和范围控,运动侦测(Motion Search )和曲线平衡分配(Curve )等众多编码技术,对用户来说功能十分强大。Xvid 的主要竞争对手是DivX 。但Xvid 是开放源代码的,而DivX 则只有免费(不是自由)的版本和商用版本。
DivX 跟 XviD 采用不定时设立关键画面来改善原先固定时间关键画面所造成的动态画面画质不佳的情形,而2 PASS 的压缩模式使画质更加滑顺,基本上两种编码的效果差别不大,不过就同画质的文件大小来说 XviD 更省容量。
7.QuickTime 格式
QuickTime 不仅仅是一个媒体播放器,而是一个完整的多媒体架构,可以用来进行多种媒体的创建,生产,和分发,并为这一过程提供端到端的支持:包括媒体的实时捕捉,以编程的方式合成媒体,导入和导出现有的媒体,还有编辑和制作,压缩,分发,以及用户回放等多个环节。
MOV 即QuickTime 影片格式,它是Apple 公司开发的一种音频、视频文件格式,用于存储常用数字媒体类型。现在它被包括Apple Mac OS ,Microsoft Windows 95/98/NT/2003/XP/VISTA,甚至WINDOWS7在内的所有主流电脑平台支持。
QuickTime 视频文件播放程序,除了播放MP3外,QuickTime 还支持MIDI 播放。并且可以收听/收网络播放,支持HTTP 、RTP 和RTSP 标准。该软件还支持主要的图像格式,比如:JPEG 、BMP 、PICT 、PNG 和GIF 。该软件的其他特性还有:支持数字视频文件,包括:MiniDV 、DVCPro 、 DVCam 、A VI 、A VR 、MPEG-1、OpenDML 以及Macromedia Flash等。
QuickTime 文件格式支持25位彩色,支持领先的集成压缩技术,提供150多种视频效果,并配有提供了200多种MIDI 兼容音响和设备的声音装置。它无论是在本地播放还是作为视频流格式在网上传播,都是一种优良的视频编码格式。
QuickTime 因具有跨平台、存储空间要求小等技术特点,而采用了有损压缩方式的MOV 格式文件,画面效果较A VI 格式要稍微好一些。到目前为止,它共有 4 个版本,其中以 4.0 版本的压缩率最好。这种编码支持16位图像深度的帧内压缩和帧间压缩,帧率每秒10帧以上。现在这种格式有些非编软件也可以对它实行处理,其中包括ADOBE 公司的专业级多媒体视频处理软件AFTEREFFECT 和PREMIERE 。
8.MKV 格式:
MKV 是一种新的多媒体封装格式,这个封装格式可把多种不同编码的视频及16条或以上不同格式的音频和语言不同的字幕封装到一个Matroska Media 文档内。它也是其中一种开放源代码的多媒体封装格式。Matroska 同时还可以提供非常好的交互功能,而且比MPEG 的方便、强大。
mkv 不同于DivX 、XviD 等视频编码格式,也不同于MP3、Ogg 等音频编码格式。MKV 只是为这些音、视频提供外壳的“组合”和“封装”格式。换句话说就是一种容器格式,常见的 A Vl 、VOB 、MPEG 、RM 格式其实也都属于这种类型。但它们要么结构陈旧,要么不够开放,这才促成了MKV 这类新型多媒体封装格式的诞生。
Matroska 媒体定义了三种类型的文件:MKV 是视频文件,它里面可能还包含有音频和字幕;MKA 是单一的音频文件,但可能有多条及多种类型的音轨;MKS 是字幕文件。这三种文件以MKV 最为常见。
MKV 最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流,甚至连非常封闭的 RealMedia 及 QuickTime 这类流媒体也被它囊括进去,可以说是对传统媒体格式的一次大颠覆,几乎变成了一个万能的媒体容器。
9.RM / RMVB格式:
Real Video或者称Real Media(RM )是由Real Networks开发的一种视频文档格式。RMVB 中的VB 指VBR,V ariable Bit Rate(可改变之比特率),较上一代rm 格式画面要清晰了很多,原因是降低了静态画面下的比特率,可以用RealPlayer 、暴风影音、QQ 影音等播放软件来播放。
普通的rm 格式是real8.0格式,采用的是固定码率编码。多见于VCD -RM ,曾流行了一段时间。但由于VCD 片源的先天不足,不够清晰,所以压出来的rm 也不会清晰。特别是标准在线的225kbps 码率,清晰度简直惨不忍睹。
RMVB 比RM 多了一个VB ,VB 指的就是variable bit ,动态码率的意思!就是real 公司的新的编码格式9.0格式。rmvb (real9.0)和rm (real8.0)在音频的编码上都仍旧是采用8.0格式,我们压片时至少采用32kbps sterero music,通常时44K ,MTV 类的有用到96K ,再高就没必要压缩了。
它通常只能容纳Real Video和Real Audio编码的媒体。有一定的交互功能,允许编写脚本以控制播放。RM ,尤其是可变比特率的RMVB 格式,体积很小,非常受到网络下载者的欢迎。
2.4 本章小节
本章介绍了与声音、图形图像、视频、文本等主要多媒体素材相关的输入输出技术,包括使用哪些设备和方法,如何获取输入和输出这些素材,重点讨论了声音、图形图像、视频等多媒体信息的存储文件类型及格式。
2.5 本章习题
1.单项选择题:
(1)( )是最常用的文本素材采集方法。
A 、键盘输入 B 、语音输入 C 、扫描输入 D 、手写识别
(2)文本素材中汉字采用( )统一编码和存储
A 、GB 码 B 、ASCII 码 C 、Unicode 码 D 、以上都不是
(3)下列对矢量图形和点阵图像描述正确的是( )。
A 、矢量图形的基本组成单元是像素
B 、点阵图像的基本组成单元是几何单元
C 、矢量图形通常需要较小的存储空间
D 、放大矢量图形会出现失真
(4)下列图像格式中,( )格式最多只能支持256色
A 、GIF B 、JPEG C 、TIFF D 、PCX
(5)声音的频率越高,声音听起来感觉( )
A 、声调越低 B 、声调越高 C 、音量越小 D 、音量越响
(6)MIDI 是( )间进行连接和通信的规范,符合这一规范的乐器接口称为MIDI 接口。
A 、西洋乐器 B 、数字乐器 C 、电子乐器 D 、古典乐器
(7)以WA V 作为扩展名,影响数字音乐品质的因素主要有( )
A 、采样频率 B 、解析度/量化位数
C 、磁盘空间 D 、声道数
(8)以下哪个不是视频文件的格式?( )
A 、A VI 文件格式 B 、MOV 文件格式
C 、FA T 文件格式 D 、DA T 文件格式
(9)以下哪项是JPEG 的优点?( )
A 、无失真的预测编码方案
B 、基于局部区域的离散余弦变换
C 、直接对视频输入经模数转换后做实时编码
D 、压缩和解压缩是对称的
2.简答题
(1)简述文本的输入方式有哪些?
(2)什么是声音以及声音的三个特性?
(3)什么是图像分辨率?
(4)简述音频素材的几种主要类型。
(5)常用的视频文件的格式有哪些?